Difference between revisions of "ARCHIVES/LCG-FR / SA1-FR Monitoring WG"
(→Infrastructure de monitoring) |
|||
(92 intermediate revisions by 3 users not shown) | |||
Ligne 1: | Ligne 1: | ||
+ | '''''<span style="color:#FF0000;"> PAGE OBSOLÈTE REMPLACÉE PAR LE WIKI FRANCE-GRILLES '''''<br> | ||
+ | |||
+ | '''''<span style="color:#FF0000;"> https://francegrid.in2p3.fr/index.php?title=Monitoring ''''' | ||
+ | |||
== Contacts (Mailing list) == | == Contacts (Mailing list) == | ||
<b>LCG-SA1FR-MONITORING-L@IN2P3.FR mailing list</b> : | <b>LCG-SA1FR-MONITORING-L@IN2P3.FR mailing list</b> : | ||
Ligne 4: | Ligne 8: | ||
les membres du groupe: | les membres du groupe: | ||
− | http://lcg.in2p3.fr/wiki/images/ | + | http://lcg.in2p3.fr/wiki/images/MembresOnly_v2.doc |
== Mandat du Groupe == | == Mandat du Groupe == | ||
Ligne 30: | Ligne 34: | ||
== Réunions, Journées...== | == Réunions, Journées...== | ||
+ | * [http://indico.in2p3.fr/conferenceDisplay.py?confId=1403 Nagios tutorial, 22-23 January 09, CC-IN2P3, Lyon] | ||
*[http://indico.in2p3.fr/conferenceDisplay.py?confId=760 Journée Monitoring Grille du 10 Avril 2008] | *[http://indico.in2p3.fr/conferenceDisplay.py?confId=760 Journée Monitoring Grille du 10 Avril 2008] | ||
*[http://indico.cern.ch/sessionDisplay.py?sessionId=3&slotId=0&confId=6552#2008-04-24 Monitoring Tutorial held at WLCG Collaboration Workshop, CERN April 2008] | *[http://indico.cern.ch/sessionDisplay.py?sessionId=3&slotId=0&confId=6552#2008-04-24 Monitoring Tutorial held at WLCG Collaboration Workshop, CERN April 2008] | ||
Ligne 37: | Ligne 42: | ||
* [http://indico.in2p3.fr/conferenceDisplay.py?confId=1000 LCG-tech-fr Sa1-fr teleconf: 1) résumé document OAT & 2)bilan questionnaire] | * [http://indico.in2p3.fr/conferenceDisplay.py?confId=1000 LCG-tech-fr Sa1-fr teleconf: 1) résumé document OAT & 2)bilan questionnaire] | ||
* [http://indico.in2p3.fr/conferenceDisplay.py?confId=927 comité de direction LCG France] / [http://lcg.in2p3.fr/wiki/images/20080707_monitoringATCoDirLCGfr.ppt présentation] | * [http://indico.in2p3.fr/conferenceDisplay.py?confId=927 comité de direction LCG France] / [http://lcg.in2p3.fr/wiki/images/20080707_monitoringATCoDirLCGfr.ppt présentation] | ||
+ | * [http://indico.in2p3.fr/conferenceDisplay.py?confId=1249 LCG-tech-fr Sa1-fr teleconf: 1) Presentation ActiveMQ & 2)Resume reunion OAT 3)prochaines actions] | ||
+ | * [http://indico.in2p3.fr/conferenceDisplay.py?confId=1557 LCG-tech-fr Sa1-fr teleconf: 1) Presentation Cacti & 2)Resume reunion OAT 3)point tutorial Nagios] | ||
+ | * [http://indico.in2p3.fr/conferenceDisplay.py?confId=875 LCG T2-T3 Face to Face meeting 27/11/2008] | ||
+ | * [http://indico.in2p3.fr/conferenceDisplay.py?confId=1403 tutorial Nagios les 22 et 23 janvier] | ||
+ | * [http://indico.in2p3.fr/conferenceDisplay.py?confId=1779 LCG-tech-fr Sa1-fr teleconf; 17 Mars 2009] | ||
+ | * [http://indico.in2p3.fr/conferenceDisplay.py?confId=1986 LCG-tech-fr Sa1-fr teleconf; 25 Mai 2009] | ||
+ | * [http://indico.in2p3.fr/conferenceDisplay.py?confId=2221 LCG-tech-fr Sa1-fr teleconf; 18 Septembre 2009] | ||
+ | * [http://indico.in2p3.fr/conferenceDisplay.py?confId=2936 Nagios Regional; 12 Mars 2010] | ||
== Infrastructure de monitoring == | == Infrastructure de monitoring == | ||
− | |||
− | + | === l’infrastructure d’échange de messages pour le multi-level monitoring === | |
− | + | ||
+ | https://twiki.cern.ch/twiki/bin/view/LCG/MessagingSystemforGrid | ||
+ | |||
+ | https://twiki.cern.ch/twiki/bin/view/EGEE/MsgServerDetails | ||
+ | |||
+ | === Nagios et GridMonitoring === | ||
+ | |||
+ | |||
+ | Repository du Projet: | ||
− | == | + | Fabric : http://www.sysadmin.hep.ac.uk/rpms/egee-SA1/ |
+ | |||
+ | Grid_services: http://www.sysadmin.hep.ac.uk/rpms/egee-SA1/sl4 | ||
+ | & external: http://linuxsoft.cern.ch/dag/redhat/el4/ | ||
+ | |||
+ | Recuperer les resultats des Tests SAM: http://www.gridpp.ac.uk/wiki/Nagios_sam-query_Plugin | ||
+ | |||
+ | Manuel et tutorial: | ||
+ | |||
+ | https://twiki.cern.ch/twiki/bin/view/LCG/GridMonitoringNcg | ||
+ | |||
+ | https://twiki.cern.ch/twiki/bin/view/EGEE/GridMonitoringNcgYaimTutorial | ||
+ | |||
+ | Messaging system: | ||
+ | |||
+ | https://twiki.cern.ch/twiki/bin/view/LCG/MessagingSystemforGrid | ||
+ | |||
+ | == Information utile pour le nagios regional == | ||
+ | |||
+ | https://francegrid.in2p3.fr/index.php?title=MonitoringRegional | ||
+ | |||
+ | == Information Utile pour les sites == | ||
+ | |||
+ | === Depot SVN et forge === | ||
+ | |||
+ | |||
+ | |||
+ | ==== la forge ==== | ||
+ | |||
+ | La forge utilisé est celle du CC: https://forge.in2p3.fr/ | ||
+ | |||
+ | 1)Il faut '''s'enregistrer''' (en haut, a droite) sur https://forge.in2p3.fr/: | ||
+ | |||
+ | https://forge.in2p3.fr/account/register | ||
+ | le nom du projet est: '''mon-grid-fr''' | ||
+ | |||
+ | 2) Une fois enregistré pour accéder à notre projet, il faut toujours se connecter via "connexion" en haut a droite. | ||
+ | Ensuite dans la rubrique "Derniers projets" cliquer sur notre projet: '''mon-grid-fr''' | ||
+ | |||
+ | ==== svn ==== | ||
+ | |||
+ | pour accéder a svn, les utilisateurs (hors personnel du Centre de Calcul) doivent fournir chacun une clef publique SSH à Loic Tortay [tortayatcc.in2p3.fr] | ||
+ | |||
+ | L'URL SVN générique est: | ||
+ | |||
+ | svn+ssh://svn.in2p3.fr/mon-grid-fr | ||
+ | ou | ||
+ | svn+ssh://user@svn.in2p3.fr/mon-grid-fr | ||
+ | |||
+ | (en remplaçant "user" par le nom de compte réel, ces noms de comptes seront communiqués lorsque les clefs SSH seront transmises). | ||
+ | |||
+ | La configuration SSH recommandée se trouve à l'URL suivante : | ||
+ | "https://cvs.in2p3.fr/doc-fr.htmlhttps://cvs.in2p3.fr/doc-fr.html#access_ssh_config". | ||
+ | |||
+ | Il y a aussi une "variable d'environnement" à définir pour SVN comme indiqué là: | ||
+ | "https://cvs.in2p3.fr/doc-fr.html#acces_svn_inter". | ||
+ | |||
+ | A la fin de "https://cvs.in2p3.fr/doc-fr.html#doc" il y a un lien vers le "SVN Book" qui est un guide détaillé d'utilisation de SVN gratuit (et "libre"). Il y a en particulier un chapitre "SVN pour les utilisateurs de CVS". | ||
+ | |||
+ | ==== Acces svn via le WEB (lecture seule) ==== | ||
+ | |||
+ | http://cvs.in2p3.fr/mon-grid-fr | ||
+ | |||
+ | === Site Monitoring === | ||
+ | |||
+ | ==== ce qui doit être monitoré ==== | ||
+ | |||
+ | |||
+ | {| border="1" width="100%" | ||
+ | | width="5%" | | ||
+ | Type de Noeuds | ||
+ | | width="30%" | | ||
+ | Type de test | ||
+ | | width="20%" | | ||
+ | Who + link URL | ||
+ | | width="10%" | | ||
+ | Validé par | ||
+ | |---- | ||
+ | | | ||
+ | WNs | ||
+ | | width="5%" | | ||
+ | NFS mounts failing - check that files can be written and read. In particular checking that the VO_[VONAME]_SW_DIR is readable. | ||
+ | | width="30%" | | ||
+ | GRIF with scripting | ||
+ | | width="20%" | | ||
+ | Non validé | ||
+ | |---- | ||
+ | | | ||
+ | WNs | ||
+ | | width="50%" | | ||
+ | ssh keys - some modes of operation require unchallenged ssh between WNs and the CE, or for MPI among the WNs. First simple check is to verify that the wn can copy back a file to the ce. | ||
+ | | width="50%" | | ||
+ | GRIF with Nagios | ||
+ | | width="50%" | | ||
+ | Non validé | ||
+ | |---- | ||
+ | | | ||
+ | WNs | ||
+ | | width="50%" | | ||
+ | Check the processes running on each WN - that the needed processes (ntpd, pbs etc) are running, and that other things (rogue processes, stuck jobs) are not | ||
+ | | width="50%" | | ||
+ | ? | ||
+ | | width="50%" | | ||
+ | Non validé | ||
+ | |---- | ||
+ | | | ||
+ | All service nodes | ||
+ | | width="50%" | | ||
+ | Host certificates expiring - make sure they get renewed in good time | ||
+ | | width="50%" | | ||
+ | ? | ||
+ | | width="50%" | | ||
+ | Non validé | ||
+ | |---- | ||
+ | | | ||
+ | All nodes | ||
+ | | width="50%" | | ||
+ | CRLs expiring - this can cause failures for certificates from a single CA, which can be hard to diagnose | ||
+ | | width="50%" | | ||
+ | ? | ||
+ | | width="50%" | | ||
+ | Non validé | ||
+ | |---- | ||
+ | | | ||
+ | All nodes | ||
+ | | width="50%" | | ||
+ | Filesystem in ReadOnly Mode | ||
+ | | width="50%" | | ||
+ | GRIF with Nagios | ||
+ | | width="50%" | | ||
+ | Non validé | ||
+ | |---- | ||
+ | | | ||
+ | All nodes | ||
+ | | width="50%" | | ||
+ | Node crashes | ||
+ | | width="50%" | | ||
+ | GRIF with Nagios | ||
+ | | width="50%" | | ||
+ | Non validé | ||
+ | |---- | ||
+ | | | ||
+ | All nodes | ||
+ | | width="50%" | | ||
+ | Disks becoming full, or nearly so. In particular check that jobs are not filling /tmp, the home directories or other scratch space. Also check that disks don't run out of inodes | ||
+ | | width="50%" | | ||
+ | GRIF with Nagios | ||
+ | | width="50%" | | ||
+ | Non validé | ||
+ | |---- | ||
+ | |} | ||
=== Nagios === | === Nagios === | ||
+ | pour les graphes: http://nagiosgraph.sourceforge.net/ | ||
+ | |||
+ | ===== truc et astuces ===== | ||
+ | |||
+ | |||
+ | |||
+ | Installation | ||
− | + | Sondes nagios | |
− | |||
− | |||
− | === Lemon === | + | ==== Lemon ==== |
http://lemon.web.cern.ch/lemon/index.shtml | http://lemon.web.cern.ch/lemon/index.shtml | ||
Ligne 60: | Ligne 235: | ||
Lemon avec quattor: https://trac.lal.in2p3.fr/LCGQWG/wiki/QWG_lemon | Lemon avec quattor: https://trac.lal.in2p3.fr/LCGQWG/wiki/QWG_lemon | ||
− | == Gadget WEB == | + | CluMan: http://indico.twgrid.org/sessionDisplay.py?sessionId=29&slotId=0&confId=471#2008-10-21 |
+ | |||
+ | ==== Cacti ==== | ||
+ | |||
+ | Monitoring réseau (SNMP) | ||
+ | http://lcg.in2p3.fr/wiki/index.php/LCG-FR_/_SA1-FR_Monitoring_WG_CACTI | ||
+ | |||
+ | ==== autres projets ==== | ||
+ | |||
+ | Happy Face Project: http://www-ekp.physik.uni-karlsruhe.de/~happyface/HappyFace/ | ||
+ | |||
+ | === Gadget WEB === | ||
Un certain nombre de flux RSS et widgets sont disponibles: | Un certain nombre de flux RSS et widgets sont disponibles: | ||
Ligne 68: | Ligne 254: | ||
en utilisant: | en utilisant: | ||
− | === CMS === | + | ==== CMS ==== |
liste de Widgets disponible: | liste de Widgets disponible: | ||
[http://iglezh.web.cern.ch/iglezh/widgets/] | [http://iglezh.web.cern.ch/iglezh/widgets/] | ||
− | === Alice === | + | ==== Alice ==== |
liste de Flux RSS, disponible: | liste de Flux RSS, disponible: | ||
[http://pcalimonitor.cern.ch/xml.jsp] | [http://pcalimonitor.cern.ch/xml.jsp] | ||
− | === Accounting === | + | ==== Accounting ==== |
Flux RSS: | Flux RSS: | ||
http://goc-accounting.grid-support.ac.uk/rss/YOUR-SITE-NAME_ApelSync.xml | http://goc-accounting.grid-support.ac.uk/rss/YOUR-SITE-NAME_ApelSync.xml | ||
− | == Services Grilles == | + | === Monitoring de l'activité des VOs orienté site === |
− | === FTS === | + | Il s'agit d'un outil à destination des sites permettant de suivre l'état du site vis à vis de l'activité des VOs supportées. L'idée est de rassembler en un seul display (type Gridmap)l'ensemble des informations significatives collectées auprès des différents outils de monitoring spécifiques aux différentes VOs et publiées dans une base de données communes. |
+ | |||
+ | *[http://dashb-siteview.cern.ch/gridmap-vo-siteview/ Dashboard VO LHC avec une vue site (MAJ Juin 09)] | ||
+ | |||
+ | *[http://indico.cern.ch/getFile.py/access?resId=0&materialId=slides&contribId=2&sessionId=4&subContId=0&confId=32660 Roadmap for site monitoring...providing a site view of VO activities] (présentation Workshop WLCG 14/11/08 | ||
+ | |||
+ | === Services Grilles === | ||
+ | ==== FTS ==== | ||
[http://cctools.in2p3.fr/dcache/monitoring/ftsmonitor.php CCIN2P3] | [http://cctools.in2p3.fr/dcache/monitoring/ftsmonitor.php CCIN2P3] | ||
[http://lcgwww.gridpp.rl.ac.uk/cgi-bin/fts-mon/fts-mon.pl?v=atlas RAL atlas] | [http://lcgwww.gridpp.rl.ac.uk/cgi-bin/fts-mon/fts-mon.pl?v=atlas RAL atlas] | ||
[http://ganglia.gridpp.rl.ac.uk/cgi-bin/ganglia-fts/fts-page.pl RAL Ganglia] | [http://ganglia.gridpp.rl.ac.uk/cgi-bin/ganglia-fts/fts-page.pl RAL Ganglia] | ||
− | ===GridFtp === | + | ====GridFtp ==== |
[http://www.icepp.jp/rc/grid/lcg/monitor/gridftp2/monitor.html ICEPP ] | [http://www.icepp.jp/rc/grid/lcg/monitor/gridftp2/monitor.html ICEPP ] | ||
− | === DPM === | + | ==== DPM ==== |
[http://www.gridpp.ac.uk/wiki/DPM_Monitoring DPM monitoring by Gridpp ] | [http://www.gridpp.ac.uk/wiki/DPM_Monitoring DPM monitoring by Gridpp ] | ||
− | === WMS === | + | ==== WMS ==== |
[https://cert-wms-01.cnaf.infn.it:8443/wmsmon/details/details.php?wms=wms014.cnaf.infn.it WMS monitoring by CNAF] | [https://cert-wms-01.cnaf.infn.it:8443/wmsmon/details/details.php?wms=wms014.cnaf.infn.it WMS monitoring by CNAF] | ||
− | == Services VOs == | + | === Services VOs === |
− | === LHC VOs=== | + | ==== LHC VOs==== |
[http://dashboard.cern.ch/ Experiment Dashboard] | [http://dashboard.cern.ch/ Experiment Dashboard] | ||
− | === ALICE === | + | ==== ALICE ==== |
* Monalisa monitoring: http://pcalimonitor.cern.ch/ | * Monalisa monitoring: http://pcalimonitor.cern.ch/ | ||
Ligne 106: | Ligne 299: | ||
* Site efficiency : http://dboard-gr.cern.ch/dashboard/data/summaries/ | * Site efficiency : http://dboard-gr.cern.ch/dashboard/data/summaries/ | ||
− | === ATLAS === | + | ==== ATLAS ==== |
* Dashboard : http://dashboard.cern.ch/atlas/ | * Dashboard : http://dashboard.cern.ch/atlas/ | ||
Ligne 116: | Ligne 309: | ||
− | === CMS === | + | ==== CMS ==== |
+ | * site readiness : https://twiki.cern.ch/twiki/bin/view/CMS/PADASiteCommissioning#ScMon | ||
+ | * Dashboard CMS (Starting Point) : http://dashboard.cern.ch/cms/ | ||
+ | See instructions from Facility Operation team : https://twiki.cern.ch/twiki/bin/view/CMS/SAMChecklist | ||
+ | * Phedex monitoring tool for transfer activities : http://cmsweb.cern.ch/phedex/ | ||
* Widget CMS: http://iglezh.web.cern.ch/iglezh/widgets/ | * Widget CMS: http://iglezh.web.cern.ch/iglezh/widgets/ | ||
− | * | + | * CRAB JobRobot web page: http://jobrobot.web.cern.ch/JobRobot/ |
− | * | + | * CMS SAM Visualization : http://dashb-cms-sam.cern.ch/dashboard/request.py/latestresultsview |
+ | * [http://dashb-ssb.cern.ch/ssb.html CMS Site status board] | ||
+ | * Site Commissionning board : http://dashb-ssb.cern.ch/dashboard/request.py/siteview?view=commission | ||
* Link Commissioning Status : | * Link Commissioning Status : | ||
[http://cmsdoc.cern.ch/cms/aprom/phedex/prod/Components::Links?from_filter=T1&andor=and&to_filter=T2_FR&Update=Update# T1-T2_FR downlinks] | [http://cmsdoc.cern.ch/cms/aprom/phedex/prod/Components::Links?from_filter=T1&andor=and&to_filter=T2_FR&Update=Update# T1-T2_FR downlinks] | ||
− | [http://cmsdoc.cern.ch/cms/aprom/phedex/prod/Components::Links?from_filter=T2_FR&andor=and&to_filter=T1&Update=Update# T2_FR-T1 uplinks] | + | [http://cmsdoc.cern.ch/cms/aprom/phedex/prod/Components::Links?from_filter=T2_FR&andor=and&to_filter=T1&Update=Update# T2_FR-T1 uplinks] |
− | |||
− | |||
− | === LHCb === | + | ==== LHCb ==== |
* Site status for LHCb usage : http://lhcb-project-dirac.web.cern.ch/lhcb-project-dirac/lhcbProdnMask.html | * Site status for LHCb usage : http://lhcb-project-dirac.web.cern.ch/lhcb-project-dirac/lhcbProdnMask.html | ||
* Dashboard : http://dashboard.cern.ch/lhcb/ | * Dashboard : http://dashboard.cern.ch/lhcb/ | ||
+ | * Monitoring (job LHCb) : http://lhcbweb.pic.es/DIRAC/LHCb-Production/visitor/info/general/diracOverview | ||
− | == Infrastructure Grille == | + | === Infrastructure Grille === |
− | ===[http://gridmap.cern.ch/ GridMap Prototype] visualizing the "State" of the Grid === | + | ====[http://gridmap.cern.ch/ GridMap Prototype] visualizing the "State" of the Grid ==== |
+ | ==== GSTAT et monitoring TOP-BDII ==== | ||
− | == EGEE Monitoring Group (OAT) == | + | [http://indico.cern.ch/getFile.py/access?contribId=3&sessionId=10&resId=0&materialId=0&confId=66961 Lien sur une présentation du nouveau GSTAT] |
+ | |||
+ | [http://gstat-dev.cern.ch/gstat En allant sur leur wiki vous trouverez un lien sur une version démo...] | ||
+ | |||
+ | === EGEE Monitoring Group (OAT) === | ||
+ | |||
+ | * [https://twiki.cern.ch/twiki/bin/view/EGEE/OAT_EGEE_III wiki OAT] | ||
* [https://edms.cern.ch/document/901705 Mandat de l'OAT (Operations-Automation-Team)] | * [https://edms.cern.ch/document/901705 Mandat de l'OAT (Operations-Automation-Team)] | ||
* [https://edms.cern.ch/file/927171/1/EGEE-III-Activity-TEC-MSA1.1-927171-Operations-Automation-v1-0.pdf Stratégie de l'OAT (Operations-Automation-Team)] | * [https://edms.cern.ch/file/927171/1/EGEE-III-Activity-TEC-MSA1.1-927171-Operations-Automation-v1-0.pdf Stratégie de l'OAT (Operations-Automation-Team)] | ||
+ | |||
+ | * https://espace.cern.ch/sa1-share/oat/Shared Documents/ : Documents de l'OAT | ||
Old one: | Old one: | ||
Ligne 141: | Ligne 348: | ||
* [http://egee-docs.web.cern.ch/egee-docs/list.php?dir=./mig/production/& See the list of existing monitoring tools in production and associated metrics] | * [http://egee-docs.web.cern.ch/egee-docs/list.php?dir=./mig/production/& See the list of existing monitoring tools in production and associated metrics] | ||
− | == WLCG Monitoring Working groups == | + | === WLCG Monitoring Working groups === |
3 groups have been created. See [https://twiki.cern.ch/twiki/bin/view/LCG/LCGMonitoringWorkingGroups https://twiki.cern.ch/twiki/bin/view/LCG/LCGMonitoringWorkingGroups] | 3 groups have been created. See [https://twiki.cern.ch/twiki/bin/view/LCG/LCGMonitoringWorkingGroups https://twiki.cern.ch/twiki/bin/view/LCG/LCGMonitoringWorkingGroups] | ||
''The most active one is the Grid Service Monitoring group chaired by James Casey and Ian Neilson (FC)'' | ''The most active one is the Grid Service Monitoring group chaired by James Casey and Ian Neilson (FC)'' | ||
Ligne 152: | Ligne 359: | ||
**[http://indico.cern.ch/getFile.py/access?contribId=1&sessionId=1&resId=0&materialId=slides&confId=20227 Monitoring - some worked examples ] | **[http://indico.cern.ch/getFile.py/access?contribId=1&sessionId=1&resId=0&materialId=slides&confId=20227 Monitoring - some worked examples ] | ||
− | ===[https://gus.fzk.de/ws/ticket_search.php?supportunit=ROC_France&status=open&radiotf=1&timeframe=no Open GGUS Tickets assigned to ROC-France]=== | + | ====[https://gus.fzk.de/ws/ticket_search.php?supportunit=ROC_France&status=open&radiotf=1&timeframe=no Open GGUS Tickets assigned to ROC-France]==== |
Latest revision as of 17:12, 4 janvier 2011
PAGE OBSOLÈTE REMPLACÉE PAR LE WIKI FRANCE-GRILLES
https://francegrid.in2p3.fr/index.php?title=Monitoring
Sommaire
- 1 Contacts (Mailing list)
- 2 Mandat du Groupe
- 3 Réunions, Journées...
- 4 Infrastructure de monitoring
- 5 Information utile pour le nagios regional
- 6 Information Utile pour les sites
Contacts (Mailing list)
LCG-SA1FR-MONITORING-L@IN2P3.FR mailing list :
List managers : Christine Leroy (Irfu/CEA)
les membres du groupe: http://lcg.in2p3.fr/wiki/images/MembresOnly_v2.doc
Mandat du Groupe
Document consultable: https://edms.in2p3.fr/file/I-013168/2/LCG-France-SA1-FR_WGMonitoring.pdf
Le groupe de travail se chargera dans un délai de 6 mois :
- collecter les besoins des responsables des sites et de services de la région,
- recenser les pratiques des sites et les outils de monitoring utilisés,
- représenter et défendre les intérêts de la région dans les différents groupes de travail existants au sein de WLCG-EGEE sur un sujet connexe (En cours de construction un Groupe EGEE: OAT)
- identifier les standards qui doivent être suivis ainsi que les outils pertinents à tous les niveaux (services, site et région), proposer aux responsables des sites, des services grid et de l’opération régionale de la grille EGEE un ensemble d'outils répondant à leurs besoins,
- proposer, si besoin, des améliorations sur les outils et procédures d’alertes au niveau des sites, au niveau de la région
- établir, s’il y a lieu, un plan pour la poursuite de ses travaux au-delà de la période initiale des 6 premiers mois.
Toutes les propositions et recommandations devront a priori être cohérentes avec les orientations des projets EGEE et WLCG.
L'organisation et le mode de fonctionnement du groupe seront définis par le responsable du groupe et les membres eux-mêmes.
Réunions, Journées...
- Nagios tutorial, 22-23 January 09, CC-IN2P3, Lyon
- Journée Monitoring Grille du 10 Avril 2008
- Monitoring Tutorial held at WLCG Collaboration Workshop, CERN April 2008
- Operations Automation Team kickoff 06 May 2008
- Operations Automation Team kickoff 07 May 2008
- OAT: Describe new structure of current operational model section + Review architecture sections 05 June 2008
- LCG-tech-fr Sa1-fr teleconf: 1) résumé document OAT & 2)bilan questionnaire
- comité de direction LCG France / présentation
- LCG-tech-fr Sa1-fr teleconf: 1) Presentation ActiveMQ & 2)Resume reunion OAT 3)prochaines actions
- LCG-tech-fr Sa1-fr teleconf: 1) Presentation Cacti & 2)Resume reunion OAT 3)point tutorial Nagios
- LCG T2-T3 Face to Face meeting 27/11/2008
- tutorial Nagios les 22 et 23 janvier
- LCG-tech-fr Sa1-fr teleconf; 17 Mars 2009
- LCG-tech-fr Sa1-fr teleconf; 25 Mai 2009
- LCG-tech-fr Sa1-fr teleconf; 18 Septembre 2009
- Nagios Regional; 12 Mars 2010
Infrastructure de monitoring
l’infrastructure d’échange de messages pour le multi-level monitoring
https://twiki.cern.ch/twiki/bin/view/LCG/MessagingSystemforGrid
https://twiki.cern.ch/twiki/bin/view/EGEE/MsgServerDetails
Nagios et GridMonitoring
Repository du Projet:
Fabric : http://www.sysadmin.hep.ac.uk/rpms/egee-SA1/
Grid_services: http://www.sysadmin.hep.ac.uk/rpms/egee-SA1/sl4 & external: http://linuxsoft.cern.ch/dag/redhat/el4/
Recuperer les resultats des Tests SAM: http://www.gridpp.ac.uk/wiki/Nagios_sam-query_Plugin
Manuel et tutorial:
https://twiki.cern.ch/twiki/bin/view/LCG/GridMonitoringNcg
https://twiki.cern.ch/twiki/bin/view/EGEE/GridMonitoringNcgYaimTutorial
Messaging system:
https://twiki.cern.ch/twiki/bin/view/LCG/MessagingSystemforGrid
Information utile pour le nagios regional
https://francegrid.in2p3.fr/index.php?title=MonitoringRegional
Information Utile pour les sites
Depot SVN et forge
la forge
La forge utilisé est celle du CC: https://forge.in2p3.fr/
1)Il faut s'enregistrer (en haut, a droite) sur https://forge.in2p3.fr/:
https://forge.in2p3.fr/account/register le nom du projet est: mon-grid-fr
2) Une fois enregistré pour accéder à notre projet, il faut toujours se connecter via "connexion" en haut a droite. Ensuite dans la rubrique "Derniers projets" cliquer sur notre projet: mon-grid-fr
svn
pour accéder a svn, les utilisateurs (hors personnel du Centre de Calcul) doivent fournir chacun une clef publique SSH à Loic Tortay [tortayatcc.in2p3.fr]
L'URL SVN générique est:
svn+ssh://svn.in2p3.fr/mon-grid-fr ou svn+ssh://user@svn.in2p3.fr/mon-grid-fr
(en remplaçant "user" par le nom de compte réel, ces noms de comptes seront communiqués lorsque les clefs SSH seront transmises).
La configuration SSH recommandée se trouve à l'URL suivante : "https://cvs.in2p3.fr/doc-fr.htmlhttps://cvs.in2p3.fr/doc-fr.html#access_ssh_config".
Il y a aussi une "variable d'environnement" à définir pour SVN comme indiqué là: "https://cvs.in2p3.fr/doc-fr.html#acces_svn_inter".
A la fin de "https://cvs.in2p3.fr/doc-fr.html#doc" il y a un lien vers le "SVN Book" qui est un guide détaillé d'utilisation de SVN gratuit (et "libre"). Il y a en particulier un chapitre "SVN pour les utilisateurs de CVS".
Acces svn via le WEB (lecture seule)
http://cvs.in2p3.fr/mon-grid-fr
Site Monitoring
ce qui doit être monitoré
Type de Noeuds |
Type de test |
Who + link URL |
Validé par |
WNs |
NFS mounts failing - check that files can be written and read. In particular checking that the VO_[VONAME]_SW_DIR is readable. |
GRIF with scripting |
Non validé |
WNs |
ssh keys - some modes of operation require unchallenged ssh between WNs and the CE, or for MPI among the WNs. First simple check is to verify that the wn can copy back a file to the ce. |
GRIF with Nagios |
Non validé |
WNs |
Check the processes running on each WN - that the needed processes (ntpd, pbs etc) are running, and that other things (rogue processes, stuck jobs) are not |
? |
Non validé |
All service nodes |
Host certificates expiring - make sure they get renewed in good time |
? |
Non validé |
All nodes |
CRLs expiring - this can cause failures for certificates from a single CA, which can be hard to diagnose |
? |
Non validé |
All nodes |
Filesystem in ReadOnly Mode |
GRIF with Nagios |
Non validé |
All nodes |
Node crashes |
GRIF with Nagios |
Non validé |
All nodes |
Disks becoming full, or nearly so. In particular check that jobs are not filling /tmp, the home directories or other scratch space. Also check that disks don't run out of inodes |
GRIF with Nagios |
Non validé |
Nagios
pour les graphes: http://nagiosgraph.sourceforge.net/
truc et astuces
Installation
Sondes nagios
Lemon
http://lemon.web.cern.ch/lemon/index.shtml
Lemon avec quattor: https://trac.lal.in2p3.fr/LCGQWG/wiki/QWG_lemon
CluMan: http://indico.twgrid.org/sessionDisplay.py?sessionId=29&slotId=0&confId=471#2008-10-21
Cacti
Monitoring réseau (SNMP) http://lcg.in2p3.fr/wiki/index.php/LCG-FR_/_SA1-FR_Monitoring_WG_CACTI
autres projets
Happy Face Project: http://www-ekp.physik.uni-karlsruhe.de/~happyface/HappyFace/
Gadget WEB
Un certain nombre de flux RSS et widgets sont disponibles:
en utilisant:
CMS
liste de Widgets disponible: [1]
Alice
liste de Flux RSS, disponible: [2]
Accounting
Flux RSS: http://goc-accounting.grid-support.ac.uk/rss/YOUR-SITE-NAME_ApelSync.xml
Monitoring de l'activité des VOs orienté site
Il s'agit d'un outil à destination des sites permettant de suivre l'état du site vis à vis de l'activité des VOs supportées. L'idée est de rassembler en un seul display (type Gridmap)l'ensemble des informations significatives collectées auprès des différents outils de monitoring spécifiques aux différentes VOs et publiées dans une base de données communes.
- Roadmap for site monitoring...providing a site view of VO activities (présentation Workshop WLCG 14/11/08
Services Grilles
FTS
GridFtp
DPM
WMS
Services VOs
LHC VOs
ALICE
* Monalisa monitoring: http://pcalimonitor.cern.ch/ * Job Monitoring: http://dashboard.cern.ch/alice/ * Daily reports: http://dashb-alice.cern.ch/dashboard/data/ * Site efficiency : http://dboard-gr.cern.ch/dashboard/data/summaries/
ATLAS
* Dashboard : http://dashboard.cern.ch/atlas/ * Installation SW : https://atlas-install.roma1.infn.it/atlas_install/ * Bilan mensuel du nombre de jobs exécutés et de l'efficacité par site : http://dashb-atlas-job.cern.ch/dashboard/request.py/MonthlyReportIndex * PanDA : http://gridinfo.triumf.ca/panglia. Il y a un URL par queue utilisée par les jobs de productions + 1 URL spécifique pour les queues utilisées par les jobs d'analyse (ANALY_xxx). Pour les jobs de productions
Le dashboard a tendance à remplacer les autres (excepté pour le suivi des installations). C'est le plus complet et le plus riche. Il permet en particulier d'obtenir la liste des jobs en erreur avec des informations détaillées sur l'erreur, le WN impliqué...
CMS
* site readiness : https://twiki.cern.ch/twiki/bin/view/CMS/PADASiteCommissioning#ScMon * Dashboard CMS (Starting Point) : http://dashboard.cern.ch/cms/ See instructions from Facility Operation team : https://twiki.cern.ch/twiki/bin/view/CMS/SAMChecklist * Phedex monitoring tool for transfer activities : http://cmsweb.cern.ch/phedex/ * Widget CMS: http://iglezh.web.cern.ch/iglezh/widgets/ * CRAB JobRobot web page: http://jobrobot.web.cern.ch/JobRobot/ * CMS SAM Visualization : http://dashb-cms-sam.cern.ch/dashboard/request.py/latestresultsview * CMS Site status board * Site Commissionning board : http://dashb-ssb.cern.ch/dashboard/request.py/siteview?view=commission * Link Commissioning Status : T1-T2_FR downlinks T2_FR-T1 uplinks
LHCb
* Site status for LHCb usage : http://lhcb-project-dirac.web.cern.ch/lhcb-project-dirac/lhcbProdnMask.html * Dashboard : http://dashboard.cern.ch/lhcb/ * Monitoring (job LHCb) : http://lhcbweb.pic.es/DIRAC/LHCb-Production/visitor/info/general/diracOverview
Infrastructure Grille
GridMap Prototype visualizing the "State" of the Grid
GSTAT et monitoring TOP-BDII
Lien sur une présentation du nouveau GSTAT
En allant sur leur wiki vous trouverez un lien sur une version démo...
EGEE Monitoring Group (OAT)
- wiki OAT
- Mandat de l'OAT (Operations-Automation-Team)
- Stratégie de l'OAT (Operations-Automation-Team)
- https://espace.cern.ch/sa1-share/oat/Shared Documents/ : Documents de l'OAT
Old one:
WLCG Monitoring Working groups
3 groups have been created. See https://twiki.cern.ch/twiki/bin/view/LCG/LCGMonitoringWorkingGroups The most active one is the Grid Service Monitoring group chaired by James Casey and Ian Neilson (FC)
- System management : Fabric Management, best practices, security
- Grid service monitoring : See the Nagios prototype for grid services monitoring
- System analysis: mainly focus on applications monitoring
- High Level model for WLCG Monitoring
- J.Casey's Presentations@GDB 05 March 2008