Difference between revisions of "ARCHIVES/LCG-FR / SA1-FR Monitoring WG"
(→Nagios et GridMonitoring) |
(→Nagios et GridMonitoring) |
||
Ligne 73: | Ligne 73: | ||
Fabric : http://www.sysadmin.hep.ac.uk/svn/fabric-monitoring/ | Fabric : http://www.sysadmin.hep.ac.uk/svn/fabric-monitoring/ | ||
− | Grid_services: http://www.sysadmin.hep.ac.uk/rpms/egee-SA1/sl4/ | + | Grid_services: http://www.sysadmin.hep.ac.uk/rpms/egee-SA1/sl4 |
+ | & external: http://linuxsoft.cern.ch/dag/redhat/el4/ | ||
Recuperer les resultats des Tests SAM: http://www.gridpp.ac.uk/wiki/Nagios_sam-query_Plugin | Recuperer les resultats des Tests SAM: http://www.gridpp.ac.uk/wiki/Nagios_sam-query_Plugin |
Version du 14:06, 26 novembre 2008
Sommaire
- 1 Contacts (Mailing list)
- 2 Mandat du Groupe
- 3 Réunions, Journées...
- 4 Infrastructure de monitoring
- 5 Site Monitoring
- 6 Gadget WEB
- 7 Monitoring de l'activité des VOs orienté site
- 8 Services Grilles
- 9 Services VOs
- 10 Infrastructure Grille
- 11 EGEE Monitoring Group (OAT)
- 12 WLCG Monitoring Working groups
Contacts (Mailing list)
LCG-SA1FR-MONITORING-L@IN2P3.FR mailing list :
List managers : Christine Leroy (Irfu/CEA)
les membres du groupe: http://lcg.in2p3.fr/wiki/images/MembresOnly.doc
Mandat du Groupe
Document consultable: https://edms.in2p3.fr/file/I-013168/2/LCG-France-SA1-FR_WGMonitoring.pdf
Le groupe de travail se chargera dans un délai de 6 mois :
- collecter les besoins des responsables des sites et de services de la région,
- recenser les pratiques des sites et les outils de monitoring utilisés,
- représenter et défendre les intérêts de la région dans les différents groupes de travail existants au sein de WLCG-EGEE sur un sujet connexe (En cours de construction un Groupe EGEE: OAT)
- identifier les standards qui doivent être suivis ainsi que les outils pertinents à tous les niveaux (services, site et région), proposer aux responsables des sites, des services grid et de l’opération régionale de la grille EGEE un ensemble d'outils répondant à leurs besoins,
- proposer, si besoin, des améliorations sur les outils et procédures d’alertes au niveau des sites, au niveau de la région
- établir, s’il y a lieu, un plan pour la poursuite de ses travaux au-delà de la période initiale des 6 premiers mois.
Toutes les propositions et recommandations devront a priori être cohérentes avec les orientations des projets EGEE et WLCG.
L'organisation et le mode de fonctionnement du groupe seront définis par le responsable du groupe et les membres eux-mêmes.
Réunions, Journées...
- Journée Monitoring Grille du 10 Avril 2008
- Monitoring Tutorial held at WLCG Collaboration Workshop, CERN April 2008
- Operations Automation Team kickoff 06 May 2008
- Operations Automation Team kickoff 07 May 2008
- OAT: Describe new structure of current operational model section + Review architecture sections 05 June 2008
- LCG-tech-fr Sa1-fr teleconf: 1) résumé document OAT & 2)bilan questionnaire
- comité de direction LCG France / présentation
- LCG-tech-fr Sa1-fr teleconf: 1) Presentation ActiveMQ & 2)Resume reunion OAT 3)prochaines actions
Infrastructure de monitoring
- l’infrastructure d’échange de messages pour le « multi-level » monitoring: https://twiki.cern.ch/twiki/bin/view/LCG/MessagingSystemforGrid
Site Monitoring
ce qui doit être monitoré
- Disks becoming full, or nearly so. In particular check that jobs are not filling /tmp, the home directories or other scratch space.
- Also check that disks don't run out of inodes.
- Node crashes and disk failures.
- NFS mounts failing - check that files can be written and read. In particular checking that the VO_[VONAME]_SW_DIR is readable.
- Clock skew - often because the ntpd has died, or sometimes due to a problem with the clock to which ntpd is synchronised.
- ssh keys - some modes of operation require unchallenged ssh between WNs and the CE, or for MPI among the WNs. First simple check is to verify that the wn can copy back a file to the ce.
- Host certificates expiring - make sure they get renewed in good time. Also try not to renew at times which may cause problems in future years, e.g. August or December.
- CRLs expiring - this can cause failures for certificates from a single CA, which can be hard to diagnose.
- Check that you can use GridFTP from each WN to the CE and SE (although this will need a valid proxy on the WN).
- Check the processes running on each WN - that the needed processes (ntpd, pbs etc) are running, and that other things (rogue processes, stuck jobs) are not.
- Check log files for signs of trouble. Look for permission denied
- Monitor the duration of jobs by WN - if all jobs to a particular WN are ending quickly it may well be faulty.
Nagios
pour les graphes: http://nagiosgraph.sourceforge.net/
truc et astuces
Nagios et GridMonitoring
Repository du Projet:
Fabric : http://www.sysadmin.hep.ac.uk/svn/fabric-monitoring/
Grid_services: http://www.sysadmin.hep.ac.uk/rpms/egee-SA1/sl4 & external: http://linuxsoft.cern.ch/dag/redhat/el4/
Recuperer les resultats des Tests SAM: http://www.gridpp.ac.uk/wiki/Nagios_sam-query_Plugin
Manuel et tutorial:
https://twiki.cern.ch/twiki/bin/view/LCG/GridMonitoringNcg
https://twiki.cern.ch/twiki/bin/view/EGEE/GridMonitoringNcgYaimTutorial
Messaging system:
https://twiki.cern.ch/twiki/bin/view/LCG/MessagingSystemforGrid
Lemon
http://lemon.web.cern.ch/lemon/index.shtml
Lemon avec quattor: https://trac.lal.in2p3.fr/LCGQWG/wiki/QWG_lemon
CluMan: http://indico.twgrid.org/sessionDisplay.py?sessionId=29&slotId=0&confId=471#2008-10-21
autres projets
Happy Face Project: http://www-ekp.physik.uni-karlsruhe.de/~happyface/HappyFace/
Gadget WEB
Un certain nombre de flux RSS et widgets sont disponibles:
en utilisant:
CMS
liste de Widgets disponible: [1]
Alice
liste de Flux RSS, disponible: [2]
Accounting
Flux RSS: http://goc-accounting.grid-support.ac.uk/rss/YOUR-SITE-NAME_ApelSync.xml
Monitoring de l'activité des VOs orienté site
Il s'agit d'un outil à destination des sites permettant de suivre l'état du site vis à vis de l'activité des VOs supportées. L'idée est de rassembler en un seul display (type Gridmap)l'ensemble des informations significatives collectées auprès des différents outils de monitoring spécifiques aux différentes VOs et publiées dans une base de données communes.
- Roadmap for site monitoring...providing a site view of VO activities (présentation Workshop WLCG 14/11/08
- CMS Site status board
Services Grilles
FTS
GridFtp
DPM
WMS
Services VOs
LHC VOs
ALICE
* Monalisa monitoring: http://pcalimonitor.cern.ch/ * Job Monitoring: http://dashboard.cern.ch/alice/ * Daily reports: http://dashb-alice.cern.ch/dashboard/data/ * Site efficiency : http://dboard-gr.cern.ch/dashboard/data/summaries/
ATLAS
* Dashboard : http://dashboard.cern.ch/atlas/ * Installation SW : https://atlas-install.roma1.infn.it/atlas_install/ * Bilan mensuel du nombre de jobs exécutés et de l'efficacité par site : http://dashb-atlas-job.cern.ch/dashboard/request.py/MonthlyReportIndex * PanDA : http://gridinfo.triumf.ca/panglia. Il y a un URL par queue utilisée par les jobs de productions + 1 URL spécifique pour les queues utilisées par les jobs d'analyse (ANALY_xxx). Pour les jobs de productions
Le dashboard a tendance à remplacer les autres (excepté pour le suivi des installations). C'est le plus complet et le plus riche. Il permet en particulier d'obtenir la liste des jobs en erreur avec des informations détaillées sur l'erreur, le WN impliqué...
CMS
* Widget CMS: http://iglezh.web.cern.ch/iglezh/widgets/ * Job Monitioring : http://dashboard.cern.ch/cms * CRAB JobRobot summary : http://jobrobot.web.cern.ch/JobRobot/summary_071002.html * Link Commissioning Status : T1-T2_FR downlinks T2_FR-T1 uplinks * CMS SAM Visualization : http://lxarda16.cern.ch/dashboard/request.py/latestresultsview * Site Commissionning board : http://lxarda16.cern.ch/dashboard/request.py/siteview?debug=1
LHCb
* Site status for LHCb usage : http://lhcb-project-dirac.web.cern.ch/lhcb-project-dirac/lhcbProdnMask.html * Dashboard : http://dashboard.cern.ch/lhcb/
Infrastructure Grille
GridMap Prototype visualizing the "State" of the Grid
EGEE Monitoring Group (OAT)
- https://espace.cern.ch/sa1-share/oat/Shared Documents/ : Documents de l'OAT
Old one:
WLCG Monitoring Working groups
3 groups have been created. See https://twiki.cern.ch/twiki/bin/view/LCG/LCGMonitoringWorkingGroups The most active one is the Grid Service Monitoring group chaired by James Casey and Ian Neilson (FC)
- System management : Fabric Management, best practices, security
- Grid service monitoring : See the Nagios prototype for grid services monitoring
- System analysis: mainly focus on applications monitoring
- High Level model for WLCG Monitoring
- J.Casey's Presentations@GDB 05 March 2008