WLCG Data transfers
Mars 2016 Petit Tour des Dashboards de monitoring des transferts de données :
Sommaire
Outils communs de monitoring des transferts de données
PRELIMINAIRE
Dashboard WLCG
ALICE, ATLAS, CMS, LHCb - Transferts FTS & XRootD Dashboard : http://dashb-wlcg-transfers.cern.ch/ui
Voir certains extraits du Dashboard WLCG
- Attention à la complexité => risque de devoir patienter ou/et de se perdre.
- Mieux vaut se limiter aux statistiques sur 4 ou 24h
- Attention : les noms de site différent selon la VO
- A noter un pb avec les filtres vo=alice country=(FRANCE) => uniquement Subatech
- Difficulté pour visualiser les trafics multi-vos au niveau d'un site (ne pas hésiter à ajouter le petit nom du site alice le cas échéant) :
- Toutes les options ne sont pas actives dans toutes les conditions.
- Par ex., il n'est pas possible de différencier les "Access types" :remote/local ou "Transfer Modes" : Reading/Copy dans le cas de transfers FTS et dans le cas du trafic ALICE ==> une étiquette "TOTAL" apparait au niveau de la légende
- Trafics XRootD ALICE : les vues WLCG et alimonitor semblent cohérentes, xrootd natif ET xrootd/DPM sont monitorés
- Limitations Monitoring XRootD ATLAS/CMS : monitoring partiel du trafic local ==> pb de configuration du monitoring XRootD ATLAS / CMS dans certains sites (cf. paragraphe 4.)
- Faire attention à l'interprétation : dst vs src, client vs srv, generated by applications at vs seen by SE qui ne sont pas assimilables DATA IN et DATA OUT
- Affichage "n/a" : le mapping entre serveurs XRootD et clients d'une part et sites de grille qui est effectué au niveau du dashboard a sans doute des soucis d'autant que le cas des sites FR est particulier (lié au domaine in2p3.fr). Cas IN2P3 failover à voir également. cf. paragraphe 5.
Dashboard FTS
ATLAS, CMS, LHCb - uniquement transferts FTS : http://dashb-fts-transfers.cern.ch/ui
Extraits (FC) du Dashboard FTS
- Possibilité de spécifier un intervalle de dates plus important, intérêt peut être pour le monitoring d’un site multi-VO sinon préférer l’outil spécifique à la VO par ex. monitoring rucio dans le cas ATLAS http://dashb-atlas-ddm.cern.ch/ddm2/
- Il y a + de détails : efficacité, erreurs… qu'avec le dashboard général de WLCG
Dashboard XRooTD
'ATLAS, CMS - uniquement trafics XRootD ': http://dashb-wdt-xrootd.cern.ch/ui
- Trafic atlas sur les 4 dernières heures : http://dashb-wdt-xrootd.cern.ch/ui/#vo=(atlas)
- Trafic atlas sur les 4 dernières heures dont GRIF a été la source : http://dashb-wdt-xrootd.cern.ch/ui/#p.grouping=dst&src.site=(GRIF)&vo=(atlas) => destination n/a !!!
- Trafic cms sur les 4 dernières heures : http://dashb-wdt-xrootd.cern.ch/ui/#vo=(cms)
- http://dashb-wdt-xrootd.cern.ch/ui/#p.grouping=access_type&src.site=(LAPP)
- http://dashb-wdt-xrootd.cern.ch/ui/#p.grouping=src&src.site=(GRIF)&vo=(cms) by source
- http://dashb-wdt-xrootd.cern.ch/ui/#p.grouping=src&src.site=(GRIF)&vo=(atlas) by source
- http://dashb-wdt-xrootd.cern.ch/ui/#p.grouping=access_type&src.site=(GRIF-LPNHE)&vo=(atlas)
- http://dashb-wdt-xrootd.cern.ch/ui/#p.grouping=transfer_mode&src.site=(GRIF-LPNHE)&vo=(atlas)
- Understand Site Access patterns :
- qui accède au LPNHE en lecture pour atlas ? : http://dashb-wdt-xrootd.cern.ch/ui/#srv.site=(GRIF-LPNHE)&tab=access_pattern&vo=(atlas)
Monitoring XRootD ATLAS / CMS (configuration du)
Dans certains sites FR, il n'y a clairement pas de monitoring des trafics XrootD ATLAS / CMS
ATLAS : les trafics fts & XRootd, en accès local & remote sont correctement monitorés au LPSC, CPPM, LAPP mais ce n'est pas le cas partout :
- http://dashb-wlcg-transfers.cern.ch/ui/#access_type=(0,1)&dst.site=(IN2P3-LPSC)&p.grouping=technology&vo=(atlas)
- http://dashb-wlcg-transfers.cern.ch/ui/#access_type=(0,1)&p.grouping=access_type&src.site=(IN2P3-LPSC)&technology=(xrootd)&vo=(atlas)
- http://dashb-wlcg-transfers.cern.ch/ui/#access_type=(0,1)&dst.site=(IN2P3-CC)&p.grouping=technology&vo=(atlas)
- http://dashb-wlcg-transfers.cern.ch/ui/#access_type=(0,1)&src.site=(IN2P3-LPC)&p.grouping=technology&vo=(atlas)
CMS : les trafics fts & XRootd, en accès local & remote sont correctement monitorés au GRIF (IRFU, LLR) et à l'IPHC :
- http://dashb-wlcg-transfers.cern.ch/ui/#access_type=(0,1)&dst.site=(GRIF)&p.grouping=technology&vo=(cms)
- http://dashb-wlcg-transfers.cern.ch/ui/#access_type=(0,1)&src.site=(LLR)&p.grouping=access_type&technology=(xrootd)&vo=(cms)
- http://dashb-wlcg-transfers.cern.ch/ui/#access_type=(0,1)&dst.site=(IPHC)&p.grouping=access_type&technology=(xrootd)&vo=(cms)
- http://dashb-wlcg-transfers.cern.ch/ui/#access_type=(0,1)&dst.site=(_FR_)&grouping.dst=(site)&p.grouping=dst&technology=(xrootd)&vo=(cms)
Il y avait 2 petites erreurs (aujourd'hui corrigées) dans les valeurs par défaut proposées par Quattor :
- au niveau du numéro de port (9330) du collecteur EU atlas-fax-eu-collector.cern.ch:9330 (pour ATLAS)
- au niveau du host EU: CMS-AAA-EU-COLLECTOR.cern.ch:9330 (pour CMS)
Liens vers les pages qui font foi :
- https://svnweb.cern.ch/trac/lcgdm/wiki/Dpm/Xroot/ManualSetup#VOcentralmonitoring
- https://twiki.cern.ch/twiki/bin/view/AtlasComputing/FAXposixStorageNew
Il reste à vérifier/modifier la configuration du monitoring XRootD DPM/dCache au CC pour la remontée des infos ATLAS et CMS dans les quelques sites concernés.
XRootD Monitoring : Site resolution in France
Affichage "n/a"
- n/a is an indication that the topology resolution (aka the mapping between xrootd servers and clients to GRID site names) encountered problems. The topology resolution is done at the dashboard level, and France required some special configuration too, so let us go through and check if there is some mapping not properly specified or missing.
- Par ex. Trafic XRootD ATLAS vu au niveau du SE du LAPP au cours des 4 dernières heures :
- idem pour CMS et le LLR :
TABLE A VERIFIER-CORRIGER
- Ticket GGUS : https://ggus.eu/index.php?mode=ticket_info&ticket_id=121143 ; Contact : Luca Magnoni (CERN)
For the xrootd dashboard the mapping is done with a static lookup of the client domain to a known list of grid sites (e.g."client_domain":"lal.in2p3.fr" is mapped to GRIF). If the mapping fails, the statistics is reported to the n/a category, as a fallback. For France in particular, if a client log arrives with the "in2p3" domain without a known sub-domain, it goes into a "IN2P3failover" category.
VERSION CORRIGEE { "ATLAS": { "in2p3.fr": { "host_dict": { "lpn": { "VOname": "GRIF-LPNHE", "SiteName": "GRIF", "Country": "France" }, "lal": { "VOname": "GRIF-LAL", "SiteName": "GRIF", "Country": "France" }, "cc": { "VOname": "IN2P3-CC", "SiteName": "IN2P3-CC", "Country": "France" }, "mar": { "VOname": "IN2P3-CPPM", "SiteName": "IN2P3-CPPM", "Country": "France" }, "lapp": { "VOname": "IN2P3-LAPP", "SiteName": "IN2P3-LAPP", "Country": "France" }, "clr": { "VOname": "IN2P3-LPC", "SiteName": "IN2P3-LPC", "Country": "France" }, "lpsc": { "VOname": "IN2P3-LPSC", "SiteName": "IN2P3-LPSC", "Country": "France" } }, "SiteName": "IN2P3", "VOname": "IN2P3failover", "Country": "France" } } }
{ "CMS": { "in2p3.fr": { "host_dict": { "lpn": { "VOname": "T2_FR_GRIF_IRFU", "SiteName": "GRIF", "Country": "France" }, "lal": { "VOname": "T2_FR_GRIF_LLR", "SiteName": "GRIF", "Country": "France" }, "cc": { "VOname": "T1_FR_CCIN2P3", "SiteName": "IN2P3-CC", "Country": "France" } "pol": { "VOname": "T2_FR_GRIF_LLR", "SiteName": "GRIF", "Country": "France" }, "sbg": { "VOname": "T2_FR_IPHC", "SiteName": "IN2P3-IRES", "Country": "France" }, "llr": { "VOname": "T2_FR_GRIF_LLR", "SiteName": "GRIF", "Country": "France" }, "lyo": { "VOname": "T3_FR_IPNL", "SiteName": "IN2P3-IPNL", "Country": "France" } }, "SiteName": "IN2P3", "VOname": "IN2P3failover", "Country": "France" } }
Outils spécifiques aux VOs
- ALICE :
- Visualiser le traffic réseau des serveurs de stockage d'un site (tous clients confondus LAN/WAN) :
- MonALISA : http://alimonitor.cern.ch/display : SE information -> xrootd -> Per SE details -> Traffic
- Lien direct : http://alimonitor.cern.ch/display?page=xrootdse/by_se
- "Select SE" pour sélectionner un site
- Visualiser le traffic réseau "Total" (LAN+WAN) d'un site :
- MonALISA : http://alimonitor.cern.ch/display : Network Traffic -> Server total
- Lien direct : http://alimonitor.cern.ch/display?page=xrdagg/total
- Onglet "Series", sélectionner un site
- Visualiser le traffic réseau LAN ou WAN d'un site :
- MonALISA : http://alimonitor.cern.ch/display : Network Traffic -> LAN/WAN traffic
- Lien direct : http://alimonitor.cern.ch/display?page=xrdagg/lan_wan
- Onglet "Series", sélectionner un site
- Onglet "Options", LAN / WAN
- Quel sont les clients d'un SE (traffic réseau générés par les clients distants d'un SE) :
- MonALISA : http://alimonitor.cern.ch/display : Network Traffic -> Clients per SE
- Lien direct : http://alimonitor.cern.ch/display?page=xrdagg/site
- Onglet "Series" : sélectionner les sites clients
- Onglet "Options", "Select source site" : sélectionner le SE
- Quel est le traffic réseau généré par les jobs exécutés sur un site ? Où vont-ils lire les données ?
- MonALISA : http://alimonitor.cern.ch/display : Network Traffic -> SEs per client
- Lien direct : http://alimonitor.cern.ch/display?page=xrdagg/client
- Onglet "Series" : sélectionner les SE
- Onglet "Options", "Select client site" : sélectionner le site qui exécute les jobs.
- Visualiser le traffic réseau des serveurs de stockage d'un site (tous clients confondus LAN/WAN) :
- ATLAS :
- DDM Dashboard : http://dashb-atlas-ddm.cern.ch/ddm2
- CMS :
- LHCb :
Liens
- WDT Project : http://wdtmon.web.cern.ch/wdtmon/ dahboard evolution on Hadoop/Spark
- Wiki : https://twiki.cern.ch/twiki/bin/view/LCG/WLCGDataTransferMonitoring
- Accès remote aux SE de GRIF (A.Sartirana): https://indico.in2p3.fr/event/11973/session/12/contribution/37
- WLCG Data Activities Dashboard L.Magnoni (CERN): https://indico.cern.ch/event/337567/session/6/contribution/21