Difference between revisions of "MultiCoreAccounting"

Un article de lcgwiki.
Jump to: navigation, search
(Questions ouvertes)
 
(9 intermediate revisions by 2 users not shown)
Ligne 9: Ligne 9:
  
 
== Mise en place de la solution ==
 
== Mise en place de la solution ==
Une fois avoir corriger l'attribut sur les CREAM_CE (parallel=true), il faut reparser et republier les comptes.
+
Une fois l'attribut corrigé sur les CREAM_CE (parallel=true), il faut reparser et republier les accountings.
 
La solution vient en deux étapes :
 
La solution vient en deux étapes :
1- les sites doivent reparser leur accounting
+
* 1- les sites doivent reparser leur accounting
2- F. Schaer doit forcer une nouvelle publication
+
* 2- F. Schaer doit forcer une nouvelle publication
 +
 
 +
=== Etape  1===
 +
(info de Frédéric Schaer)
  
= Etape 1 (info de Frédéric Schaer)=
 
 
Pour forcer un reparsing il faut modifier la database sur node56 directement, ce que peut faire chaque site pour ses machines.
 
Pour forcer un reparsing il faut modifier la database sur node56 directement, ce que peut faire chaque site pour ses machines.
  
 
Donc pour le CPPM comme exemple :
 
Donc pour le CPPM comme exemple :
  
<nowiki>mysql> select * from ProcessedFiles where filename like '%20141111%' limit 5 ;
+
mysql> select * from ProcessedFiles where filename like '%20141111%' limit 5 ;
+-------------------+---------------------------------------------+----------------------------------+----------+--------+
+
 
| HostName          | FileName                                    | Hash                            | StopLine | Parsed |
+
Ce qui renvoie :
+-------------------+---------------------------------------------+----------------------------------+----------+--------+
+
[[Image:Mysql.png]]
| marsched.in2p3.fr | /var/log/accounting/blahp.log-20141111      | 5303099b2ca659eb6cb84cd522b52904 |      26 |    27 |
+
 
| marsched.in2p3.fr | /var/torque/server_priv/accounting/20141111 | 35baed86e035a5e895e5da2faf1d118e |    1277 |    339 |
+
Si le CPPM voulait reparser /var/torque/server_priv/accounting/20141111 et ce *uniquement* pour marsched, alors il devrait faire un truc du genre :
| marsched.in2p3.fr | /var/log/accounting/blahp.log-20141111     | a405753d785cc70c59d65240919353de |      106 |    107 |
+
 
| marsched.in2p3.fr | /var/log/accounting/blahp.log-20141111      | 488c79c23a90c71bd5d58cd819e7ba58 |    6420 |  6421 |
+
mysql> explain delete from ProcessedFiles where HostName='marsched.in2p3.fr' and filename like '%20141111%';
| marsched.in2p3.fr | /var/torque/server_priv/accounting/20141111 | de7c3a80bb3344d75d662b6889ca7091 |    37818 |  12652 |
+
 
+-------------------+---------------------------------------------+----------------------------------+----------+--------+</nowiki>
+
Si le CPPM veut forcer le reparsing de l'ensemble du mois et pour toutes ses machines, alors :
 +
 
 +
mysql> explain delete from ProcessedFiles where filename like '%201411%';
 +
 
 +
 
 +
- pas besoin de mettre "reparse = true" dans /etc/apel/parser.config
 +
 
 +
- il suffit de faire une "delete" des fichiers que l'on veut remplacer
 +
 
 +
- et de relancer le "apel-pbs-log-parser", ce que nous avons fait sur nos trois CREAM-CE et notre TORQUE (apres avoir mis "parallel=true")
  
Si Edith voulait reparser /var/torque/server_priv/accounting/20141111 et ce *uniquement* pour marsched, alors elle devrait faire un truc du genre :
+
- seuls les fichiers "deletés" (et le fichier du jour) sont alors reloadés dans la DB de node65.
mysql> explain delete from ProcessedFiles where HostName='marsched.in2p3.fr' and filename like '%20141111%';
 
  
Si elle veut forcer le reparsing de l'ensemble du mois et pour toutes ses machines, alors :
+
=== Etape 2 ===
<nowiki>mysql> explain delete from ProcessedFiles where filename like '%201411%';</nowiki>
+
Le reparsing n'est pas suffisant, il faut ensuite que que F. Schaer force une republication, et pour cela il faut lui dire quels mois republier (i.e : la publication va forcer le joint sur les fichiers reparsés)
 
  
= Etape 2 =
+
A noter :
MAIS : le reparsing n'est pas suffisant, il faut ensuite que je force une republication, et pour cela il faut me dire quels mois republier (i.e : la publication va forcer le join sur les fichiers reparsés)
+
Frédéric doit faire un fichier de config spécifique par site (ça n'utilise pas d'arguments CLLI), et lancer un process apel
Encore une fois, merci le middleware...
+
sur chacun de ces fichiers. Comme chaque site n'a pas les même dates, Frédéric doit faire cette manipulation à la main.
  
 +
=== Questions ouvertes ===
 +
Q (Edith Knoops) - Si on met  reparse = true dans /etc/apel/parser.config  cela va pas tout reparser ?
  
 +
Solution : pas la pein de mettre reparse =true
  
=== Sites affectés : ===
+
 
 +
 
 +
Q (Edith Knoops) - il faut reparser uniquement le scheduler ou aussi les creams ? Dans mon
 +
cas les 2 creams ont du multicoeurs et utilise un scheduler unique.
 +
 
 +
R (Fred. Schaer) - à voir
 +
 
 +
=== Liens utiles ===
 +
Le lien pour voir un accounting « local » (extrait directement de mysql) des sites se trouve ici :
 +
https://node56.datagrid.cea.fr:20001/
 
   
 
   
* CPPM (depuis le 29 septembre)
+
L’accès est restreint à la CA GRID2-FR
* IPHC ("peu d'impact")
+
 
* LAPP (depuis)
+
=== Status des sites affectés ===
* LPC ("peu d'impact")
+
 
* LPSC (depuis le 1 octobre)
+
 
 +
{| class="wikitable alternance centre"
 +
|+
 +
|-
 +
|
 +
 
 +
! scope="col" | Impact
 +
! scope="col" | Depuis le
 +
! scope="col" | Statut Reparsing
 +
! scope="col" | Statut Republication
 +
|-
 +
! scope="row" | CPPM
 +
| -
 +
29 septembre
 +
| non
 +
| non
 +
|-
 +
! scope="row" | IPHC
 +
| faible
 +
| -
 +
| non
 +
| non
 +
|-
 +
! scope="row" | LAPP
 +
| grand
 +
| 15 juillet
 +
| non
 +
| non
 +
|-
 +
! scope="row" | LPC
 +
| faible
 +
| -
 +
| non
 +
| non
 +
|-
 +
! scope="row" | LPSC
 +
| moyen
 +
| 1 octobre
 +
| non
 +
| non
 +
|}

Latest revision as of 09:19, 17 décembre 2014

Multicore Deployment

Accounting: Publishing multicore accounting to APEL works. ARC CEs publish correctly. For CREAM CEs to make it work it has to be an EMI-3 CE and it has to be enabled in the configuration.

Edit /etc/apel/parser.cfg and set the attribute parallel=true.

If the site was running multicore already, before upgrading and/or applying this modification, they need to reparse and republish the corrected accounts.

Mise en place de la solution

Une fois l'attribut corrigé sur les CREAM_CE (parallel=true), il faut reparser et republier les accountings. La solution vient en deux étapes :

  • 1- les sites doivent reparser leur accounting
  • 2- F. Schaer doit forcer une nouvelle publication

Etape 1

(info de Frédéric Schaer)

Pour forcer un reparsing il faut modifier la database sur node56 directement, ce que peut faire chaque site pour ses machines.

Donc pour le CPPM comme exemple :

mysql> select * from ProcessedFiles where filename like '%20141111%' limit 5 ;

Ce qui renvoie : Mysql.png

Si le CPPM voulait reparser /var/torque/server_priv/accounting/20141111 et ce *uniquement* pour marsched, alors il devrait faire un truc du genre :

mysql> explain delete from ProcessedFiles where HostName='marsched.in2p3.fr' and filename like '%20141111%';

Si le CPPM veut forcer le reparsing de l'ensemble du mois et pour toutes ses machines, alors :

mysql> explain delete from ProcessedFiles where filename like '%201411%';


- pas besoin de mettre "reparse = true" dans /etc/apel/parser.config

- il suffit de faire une "delete" des fichiers que l'on veut remplacer

- et de relancer le "apel-pbs-log-parser", ce que nous avons fait sur nos trois CREAM-CE et notre TORQUE (apres avoir mis "parallel=true")

- seuls les fichiers "deletés" (et le fichier du jour) sont alors reloadés dans la DB de node65.

Etape 2

Le reparsing n'est pas suffisant, il faut ensuite que que F. Schaer force une republication, et pour cela il faut lui dire quels mois republier (i.e : la publication va forcer le joint sur les fichiers reparsés)

A noter : Frédéric doit faire un fichier de config spécifique par site (ça n'utilise pas d'arguments CLLI), et lancer un process apel sur chacun de ces fichiers. Comme chaque site n'a pas les même dates, Frédéric doit faire cette manipulation à la main.

Questions ouvertes

Q (Edith Knoops) - Si on met reparse = true dans /etc/apel/parser.config cela va pas tout reparser ?

Solution : pas la pein de mettre reparse =true


Q (Edith Knoops) - il faut reparser uniquement le scheduler ou aussi les creams ? Dans mon cas les 2 creams ont du multicoeurs et utilise un scheduler unique.

R (Fred. Schaer) - à voir

Liens utiles

Le lien pour voir un accounting « local » (extrait directement de mysql) des sites se trouve ici : https://node56.datagrid.cea.fr:20001/

L’accès est restreint à la CA GRID2-FR

Status des sites affectés

Impact Depuis le Statut Reparsing Statut Republication
CPPM - 29 septembre non non
IPHC faible - non non
LAPP grand 15 juillet non non
LPC faible - non non
LPSC moyen 1 octobre non non