Difference between revisions of "CPU-Benches"

Un article de lcgwiki.
Jump to: navigation, search
(Tests réalisés au LAPP (eric) :)
(Tests réalisés au LAPP (eric) :)
Ligne 236: Ligne 236:
  
  
<span style="color:#0066FF">Scientific-Linux V5.5 x86_64, </span> <span style="color:#00FF00">Scientific-Linux V6.3 x86_64 : GCC 4.4.6-4, </span>
+
<span style="color:#0066FF">Scientific-Linux V5.5 x86_64, </span> <span style="color:#00FF00">Scientific-Linux V6.3 x86_64 : GCC 4.4.6-4, </span> <span style="color:#CC3333">Scientific-Linux V6.5 x86_64 : GCC 4.4.7-11, </span>
  
 
Hyperthreading toujours actif, c'est la version 32 bits du bench qui doit être publiée (COULEUR INTENSE)
 
Hyperthreading toujours actif, c'est la version 32 bits du bench qui doit être publiée (COULEUR INTENSE)
Ligne 269: Ligne 269:
 
|-  
 
|-  
 
| Fujitsu BX924 S4 || INTEL E5-2630L v2 2.40GHz || 12 + 12(HT) || 64Go || 24 || bgcolor="#0066FF" | x || bgcolor="#A0C2F6" | x ||bgcolor="#00FF00" | 224.71 || bgcolor="#C5F6A0" | x
 
| Fujitsu BX924 S4 || INTEL E5-2630L v2 2.40GHz || 12 + 12(HT) || 64Go || 24 || bgcolor="#0066FF" | x || bgcolor="#A0C2F6" | x ||bgcolor="#00FF00" | 224.71 || bgcolor="#C5F6A0" | x
|-  
+
|-
 +
| Fujitsu BX2560 || INTEL E5-2620 v3 2.40GHz || 12 + 12(HT) || 64Go || 18 || bgcolor="#0066FF" | x || bgcolor="#A0C2F6" | x ||bgcolor="#CC3333" | 231.38 || bgcolor="#FF0099" | x
 +
|-
 
|}
 
|}
  

Version du 08:39, 27 août 2015

Transition vers les nouvelles unités specs HEP-SPEC06 --MàJ --Chollet 09:37, 11 septembre 2009 (CEST)--

Page HEPiX de référence

One major rule of HS06 benchmarking is to run the benchmark in exactly the same system configuration which is also used for production

  • If a site runs WNs with hyperthreading disabled, they must run the benchmark on a system under test with HT

disabled, and vice versa.

  • The number of HS06 benchmark copies should be set to the same number of job slots like the WNs are configured.

Stratégie LCG

  • LCG Overview Board - Change of CPU accounting unit (I.Bird):

The working group on benchmarking has now concluded, both on the new benchmark and on the transition process from SI2K. A new benchmark, based on the SPEC 2006 suite has been agreed upon. This uses a combination of the SPEC2006 FP and INT benchmarks, and has been shown to scale well with the experiments’ applications. This benchmark, labelled HEP-SPEC06, will be used in future to specify requirements and resources. There is an agreement to use a simple conversion factor of 4 representing the benchmarks ratio HEP-SPEC06/kSI2K. Sites will be requested to benchmark their existing resources, and the results will be published on a web site. Future procurements should require the vendor to run the benchmark – provided as a simple script. Planning for changing the reporting in the accounting system is under way. The new unit will be used in the April RRB.

HEP-SPEC06 Benchmark

  • La distribution de la suite SPEC CPU2006 version 1.1 est disponible (sous AFS au CC).

Pour plus d'infos contacter F.Chollet ou Pierre Larrieu

Conversion des kSI2k

  • Facteur de conversion HEP-SPEC06/kSI2k : 4
  • 1 kSI2k = 4 HEP-SPEC06

Publication des capacités CPU

  • Document de référence pour la publication dans le contexte actuel (Glue schema 1.3):

https://twiki.cern.ch/twiki/pub/LCG/WLCGCommonComputingReadinessChallenges/WLCG_GlueSchemaUsage-1.8.pdf

Tentative de synthèse --Chollet 09:46, 11 septembre 2009 (CEST)
** PhysicalCPUs = processeurs c.a.d chipset
  Un subcluster de 113 machines bi processeurs quadricoeurs = 226 CPUs physiques
** LogicalCPUs = processeurs logiques ou vus de l'OS correspond au nombre de cœurs pour   
  autant que l'hyperthreading ne soit pas activé (incluant les machines offline ou arrêtées)
  Un subcluster de 113 machines bi processeurs quadricoeurs = 904 CPUs logiques
  Le nombre de cœurs par CPU physique (par chipset) étant de 4 
  A publier via l'attribut GlueSubClusterLogicalCPUs
** A noter : Un SubCluster est a priori défini comme un ensemble homogène de workers mais 
  il est "admis que dans la pratique" cela ne soit pas le cas. Dans ce cas, les sites sont
  sensés publier des spécifications moyennes pour certains attributs.
  • Consignes pour les sites / Advices for sites (Juin 2009):

Présentation J.Gordon

  Tentative de synthèse --Chollet 17:50, 10 septembre 2009 (CEST)
  MàJ --Chollet 17:01, 2 décembre 2009 (CET)
  - Effectuer la mesure de la capacité CPU de la machine à partir du benchmark HEP-SPEC06
    en utilisant le script mis à disposition ci-dessous. ATTENTION le bench fournit 
   un score par machine et la publication se fait par cœur
  - Publier la capacité par cœur en HEP-SPEC06 via 
  GlueHostProcessorOtherDescription: Benchmark=<value>-HEP-SPEC06
   Cet attribut est également utilisé pour publier le nombre moyen de cœurs par processeur
   (ou chipset)
   GlueHostProcessorOtherDescription: Cores=<typical number of cores per CPU>, Benchmark=
   <value>-HEP-SPEC06 
  - Convertir la capacité CPU par coeur en SI2K en mulipliant par 250
  - Mettre à jour l'attribut GlueHostBenchmarkSI00  
  
   Les sites qui n'ont pas passé le benchmark HEP-SPEC06 doivent publier une valeur moyenne en SpecInt200 
  par LogicalCPU via l'attribut GlueHostBenchmarkSI00 

En cas de clusteur ou sous-clusteur hétérogène, GlueHostBenchmarkSI00 étant défini comme "Average SpecInt2000 rating per logical CPU" c.a.d par coeur pourvu que l'hyperthreading soit désactivé, vous êtes invités à publier une valeur moyenne pondérée. Voir le document de référence page 5 (dernière ligne)



Résultats des benchs effectués par les sites

SPEC CPU2000 Des tests de puissance des CPU ont été réalisés au LAPP (Eric Fede) et à Subatech (Jean-Michel Barbet) avecla suite SPEC CPU2000 suivant la méthodologie recommandée : http://hepix.caspur.it/processors/ Ajout des tests au CPPM (Edith Knoops)

HEP-SPEC06 Des mesures avec le benchmark suite HEP-SPEC06 sont également disponibles ( fond bleu des tableaux)


Tests réalisés par Jean-Michel :

A noter que les tests ont été réalisés sur des machines en configuration opérationnelles pour la grille (avec tous les daemons).

Scientific-Linux V4.3 i386, gcc v3.4.5

Machine CPU Nb cores Mémoire RAM CERN SI2K/core [1] FZK SI2K/core [3] CERN SI2K/core corrigé [2] HEP-SPEC06 32bits/machine [4] SPEC HEP 64bits/machine [5]
Dell PE1955 Woodcrest 5160 3.00GHz 4 8Go 1409 1830 2113 39.48 -
IBM Clovertown 2.33GHz 8 16Go 979 1875 1468 53.12 -

Scientific Linux SL release 4.5 (Beryllium) x86_64, gcc v3.4.6

Machine CPU Nb cores Mémoire RAM CERN SI2K/core [1] FZK SI2K/core [3] CERN SI2K/core corrigé [2] HEP-SPEC06 32bits/machine [4] SPEC HEP 64bits/machine [5]
Dell P21950 Clovertown E5420 2.50GHz 8 16Go - - - 63.18 57.63

Scientific Linux SL release 5.3 (Boron) x86_64 gcc version 4.1.2 20080704 (Red Hat 4.1.2-44)


Machine CPU Nb cores Mémoire RAM CERN SI2K/core [1] FZK SI2K/core [3] CERN SI2K/core corrigé [2] HEP-SPEC06 32bits/machine [4] SPEC HEP 64bits/machine [5]
Dell P21950 Clovertown E5420 2.50GHz 8 16Go - - - [6] [6]
Dell R410 Nehalem E5520 2.26GHz 8 16Go - - - 94.38 -
Dell R410 Nehalem E5520 2.26GHz 16 [7] 16Go - - - 114.36 [7] -


[Août 2013] Scientific Linux SL release 6.3 (Carbon) x86_64 gcc version 4.4.6 20120305 (Red Hat 4.4.6-4)


Machine CPU Nb cores Mémoire RAM CERN SI2K/core [1] FZK SI2K/core [3] CERN SI2K/core corrigé [2] HEP-SPEC06 32bits/machine [4] SPEC HEP 64bits/machine [5]
Dell P21950 Clovertown E5420 2.50GHz 8 16Go - - - 71.24 -
Dell R410 Nehalem E5520 2.26GHz 8 16Go - - - 96.36 -
Dell R410 Nehalem E5620 2.40GHz 8 16Go - - - 102.13 -


[Novembre 2013] Scientific Linux SL release 6.3 (Carbon) x86_64 gcc version 4.4.6 20120305 (Red Hat 4.4.6-4)


Machine CPU Nb cores Mémoire RAM CERN SI2K/core [1] FZK SI2K/core [3] CERN SI2K/core corrigé [2] HEP-SPEC06 32bits/machine [4] SPEC HEP 64bits/machine [5]
Dell R420 Intel(R) Xeon(R) CPU E5-2407 0 @ 2.20GHz 8 32Go - - - 100.79 -


Fiches SPEC des machines :

Dell PowerEdge 1955 Woodcrest 5160 : http://www.spec.org/osg/cpu2000/results/res2006q3/cpu2000-20060626-06298.html

Dell PowerEdge 1950 Clovertown E5420 2.33GHz :

Dell PowerEdge 1950 E5420 2.50GHz :

IBM 3550 Woodcrest 5160 : http://www.spec.org/osg/cpu2000/results/res2006q3/cpu2000-20060623-06219.html

IBM 3350 Clovertown E5345 : http://www.spec.org/osg/cpu2000/results/res2006q4/cpu2000-20061113-07918.html

Notes :

[1] : Moyenne de 3 exécutions successives avec les optimisations CERN, chaque exécution démarrant un benchmark CPU2000 par CPU core.

[2] : Correction : La valeur moyenne ci-dessus + 50%. C'est la valeur à publier via le système d'information de la grille.

[3] : Une exécution unique avec les optimisations FZK à titre indicatif.

[4] : Benchmark suite HEP SPEC, en suivant les recommandations : https://twiki.cern.ch/twiki/bin/view/FIOgroup//TsiBenchHEPSPEC

[5] : A titre indicatif : résultats avec les binaires 64bits (HEP-SEPC06 n'est défini que pour des binaires 32bits)

[6] : Ce test est suspendu car je suis tombé sur le problème suivant :

     https://www.jiscmail.ac.uk/cgi-bin/webadmin?A2=ind0909&L=LCG-ROLLOUT&P=R3371

[7] : En activant l'hyperthreading, les benches tournent en 16 exemplaires. A titre indicatif (une seule mesure).


Tests réalisés au LAPP (eric) :

Scientific-Linux V3.08 i386, gcc v3.4.3

A noter que les tests ont été réalisés sur des machines dont tous les services non nécéssaires étaient desactivés

Machine CPU Nb cores Mémoire RAM CERN SI2K/core [1] FZK SI2K/core [3] CERN SI2K/core corrigé [2]
HP BL 460c Woodcrest 2.66GHz 4 8Go 1367 1665 2050


Scientific-Linux V4.5 x86_64, gcc v3.4

A noter que les tests ont été réalisés sur des machines dont tous les services non nécéssaires étaient desactivés. Un tuning "simple" au niveau du bios donne des disparités dans les résultats des bench qui depassent les 10 %.

On est toujours dans le cas où l'hyperthreading est désactivé : nb de cores logiques = nb de cores physiques = nombre de thread

Machine CPU Nb cores Mémoire RAM CERN SI2K/core [1] FZK SI2K/core [3] CERN SI2K/core corrigé [2] HEP-SPEC06 32bits [4] per machin HEP-SPEC06 64bits [4] per machin
HP BL 460c Woodcrest 2.66GHz 4 8Go 1485 1592 2227 36.58 34.6
HP BL 460c Clovertown 2.33GHz 8 16Go 1225 x 1837 56.04 51.18
DELL 1950 Intel 5335 2GHz 8 8Go 1060 1139 1590 x x
HP BL 460c Harpertown 3GHz 8 16Go 1620 1715 2430 70.83 63.99
DELL M600 Harpertown 2.66GHz 8 32Go 1481 1588 2221 x x
HP BL 2x220G6 Nehalem L5520 2.27GHz 8 16Go x x x 95.35 x


[1] : Moyenne de 3 exécutions successives avec les optimisations CERN, chaque exécution démarrant un benchmark CPU2000 par CPU core.

[2] : Correction : La valeur moyenne ci-dessus + 50%. C'est la valeur à publier via le système d'information de la grille.

[3] : Une exécution unique avec les optimisations FZK à titre indicatif.

[4] : Benchmark suite HEP SPEC, en suivant les recommandations : https://twiki.cern.ch/twiki/bin/view/FIOgroup//TsiBenchHEPSPEC



Scientific-Linux V5.5 x86_64, Scientific-Linux V6.3 x86_64 : GCC 4.4.6-4, Scientific-Linux V6.5 x86_64 : GCC 4.4.7-11,

Hyperthreading toujours actif, c'est la version 32 bits du bench qui doit être publiée (COULEUR INTENSE) La version 64 bits du bench est donnée à titre indicative ( COULEUR PASTEL)

Machine CPU Nb cores Mémoire RAM Nb de Threads HEP-SPEC06 32bits per machin HEP-SPEC06 64bits per machin HEP-SPEC06 32bits per machin HEP-SPEC06 64bits per machin
HP BL 460c Woodcrest 2.66GHz 4 8Go 4 36.58 x 44.15 x
HP BL 460c Harpertown 3GHz 8 16Go 8 70.83 x 75.47 x
HP BL 280c Intel E5630 2.53GHz 8 + 8(HT) 32Go 8 103.60 119.36 117.07 x
HP BL 280c Intel E5630 2.53GHz 8 + 8(HT) 32Go 12 122.31 137.36 126.71 x
HP BL 280c Intel E5630 2.53GHz 8 + 8(HT) 32Go 16 128.04 140.42 138.20 x
HP BL 280c Intel E5645 2.40GHz 12 + 12(HT) 48Go 16 165.5 x 171.28 191.62
HP BL 280c Intel E5645 2.40GHz 12 + 12(HT) 48Go 18 170.8 x 175.47 199.31
HP BL 280c Intel E5645 2.40GHz 12 + 12(HT) 48Go 20 175.2 x 178.62 199.93
Fujitsu BX924 S4 INTEL E5-2630L v2 2.40GHz 12 + 12(HT) 64Go 16 x x 200.62 237.63
Fujitsu BX924 S4 INTEL E5-2630L v2 2.40GHz 12 + 12(HT) 64Go 18 x x 209.39 244.46
Fujitsu BX924 S4 INTEL E5-2630L v2 2.40GHz 12 + 12(HT) 64Go 20 x x 216.47 250.21
Fujitsu BX924 S4 INTEL E5-2630L v2 2.40GHz 12 + 12(HT) 64Go 24 x x 224.71 x
Fujitsu BX2560 INTEL E5-2620 v3 2.40GHz 12 + 12(HT) 64Go 18 x x 231.38 x



Tests réalisés au CPPM (Edith/Carlos) :

Scientific-Linux 4.6 x86_64, gcc v3.4.6

Scientific-Linux 5.3 x86_64, gcc 4.1.2

A noter que les tests ont été réalisés sur des machines dont tous les services non nécéssaires étaient desactivés

Machine CPU Nb cores Mémoire RAM CERN SI2K/core FZK SI2K/core CERN32 SI2K/core CERN SI2K/core corrigé HEP-SPEC06 32bits (SL4) HEP-SPEC06 32bits (SL5.3) HEP-SPEC06 64bits (SL5.3)
HP DL145 Opteron 250 2.4Ghz 2 4Go 1149 1278 972 1725 15.14 16.16
SUN Opteron 250 2.4Ghz 2 4Go 1173 1298 988 1760
HP DL145G2 Opteron 275 2.2 Ghz 4 6Go 981 1087 857 1471 26.52 27.41
DELL Opteron 2218 2.6 Ghz 4 8Go 1199 1073 1045 1798 32.24 31.68
DELL Xeon E5420 2.5Ghz 8 16 Go 1418 1528 x 2128 63.12 68.64
DELL Xeon X5550 2.67GHz 8 24 Go 116
DELL Xeon X5550 2.67GHz 16 [1] 24 Go 145.82
DELL R410 Xeon X5650 2.67GHz 24 [2] 48 Go 199.34
DELL C6100 Xeon X5650 2.67GHz 24 [2] 48 Go 231.40


[1] 8 cores / 16 virtual cpu

[2] 12 cores / 24 virtual cpu


Tests réalisés à l'IPHC (Jérôme) :

Scientific-Linux 5.3 x86_64, gcc v4.1.2

Pour la réalisation de ces tests, seuls les services indispensables étaient activés. Pour chaque système, le résultat indiqué est une moyenne de quatre tests. Compte tenu de la variation des résultats, une seule décimale est affichée.

Machine CPU Nb cores Mémoire RAM CERN SI2K/core FZK SI2K/core CERN SI2K/core corrigé HEP-SPEC06 32bits per machin
DELL M600 Xeon E5410 2.33Ghz 8 16 Go N/A N/A N/A 61.1
DELL M600 Xeon L5420 2.50Ghz 8 16 Go N/A N/A N/A 65.4
DELL M610 Xeon E5530 2.40Ghz 8 24 Go N/A N/A N/A 100,6
DELL M610 [1] Xeon E5530 2.40Ghz 8 + 8 24 Go N/A N/A N/A 127,0
DELL M610 Xeon L5640 2.26Ghz 12 48 Go N/A N/A N/A 142,1
DELL M610 [1] Xeon L5640 2.26Ghz 12 + 12 48 Go N/A N/A N/A 171,6
HP SL390s Xeon E5649 2.53Ghz 12 48 Go N/A N/A N/A 146,7
HP SL390s [1] Xeon E5649 2.53Ghz 12 + 12 48 Go N/A N/A N/A 179,6
HP SL250 [1] Xeon E5-2670 2.60Ghz 16 + 16 64 Go N/A N/A N/A 338,5


[1] Option "Virtual CPU" activée.


Tests réalisés au LPC (Jean-Claude) :

Scientific-Linux 4.6 x86_64, gcc v3.4.6

Pour la réalisation de ces tests, seuls les services indispensables étaient activés.

Machine CPU Nb cores Mémoire RAM CERN SI2K/core FZK SI2K/core CERN SI2K/core corrigé HEP-SPEC06 32bits [1] per machin
IBM Blade Xeon E5345 2.33Ghz 8 16Go N/A N/A N/A 57.41

[1] Moyenne des résultats obtenus sur trois tests.


Scientific-Linux 5.3 x86_64, gcc v4.1.2

Machine CPU Nb cores Mémoire RAM CERN SI2K/core FZK SI2K/core CERN SI2K/core corrigé HEP-SPEC06 32bits [2] per machin
IBM Blade Xeon E5430 2.66Ghz 8 12Go N/A N/A N/A 70.64

[2] Moyenne des résultats obtenus sur quatre tests.



Tests réalisés au LLR (pascale):

Scientific-Linux 5.3 x86_64, gcc v4.1.2

les machines ont ete installees comme les WN standard de la grille

Machine CPU Nb cores Mémoire RAM Virtual CPU enabled HEP-SPEC06 32bits per machin HEP-SPEC06 64bits [1] per machin
DELL R410 E 5520 16[1] 24Go YES 118.57 143.44
E 5540 16[1] 24Go YES 128.38 151.03
DELL R410 E 5520 8 24Go NO 96.51 113.35
E 5540 8 24Go NO 103.41 121.47
DELL R410 E 5520 16[1] 16Go YES Pas fait Pas fait
E 5540 16[1] 16Go YES Pas fait 148.64
DELL R410 E 5520 8 16Go NO 94.97 109.42
E 5540 8 16Go NO 102.41 117.5



[1] Sur les serveurs il y a réellement 8 cores en tout. A cause de l'activation du "Virtual CPU" , le systeme d'exploitation pense qu'il y a 16 procs : la commande /proc/cpuinfo donne 16 coeurs. D'après les tests il est interessant d'activer le "Virtual CPU". Mais, combien de jobs faut-il activer en parallele? Et comment allons-nous les déclarer dans la grille? Voici les résultats des tests avec 8, 10, 12, 14 et 16 jobs lancés en parallèle pour la configuration suivante : R410, 16g ram, Virtual CPU activé.


Nb jobs HEP-SPEC06 64bits [1] per machin
8 jobs 115.66
10 jobs 130.66
12 jobs 139.29
14 jobs 144.38
16 jobs 148.64

Tests réalisés à l'IRFU (Christine):

Scientific Linux SL release 5.3 (Boron)

2.6.18-164.6.1.el5 #1 SMP Tue Nov 3 23:02:51 EST 2009 x86_64 x86_64 x86_64 GNU/Linux

version gcc 4.1.2 20080704 (Red Hat 4.1.2-44)


Machine CPU Nb cores Virtual CPU enabled Nbre de thread Mémoire RAM HEP-SPEC06 64bits per machin [1]
Bull R422 E 5520 16 Virtual CPU / 8 physical CPU YES 16 24Go 142.26
Bull R422 E 5520 16 Virtual CPU / 8 physical CPU YES 12 24Go 136.69
Bull R422 E 5520 16 Virtual CPU / 8 physical CPU YES 8 24Go 114.67
Bull R422 E 5520 8 NO 8 24Go 114.01
Bull R422 E 5520 8 NO 12 24Go 121.39
Fujitsu PRIMERGY RX200 Intel(R) Xeon(R) CPU L5420 @ 2.50GHz 8 _ 8 16Go 71.26


[1] Moyenne des résultats obtenus sur deux tests


Tests réalisés à l'IPNL (Denis) :

Scientific Linux SL release 5.4 (Boron)

2.6.18-274.18.1.el5 #1 SMP Thu Feb 9 12:20:03 EST 2012 x86_64 x86_64 x86_64 GNU/Linux

version gcc 4.1.2 20080704 (Red Hat 4.1.2-50)


System Processor Frequency L2 Cache CPU nb Nb cores / CPU Virtual CPU enabled Thread nb RAM HEP-SPEC06 32bits per System HEP-SPEC06 64bits per System
Dell C6100 E 5645 2.40 Ghz 12 Mo 2 CPU 6 c YES 24 [1] 48Go 181.13 199.64


[1] Nous avons configuré 20 job slots pour 24 coeurs virtuels

Résultats des benchs GRIDPP (UK)