Bundeshöchstleistungsrechner 'Hitachi SR8000-F1'Quelle: Leibniz-Rechenzentrum (LRZ), Stand: 2005-01-17 |
Die Entscheidung für diesen Rechner fiel im Sommer 1999 auf der Basis von aktuellen Benchmark-Programmen der Hochleistungsrechner-Benutzer; die Auswahl sollte nämlich zu einem Rechner mit dem besten Kosten-/Nutzenverhältnis für realistische Anwendungen führen.
Das System enthielt in der ersten Ausbaustufe 112 Pseudo-Vektor-Knoten, die aus jeweils 8 effektiv nutzbaren CPUs bestehen. Jeder Knoten liefert eine Peak-Performance von 12 GFlop/s und verfügt über 8 GByte Hauptspeicher; vier Knoten sind sogar mit 16 GByte Hauptspeicher ausgestattet. Damit ergibt sich eine Spitzenrechenleistung von 1.3 TFlop/s. Die Knoten sind über einen dreidimensionalen Crossbar miteinander verbunden, der eine Bandbreite von 950 MByte/s zwischen jeweils zwei Knoten und eine Latenz (das ist die Verzögerung der ersten zwischen zwei Knoten versendeten Nachricht) von 19 Mikrosekunden gewährleistet. Weitere Details zur Ausstattung des HRLB in der zweiten Ausbaustufe sind in einer gesonderten Tabelle angegeben.
Das folgende Bild zeigt den Endausbau der Hitachi SR8000-F1/168
mit 168 Knoten im Rechenraum des LRZ.
Die Gesamtlänge der Maschine beträgt 10 Meter, die maximale
Breite 8 Meter.
Die Nutzung des HLRB soll Projekten aus ganz Deutschland
ermöglicht werden, deren Durchführung einerseits aus
wissenschaftlichen Gründen dringend geboten ist, andererseits auf
allen sonst zur Verfügung stehenden Plattformen nicht möglich
wäre.
Im Unterschied zu den bislang am LRZ vorhandenen
Hochleistungsrechnern kann daher den bayerischen Hochschulen kein
genereller Zugang gewährt werden, sondern die Zuteilung von
Ressourcen erfolgt projektbezogen (und bundesweit) über ein
Gutachtergremium.
Schwerpunktmäßig werden auf dem HLRB gut vektorisierende
Programme bevorzugt, jedoch ist die Architektur der SR8000-F1
flexibel genug, dass der HLRB auch als MPP-System genutzt werden
kann.
Endausbau 2002 Spitzenleistung des Gesamtsystems: 2,0 TFlop/s Erwartete Anwendungsleistung: 600 GFlop/s Hauptspeicherausbau: 1376 GByte
Charakteristik:
Einsatzgebiet:
Hardware Description of the SR8000-F1Edition: 2003-03-12 |
The following table shows details of the HLRB:
Number of SMP-Nodes |
|
CPUs per Node |
|
Number of Processors |
|
Peak Performance per CPU |
|
Peak Performance per Node |
|
Peak Performance of the whole System |
|
LINPACK Performance of the whole System |
|
Expected Efficiency (from LRZ Benchmarks) |
|
Performance from main memory (most unfavourable case) |
|
Memory per node |
(ca. 6.5 GByte in user space) 4 Nodes with 16 GByte each |
Memory of the whole system |
|
Processor Characteristics
Clock Frequency Number of Floatingpoint Registers Number of Integer Registers Data Cache Size DCache Line Size Dache Copy back or Write through DCache set associativness DCache Mappping Bandwidth Registers to L1 DCache relative to frequency relative to compute performance Bandwidth to Memory relative to compute frequency relative to compute performance Instruction Cache ICache set associativness ICache Mapping |
375 MHz 160 (Global:32, Slide:128) 32 128 KB 128 B Write through 4-way direct 12 GByte/s 32 Bytes/cycle 1 DP Word / theor. Flop2 4 GBytes/s 10 Bytes/cycle 1/3 DP Words / theor. Flop2 64 KB 2-way direct |
Aggregated Disk Storage | 10 TBytes3 |
Disk storage for HOME-Directories (/home) |
|
Disk storage for temporary and pseudo-temporary data |
|
Aggregated I/O Bandwidth to /home |
|
AggregatedI/O Bandwidth to
temporary data (/tmpxyz, /ptmp) |
|
Communication bandwidth measured
unidirectionally between two nodes (available bidirectionally)
using MPI without RDMA using MPI and RDMA hardware |
770 MByte/s 950 MByte/s 1000 MByte/s |
Communication capacity of the
whole system (2 x unidirectional bisection bandwidth) with MPI
and RDMA |
(Hardware: 2x84 =168 GByte/s) |
1 1 GFlop/s
= 1 Giga Floatingpoint operations/second = 1000000000 (1 with 9 Zeros,
Giga) Floating Point Operations per second.
2
Machine Balance: Number of Double Precision (64-bit) Words per theoretical
possible Floating Point Operation
3 1 TByte
= 1TeraByte = 1000 GBytes