Theoretische Leistung von AMD GPUs

Bl4d3Runn3r

Enthusiast
Thread Starter
Mitglied seit
28.12.2006
Beiträge
4.734
Ich habe mir heute aus Interesse mal die Specs der PS4 und PS4 Pro angeschaut und mit den Specs der PS5 verglichen. Mir ist aufgefallen das die GPU Specs der PS5 GPU irgendwie komisch sind.

Es kommt mir so vor als ob die GPU der PS5 gar keine IPC Verbesserungen hat im Gegenteil zu der PS4 und PS4 Pro...
Aber seht selbst, vielleicht habe ich auch keine Ahnung oder einen Denkfehler.

PS4 GPU 18 Compute Units GCN2 1152 Cores 800MHz 1.84 TFLOPS
PRO GPU 36 Compute Units GCN4 2304 Cores 911MHz 4.19 TFLOPS
PS5 GPU 36 Compute Units RDNA2 2304? Cores 2230MHz 10.28 TFLOPS

Wenn man jetzt die Leistung auf per MHz runterbricht kommt man auf folgendes (ich verdoppele jetzt die base PS4 GPU mal auf 36 Compute Units um es zu bereinigen)

PS4 Total 1.84 TFLOPS = 1840 GFLOPS/800MHz = 2.3 GFLOPS per MHz mit 36 CU sollten es dann 4.6GFLOPS sein (ungefaehrer wert)
PRO Total 4.19 TFLOPS = 4190 GFLOPS/911MHz = 4.59 GFLOPS per MHz
PS5 Total 10.28 TFLOPS = 10280 GLOPS/2230MHz = 4.6 GFLOPS per MHz

Wie kann das sein? Seit GCN2 nur 4.6 GFLOPS per MHz, sollte das nicht mit jeder neuen GPU hoeher werden oder habe ich hier einen Denkfehler?

Ich habe mir auch mal die Desktop GPUs angeguckt und folgendes ist dabei rausgekommen:

R9 290 40CU 2560 Cores 947MHz GCN2 4.849 TFLOPS 36CU bereinigt 4.364 TFLOPS 4364/947MHz = 4.6 GFLOPS per MHz
RX 480 36CU 2304 Cores 1266MHz GCN4 5.834 TFLOPS 5834/1266MHz = 4.6 GFLOPS per MHz
RX5700 36CU 2304 Cores 1725MHz RDNA 7.949 TFLOPS 7949/1725MHz = 4.6 GFLOPS per MHz

Alle Radeon GPUs haben die gleiche Performance per MHz? Vielleicht ist die FP32 Performance ja auch relativ unabhaengig von der eigentlichen IPC...

Edit:
Bei Nvidia GPUs scheint es das selbe zu sein. FP32 per MHz ist immer gleich. Also sagt dieser Wert ja eigentlich nicht wirklich was aus... oder doch? GPUs bekommen ja immer mehr Cores und Takt, ist dass das einzige was die Leistung erhoeht?
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Rohleistung (FLOPS) zwischen unterschiedlichen Architekturen zu vergleichen bringt nichts. Mit Navi kriegt AMD pro GFLOPS mehr effektive Leistung in Spielen raus als noch mit Polaris und Vega.

Und ja, FP32 pro MHz bleibt immer gleich, denn die Formel für FP32 ist #Shader * 2 * Taktrate. Die IPC fließt also in die rechnerische Rohleistung nicht ein. Das kommt erst dann ins Spiel, wenn man austestet, wie viel dieser Rohleistung auch tatsächlich in Anwendungen/Benchmarks umgesetzt wird, denn da spielen natürlich Dinge wie Caches, Latenzen, Durchsatz der einzelnen Hardwarestufen wie Geometrie Engines, Rasterizer, etc, Effizienz der Speichernutzung, Kompression aktiver Daten alles eine Rolle. Und all diese Dinge werden in den rohen FP32 nicht mit berücksichtigt.
 
  • Danke
Reaktionen: Tzk
Rohleistung (FLOPS) zwischen unterschiedlichen Architekturen zu vergleichen bringt nichts. Mit Navi kriegt AMD pro GFLOPS mehr effektive Leistung in Spielen raus als noch mit Polaris und Vega.

Und ja, FP32 pro MHz bleibt immer gleich, denn die Formel für FP32 ist #Shader * 2 * Taktrate. Die IPC fließt also in die rechnerische Rohleistung nicht ein. Das kommt erst dann ins Spiel, wenn man austestet, wie viel dieser Rohleistung auch tatsächlich in Anwendungen/Benchmarks umgesetzt wird, denn da spielen natürlich Dinge wie Caches, Latenzen, Durchsatz der einzelnen Hardwarestufen wie Geometrie Engines, Rasterizer, etc, Effizienz der Speichernutzung, Kompression aktiver Daten alles eine Rolle. Und all diese Dinge werden in den rohen FP32 nicht mit berücksichtigt.

OK, das macht Sinn. Also ist die PS5 verglichen zu der Ursprungs PS4 nicht nur 5.5 mal schneller was die GPU angeht. Also kann man auf die TFLOP angaben eigentlich verzichten, da sie nicht die reale Performance abbilden oder man zumindest nicht mit einer alten GPU vergleichen kann.
 
So sieht es aus. Rein nach den TFLOPs müsste eine RX 480 (5,8) ja nahezu gleichauf mit einer 1070 (6,4) sein. Die Realität ist aber eine andere. Alleine die neuere Architektur und Optimierung auf den Konsolen dürfte ordentlich Performance bringen, dazu noch der hohe Takt. Die PS5 wird vermutlich irgendwo im Bereich einer RX 5700 liegen. Damit ist dann 4K mit 30 FPS problemlos möglich.
 
Also kann man auf die TFLOP angaben eigentlich verzichten, da sie nicht die reale Performance abbilden oder man zumindest nicht mit einer alten GPU vergleichen kann.

Die theoretische Rechenleistung hat eine eingeschränkte Aussagekraft. Zum einen bedeutet das, daß man sich - aus den bereits genannten Gründen - nicht blind darauf verlassen kann. Zum anderen aber hilft sie, eine Karte grob einschätzen zu können, ohne auf die Details wie die Bilder pro Sekunde in diversen Benchmarkparkours anschauen zu müssen. Das ist wie mit den PS beim Auto. Die beantworten auch nicht die Frage, wie schnell der Wagen fährt, aber sie geben einen Anhaltspunkt. Der VW Käfer mit 30 PS wird keine 200 km/h fahren können, genau wie eine handelsübliche APU mit ihren ca. 1 TFlops nicht mit ner 5700XT mit ihren 10 TFlops mithalten kann.
 
Was sind TFlops: https://de.wikipedia.org/wiki/Floating_Point_Operations_Per_Second
Kurz und knapp es gibt eine Theoretische Leistung, die mit dieser Formel Berechnet wird:
Die theoretische Spitzenleistung (Theoretical Peak Performance) eines einzelnen Rechenknotens lässt sich durch Multiplikation folgender Werte berechnen:

  • Taktfrequenz
  • Anzahl der CPU-Sockel
  • CPU-Kerne pro Sockel
  • virtuelle Kerne pro CPU-Kern
  • min(Befehle die pro Takt angefangen werden können, Anzahl der Rechenwerke/Latenz eines Befehles)
  • Datenworte pro Rechenregister
  • numerische Operationen pro Befehl
Für

  • 2,5 GHz
  • 2 Sockel
  • 24 Kerne
  • 2 virtuelle Kerne pro CPU-Kern (Hyperthreading)
  • 2 angefangene Befehle pro Takt
  • 8 Datenworte pro Rechenregister (256-bit-Register bei single oder 512-bit-Register bei double precision)
  • 2 numerische Operationen pro Befehl (FMA)
erhält man 7,68 TFLOPS.
Und es gibt die gemessene Durchschnittliche Leistung, z.B. bei CPUs mit Linpack.

Die SPEC legt die zu Messende Methode fest: https://de.wikipedia.org/wiki/Standard_Performance_Evaluation_Corporation

Also alles Nachvollziehbar sowohl Rechnerisch als auch durch die SPEC Benchmarks mit praktischen Werten.

Letzten Endes nutzen Spiele Software aber kaum Floating Point sonder mehr Integer, was keine Rückschlüsse auf die Spiele-Leistung (FPS) zulässt sondern nur auf Wissenschaftliche Berechnungen.
 
Letzten Endes nutzen Spiele Software aber kaum Floating Point sonder mehr Integer, was keine Rückschlüsse auf die Spiele-Leistung (FPS) zulässt sondern nur auf Wissenschaftliche Berechnungen.

Grafikkarten machen praktisch nur FP-Berechnungen. CPUs machen sowohl Integer als auch FP und wie wichtig FP auch bei CPUs ist, hat man an AMDs schwacher Bulldozer-Architektur gesehen, bei der sich zwei Integer-Eineiten eine FP-Einheit teilen mußten.
 
Grafikkarten machen praktisch nur FP-Berechnungen. CPUs machen sowohl Integer als auch FP und wie wichtig FP auch bei CPUs ist, hat man an AMDs schwacher Bulldozer-Architektur gesehen, bei der sich zwei Integer-Eineiten eine FP-Einheit teilen mußten.
Ja und Nein, was meinst du mit nur?
Gab es keinen Gemeinsamen Speicher Bereich für CPU+GPU ?

Zwei Integer Pro 256 Bit FPU... macht 4x 256 oder 8x 128 Bit.
Das OS kann nur 64 Bit, also die Hardware ist schon Redundant vorhanden...
 
Ja und Nein, was meinst du mit nur?

Ich meinte damit, daß Spiele nicht wie von dir geschrieben "kaum", sondern im Gegenteil massiv FP-Leistung benötigen. Und zwar so massiv, daß diese meist auf speziell für Gleitkommaoperationen (üblicherweise FP32) konzipierte Grafikkarten ausgelagert wird.

Gab es keinen Gemeinsamen Speicher Bereich für CPU+GPU ?

Du meinst bei Bulldozer? Die meisten Modelle hatten ja gar keine GPU, trotzdem hatte die CPU natürlich FPUs, nur halt zu wenige, um konkurrenzfähig zu sein.
Hier mal eine recht gut verständliche Analyse:

Zwei Integer Pro 256 Bit FPU... macht 4x 256 oder 8x 128 Bit.
Das OS kann nur 64 Bit, also die Hardware ist schon Redundant vorhanden...

Nee, so kann man das nicht rechnen.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh