Welche Fortschritte wurden in der Zen-Architektur erzielt, die es AMD und Intel ermöglichen, miteinander zu konkurrieren?

Welche Fortschritte wurden in der Zen-Architektur erzielt, die es AMD und Intel ermöglichen, miteinander zu konkurrieren?
Es ist viele Jahre her, seit AMD das letzte Mal gegen Intel angetreten ist. Alle A-Fans vermissen die K7-Ära, die mit dem EV6-Bus begann, und die glorreichen Tage, als AMD64 die Gunst des neuen Systems von Microsoft gewann und Intel dazu zwang, die Förderung von IA64 aufzugeben und von A die Lizenz zum Wechsel zu x86-64 zu erhalten. Allerdings dauern die guten Zeiten nie lange. Als Intel den Schatten von NetBurst abschüttelte und die Core-Ära einleitete, konnte A gegenüber I keinen Vorteil mehr erlangen. Der spätere Beitritt zum ARM-Lager brachte für Intel keine Vorteile mehr. Gleichzeitig zeigte sich auch im GPU-Bereich ein immer deutlicherer Rückgang, der dazu führte, dass dieser von NVIDIA für längere Zeit unterdrückt wurde. Daher auch der Spitzname „Slide“-Fabrik in den letzten paar Jahren – AMD hat sich auf die „PPT rettet das Land“-Politik verlassen, um die Herzen der A-Fans höher schlagen zu lassen, was auch dazu führt, dass ihre Support-Bemerkungen jedes Mal, wenn sie mit den Upgrades von A konfrontiert werden, meist selbstironisch sind. Doch dieses Mal scheint AMD den Menschen wirklich Hoffnung auf eine Trendwende gemacht zu haben. Während des Chiptechnologieforums Hot Chips 2016, das diese Woche stattfand, gab AMD viele Details zu seiner neuen Mikroprozessorarchitektur Zen bekannt, was ein Zeichen für die Rückkehr des Helden zu sein schien. Welche Fortschritte hat Zen also gemacht, die es AMD ermöglichen, wieder auf Augenhöhe mit Intel zu stehen? Ein Schuss in den Arm: Mikrobefehlscache Für den Entwurf der Mikroprozessorarchitektur der nächsten Generation entschied sich AMD, die vorhandene Architektur vollständig aufzugeben, setzte sich von Anfang an das Ziel eines „Hochleistungs-x86-Prozessors“ und gestaltete den Kern von Zen neu. Die Architektur der vorherigen Generation, nämlich des Bulldozers/Baggers, hat in praktischen Tests viele Mängel offenbart. Die Kerndesigningenieure von AMD sollten ihre eigenen Überlegungen anstellen, wenn sie sich dafür entscheiden, zuerst abzubauen und dann aufzubauen, anstatt nach Lecks zu suchen und diese zu schließen. Es gibt eine erwähnenswerte Änderung gegenüber der neuen Kernarchitektur: AMD hat Zen einen Mikrobefehlscache hinzugefügt. Die Rolle des Mikrobefehlscaches in einem Computermodul besteht darin, die Mikrobefehle näher an die Mikrobefehlswarteschlange zu bringen und so zu vermeiden, dass der Kern zusätzliche Zeit mit dem Abrufen von Befehlen aus dem Befehlscache auf niedrigerer Ebene verschwendet. Dies trägt sehr effektiv zur Verbesserung der Ausführungseffizienz des gesamten Kerns bei. Intel begann schon sehr früh damit, seinen CPU-Kerndesigns Mikrobefehls-Caches hinzuzufügen, und die Ergebnisse waren so gut, dass sie dies über mehrere Generationen hinweg beibehielten (wenn man bedenkt, dass Conroe, das die Kluft zwischen Intel und AMD vergrößerte, möglicherweise direkt davon profitierte), gibt es keinen Grund, nicht zu glauben, dass AMDs Nachahmung noch bedeutendere positive Auswirkungen haben wird. Die aktuelle Frage im Zusammenhang mit dem Mikrobefehlscache von AMD Zen betrifft lediglich seine Größe. Wenn ich raten müsste, würde ich sagen, dass die Pufferparameter von AMD angesichts der Tatsache, dass typische Micro-Op-Caches relativ klein sind und Intels Micro-Op-Cache 8-Wege-1536-uOps unterstützt, denen von Intel ebenbürtig sein sollten, da es nicht viel Auswahl gibt. Damit wird AMDs Behauptung, dass Zen im Vergleich zum Kern der vorherigen Generation eine um mindestens 40 % höhere Anzahl an Befehlen pro Taktzyklus (IPC) aufweist, deutlich glaubwürdiger. Natürlich würde das Hinzufügen eines Mikrobefehlscaches allein ohne numerische Verbesserung die 40 % etwas blass erscheinen lassen, also hat AMD auch verschiedene Indikatoren für Zen vergrößert : Die Anzahl der einzelnen Mikrobefehlsverteilungen wurde von 4 auf 6 erhöht (und 4 Ganzzahl- und 6 Gleitkomma-Mikrobefehle können gleichzeitig verteilt werden); die Integer-/Fließkomma-Befehlsplaner stiegen von 48/60 auf 84/96; Die Länge der L/S-Warteschlange und der Rückrufwarteschlange wurde jeweils um etwa 50 % erhöht. Im Idealfall ermöglichen diese numerischen Verbesserungen in Kombination mit einer genaueren Verzweigungsvorhersage dem Kern, in kürzester Zeit einen höheren Durchsatz zu erzielen und diese hohe Effizienz über längere Zeiträume aufrechtzuerhalten. Mit dem Microstruction Cache hat AMD Zen sozusagen ein Kernmanko wettgemacht. Ohne diesen Schritt käme es nicht in Frage, Intel herauszufordern. Das Vertrauen wird wieder aufgebaut: Rekonstruktion der Cache-Hierarchie. Die Cache-Hierarchiestruktur von Zen wurde im Vergleich zu einem Bulldozer vollständig transformiert. Obwohl AMD die Diskussion von Daten wie Cache-Latenz und Bandbreite vermeidet, geht man derzeit davon aus, dass es Änderungen gibt, die positive Auswirkungen haben können. Zunächst änderte Zen den 32 KB großen Datencache der ersten Ebene jedes Kerns von einem Bulldozer-ähnlichen Penetrationstyp in einen Write-Back-Typ und band die Datenaktualisierung des Kerncaches nicht mehr an den Buszyklus der CPU und des Speichers. Dadurch kann die Leistung von Burst-Schreibvorgängen des First-Level-Cache aufrechterhalten werden, ohne darauf warten zu müssen, dass der langsamere Speicher die zwischengespeicherten Daten innerhalb desselben Buszyklus synchronisiert. Und laut Statistik sind Ladevorgänge häufiger als Speichervorgänge. Zens Cache der ersten Ebene macht die L/S-Einheiten asymmetrisch und bietet mehr Ladekanäle. Zurück zum Gesamtbild: AMD hat die ursprüngliche Bulldozer-Architektur vollständig demontiert und einen neuen CCX gebaut – eine Struktur, die vier CPU-Kerne und ihre Caches der ersten und zweiten Ebene an den Cache der dritten Ebene hängt. Dieser 8 MB große L3-Cache ist nicht wie der übliche CPU-Cache auf niedrigerer Ebene, der Daten basierend auf den vom CPU-Kern benötigten Prefetch-/Anforderungsanweisungen sammelt. Seine Aufgabe besteht darin, einen temporären Speicherort für Anweisungen bereitzustellen, die aus den Caches der ersten und zweiten Ebene entfernt wurden, weil sie nicht rechtzeitig ausgeführt wurden oder durch Writeback-Befehle als ungültig markiert wurden. Es ähnelt eher einem Flüchtlingslager und ist daher definitiv nicht so effizient wie die Caches der ersten und zweiten Ebene. Da der 8-Wege-L2-Cache des Zen-Kerns jedoch bis zu 512 KB groß ist, kann diese Ineffizienz bis zu einem gewissen Grad ausgeglichen werden. Da der Flüchtlingscache keine Daten im sekundären Cache speichern muss, wird gleichzeitig die Datenredundanz im Cache reduziert und indirekt die Cache-Nutzungseffizienz bzw. die Cache-Kapazität verbessert. Das modulare Design, das AMD in Zen verwendet, verleiht der neuen CPU außerdem eine bessere Skalierbarkeit der Produktlinie, sodass eine Architektur alles von den energieeffizientesten Mobilchips bis zu den heißesten Performance-Lieblingen abdecken kann und so die gleiche Lücke wie bei der vorherigen Generation vermieden wird. Beispielsweise kann aus einem CCX eine Quad-Core-CPU mit geringem Stromverbrauch für Laptops gemacht werden, die mit Intels mobilen i3/i5 konkurrieren kann. Auf dem Desktop können zwei CCXs zu einem 8-Core-Zen kombiniert werden, um den i7 direkt herauszufordern. AMD hat jedoch nicht angegeben, wie die Verbindungsstruktur zwischen den CCXs aussieht und hat Spekulationen über die Verbesserung des HyperTransport-Busses zurückgewiesen, ohne jedoch eine konkrete Antwort zu geben, sodass eine Frage offen bleibt, die zum Nachdenken anregt. Kurz gesagt: Unabhängig davon, ob AMD die von ihm behauptete Cache-Effizienz erreichen kann, bei der der Durchsatz des Cache der ersten und zweiten Ebene verdoppelt und die Geschwindigkeit des Cache der dritten Ebene verfünffacht wird, wird AMD zumindest in Bezug auf die Größe problemlos Intels aktuellen Skylake übertreffen. Ternäre Methodik: Echtes SMT. Intels Anwendung des Simultaneous Multithreading (SMT) lässt sich bis ins Jahr 2008 zurückverfolgen . Das Aufteilen eines Kerns in zwei Threads ist eine schwierige Aufgabe. Allein diesen beiden Threads zu erklären, wie sie gut miteinander auskommen, Cache und Ressourcen sinnvoll nutzen und sich nicht gegenseitig monopolisieren können, reicht aus, um diese Ingenieure sehr zu deprimieren. Möglicherweise hat AMD seinen eigenen CPUs im Laufe der Jahre keine SMT-Funktionen hinzugefügt, wodurch dieses Problem verhindert wurde. Nächstes Jahr sollten wir AMD-CPUs mit 8 Kernen/16 Threads sehen. Intern folgt die Planung zwischen Threads im Zen-Kern hauptsächlich der Time-Sharing-Strategie. Obwohl dies nicht die beste Lösung ist, wenn man bedenkt, dass unterschiedliche Threads viele unterschiedliche Belegungsmerkmale haben können, verlässt sich AMD dennoch auf seine eigene Methode zur Thread-Markierung/-Unterscheidung, um dies zu erzwingen. Normalerweise gibt es drei Situationen, die die Prozesspriorität im Zen beeinträchtigen. Zum einen analysiert die CPU den Datenfluss jedes Threads, um zu bestimmen, welcher eine höhere algorithmische Priorität hat. Bei ressourcenintensiven Aufgaben wie Verzweigungsvorhersage und Umbenennung von Ganzzahlen/Gleitkommazahlen passt der Thread seine Priorität entsprechend an. Zweitens weist die CPU der Thread-Verarbeitung Prioritäten basierend auf der Verzögerungsanforderungsmarkierung zu, wenn der Thread verzögerungsempfindliche Vorgänge wie TLB-Cache und Ladewarteschlangenvorgänge umfasst (die sich normalerweise in der oberen Ebene als rechtzeitige Reaktion auf Benutzerfeedback widerspiegeln). und für Teile wie die Mikrobefehlswarteschlange, die einer Sequenz folgen, verwendet die CPU eine statische Time-Sharing-Strategie, um Threads abwechselnd verarbeiten zu lassen. Der Rest ist viel einfacher und gröber. Wer zuerst kommt, mahlt zuerst. Der Thread, der mehr entsprechende Kernressourcen benötigt, wird sich beeilen, diese zuerst zu belegen. Wenn wir es auf die Ebene von Betriebssystem und Anwendungssoftware heben und AMDs SMT aus deren Perspektive betrachten, ähnelt es Intels Hyper-Threading. Jeder Thread wird als Kern behandelt und es gibt keine Einschränkungen bei der Ressourcennutzung wie bei Bulldozer. Ich weiß nicht, ob AMD sich dieses Mal von Intels HyperThreading inspirieren lassen und Intel übertreffen kann, aber es ist sicher, dass die Leistung von Zen-Gleitkommaberechnungen im Vergleich zur vorherigen Generation von AMD-CPUs erheblich verbessert wird. Prozesstechnologie: Wieder FinFET. Ich bin sicher, dass jeder es satt hat, den Begriff FinFET zu hören. Wir haben diese Technologie in unseren bisherigen Diskussionen über Prozessorchips für Mobiltelefone schon oft vorgestellt, deshalb machen wir es hier kurz. Der Stromverbrauch war schon immer ein Aspekt, den AMD beim Design seiner eigenen CPUs berücksichtigt. Um eine TDP von weniger als 100 W zu erreichen, ist es nicht nur notwendig, den Gated-Takt aggressiver einzustellen. Zen beabsichtigt, das 14-nm-FinFET-Verfahren von Global Foundries zu verwenden, das sie bereits zuvor auf der Polaris-GPU getestet haben. Darüber hinaus beabsichtigt AMD nicht, die GPU-Lösung zu kopieren. Auch sie wollen das dichteoptimierte Verfahren nutzen. Schließlich müssen sie den DIE-Bereich kontrollieren – das hat AMD bei diesem Hot Chips nicht erklärt. Wenn das aktuelle Design sie dazu zwingt, einen 500 Quadratmillimeter großen 14-nm-DIE zu verwenden, verstößt dies gegen AMDs übliche Preisstrategie und das Endprodukt wird definitiv extrem teuer sein. Wenn man jedoch bedenkt, dass die Geburt von Zen immer mit Zielanpassungen einherging, ist es schwierig zu bestimmen, inwieweit AMDs CPU der nächsten Generation das beibehalten kann, was wir jetzt sehen. 40 % auf dem Papier, 2 % in der Realität? Dennoch ist es für Endbenutzer tatsächlich sehr schwierig, sich von PPT täuschen zu lassen. Egal wie übertrieben die Zahlen und die Architektur sind, was sie wollen, sind nur zwei Dinge: Erstens müssen sie es zu einem angemessenen Preis kaufen können; zweitens muss es sich bei der Verwendung tatsächlich schnell anfühlen. AMD zeigte den Besuchern der Hot Chips 2016 einen Blender-Benchmark eines 3 GHz 8-Core Zen und eines 3 GHz 8-Core Broadwell-E. Unter derselben benutzerdefinierten Multithread-Last war Zen 2 % schneller als Broadwell. Weitere Konfigurationsdetails gab AMD jedoch nicht bekannt. Angesichts der Geschichte des „Aufstiegs aus PowerPoint“ muss man mit seinen Worten vorsichtig sein. Es ist nicht leicht, den öffentlichen Verdacht zu zerstreuen. Wenn AMD Zen im ersten Quartal 2017 erfolgreich in großen Mengen ausliefern kann (tatsächlich hat sich die Auslieferung bereits verzögert und war ursprünglich für Oktober dieses Jahres geplant), werden Verbraucher die neue CPU möglicherweise zuerst in Markencomputern vorfinden. Vielleicht können sie diese Gelegenheit nutzen, um auf das Schlachtfeld der High-End-x86-CPUs zurückzukehren und erneut mit Intel zu konkurrieren. Zumindest müssen sie jedoch sicherstellen, dass sie gegenüber ihren alten Rivalen über die nötigen Karten verfügen und nicht erneut in Verzug geraten.

Als Gewinner des Qingyun-Plans von Toutiao und des Bai+-Plans von Baijiahao, des Baidu-Digitalautors des Jahres 2019, des beliebtesten Autors von Baijiahao im Technologiebereich, des Sogou-Autors für Technologie und Kultur 2019 und des einflussreichsten Schöpfers des Baijiahao-Vierteljahrs 2021 hat er viele Auszeichnungen gewonnen, darunter den Sohu Best Industry Media Person 2013, den dritten Platz beim China New Media Entrepreneurship Competition Beijing 2015, den Guangmang Experience Award 2015, den dritten Platz im Finale des China New Media Entrepreneurship Competition 2015 und den Baidu Dynamic Annual Powerful Celebrity 2018.

<<:  Da es weder Nachfrage noch Technologie gibt, setzt Italien seine ganze Hoffnung auf Fahrzeuge mit neuer Energie auf China

>>:  Kann ich bei E-Commerce-Unternehmen hochwertiges DIY-Hosting zu einem günstigen Preis kaufen? Erstaunliche Gewinne

Artikel empfehlen

Übungen bei Bandscheibenvorfall in der Lendenwirbelsäule

Ein Bandscheibenvorfall in der Lendenwirbelsäule ...

Torlinientechnologie gelingt erstmals! Benzemas Tor für Frankreich steht

Am frühen Morgen des 16. Juni (Peking-Zeit) kam in...

Wie man beim Sprinten schnell läuft

Es gibt viele Möglichkeiten, schneller zu laufen,...

Welche Funktionen hat der Leichtathletiksport?

Leichtathletik ist eine sehr wichtige Disziplin i...

Eine Mikrowelle ist auch ein „Herd“, warum kann man damit kein Wasser kochen?

Im Alltag verwenden wir Wasserkocher oder Töpfe z...

Sechs wesentliche Schlüsselwörter für Männerfitness

Tipp 1: Wärmen Sie sich gründlich auf Bei kaltem ...

Eine Minute Seilspringtechnik?

Alles auf der Welt hat seine Mängel oder Schwäche...

Kann Laufen Ihnen helfen, in Form zu kommen?

Laufen als Trainingsform kann Ihnen nicht dabei h...

Die Vor- und Nachteile von Kniebeugen

Kniebeugen sind eine Form der körperlichen Betäti...

Welcher kleine Kreis in Zhejiang ist „am wenigsten wie Zhejiang“?

Langes Bild wird geladen ... Quelle: Authentische...