Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Cell Broadband Engine21.March 2006
Benjamin Keck
1
Outline
• Why Cell ?!?
• Application Areas
• Architectural Overview
• SPU Programming Model
• Programming on the PPE
• C/C++ Intrinsics
2
The Cell
12.03.2006 15:12 UhrCell: Neun Prozessorkerne und Bandbreiten bis 100 GByte/s - Golem.de
Seite 1 von 2http://www.golem.de/0502/36149.html
SUCHEN [email protected]
Cell-Prozessor
FORUM ARCHIV NEWS-FEEDS MARKT SIDEBAR WERBUNG IMPRESSUM
Anzeige
PREISVERGLEICH PROZESSOREN
Intel Pentium 4 mPGA4783600 E (Boxed)
Chiptakt: 3600 MHz
Architektur: Intel Prescott HT
Sockel: Sockel478, mPGA478 (microPin Grid Array)
Preis: ab 384,00 !
LETZTE MELDUNGEN
Deutsches OpenOffice.org 2.0.2
mit neuer Rechtschreibprüfung
VIAs neuer C7-M-ULV in
japanischem Origami
Vorabversion von Opera 9 besteht
Acid2-Test
Parrot: Stereolautsprecher mit
Bluetooth
Keine legalen Tauschbörsen in
Frankreich
Zweite Runde: Neue Media-Center-
PCs von Yakumo
Datenschützer weist auf Gefahren
durch VoIP hin
Ipswitch bringt WS_FTP Server mit
SSH-Unterstützung
Samsung: Mobiler Videospieler mit
4-Zoll-Display
Spielehersteller: Innenminister
nicht zuständig
Auch Musicload plant Musik-
Flatrate
Windows Vista ohne EFI-Boot-
Unterstützung
Novell und Intel starten Linux
System Builder Program
Armband mit Speicher
Tablet-PC der Oberklasse von
Toshiba
My Book - Festplatte in Buchform
von WD
QSC erweitert VirtuOS um
Telefonkonferenzen
ViewLink: KVM-Signale über 300
AUDIO/VIDEO FOTO GAMES HANDY INTERNET MOBIL OSS SECURITY
Hardware / 07.02.2005 / 20:41 Trackback Versenden Druck
Cell: Neun Prozessorkerne und Bandbreiten bis 100 GByte/s Seiten 1 2
Cell: Neun Prozessorkerne und Bandbreiten bis100 GByte/s
IBM, Sony und Toshiba enthüllen weitere Details zumCell-Prozessor
Auf der International Solid State Circuits Conference (ISSCC)haben IBM, Sony und Toshiba wie angekündigt weitere Detailszum neuen Cell-Prozessor veröffentlicht. Der Multi-Core-Prozessor mit 64-Bit-Prozessorkern auf Basis der Power-Architektur und acht "synergetischen Prozessorkernen" läuftderzeit mit bis zu 4 GHz und soll Intel das Fürchten lehren. Erbildet auch das Herz von Sonys kommender SpielekonsolePlayStation 3.
Die Multi-Core-Architektur des Cell
soll besonders schnelle Antworten
ermöglichen. Er soll je nach
Anwendungsgebiet bis zu zehnmal
schneller reagieren als aktuelle PC-
Prozessoren; insbesondere
Anwendungen mit hohem
Bandbreitenbedarf würden davon
profitieren, so die Partner. Der Chip
soll dabei mehrere Betriebssysteme
gleichzeitig unterstützen, so dass
beispielsweise Linux zusammen mit
einem Echtzeit-Betriebssystem für
Spiele sowie Gastbetriebssysteme für
spezifische Anwendungen simultan
laufen kann.
Der 64-Bit-Prozessorkern kann
Aufgaben gezielt an einen der acht
"synergetischen Prozessorkerne" delegieren, um so insgesamt bis zu
zehn Operationen gleichzeitig ausführen zu können. Beim
Speicherinterface setzen IBM, Sony und Toshiba auf XDR und FlexIO
von Rambus. Damit soll der Chip mit Bandbreiten von bis zu 100
GByte pro Sekunde angebunden werden. Rund 90 Prozent der Signal-
Pins des Prozessors sollen allein für diese Anbindung verwendet
werden.
Die acht "synergetischen Prozessorkerne" (SPUs) verfügen jeweils über
ein 128-Bit-Register mit 128 Einträgen und 256 KByte lokalen
Speicher. Hinzu kommt ein 64-Bit-Kern auf Basis der Power-Architektur
mit VMX und einem Dual-Thread-SMT, ähnlich Intels HyperThreading.
Insgesamt verfügt der Chip dabei über 2,5 MByte Cache, davon
entfallen 512 KByte auf den L2-Cache und 8 x 256 KByte auf die SPUs.
weiter...
Cell: Neun Prozessorkerne und Bandbreiten bis 100 GByte/s Seiten 1 2
KOMMENTAR-ÜBERSICHT / KOMMENTIEREN:
Re: Passendes Betriebssystem (Sturmkind, 10.02.05 09:50)
Re: So wird Windoof darauf laufen... (cass, 09.02.05 09:50)
12.03.2006 15:12 Uhrheise online - ISSCC: IBM und Sony präsentieren Cell-Prozessor
Seite 1 von 2http://www.heise.de/newsticker/meldung/56139
Anzeige
07.02.2005 22:12<< Vorige | Nächste >>
ISSCC: IBM und Sony präsentieren Cell-Prozessor
Als "Supercomputer auf einem Chip" haben IBM und Sony auf der ISSCC den von vielen Gerüchten umranktenCell Microprocessor vorgeführt. Aus Patentschriften und im Vorfeld der ISSCC verteilten Mitteilungen derEntwicklungspartner war bekannt, dass Cell aus mehreren Prozessorkernen besteht, die auf IBMs Power-Architektur basieren. Der Chip umfasst eine 64-Bit-Power-CPU -- ein vereinfachter Power5 mit Doppelkern --sowie acht so genannte Synergistic Processing Units (SPU) aus jeweils einem Power-basierten Core. Diese erstemassive Nutzung von integrierten Prozessorkernen verschafft dem Chip eine extrem hohe arithmetischeRechenleistung.
Der als Steuerinstanz fungierende 64-bit-Power-Prozessor mit VMX-Erweiterungen für Gleitpunkt-Aufgaben kann zwei Programmthreadsgleichzeitig bearbeiten. Insgesamt verfügt der Chip über 2,5 MByteSpeicher: 512 KB Level-2-Cache für die Steuer-CPU und achtmal 256 KBin den SPUs. Die SPUs verzichten auf eine Cache-Hierarchie und sinddurch DMA-Flow-Controller direkt mit ihren lokalen Speichern verbunden.Sie sind nach der SIMD-Methode organisiert mit Local Store. Ein 128-Bit-Registerfile erlaubt jeder SPU 128 Einträge und somit 128 gleichzeitigeTransaktionen zwischen Speicher und Prozessor. Mit dieser enormenSpeicherbandbreite positionieren die Entwickler Cell als Breitband- undEchtzeit-Architektur für rechenintensive Anwendungen in derMedienverarbeitung.
Über 256 GFlops soll der Cell in grafischen und visuellen Anwendungenleisten -- ein Wert, der ihn in den Top-Ten der schnellsten Supercomputerplatzieren würde. Ein bei IBM in East Fishkill hergestellter Prototyp hatTaktgeschwindigkeiten bis zu 4,6 GHz erreicht. Der Pilotbaustein wird ineinem 90-Nanometer-Prozess produziert. Die 234 Millionen Transistorenhaben dabei auf einem Plättchen von 221 Quadratmillimeter Platz.
Bisherige Prozessoren in Entertainment- und Spieleanwendungen werde dieLeistung des Cell bis zu zehnmal übertreffen, sagte Jim Kahle, IBMsTechnologiedirektor für das Cell-Projekt. Zu Stromverbrauch und
Wärmeentwicklung des Chips wollte Kahle keine Einzelheiten verraten. Es wurden jedoch eigens neue Technikenentwickelt, mit Luftkühlung bleibe der Baustein "innerhalb üblicher thermaler Bedingungen". ZehnTemperatursensoren und ein linearer Sensor sollen kritische Wärmepunkte überwachen -- und vermutlich wie inIBMs Power970-Prozessoren die Reduzierung von Takt und Spannung veranlassen.
• Supercomputer on a chip
• Multi-Core Microprocessor(9 cores)
• 10x perfomance for many applications
• > 4 GHz clock frequency
• Digital home to distributed computing
3
Application Areas
• Playstation 3
• Multiple parallel calculations
• High performance in multimedia applications
• Energy efficiency (GFLOPS/Watt)
4
Playstation 3 Example
5
Key Attributes
• Cell is Multi-Core
• Contains 64-Bit Power Architecture
• Contains 8 Synergistic Processor Elements (SPE)
• Cell is a Flexible Architecture
• Multi-OS support (including Linux) with Virtualization technology
• Path for OS, legacy apps, and software development
• Cell is a Broadband Architecture
• SPE is RISC architecture with SIMD organization and Local Store
• 128+ concurrent transactions to memory per processor
• Cell is a Real-Time Architecture
• Resoure allocation (for Bandwidth Measurement)
• Locking Caches (via Replacement Management Tables)
• Cell is a Security Enabled Architecture
• Isotalatable SPE for flexible security programming
6
High Performance Computing
• Peak performance 256 GFlops
• Place 490 of the 500 Best Supercomputers has 854 GFlops using IBM xSeries Cluster with 256 Intel Xeon processors (2.8 GHz)
• One Cell can decompress 48 MPEG2 Streams (DVD) in parallel
7
Cell Broadband Engine Architecture (CBEA)
8
Cell Broadband Engine Architecture (CBEA)
XD
RA
M C
ontr
olle
r
XDR Memory
25.6GB/s Element Interconnect Bus
PPU64 Bit
Power ISA
512 KB L2 Cache
SRAM SRAM SRAM SRAM
SRAM SRAM SRAM SRAM
SPU128 bitSIMD
SPU128 bitSIMD
SPU128 bitSIMD
SPU128 bitSIMD
SPU128 bitSIMD
SPU128 bitSIMD
SPU128 bitSIMD
SPU128 bitSIMD
Flex
IO
PPE SPE
SouthBridge
RSX
2.5GB/s
2.5GB/s
20GB/s
15GB/s
9 10
Power Processor Element (PPE)
• PPE handles operating system and control tasks
• 64-bit Power Architecture with VMX
• In-order, 2-way hardware Multi-threading
• Cohorent Load/Store with 32 KB I & D L1 and 512 KB L2
11
Synergistic Processor Element (SPE)
• SPE provides computational performance
• Dual issue, up to 16-way 128-bit SIMD
• Dedicated resources: 128 128-bit RF, 256 KB Local Store
• Each can be dynamically configured to protect resources
• Dedicated DMA engine: Up to 16 outstanding request
12
SPE
• Memory Flow Controller (MFC)
• Synergistic Processing Unit (SPU)
• Local Store (LS)256KB
MFC
SPU LS
13
I/O and Memory Interfaces
• I/O Provides wide bandwidth
• Dual XDR controller (25.6 GB/s @ 3.2Gbps
• Two configurable interfaces (76.8 GB/s @ 6.4 bps)
• Flexible Bandwidth between interfaces
• Allows for multiple system configurations
14
Power Management
• Dynamic Power Management (DPM)
• Five Power Management States
• One linear sensor
• Ten digital thermal sensors
15
I/O and Memory Interfaces
• EIB data ring for internal communication
• Four 16 byte data rings, supporting multiple transfers
• 96 B/cycle peak bandwidth
• Over 100 outstanding requests
• 2 data rings are parallel in cycle
• each data ring can transfer max. 3 x 16 byte
16
SPU Programming Model
• Virtual File System to externalize the SPUs
• named spufs
• mounted on /spu
• Each spufs refers to a logical SPU
• mem: local store memory
• run: starts execution of SPU code
• mbox, ibox, wbox: abstractions for the userspace side
• reg: register of the spu
17
Programming on the PPE
• Normal CPU programming
• AltiVec used as Single Instruction Multiple Data (SIMD) architectur
• AltiVec can calculate 8 elements per vector
18
C/C++ Intrinsicsvoid main(){! reg regC;!!
! regC = vec_sums(regA, regB)
}
• saturating math
• sum accross
• log, power
• ceil / floor
• pixel vectors
19