5
Cell Broadband Engine 21.March 2006 Benjamin Keck 1 Outline Why Cell ?!? Application Areas Architectural Overview SPU Programming Model Programming on the PPE C/C++ Intrinsics 2 The Cell Cell-Prozessor Supercomputer on a chip Multi-Core Microprocessor (9 cores) 10x perfomance for many applications > 4 GHz clock frequency Digital home to distributed computing 3 Application Areas Playstation 3 Multiple parallel calculations High performance in multimedia applications Energy efficiency (GFLOPS/Watt) 4

The Cell Application Areas · Cell Broadband Engine Architectur e (CBEA) XDRAM Contr oller XDR Memor y 25.6GB/s Element Inter connect Bus PPU 64 Bit Power ISA 512 KB L2 Cache SRAM

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: The Cell Application Areas · Cell Broadband Engine Architectur e (CBEA) XDRAM Contr oller XDR Memor y 25.6GB/s Element Inter connect Bus PPU 64 Bit Power ISA 512 KB L2 Cache SRAM

Cell Broadband Engine21.March 2006

Benjamin Keck

1

Outline

• Why Cell ?!?

• Application Areas

• Architectural Overview

• SPU Programming Model

• Programming on the PPE

• C/C++ Intrinsics

2

The Cell

12.03.2006 15:12 UhrCell: Neun Prozessorkerne und Bandbreiten bis 100 GByte/s - Golem.de

Seite 1 von 2http://www.golem.de/0502/36149.html

SUCHEN [email protected]

Cell-Prozessor

FORUM ARCHIV NEWS-FEEDS MARKT SIDEBAR WERBUNG IMPRESSUM

Anzeige

PREISVERGLEICH PROZESSOREN

Intel Pentium 4 mPGA4783600 E (Boxed)

Chiptakt: 3600 MHz

Architektur: Intel Prescott HT

Sockel: Sockel478, mPGA478 (microPin Grid Array)

Preis: ab 384,00 !

LETZTE MELDUNGEN

Deutsches OpenOffice.org 2.0.2

mit neuer Rechtschreibprüfung

VIAs neuer C7-M-ULV in

japanischem Origami

Vorabversion von Opera 9 besteht

Acid2-Test

Parrot: Stereolautsprecher mit

Bluetooth

Keine legalen Tauschbörsen in

Frankreich

Zweite Runde: Neue Media-Center-

PCs von Yakumo

Datenschützer weist auf Gefahren

durch VoIP hin

Ipswitch bringt WS_FTP Server mit

SSH-Unterstützung

Samsung: Mobiler Videospieler mit

4-Zoll-Display

Spielehersteller: Innenminister

nicht zuständig

Auch Musicload plant Musik-

Flatrate

Windows Vista ohne EFI-Boot-

Unterstützung

Novell und Intel starten Linux

System Builder Program

Armband mit Speicher

Tablet-PC der Oberklasse von

Toshiba

My Book - Festplatte in Buchform

von WD

QSC erweitert VirtuOS um

Telefonkonferenzen

ViewLink: KVM-Signale über 300

AUDIO/VIDEO FOTO GAMES HANDY INTERNET MOBIL OSS SECURITY

Hardware / 07.02.2005 / 20:41 Trackback Versenden Druck

Cell: Neun Prozessorkerne und Bandbreiten bis 100 GByte/s Seiten 1 2

Cell: Neun Prozessorkerne und Bandbreiten bis100 GByte/s

IBM, Sony und Toshiba enthüllen weitere Details zumCell-Prozessor

Auf der International Solid State Circuits Conference (ISSCC)haben IBM, Sony und Toshiba wie angekündigt weitere Detailszum neuen Cell-Prozessor veröffentlicht. Der Multi-Core-Prozessor mit 64-Bit-Prozessorkern auf Basis der Power-Architektur und acht "synergetischen Prozessorkernen" läuftderzeit mit bis zu 4 GHz und soll Intel das Fürchten lehren. Erbildet auch das Herz von Sonys kommender SpielekonsolePlayStation 3.

Die Multi-Core-Architektur des Cell

soll besonders schnelle Antworten

ermöglichen. Er soll je nach

Anwendungsgebiet bis zu zehnmal

schneller reagieren als aktuelle PC-

Prozessoren; insbesondere

Anwendungen mit hohem

Bandbreitenbedarf würden davon

profitieren, so die Partner. Der Chip

soll dabei mehrere Betriebssysteme

gleichzeitig unterstützen, so dass

beispielsweise Linux zusammen mit

einem Echtzeit-Betriebssystem für

Spiele sowie Gastbetriebssysteme für

spezifische Anwendungen simultan

laufen kann.

Der 64-Bit-Prozessorkern kann

Aufgaben gezielt an einen der acht

"synergetischen Prozessorkerne" delegieren, um so insgesamt bis zu

zehn Operationen gleichzeitig ausführen zu können. Beim

Speicherinterface setzen IBM, Sony und Toshiba auf XDR und FlexIO

von Rambus. Damit soll der Chip mit Bandbreiten von bis zu 100

GByte pro Sekunde angebunden werden. Rund 90 Prozent der Signal-

Pins des Prozessors sollen allein für diese Anbindung verwendet

werden.

Die acht "synergetischen Prozessorkerne" (SPUs) verfügen jeweils über

ein 128-Bit-Register mit 128 Einträgen und 256 KByte lokalen

Speicher. Hinzu kommt ein 64-Bit-Kern auf Basis der Power-Architektur

mit VMX und einem Dual-Thread-SMT, ähnlich Intels HyperThreading.

Insgesamt verfügt der Chip dabei über 2,5 MByte Cache, davon

entfallen 512 KByte auf den L2-Cache und 8 x 256 KByte auf die SPUs.

weiter...

Cell: Neun Prozessorkerne und Bandbreiten bis 100 GByte/s Seiten 1 2

KOMMENTAR-ÜBERSICHT / KOMMENTIEREN:

Re: Passendes Betriebssystem (Sturmkind, 10.02.05 09:50)

Re: So wird Windoof darauf laufen... (cass, 09.02.05 09:50)

12.03.2006 15:12 Uhrheise online - ISSCC: IBM und Sony präsentieren Cell-Prozessor

Seite 1 von 2http://www.heise.de/newsticker/meldung/56139

Anzeige

07.02.2005 22:12<< Vorige | Nächste >>

ISSCC: IBM und Sony präsentieren Cell-Prozessor

Als "Supercomputer auf einem Chip" haben IBM und Sony auf der ISSCC den von vielen Gerüchten umranktenCell Microprocessor vorgeführt. Aus Patentschriften und im Vorfeld der ISSCC verteilten Mitteilungen derEntwicklungspartner war bekannt, dass Cell aus mehreren Prozessorkernen besteht, die auf IBMs Power-Architektur basieren. Der Chip umfasst eine 64-Bit-Power-CPU -- ein vereinfachter Power5 mit Doppelkern --sowie acht so genannte Synergistic Processing Units (SPU) aus jeweils einem Power-basierten Core. Diese erstemassive Nutzung von integrierten Prozessorkernen verschafft dem Chip eine extrem hohe arithmetischeRechenleistung.

Der als Steuerinstanz fungierende 64-bit-Power-Prozessor mit VMX-Erweiterungen für Gleitpunkt-Aufgaben kann zwei Programmthreadsgleichzeitig bearbeiten. Insgesamt verfügt der Chip über 2,5 MByteSpeicher: 512 KB Level-2-Cache für die Steuer-CPU und achtmal 256 KBin den SPUs. Die SPUs verzichten auf eine Cache-Hierarchie und sinddurch DMA-Flow-Controller direkt mit ihren lokalen Speichern verbunden.Sie sind nach der SIMD-Methode organisiert mit Local Store. Ein 128-Bit-Registerfile erlaubt jeder SPU 128 Einträge und somit 128 gleichzeitigeTransaktionen zwischen Speicher und Prozessor. Mit dieser enormenSpeicherbandbreite positionieren die Entwickler Cell als Breitband- undEchtzeit-Architektur für rechenintensive Anwendungen in derMedienverarbeitung.

Über 256 GFlops soll der Cell in grafischen und visuellen Anwendungenleisten -- ein Wert, der ihn in den Top-Ten der schnellsten Supercomputerplatzieren würde. Ein bei IBM in East Fishkill hergestellter Prototyp hatTaktgeschwindigkeiten bis zu 4,6 GHz erreicht. Der Pilotbaustein wird ineinem 90-Nanometer-Prozess produziert. Die 234 Millionen Transistorenhaben dabei auf einem Plättchen von 221 Quadratmillimeter Platz.

Bisherige Prozessoren in Entertainment- und Spieleanwendungen werde dieLeistung des Cell bis zu zehnmal übertreffen, sagte Jim Kahle, IBMsTechnologiedirektor für das Cell-Projekt. Zu Stromverbrauch und

Wärmeentwicklung des Chips wollte Kahle keine Einzelheiten verraten. Es wurden jedoch eigens neue Technikenentwickelt, mit Luftkühlung bleibe der Baustein "innerhalb üblicher thermaler Bedingungen". ZehnTemperatursensoren und ein linearer Sensor sollen kritische Wärmepunkte überwachen -- und vermutlich wie inIBMs Power970-Prozessoren die Reduzierung von Takt und Spannung veranlassen.

• Supercomputer on a chip

• Multi-Core Microprocessor(9 cores)

• 10x perfomance for many applications

• > 4 GHz clock frequency

• Digital home to distributed computing

3

Application Areas

• Playstation 3

• Multiple parallel calculations

• High performance in multimedia applications

• Energy efficiency (GFLOPS/Watt)

4

Page 2: The Cell Application Areas · Cell Broadband Engine Architectur e (CBEA) XDRAM Contr oller XDR Memor y 25.6GB/s Element Inter connect Bus PPU 64 Bit Power ISA 512 KB L2 Cache SRAM

Playstation 3 Example

5

Key Attributes

• Cell is Multi-Core

• Contains 64-Bit Power Architecture

• Contains 8 Synergistic Processor Elements (SPE)

• Cell is a Flexible Architecture

• Multi-OS support (including Linux) with Virtualization technology

• Path for OS, legacy apps, and software development

• Cell is a Broadband Architecture

• SPE is RISC architecture with SIMD organization and Local Store

• 128+ concurrent transactions to memory per processor

• Cell is a Real-Time Architecture

• Resoure allocation (for Bandwidth Measurement)

• Locking Caches (via Replacement Management Tables)

• Cell is a Security Enabled Architecture

• Isotalatable SPE for flexible security programming

6

High Performance Computing

• Peak performance 256 GFlops

• Place 490 of the 500 Best Supercomputers has 854 GFlops using IBM xSeries Cluster with 256 Intel Xeon processors (2.8 GHz)

• One Cell can decompress 48 MPEG2 Streams (DVD) in parallel

7

Cell Broadband Engine Architecture (CBEA)

8

Page 3: The Cell Application Areas · Cell Broadband Engine Architectur e (CBEA) XDRAM Contr oller XDR Memor y 25.6GB/s Element Inter connect Bus PPU 64 Bit Power ISA 512 KB L2 Cache SRAM

Cell Broadband Engine Architecture (CBEA)

XD

RA

M C

ontr

olle

r

XDR Memory

25.6GB/s Element Interconnect Bus

PPU64 Bit

Power ISA

512 KB L2 Cache

SRAM SRAM SRAM SRAM

SRAM SRAM SRAM SRAM

SPU128 bitSIMD

SPU128 bitSIMD

SPU128 bitSIMD

SPU128 bitSIMD

SPU128 bitSIMD

SPU128 bitSIMD

SPU128 bitSIMD

SPU128 bitSIMD

Flex

IO

PPE SPE

SouthBridge

RSX

2.5GB/s

2.5GB/s

20GB/s

15GB/s

9 10

Power Processor Element (PPE)

• PPE handles operating system and control tasks

• 64-bit Power Architecture with VMX

• In-order, 2-way hardware Multi-threading

• Cohorent Load/Store with 32 KB I & D L1 and 512 KB L2

11

Synergistic Processor Element (SPE)

• SPE provides computational performance

• Dual issue, up to 16-way 128-bit SIMD

• Dedicated resources: 128 128-bit RF, 256 KB Local Store

• Each can be dynamically configured to protect resources

• Dedicated DMA engine: Up to 16 outstanding request

12

Page 4: The Cell Application Areas · Cell Broadband Engine Architectur e (CBEA) XDRAM Contr oller XDR Memor y 25.6GB/s Element Inter connect Bus PPU 64 Bit Power ISA 512 KB L2 Cache SRAM

SPE

• Memory Flow Controller (MFC)

• Synergistic Processing Unit (SPU)

• Local Store (LS)256KB

MFC

SPU LS

13

I/O and Memory Interfaces

• I/O Provides wide bandwidth

• Dual XDR controller (25.6 GB/s @ 3.2Gbps

• Two configurable interfaces (76.8 GB/s @ 6.4 bps)

• Flexible Bandwidth between interfaces

• Allows for multiple system configurations

14

Power Management

• Dynamic Power Management (DPM)

• Five Power Management States

• One linear sensor

• Ten digital thermal sensors

15

I/O and Memory Interfaces

• EIB data ring for internal communication

• Four 16 byte data rings, supporting multiple transfers

• 96 B/cycle peak bandwidth

• Over 100 outstanding requests

• 2 data rings are parallel in cycle

• each data ring can transfer max. 3 x 16 byte

16

Page 5: The Cell Application Areas · Cell Broadband Engine Architectur e (CBEA) XDRAM Contr oller XDR Memor y 25.6GB/s Element Inter connect Bus PPU 64 Bit Power ISA 512 KB L2 Cache SRAM

SPU Programming Model

• Virtual File System to externalize the SPUs

• named spufs

• mounted on /spu

• Each spufs refers to a logical SPU

• mem: local store memory

• run: starts execution of SPU code

• mbox, ibox, wbox: abstractions for the userspace side

• reg: register of the spu

17

Programming on the PPE

• Normal CPU programming

• AltiVec used as Single Instruction Multiple Data (SIMD) architectur

• AltiVec can calculate 8 elements per vector

18

C/C++ Intrinsicsvoid main(){! reg regC;!!

! regC = vec_sums(regA, regB)

}

• saturating math

• sum accross

• log, power

• ceil / floor

• pixel vectors

19