Upload
ivon-helming
View
107
Download
1
Embed Size (px)
Citation preview
Moore's Law -
was kann man bloss mit Milliarden Transistoren anstellen?
Konrad Froitzheim, TU Freiberg, [email protected]
The complexity for minimum component costs has increased at a rate of roughly a factor of two per year ... Over the longer term, the rate of increase is a bit more uncertain, although there is no reason to believe it will not remain nearly constant for at least 10 years. That means by 1975, the number of components per integrated
circuit for minimum cost will be 65,000. [Gordon Moore, 1965]
/TU
Fre
iber
g/In
tern
et M
ultim
edia
/Kon
rad
Fro
itzhe
im
/TU
Fre
iber
g/In
tern
et M
ultim
edia
/Kon
rad
Fro
itzhe
im/Elektronik/Schalten
• Rechnen, Speichern, Transportieren
• Logische Funktionen– AND, OR, XOR
– NOT
– NAND
• Boolsche Algebra– Rechnen mit True und False (1 und 0)
– Logische Formeln
– Formelmanipulation
• Addition– Summe = AB v AB, Übertrag = AB
• Andere Rechenarten– a-b = a+(-b)
– n*a = a+a+…+a
– a/b = a-b-b-…-b
grün
gelb
rot
fahren
bremsen
A
B
Ü
S€
A∧B = A∨B
/TU
Fre
iber
g/In
tern
et M
ultim
edia
/Kon
rad
Fro
itzhe
im/Elektronik/Transistor
• Transistoren– elektronische Schalter
– Verstärkungsfunktion
• Feldeffekttransistor– Gate-Source Spannung erzeugt Feld
– Feld kontrolliert Drain-Source Kanal
– UGS steigt -> IDS steigt exponentiell
• CMOS: Complementary Metal-Oxide-Silicon– NAND: 4 FET-Transistoren
D
S
GS
D
G
P-KanalN-Kanal
a and b
5V
a
b
b
not a
5V
a
/TU
Fre
iber
g/In
tern
et M
ultim
edia
/Kon
rad
Fro
itzhe
im/Elektronik/Integration
• Integrierte Schaltkreise [Kilby; Moore, Grove]– viele Halbleiter auf einem Silizium-Stück (Chip)
– Verdrahtung und Plazierung
– viele Chips auf einem Wafer
– {Beschichten, Belichten, Ätzen, Polieren}
– Strukturgröße1971 2300 40041972 3500 80081974 4500 80801978 29000 80861982 134000 802861986 275000 803861989 1200000 804861993 3100000 Pentium1995 5500000 Pentium Pro1997 7500000 Pentium II1999 9500000 Pentium III2001 42000000 Pentium 42002 55000000 Penitum M2002 220000000 Itanium II2005 291000000 Pentium D2007 582000000 Core 2 Quad2008 2100000000 Itanium
/TU
Fre
iber
g/In
tern
et M
ultim
edia
/Kon
rad
Fro
itzhe
im/Elektronik/Prädiktion
• Moore's Law– ~ 18 Monate: Packungsdichte verdoppelt
– 2007: 45 nm Strukturgröße
• Extrapolation– Tukwila, 2009, 2*109 Transistoren
– Larrabee, 2009, 24 'einfache' Kerne
– 80 Kerne auf einem Chip: 2010?
• Grenzen– exponentielle Verkleinerung?
– Atomgrösse, Quanteneffekte, …
• Alternative: Verbrauchseffizienz– Atom [Intel], ARM, PowerPC [IBM]
– konstante Anzahl Transistoren
– sinkend: Preis, Grösse, Stromverbrauch
/TU
Fre
iber
g/In
tern
et M
ultim
edia
/Kon
rad
Fro
itzhe
im/Computerarchitektur
• Von-Nemann (SISD)– Steuerwerk, ALU
– Speicher
– Ein/Ausgabe
• SIMD– Single Instruction
– Multiple Data
– Vektorrechner
– MMX, SS*E, AltiVec
• MIMD– Multiple Instruction
– Multiple Data
Steuerwerk
ALU
Speicher
SteuerwerkALU
Speicher
ALU ALU…
Steuerwerk
ALU ALU ALU…
Steuerwerk Steuerwerk
Speicher Speicher Speicher…
…Steuerwerk
ALU
Speicher
ALU ALU…
Steuerwerk Steuerwerk…
/TU
Fre
iber
g/In
tern
et M
ultim
edia
/Kon
rad
Fro
itzhe
im/Computerarchitektur/Optionen
• System on a Chip (SOC)– Totalintegration
– Prozessor, Speicher
– Peripherie: Grafik, Netz
– Solid-State-Disk
– Tegra [NVIDIA], Atom [Intel]
• Multicore– klassischer Aufbau des Prozessors
– 64, 1024 Kerne
– Spezial-Kerne: Video, Grafik, Physics-Engine
– NUMA: Non-Uniform Memory Access
– Cell: 1 PPC, 8 SPEs
/TU
Fre
iber
g/In
tern
et M
ultim
edia
/Kon
rad
Fro
itzhe
im/Zwischenfrage
• Was wollen wir mit Computern machen?
• Steuern und Regeln– Embedded
– sparsam, klein, sicher
• Information und Kommunikation– Web, suchen
– Schwerpunkt Netzwerk
– zentrale Rechenleistung
• Simulation– Prozesse: Physik, Chemie, …
– Supercomputer
• Unterhaltung– Spiele
– Video
• Visualisierung– Auflösung, Photorealismus, Framerate, 3D
/TU
Fre
iber
g/In
tern
et M
ultim
edia
/Kon
rad
Fro
itzhe
im/Software/Optionen
• Software wird schneller langsam als Hardware schneller wird– [Martin Reiser, IBM]
– Grove giveth, and Gates taketh away
• Aufgabenverteilung– verschiedene Aufgaben
– verschiedene Prozessoren
• Parallele Algorithmen– Nebenläufigkeit
– Voraussetzung: Aufgabe teilbar
– Teilprobleme möglichst unabhängig
• Speedup– 10 CPUs => zehnmal schneller?
– Speicherengpass
– Kommunikation, Synchronisation
t
Buchung 1: kto 29 += 1000;Buchung 2: kto 29 -= 780;
kto29==500;
Stand=GetBal(kto29);SetBal(kto29,Stand-780);
Stand=GetBal(kto29);
SetBal(kto29,Stand+1000);
kto29==1500;
/TU
Fre
iber
g/In
tern
et M
ultim
edia
/Kon
rad
Fro
itzhe
im/Software/Parallelisierung
• Klassische Aufgaben– viele gleichartige Teilprobleme
– wenig Beziehungen zwischen Teilproblemen
– Simulationen physikalischer Prozesse
– Wetterbericht, …
• Mustererkennung
• Visualisierung: GPU bzw. CPU– nVidia, ATI, Intel
– viele gleichförmige Operationen
– GF 8800GTS: 0,625 Teraflop
– Larrabee
• Herausforderung– viele ungleiche Aufgaben
– Kommunikation: Datenaustausch
– Synchronisation: Warten auf Andere
/TU
Fre
iber
g/In
tern
et M
ultim
edia
/Kon
rad
Fro
itzhe
im/Software/Parallelisierung/Ansätze
• Grand Central [Apple]– OSX verteilt Tasks
– Tasks anmelden, Abhängigkeiten
• Cuda [NVIDIA]– Compute Unified Device Architecture
– C-API für GF8, GF9
– Shader-Implementierungen
– FFT, DWT, Matrixmultiplikation, …
– Matlab
• Ct [Intel]: C for throughput computing– C++
– TVEC: komplexe numerisch-parallele Datentypen
– Threading Runtime TRT
– Programmierer benutzt spawn(Funktion, Daten) und join
– TRT verteilt zur Laufzeit auf Kerne
– TRT überwacht Datenübergabe
/TU
Fre
iber
g/In
tern
et M
ultim
edia
/Kon
rad
Fro
itzhe
im/The Next Big Thing
• Visualisierung– 1024*768, 1440*900, 1920*1200
– Mersive.com: 35 MPixel
– 3D Bilder
– virtuelle Realität
• Kommunikation– natürliche Interaktion
– allgegenwärtig
• Assistenz– erkennen
– verstehen
• Ubiquitous Computing [Marc Weiser]– wie Papier
– Computer in allem
QuickTime™ and aTIFF (LZW) decompressor
are needed to see this picture.
QuickTime™ and aTIFF (LZW) decompressor
are needed to see this picture.