42
William Sandqvist willia [email protected] Övning 10 Processorkonstruktion med pipe-line

Övning 10

Embed Size (px)

DESCRIPTION

Övning 10. Processorkonstruktion med pipe-line. KIA’s fabrik i Slovenien. En bil i minuten lämnar bandet – tar det en minut att bygga en bil?. Nej för KIA's fabrik utanför Zilina tar det 18 mantimmar att bygga en bil (detta är ändå världsrekord! Toyota behöver c:a 30 mantimmar). - PowerPoint PPT Presentation

Citation preview

Page 1: Övning 10

William Sandqvist [email protected]

Övning 10

Processorkonstruktion med pipe-line

Page 2: Övning 10

William Sandqvist [email protected]

Page 3: Övning 10

William Sandqvist [email protected]

KIA’s fabrik i SlovenienEn bil i minuten lämnar bandet – tar det en minut att bygga en bil?

Nej för KIA's fabrik utanför Zilina tar det 18 mantimmar att bygga en bil (detta är ändå världsrekord! Toyota behöver c:a 30 mantimmar).

Lösningen är en Pipeline. 18 timmar är 1080 minuter, så bygget kan ske parallellt vid 1080 enminutersstationer. Fabriken har 3000 anställda som arbetar i treskift, dvs 1000 arbetare per skift. Många av station-erna är således helt robotiserade.

Page 4: Övning 10

William Sandqvist [email protected]

Produktions-störning?

Måste man stoppa det löpande bandet kan det ta upp till 1080 minuter innan en ny bil kan levereras efter stoppet!

Det är därför arbetsledarna längs bandet är så nervösa …

Page 6: Övning 10

William Sandqvist [email protected]

( Nios II pipeline )

Nios II kan ha 5-stegs eller 6-stegs pipeline. (Eller sakna pipeline).

Page 7: Övning 10

William Sandqvist [email protected]

2-steg, 2-stegs pipeline

För att utföra en instruktion behövs två faser, FETCH och EXECUTE. Eftersom de två faserna kan göras oberoende av varandra kan man införa en två-stegs pipeline. (Exempel – PIC-processor).

Page 8: Övning 10

William Sandqvist [email protected]

4-stegDe två grundläggande faserna FETCH och EXECUTE kan delas in i fler delfaser.

Page 9: Övning 10

William Sandqvist [email protected]

De fyra stegen i detalj

Page 10: Övning 10

William Sandqvist [email protected]

CPU med 4-steg

Observera! Det är en och samma Register File som är ritad på två ställen!

Page 11: Övning 10

William Sandqvist [email protected]

Register och kombinatorik

Page 12: Övning 10

William Sandqvist [email protected]

Skiftregister?

Kommer Du ihåg digitalteknikens skiftregister?

Page 13: Övning 10

William Sandqvist [email protected]

CPU med 4-stegs pipeline

Om man kompletterar registren med några extra vippor så kan de fungera som skiftregister för instruktionerna – pipeline!

Tack vare NiosII:s instruk-tionsformat räcker det att lägga till ett fåtal vippor för att få en 4-stegs pipeline!

Page 14: Övning 10

William Sandqvist [email protected]

4-stegs pipeline

En instruktion blir färdig varje klockcykel, i stället för var fjärde!

Page 15: Övning 10

William Sandqvist [email protected]

Problem: Data dependency

RAW, Read After Write – instruktioner.

R1 = R2 + R3R4 = R5 + R6R7 = R4 + R1

Page 16: Övning 10

William Sandqvist [email protected]

Lösning? (1) Processorn bromsar exe-kveringen i två klockcykler så att R1 och R4 hinner tas fram.

Kompilatorn skjuter in två NOP-instruktioner så att R1 och R4 hinner tas fram.

Kompilatorn hittar två oberoende instruktioner som ändå ska utföras och använder dessa i stället för de två NOP-instruktionerna!= SUPERSMART!

Page 17: Övning 10

William Sandqvist [email protected]

Inför nya datavägar (2)

Page 18: Övning 10

William Sandqvist [email protected]

Data forwarding

R1 = R2 + R3R4 = R5 + R6R7 = R4 + R1

Processorn ”väljer” automatiskt den av datavägarna som leder till det senaste datat. NiosII:s instruktionsformat visar direkt vilka register som de olika instruktionerna använder.

Page 19: Övning 10

William Sandqvist [email protected]

Load och Store, 5-stegs pipelineIndexerad operandutpekning är bra att ha

Page 20: Övning 10

William Sandqvist [email protected]

CPU med 5-stegs pipeline

Addera offset!

Skriv/Läs minnet

Page 21: Övning 10

William Sandqvist [email protected]

5-stegs pipeline

Page 22: Övning 10

William Sandqvist [email protected]

De fem stegen i detalj

Page 23: Övning 10

William Sandqvist [email protected]

Problem: Load delay

”Stall” eller införa en NOP nödvändigt. Nya datavägar kan inte lösa problemet.( Alternativt att hitta en nyttig instruktion i NOP:s ställe! )

Page 24: Övning 10

William Sandqvist [email protected]

Problem: Data dependencyRAW, Read After Write – instruktioner.

R1 = R2 + R3R9 = R5 + R6R7 = R10 + R4R8 = R7 + R1

RAW-konflikten kan lösas genom att skjuta in tre NOP (eller andra, ”nyttiga”, instruktioner) mellan WB och FO.

Page 25: Övning 10

William Sandqvist [email protected]

Alternativ lösning, nya datavägar

Även vid 5-stegs pipeline kan således RAW-konflikten lösas med hjälp av nya datavägar.

Data Forwarding.

Page 26: Övning 10

William Sandqvist [email protected]

Problem: Delayed branching

OBS! Alltid!

Page 27: Övning 10

William Sandqvist [email protected]

Utnyttja hoppluckan!

Kanske skadar det inte att den efterföljande instruktionen utförs? I så fall kan den stå kvar.

Annars placerar man en onyttig NOP instruktion som skydd.

Eller så placerar man en nyttig instruktion där som ändå skall utföras.

Page 28: Övning 10

William Sandqvist [email protected]

( Datorarkitektur. Hopp statistik )

20% av vanlig programkod är hoppinstruktioner – var femte instruktion är således ett hopp.

80% av hoppinstruktionerna är vilkorliga hopp.

75-80% av de hoppen utförs.

Statisk hoppgissning: Bästa gissningen blir således att gissa att alla vilkorliga hopp utförs! Den gissningen går hem i 75% av fallen.

Page 29: Övning 10

William Sandqvist [email protected]

( Dynamisk hoppgissning )Ex. Pentiums hoppgissning:Det krävs ”två i rad” utförda hopp eller uteblivna hopp för att hoppgissningen ska ändras.

- Gissar man hopp laddas pipelinen med instruktioner från hoppdestinationen.

- Gissar man uteblivet hopp laddas pipelinen med efter-följande instruktioner.

Gissar man rätt sparar man tid – gissar man fel måste pipelinen ”startas om”.

NiosII processorn har en sådan dynamisk hoppgissning.

Page 30: Övning 10

William Sandqvist [email protected]

( Två nivåers hoppgissning )

Pentium Pro har lång pipeline (31 steg) och måste därför kunna ”gissa” hoppen ändå bättre!

Hoppmönstret av de senaste fyra hoppen, aktiverar en av sexton ”två i rad-kretsar” som gör gissningen.

Ett sådant anordning klarar att ”lära” sig olika hoppmönster. Resultatet blir bättre än 90% korrekta gissningar.

Page 31: Övning 10

William Sandqvist [email protected]

( Principschema )

Två nivåers hopp-gissning bygger på ett skiftregister, en avkodare, och 16 st ”två i rad” sekvensnät (av den tidigare visade typen).

Page 32: Övning 10

William Sandqvist [email protected]

( Mapping/Re-mapping och Branch prediktion )Intel Itanium kan ändra ordningen på instruktionerna (och ändra

tillbaka ordningen på resultaten) för att slippa stoppa pipelinen.

Page 33: Övning 10

William Sandqvist [email protected]

Typ-tenta: Uppgift 5

Page 34: Övning 10

William Sandqvist [email protected]

a) 4-stegs, delay slot, data forward. Skriv om NiosII-koden för processorn.

i1 CSM: MOVI R8,0i2 MOVI R9,0i3 ORI R10,R0,0xffffi4 CKLOOP: LDH R8,0(R4)i5 SUBI R5,R5,2i6 ADDI R4,R4,2i7 BGE R5,R0,CCONTi8 ANDI R8,R8,0x00ffi9 CCONT: ADD R11,R9,R8i10 AND R9,R10,R11i11 BEQ R9,R11,CNOCYi12 ADDI R9,R9,1i13 CNOCY: BGT R5,R0,CKLOOPi14 MOV R2,R9i15 RETi16 OTHER: MOVI R2,17

NOP

NOP

NOP

Oberoende instruktion!

ADDI R4,R4,2

NOP

R2 används ej i loopen – får skrivas över!

Page 35: Övning 10

William Sandqvist [email protected]

b) 4-stegs, ingen delay slot, ingen data forward. Skriv om koden.

i1 CSM: MOVI R8,0i2 MOVI R9,0i3 ORI R10,R0,0xffffi4 CKLOOP: LDH R8,0(R4)i5 SUBI R5,R5,2i6 ADDI R4,R4,2i7 BGE R5,R0,CCONTi8 ANDI R8,R8,0x00ffi9 CCONT: ADD R11,R9,R8i10 AND R9,R10,R11i11 BEQ R9,R11,CNOCYi12 ADDI R9,R9,1i13 CNOCY: BGT R5,R0,CKLOOPi14 MOV R2,R9i15 RETi16 OTHER: MOVI R2,17

RAW-problem?

NOP

NOP NOPNOP NOPNOP NOP

NOP

Page 36: Övning 10

William Sandqvist [email protected]

c) 5-stegs, ingen delay slot, data forward. Skriv om koden för processorn.

i1 CSM: MOVI R8,0i2 MOVI R9,0i3 ORI R10,R0,0xffffi4 CKLOOP: LDH R8,0(R4)i5 SUBI R5,R5,2i6 ADDI R4,R4,2i7 BGE R5,R0,CCONTi8 ANDI R8,R8,0x00ffi9 CCONT: ADD R11,R9,R8i10 AND R9,R10,R11i11 BEQ R9,R11,CNOCYi12 ADDI R9,R9,1i13 CNOCY: BGT R5,R0,CKLOOPi14 MOV R2,R9i15 RETi16 OTHER: MOVI R2,17

5-stegs pipeline kräver NOP efter load om beroende instruktion följer.

Instruktionen efter Load är oberoende av R8!Ingen åtgärd behövs således.

Motiveringen är avgörande för poäng! Att inte skriva något är inte svar på frågan!

Page 37: Övning 10

William Sandqvist [email protected]

e) (5-stegs, delay slot, data forward). Hur påverkas körningen om det bara finns en gemensam cache,

inte separata D och I-cachar!

Instruktioner kan inte hämtas samtidigt som load eller store utförs. I detta program stoppar LDH R8,0(R4) upp hämtningen av SUBI R5,R5,2. Effekten blir som några extra NOP.

Det är som om den första och den sista stationen längs ett löpande band skulle använda samma verktygslåda! Bättre med egna verktyg till varje station!

Page 38: Övning 10

William Sandqvist [email protected]

Typtenta uppgift 1

Lösning sker på whiteboard-tavlan.

Page 39: Övning 10

William Sandqvist [email protected]

Typtenta uppgift 2Assemblerprogram

Lösning på whiteboard-tavlan.

Page 40: Övning 10

William Sandqvist [email protected]

Typtenta uppgift 3In och utmatning och avbrott

Lösning på whiteboard-tavlan.

Page 41: Övning 10

William Sandqvist [email protected]

Typtenta uppgift 4Cache-minnen

Lösning sker på whiteboard-tavlan.

Page 42: Övning 10

William Sandqvist [email protected]

Typtenta uppgift 6

Lösning sker på whiteboard-tavlan.

Numera innehåller uppgifterna 50% om kod för tex. trådbyte.