8
Page 1 Datorseendebaserade människa-datorgränssnitt Exempel på tillämpningar och tekniker Lars Bretzner Centre for User Oriented IT Design (CID) och Computational Vision and Active Perception Lab (CVAP) NADA/KTH Bakgrund, introduktion Datorseendebaserade gränssnitt: Helkroppsposer och rörelser Huvud- och ögonrörelser Handgester Innehåll Bygger på datoriserad analys av bilder från en eller flera kameror som filmar användaren Har blivit en intressant möjlighet p.g.a. Framsteg inom datoriserad bildanalys Snabbare (och billigare) datorer Billigare (och fler) kameror av bra kvalitet Datorseendebaserade gränssnitt: Bakgrund Fördelar: Användaren behöver ingen utrustning för interaktion Billigt – ofta standardkameror Flexibilitet – samma kamera,olika interaktionssätt Nackdelar: Komplicerad teknik, i de flesta fall är tekniken ej ännu mogen för marknaden Datorseendebaserade gränssnitt Automatisk tolkning av bilder, t.ex igenkänning av föremål, människor eller händelser, för bl.a navigering, övervakning, medicinska tillämpningar, fjärranalys (satellit o flygfoto), MMI, bildsökning, robotar etc. Aktivt forskningsområde sedan 1960-70 Stort uppsving under senare delen av 90-talet och framåt pga allt snabbare datorer Datorseende - Bildanalys

AGI2005 - nada.kth.se fileatmosfär, kamerans placering, optik, bildsensor etc etc. Stor datamängd att hantera: >100000 pixlar=bytes per färgkanal (R,G,B) i varje bild, ofta 10-60

  • Upload
    voxuyen

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

Page 1

Datorseendebaserade människa-datorgränssnitt Exempel på tillämpningar och tekniker

Lars Bretzner

Centre for User Oriented IT Design (CID)och

Computational Vision and Active Perception Lab (CVAP)NADA/KTH

• Bakgrund, introduktion

• Datorseendebaserade gränssnitt:• Helkroppsposer och rörelser• Huvud- och ögonrörelser• Handgester

Innehåll

Bygger på datoriserad analys av bilder från en eller flera kameror som filmar användaren

Har blivit en intressant möjlighet p.g.a.• Framsteg inom datoriserad bildanalys• Snabbare (och billigare) datorer• Billigare (och fler) kameror av bra kvalitet

Datorseendebaserade gränssnitt:Bakgrund

Fördelar:• Användaren behöver ingen utrustning för

interaktion• Billigt – ofta standardkameror • Flexibilitet – samma kamera,olika

interaktionssätt

Nackdelar:• Komplicerad teknik, i de flesta fall är

tekniken ej ännu mogen för marknaden

Datorseendebaserade gränssnitt

Automatisk tolkning av bilder, t.ex igenkänning av föremål, människor eller händelser, för bl.a navigering, övervakning, medicinska tillämpningar, fjärranalys (satellit o flygfoto), MMI, bildsökning, robotar etc.

Aktivt forskningsområde sedan 1960-70

Stort uppsving under senare delen av 90-talet och framåt pga allt snabbare datorer

Datorseende - Bildanalys

Page 2

Varför är det svårt?

Bildinnehållet (pixlarna) bestäms av en mängd parametrar: 3D-formen hos föremålen, materialegenskaper, belysning (frekvens, placering), atmosfär, kamerans placering, optik, bildsensor etc etc.

Stor datamängd att hantera:>100000 pixlar=bytes per färgkanal (R,G,B) i varje bild,

ofta 10-60 bilder/sekund

Datorseende - Bildanalys

Hur representera/modellera världen för att hantera alla tänkbara situationer...?

Tills vidare: Begränsa problemdomänen t.ex• Kontrollerade belysningsförhållanden• Kända avstånd kamera-scen• Enkla scener• Fåtal objekt/händelser att känna igen• ...

Datorseende - Bildanalys

Detektion av stora kroppsdelar och/eller deras rörelser, typiskt armar, ben, torso och huvud.

Exempel på tillämpningar:• Övervakning• Navigering i VR-miljöer• Spel

Helkroppsposer och -rörelser

Enklast: Hitta stora rörelser i hela bilden, kombinera med enkla antaganden om kroppsposition.

Exempel: ”Ghost in the Cave”, TMH, KTH

Helkroppsrörelser

Detektion av stora rörelser kan även kombineras med hudfärgsdetektion och borttagning av statisk bakgrund.Exempel: Sony Eye Toy till Playstation 2

Helkroppsrörelser

Smart visuell feedback: användaren inuti spelet

För att bestämma kroppsposen kan enkel 3D-modell av kroppen (torso,huvud,armar,ben) matchas mot bilddata.Med två kameror fås djupinformation i scenen.

Helkroppsposer och -rörelser

Ex. MIT AI lab

Page 3

Kroppsposerna i 3D kan användas för interaktion, t.ex navigering i VR-miljö.

• Fördelar:- Bättre noggrannhet i rörelsedetektion- Kroppsposer möjliggör rikare interaktion

• Nackdelar:- Komplexa beräkningar ty många frihetgrader- Känsligt för belysning, klädsel, bakgrund- Kräver två eller flera kameror

Helkroppsposer och -rörelser

Ex. MIT AI lab

Endast en kamera: Kroppsposer och rörelser i 3Dbetydligt svårare.

Ingen djupinfo och ofta skymda kroppsdelargör att gissningar om posen ofta måste göras baserade på statistik från vanliga kroppsrörelser.

Helkroppsposer och -rörelser

Ex. CVAP/NADA/KTH

Mätning av huvudposition samt orientering och/eller blickvektor.

Exempel på tillämpningar:• Uppmärksamhetsmätningar

- Intresseområden i bilder, på websidor etc.- Attentive interfaces (uppmärksamhetskänsliga)

• Trötthetsmätningar• Dialogsystem

- Ja-nickar/Nej-skakningar- Turtagning

Huvud- och ögonrörelser

• Relativt gammalt område, många kommersiella system. • En eller flera kameror.• Ofta IR-belysning och kamerafilter för att

minimera känsligheten för yttre ljusförhållanden.

Huvud- och ögonrörelser

Ex. Smart Eye AB

Teknik I: 1. Hitta ansiktet i bilden. 2. Hitta detaljer, särdrag, i ansiktet (ögon, ögonvrå,

mungipor..).3. Anpassa 3D-modell av huvudet till bildpunkterna

-> huvudposition och orientering4. Hitta iris, pupiller, ögonlock -> blickvektor

Huvud- och ögonrörelser

Teknik I, prestanda:Två eller flera kameror med VGA upplösning, Huvudorientering ca 1 grad,Blickvektor ca 3-5 grader ~ 5-8 cm på 1 m.

Fördelar:- Både huvudpose och blickvektor.- Stora huvud- och ögonrörelser möjliga.Nackdelar:- Problem med glasögon och vissa ansiktstyper.- Otillräcklig blicknoggrannhet för vissa tillämpningar.

Huvud- och ögonrörelser

Page 4

Teknik II: 1. Hitta ögonen (pupillerna) i bilden med IR-reflexer

från ögonbotten. 2. Hitta glintar, dvs reflexer i hornhinnan från IR-

ljuskällor. 3. Beräkna ögonlobens 3D-position från glintarna.4. Ögonlob+pupillposition -> blickvektor

Huvud- och ögonrörelser

Teknik II, prestanda:Blickvektor ca 1 grad ~ 1.5-2 cm på 1 m.

Fördelar:- Tillräcklig noggrannhet för de flesta fall.- Okänslig för olika ansiktstyper.Nackdelar:- Glintberoende: Endast mindre ögonrörelser

möjliga i normalfallet.- Mäter ej huvudpose.

Huvud- och ögonrörelser

Exempel: Uppmärksamhetsmätning, fixeringar

Huvud- och ögonrörelser

Ex. Tobii AB

Exempel: Attentive interfaces, gränssnitt som reagerar då de blir betraktade.

Huvud- och ögonrörelser

Ex. Queen’s Univ.

Exempel: Attentive interfaces forts, svara i telefonen

Huvud- och ögonrörelser

Ex. Queen’s Univ.

Läpprörelser –för förbättrad talförståelse, även datortalpedagog

Ansiktsigenkänning –kommersiella produkter för säkerhetstillämpningar och underhållning (t.ex i Sonys robothundar)

Huvud- och ögonrörelser: Övrigt

Ansiktsuttryck -känslogränssnitt, s.k. affective interfaces, enkel variant i Logitechs webcam, snart även i 3G-mobiler

Ex. OKI, Japan

Page 5

Handgester

Medvetna handgester för kontroll av och/eller kommunikation med datoriserad utrustning.

Varför handgester?

•Vi är vana att använda händerna för interaktion

•Många naturliga gester, t.ex. pekgester

•Hög rörlighet ger flexibilitet

•Möjligt att detektera utan behov av datormöss, handskar etc.

Handgester

Exempel på gester:

- Gester som direkt identifierar en intresseregion (t.ex pekgester), eller som specificerar ett kvantitativt värde.- Gester som ges betydelsen av kontrollkommandon.- Kombinationer.

Tillämpningsområden:

• Kontroll och instruktioner av mekaniska system, robotar.• Komplettera/ersätt datormöss och mekaniska tangentbord i lämpliga

situationer.• Interaktion med visualiseringssystem och virtuella miljöer som CAD-miljöer

och datorspel.• Kontrollera hemelektronik, t.ex som fjärrkontroll för TV och video, ljusdimmer

etc.• ...

Handgester

Färgsegmentering: Hudfärg relativt väldefinierad i färgrymden

Särdragsextraktion: Hörn, linjer, blobbar, åsar på olika skalor

3D-Geometri: 3D-rörelse från särdragens rörelse över tiden

Formmodellering: Kombinera särdragen för att representera form

Formigenkänning: Finn den mest sannolika modellen och positionen

Blob- och åsdetektion med automatiskt skalval: Exempel

De 20 starkaste blob- och ås-svaren

Handmodell: Särdragsextraktion

Handmodell: Särdragshierarki över multipla skalor

Hierarki av stabila, dominerande särdrag (handflata, fingrar, fingertoppar)

ModelltillståndX=(x,y,s,α,l,x’,y’,α’)

(position,skala,orientering,pose,dynamiska parametrar)

Handdetektion: Matcha model mot data med partikelfilter

Hypotesfördelning över tiden

Page 6

Kombination av färg och forminformation

Partikelfilter hittar de modellparametrar har högst sannolikhet

Exempel DrawBoard:Handposer styr ritprogram

Ex. CVAP/NADA/KTH

Problem/frågeställningar

Detektion:Handen generellt svår att modellera, många frihetsgrader, hög

deformerbarhet.Vyoberoende?Personberoende variationer i gesters utseende.Komplexa scener; mycket rörelse, mycket bildinformation. Varierande belysningsförhållanden.Realtidskrav.

Interaktion:

>>>>Vilka gester går att detektera i vilka situationer?

>>>>Vilka gester är bekväma att använda i vilka situationer?>>>>Vilka gester är lätta att komma ihåg?

Exempel: Kontroll av hemelektronik

TV och belysning styrs med handposer.

Ex. CID/NADA/KTH

Handposer

Enbart handposer ger begränsad skalbarhet, en stor mängd handposer skulle med stor sannolikhet innebära:

• Detektionsproblem• Svårigheter att utföra• Svårigheter att komma ihåg• ...etc.

Kombination av gester och menyer för multi-funktionskontroll

Ex. CID/NADA/KTH

Page 7

Marking- och Flow-menyer för gestgränsnitt

-En kombination av rörelser upp/ner/vänster/höger bestämmer menyvalet-Kan memoreras, endast två poser behövs!

Traditionell marking menu

Flow menu-mindre rörelser,återvänder till

ursprungspositionen

Pekgester för informationsåtkomst

Enkel formbaserad detektion av fingertoppar mot statisk bakgrund.

Pekgester för åtkomst av informationslager över valfritt objekt.

Skapar interaktiva ytor utan behov av elektriska installationer.

Möjlighet i ömtåliga miljöer och platser utsatta för hårt slitage och vandalism.

Ex. CID/NADA/KTH

Projektor-kamerasystem för ”virtuella pekskärmar”

Användaren interagerar med projektionen via t.ex. pekgester.

I princip kan vilken plan yta som helst utnyttjas.

Intressant alternativ till pekskärmar i känsliga miljöer och platser med hårt slitage och/eller risk för

vandalisering.

Visuell feedback ökar transparensen, användaren förstår bättre vad som händer och kan korrigera fel.

Ex. CID/NADA/KTH

Projektor-kamerasystem för ”virtuella pekskärmar”

Exempel: IBM – styrbart projektor-kamerasystem

Stor flexibilitet. Detektionsproblem när användaren skymmer projektor/kamera,och vid stora vinklar.

Projektor-kamerasystem för ”virtuella pekskärmar”

Exempel: CLIPS/IMAG/INRIA

Relativt ny teknik med uppsving under senaste åren.

Fördelar:Ingen speciell utrustning för interaktion, bara egna kroppen. Billigt. Flexibelt. Stor potential.

Nackdelar:Komplicerad, generellt ej mogen teknik. Känslig för belysning, bakgrund, avstånd m.m.

Datorseendebaserade gränssnitt:Kort sammanfattning

Page 8

Helkropp:3D svårt, speciellt med bara en kamera. Enklare tekniker baserade på rörelse mot statisk bakgrund. Få kommersiella produkter.

Datorseendebaserade gränssnitt:Kort sammanfattning

Huvud- och ögonrörelser:Etablerade tekniker, många kommersiella produkter för uppmärk-samhetsmätningar, de flesta med IR.

Handgester:3D svårt ty många frihetsgrader. Ofta vyberoende tekniker med fåtal handposer inkl. pekgester. Ännu inga kommersiella produkter(?), men på gång.Visuell feedback ofta bra sätt att öka transparensen, kan visa relationer användare-objekt, användaren kan lättare lära sig gräns-snittet.