Projekt: Gaze Tracking - Machine Learningulges/teaching/16ML/files/talks/gaze_kurz.pdfGliederung...

PROJEKT: GAZE TRACKINGMachine Learning

Letztes Update: 23. Februar 2017

Nadja Kurz

Studienbereich InformatikHochschule RheinMain

Gliederung Einleitung Datengrundlage Architektur und verfolgte Ansatze Normalisierung Experimente Fazit

GLIEDERUNG

1. Einleitung

2. Datengrundlage

3. Architektur und verfolgte Ansatze

4. Normalisierung

5. Experimente

6. Fazit

Einleitung

ZIELE BZW. INHALTE

I Entwicklung eines CNNs zum Gaze Tracking

I Erkennen von Gesichtsmerkmalen und der 3D-Kopfrotation

I Normalisierung von Bildern einer Webcam

I Entwicklung einer Anwendung zum Sammeln personlicherTrainingsdaten

I Entwicklung einer lauffahigen DemoI Darstellen der Blickrichtung auf dem BildschirmI Sammeln von personlichen TrainingsdatenI ’Zusatztraining’ mit den personlichen Daten

DATENQUELLEN

I Appearance-based Gaze Estimation in the Wild by X. Zhang,Y. Sugano, M. Fritz and A. Bulling

I CNN-ArchitekturI Normalisierungsansatz

I Learning-by-synthesis for appearance-based 3d gazeestimation by Y. Sugano, Y. Matsushita and Y. Sato

I NormalisierungI Sammeln von eigenen Trainingsdaten (Anwendung)

Datengrundlage

MPIIGAZE

I 213.659 Bilder von 15 verschiedenen Personen

I Bilder wurden in ’naturlicher’ Umgebung aufgenommen

I Zeitraum: 3 Monate

I verschiedene Kopfpositionen / Ausrichtungen des Kopfes

Abbildung: Einige Bsp. der normalisierten Bilder des MPIIGaze Datensets.

MPIIGAZE

I (Relevante) Inhalte des Datensets:I Original-Bilder (nur Ausschnitte der Augenpartien)I Normalisierte Bilder einzelner Augen (60x36 Pixel)I Kopfrotation in 3D-KoordinatenI Groundtruth in Form von 3D-Koordinaten der ’gaze direction’

Abbildung: Einige Bsp. der normalisierten Bilder des MPIIGaze Datensets.

PERSONLICHE TRAININGSDATEN

I Idee: das auf den MPIIGaze-Daten trainierte CNN mitpersonlichen Daten ’verfeinern’

I 237 verschiedene Bilder von mir selbstI unterschiedliche Umgebungen zu unterschiedlichen ZeitenI Einschrankung: Keine Rotation des Kopfes erlaubt

I Augen auf einer Hohe mit der Kamera in einem 90◦ Winkel

Abbildung: Schematische Darstellung der Kopfposition in Relation zur Kamera.

PERSONLICHE TRAININGSDATEN

I Weitere Einschrankungen:I Halbwegs beleuchtete UmgebungI Keine Brillen oder andere Objekte vor den AugenI Nur Bilder von einem Auge (hier: das Linke)

Abbildung: Einige Bsp. der normalisierten personlichen Trainingsbilder.

Architektur und verfolgte Ansatze

PITCH UND YAW

+ yaw- yaw

+ pitch

- pitch

NETZARCHITEKTUR

I Eingabe: Normalisiertes Bild eines linken/rechten AugesI Ausgabe: 2 Winkel - Pitch und Yaw

I Pitch: Drehung des Augapfels um die horizontale AchseI Yaw: Drehung des Augapfels um die vertikale Achse

Abbildung: Netzwerkarchitektur des implementierten CNNs [Source: 1]

1Appearance-based Gaze Estimation in the Wild, X. Zhang, Y. Sugano, M. Fritz, A. Bulling

FREIE PARAMETER

I Optimization-Algorithmus: AdamOptimizerI weitere freie Parameter geandert: beta1, beta2, epsilonI Durch Trial & Error bestimmt

I Loss-Funktion: Summe des quadratischen FehlersI Wichtig! Summe fur Pitch und Yaw getrennt → 2 LossesI Optimierung auf beiden Werten parallel

n∑i=0

(output pitch − target pitch)2

n∑i=0

(output yaw − target yaw)2

FREIE PARAMETER

I Weitere freie Parameter zur Netzarchitektur:I Initialisierung der Gewichte:

I Convolutional-Layers: Zufallige Werte der NormalverteilungI FC-Layers: Xavier-Initialisierung2

I Initialisierung der Biases: Konstant 0.1

I Allgemeine Parameter zum Training des Netzes:I Batchsize:

I Training auf MPIIGaze: 1000I Training auf personlichen Daten: 100

I Learningrate: 1e − 4 = 0.0001I Anzahl Iterationen:

I Training auf MPIIGaze: 30.000I Training auf personlichen Daten: 6 1.000

2Algorithmus, der die Gewichte so initialisiert, dass diese ’gerade so passen’.

Normalisierung

NORMALISIERUNG

I Hintergrund: Augen sehen je nach Kopfposition anders ausI Idee: Transformation des Gesichtes, sodass Kamera direkt vor

den Augen positioniert istI Perspektivische Transformation (Skalierung und Rotation)

I Histogramm-Normalisierung: Reduzierung der Auswirkungenverschiedener Lichtverhaltnisse

NORMALISIERUNG - ABLAUF

1. Erkennung von Landmarks

2. Berechnung von Kopfrotation und -transformation (solvePnP)I In Relation zu einem generischen 3D-Kopf-Modell

3. Berechnung einer ’Homography’ Matrix

4. Perspektivische Transformation

5. Histogramm-Normalisierung

6. Ausschneiden und Skalierung der Augen

Experimente

GUTEMASS

Durchschnittliche Abweichung [Grad]

#Samples

∑|target yaw − actual yaw |

#Samples

∑|target pitch − actual pitch|

UBERSICHT: EXPERIMENTE

Experiment Vortraining Zusatztraining

1 MPIIGaze —2 MPIIGaze Nur eigene Daten (227 Bilder)3 MPIIGaze Eigene Daten (227 Bilder) +

MPIIGaze (x Bilder) Daten4 Eigene Daten —

Abbildung: Links: 1. Testset (52 Bilder), Rechts: 2. Testset (90 Bilder)

ERGEBNISSE

3 4 5Durchschnittliche Abweichung in Grad

1. Testset 2. Testset

4. Experiment

3. Experiment

4. Experiment

ERGEBNISSE - PITCH

3 4 5Durchschnittliche Abweichung in Grad

1. Testset 2. Testset

4. Experiment

3. Experiment

ERGEBNISSE - YAW

3. Experiment

4. Experiment

ERGEBNISSE - ZUSAMMENFASSUNG

I MPIIGaze vs personliche Daten:I Personliche Daten verbessern QualitatI Eventuell abhangig von der NormalisierungI MPIIGaze + Zusatztraining = gute Alternative

I Zusatztraining:I Kann Generalisierungsfahigkeit beeintrachtigenI Verbessert Qualitat fur einzelne Person deutlich

I Pitch ist schwieriger zu Klassifizieren als Yaw

I Insgesamt: Durchschnittliche Abweichung < 5◦

FAZIT UND AUSBLICK

I MPIIGaze Daten sind teilweise nicht brauchbarI Normalisierung wurde in dem Originalpaper kaum erlautert

I Viel ’herumprobieren’ und nachforschen in Quellen des Papers

I Training hat nicht mit den gleichen Parametern des CNNs desOriginalpapers funktioniert (andere Learningrate, etc.)

Abbildung: Ausschnitt einiger problematischer Bilder des MPIIGaze Datensets.

FAZIT UND AUSBLICK

I Brauchbare Lossfunktion zu bestimmen war großte HurdeI Optimierung mit kombiniertem Losswert hat nicht funktioniertI Lossfunktion, die im Originalpaper verwendet wurde, hat

Fehlermeldungen erzeugt

I Weitere Ansatze, die nicht umgesetzt wurden:I Andere CNN Architektur bzw. komplexere

I Mehr Convolutional LayerI Nicht nur max Pooling

Vielen Dank fur IhreAufmerksamkeit

QUELLEN

I Appearance-based Gaze Estimation in the Wild,X. Zhang, Y. Sugano, M. Fritz, A. Bulling

I Learning-by-synthesis for appearance-based 3dgaze estimation by Y. Sugano, Y. Matsushitaand Y. Sato

I Head Pose Estimation. Available fromhttp://www.learnopencv.com/

head-pose-estimation-using-opencv-and-dlib/

I Dlib - Landmark detection. Available fromhttps://matthewearl.github.io/2015/07/

28/switching-eds-with-python/

I Perspective Transformation. Available fromhttp:

//stackoverflow.com/questions/23275877/

opencv-get-perspective-matrix-from-translation-rotation

I Special Olympics Osterreich. ArnoldSchwarzenegger. Available fromhttps://www.flickr.com/photos/

so-austria/19948240828/ License.

Projekt: Gaze Tracking - Machine Learningulges/teaching/16ML/files/talks/gaze_kurz.pdfGliederung...

Documents

Barbara Fritsch, Martin Furholt, Martin Hinz, Luise Lorenz ... · Im Rahmen des SPP 1400 wird weiterhin an der Verbesserung die - ser Datengrundlage gearbeitet. Diese werden als Aktualisierungen

INCREASING RESILIENCE TO CLIMATE CHANGE FOR …agrilinks.org/sites/default/files/Session 11-Prak Amida-11-29-16ml... · • With Support from CCCA (MOE) – IR CSA (2016-2018)

Rights / License: Research Collection In Copyright - Non …31059/... · Das verfolgte Ziel ist es, eine Netzwerk Infrastruktur zu entwickeln, wel- che die Komplexitaet des unterliegenden

SESSION 2018 · Pour la réalisation des voiles de l’ensemble du sous-sol, soit 1200m² de mur coffré au total, l’entreprise devrait louer 16ml de trains de banche (2 faces)

Urteilskraft und die moralischen Grundlagen der Politik im ... · Arendt verfolgte diese Frage in einer Vorlesung, die 1971 in Social Research erschien, etwa zur gleichen Zeit, als

Autorin Juliane Cron, Juni 2011 swisstopo (JD100044) - ETH Z · 2011. 7. 1. · Juliane Cron, Juni 2011 . Datengrundlage . swisstopo (JD100044) Master Thesis . im Rahmen des Universitätslehrganges

Änderungdes Klimasin Bremen und Niedersachsen für2036-2065* · Version 1.2 11/09/2018 © GERICS *Datengrundlage: Auswertung von einem Ensemble regionaler Klimaprojektionen (EURO-CORDEX,

Das übersetzerische Denken von Frühromantik und ...€¦ · stellte und das Prinzip des einbürgernden Übersetzens verfolgte, favorisierte die Romantik die Form (ohne den Inhalt

Delayed Cord Clamping for Preterm Infants A ... - sap.org.ar · perineum or incision site has been shown to significantly ↑transfer of blood from the placenta to the infant. (2-16ml/kg

A discrete shipment size choice model with latent classes ......Großes Potential der Modelle, Datengrundlage mit RP/SP Daten unabdingbar univariate Faktenaufnahme in bisherige Statistiken

Was machte die Große Depression so groß? · Herbert Hoover verfolgte keine laissez-faire Politik. Der Smoot-Hawley Tariff Act von 1930 markierte den Höhepunkt des Protektionismus

Marketing Kunst Zeit - COnnecting REpositories · 2016. 5. 8. · zug und der Ehrenpforte, dem Teuerdank und Weißkunig, dem Grabmalprojekt oder dem Freydal verfolgte. Da Fried rich