Upload
others
View
31
Download
0
Embed Size (px)
Citation preview
LearningHumanBodyMovement
Seminar„NeuesteTrendsinBigDataAnalytics“Betreuer:ChristianHovy
LennartKordt22.Januar2018
/25
Gliederung
1. Motivation2. RückblickaufMachine Learning3. Terminologie4. Überblick5. AufbaudesDatensets6. HerleitungderPolicy7. Limitationen8. BerühmteBeispiele9. Quellen
2LennartKordt
/25
1.Motivation
GrundsätzlichesZiel:DemRoboterBewegungenbeibringen,OHNEprogrammierenzumüssen
VereinfachteNutzungderRoboterfüralltäglicheProbleme
`Programmierung`desRobotersdurcherfolgreichesVorführenderAufgabe
BeiFehlerninderAusführungkeineprofessionelleHilfenotwendig
3LennartKordt
/25
2.RückblickaufMachine Learning
• Definition:• “Thefield ofmachine learning is concerned withthequestion ofhow toconstruct computer programs that automatically improvewithexperience.”[Machine Learning,TomMitchell,McGrawHill,1997]
4LennartKordt
/25
2.RückblickaufMachine Learning
Quelle:TrainingandInferenceofNNs,Nvidia Corporation
5LennartKordt
/25
3.Terminologie
• LfD:LearningfromDemonstration• D:Demonstration• S:state (unbekannterZustand)• Z:observed state• A:action (anwendbaraufZ)• M:mapping• M:SZ
• 𝜋: policy• 𝜋: ZA
6LennartKordt
/25
4.Überblick
DemonstrationdesLehrers
PolicyHerleitung
D
𝜋
worldA
Z
Vgl.:B.D.Argall,etal.,Asurvey ofrobot learning from demonstration,Robotics andAutonomous Systems(2009)
7LennartKordt
/25
5.AufbaudesDatensets5.1.Allgemeines5.2.Record &EmbodimentMapping5.3.Demonstrationvs.Imitation5.4.Teleoperation5.5.Shadowing5.6.SensorsonTeacher5.7.External Observation
8LennartKordt
/25
5.1.AllgemeineszumAufbaudesDatensets
• StruktureinesA-S-Paares(Action-State)• MöglichkeitenderDatenaufnahme:• SensorenaufRoboteroderaufLehrer• SpeicherungderBewegungenbeiFührungdurchLehrer• KameraaufnahmendesRoboters
• Demonstrationstechniken:• Batchlearning• Interactiveapproaches
9LennartKordt
/25
RecordMapping• AusführungdesLehrers
• AufgezeichneteAusführung• AufzeichnungfremderDaten• Überprüfungobdieexaktenstates/actions desLehrersmitdenaufgezeichnetenAusführungenübereinstimmen
EmbodimentMapping• AufgezeichneteAusführung
• Schüler• AufzeichnungeigenerDaten• ÜberprüfungobdieaufgezeichneteAusführungmitdererwartetenAusführungübereinstimmt
5.2.Record &Embodiment Mapping
10LennartKordt
/25
5.3.Demonstrationvs.ImitationDatenquelle
Demonstration Imitation
Teleoperation Shadowing SensorsonTeacher
ExternalObservation
Vgl.:B.D.Argall,etal.,Asurvey ofrobot learning from demonstration,Robotics andAutonomous Systems(2009)11LennartKordt
/25
5.4.Teleoperation
• “ArbeitenaufDistanz“
• RoboterwirdvonLehrergesteuert• AufzeichnungderDatenübereigeneSensoren• SteuerungüberJoystick• Sprachsteuerung• FührungdesRobotersdurchdieBewegungen
DirektesRecordMapping
12LennartKordt
/25
5.5.Shadowing
• SimultaneNachahmungderBewegungendesLehrersdurchRoboter
• AufnahmederDatenübereigeneSensoren
• ZusätzlicherAlgorithmuszuraktivenAufzeichnungundReproduktionderDatennotwendig
IndirektesRecordMapping
13LennartKordt
/25
5.6.SensorsonTeacher
• SensorendirektaufdemausführendenObjekt
• PräziseAufzeichnungderausgeführtenAktion
• Sensorensehrspeziell
• KeinevielfältigeEinsatzmöglichkeiteinesSensors
14LennartKordt
/25
5.7.External Observation
• KeineSensorenaufdemvorführendenObjekt
• SichtvonaußenaufVorführung
• TypischerweisedurchKamerasdirektaufdemKörperdesRoboters
• MöglichkeitzurVerbindungvonSensorsonTeacher undExternalObservationbestehtundwirdhäufigangewandt
15LennartKordt
/25
6.1.MappingFunction
• DemonstrierteDatenwerdendirektgenutztumaufdenObservedState(Z)anwendbareAktionen(A)abzuleiten
• Ziel:• ReproduktionderzugrundeliegendenzuerstnochunbekanntenPolicy desLehrers• GeneralisierungderdurchTrainingerworbenenDaten• MöglichkeitauchfürunbekannteZuständeeinegültigeLösungzufinden
17LennartKordt
/25
6.2.SystemModel
• NutzenderdemonstriertenDatenumdieDynamikenderWeltundeinemöglicheReward-Funktionzuerstellen
• AbleitungderPolicy ausdiesemModelldurchReinforcementLearning• MaschinellesLernen,beidemdieMaschineselbstständigeineStrategieentwickelt,umerhalteneBelohnungzumaximieren
18LennartKordt
/25
6.3.Plans
• NutzungderdemonstriertenDatenumRegelnüberAuswirkungenderAktionenabzuleiten
• AbbildungderAktionenüber• Pre-Conditions:Zustand,dererreichtseinmuss,umdiegewünschteAktionausführenzukönnen• Post-Condition:Zustand,derdurchdieAusführungderAktionerreichtwerdensoll
• Rückwärtsplanen19LennartKordt
/25
7.Limitationen
• LfD-SystemesindvonNaturausmitderimDatasetdemonstriertenInformationverlinkt
• PerformancedesLerners/RobotersistüberdieQualitätdieserInformationenlimitiert
• Undemonstrated state orPoorquality data
20LennartKordt
/25
7.ÜberwältigungderLimitationen
• Underdemonstrated state• GeneralisierungvonbestehendenDemonstrationen• NeuerlicheDemonstrationendurchführen
• Poordata quality• SchlechteDemonstrationenausdemSpeicherlöschen• AusErfahrungenlernen
21LennartKordt
/25
8.1.HondasAsimo
1986:EO,ersterlauffähigerRobotervonHonda1988:E2,Geschwindigkeit1,2km/h+FähigkeitTreppenzusteigen1993:P1,Prototyphumanoider Roboter(Torso193cmgroß)1996:P2,182cm,210kg1997:P3,160cm,130kg,Geschwindigkeit2km/h2000:Asimo,120cm,52kg2014:EntwicklungvonAsimo weitfortgeschritten:FähigkeitFußballzuspielen2017:Geschwindigkeit:9km/hhttps://youtu.be/fQ3EHtEl_NY
23LennartKordt
/25
8.2.AtlasbyBostonDynamics
• Größe:1,5m
• Gewicht:75kg
• Nutzlast:11kg• Power:Batterie
• Antrieb:hydraulisch• https://youtu.be/SD6Okylclb8
• https://youtu.be/rVlhMGQgDkY
• https://youtu.be/fRj34o4hN4I
24
https://de.wikipedia.org/wiki/Atlas_(Roboter)#/media/File:Atlas_from_boston_dynamics.jpg
LennartKordt
/25
9.Quellen• B.D.Argall,etal.,Asurvey ofrobot learning fromdemonstration,Robotics andAutonomousSystems(2009)
• BarisAkgun,etal.,Keyframe-based Learningfrom DemonstrationMethod andEvaluation• AudeBillardandDanielGrollman (2013),Scholarpedia,8(12):3824.• https://www.bostondynamics.com/atlas• https://koroibot-motion-database.humanoids.kit.edu/list/motions/• http://rll.berkeley.edu/deeprlcourse/• StefanSchaal,LearningFrom Demonstration• A.Billard,S.Calinon,R.Dillmann,andS.Schaal,“Robotprogrammingbydemonstration,”inSpringerhandbookofrobotics.Springer,2008,pp.1371–1394.
• Jangwon Lee,Asurvey ofrobot learning fromdemonstrations forHuman-RobotCollaboration(2017)
• TrainingandInferenceofNNs,NvidiaCorporation• https://de.wikipedia.org/wiki/Atlas_(Roboter)#/media/File:Atlas_from_boston_dynamics.jpg• https://www.forbes.com/sites/aarontilley/2017/09/19/ai-startup-invents-trick-for-robots-to-more-efficiently-teach-themselves-complex-tasks/#17b0cd2a15fe
• http://asimo.honda.com/downloads/pdf/asimo-technical-information.pdf25LennartKordt