38
MIT Fifth Sense Project: Providing Key Functions of Vision to the Blind and Visually Impaired Seth Teller, MIT Carol Livermore, NEU Joint work with Rob Miller, Luis Fernando VelasquezHeller

MIT Fifth Sense Project: Providing Key Functions of … · MIT Fifth Sense Project: Providing Key Functions of Vision ... • Our goal: develop portable, wearable devices that enable

Embed Size (px)

Citation preview

MIT Fifth Sense Project:Providing Key Functions of Visionto the Blind and Visually Impaired

Seth Teller, MIT              Carol Livermore, NEUJoint work with Rob Miller, Luis Fernando 

Velasquez‐Heller

My background: Helpful machines• Machines that do physical work for the user…

– Robot cars, forklifts, wheelchairs, humanoids…

• And that provide useful information to the user– Directions, situational awareness, query answering…

MIT Fifth Sense Project• Our goal: develop portable, wearable devicesthat enable blind and visually impaired peopleto participate independently in daily activities

• We call this the “Fifth Sense” project, since itseeks to replace the missing sense of vision

• We have identified four key visual functions:– Safe mobility & orientation– Dynamic social context– Decoding of text and symbols– Private, timely information delivery

Key Functions of Vision• Safe mobility & orientation

– Led by Ph.D. student Rahul Kumar Namdev

• Dynamic social context• Decoding of text and symbols• Private, timely information delivery

Safe Mobility & Orientation• Indicate safe walking regions, dropoffs, ascents,trip hazards, obstacles, head hazards, boundaries 

Challenges• Hazards can be small, complex, hard to detect• Information must be delivered to user withenough precision that s/he can avoid hazards

• Information must be delivered rapidlyenough to support fluid, efficient walking

• Must be functional both indoors and outdoors• Device must meet size, weight, power limits

Our Approach• Capture dense stereo, 3D lidar, inertial data• Fuse data over short time scales (2‐3 seconds)• Maintain dynamic 3D map of local surroundings• Identify major horizontal, vertical surfaces• Detect changes in visual texture

Safe Mobility prototype, indoors

Stereo sensor for outdoor use(Indoor video)

Key Functions of Vision• Safe mobility & orientation• Dynamic social context

– Led by Ph.D. student David Hayden,who is co‐advised by Prof. Rob Miller

• Decoding of text and symbols• Private, timely information delivery

Social Interaction Assistance

• Blind people can detect nearby acquaintances  only passively, by:– Listening for speech or approach sounds, or– Waiting to be hailed by the acquaintance

• This limits proactive engagement, both:– Serendipitously, with acquaintances– With unrecognized persons

Dynamic Social Context• Notify user of approaching people; identifyacquaintances quickly enough to be useful

A full day of wearable data (video)

Challenges• Encounters often happen as user is moving

– Images can be motion‐blurred, poorly framed– Other people aren’t viewed with a known aspect

• Information must be delivered rapidly enoughto support fluid, efficient social interactions– System must detect encounters as they occur– Typically have only 1‐2 seconds to identify others

• Social settings are often crowded– Must allocate resources to (likely) acquaintances– Must make false positive rate acceptably low

Our Approach: Wearable Assistant• Unobtrusive, socially‐acceptable wearable assistant that provides private information about nearby acquaintances– Doesn’t obscure face / is not blatantly visible– Usable without interrupting social interaction– Operates in real time– All interface functions accessible to blind/VI users

Smartphone sewn into jacket(camera, IMU, network, audio)

Watch (button input, vibration output)

Obscured camera lens

Our Approach

Tiny speaker (sotto voce audio)

Our Approach (cont.)• Capture continuous image, motion (IMU), audio and location (GPS, wifi) streams

• Detect people using facial and body features– Incorporate appearance, location, expectation

• Detect approach of acquaintances– Privately inform user (audio, tactile notification)

• Detect social interactions– Ask user for the names of unknown people later– Store appearance data for subsequent encounters

Detecting Social Interactions A full day of wearable data (video)

Acquaintance Notification

(Video:“Detecting theapproach of anAcquaintance”)

Reviewing a Day’s Interactions

(Video:“Labeling the day’s Social Interactions”)

Key Functions of Vision• Safe mobility & orientation• Dynamic social context• Decoding of text and symbols

– Led by Dr. Hsueh‐Cheng (Nick) Wang

• Private, timely information delivery

Text and Symbols are Everywhere!• Directories, doorplates, transit, shopping, rules …

• Appliance controls and status panels

Challenges• Text appears with very high variability

– Location, scale, perspective, font, color…– Symbols have even greater variability!– Decoding is computationally intensive

• Effective field of view (FOV) is very large– With ordinary vision, nearly a full sphere– Text often occupies only a tiny fraction of FOV– B&VI user does not know where to look in surround

Our Approach• Capture wide‐field and “foveated” imagery 

– Detect text in wide‐field using fast statistical tests– Decode high‐res pixels only where text is detected

Pan/Tilt/ZoomCamera

Kinect

IMU

Lidar

Our Approach (cont.)• Integrate with real‐time 3D mapping

– Dewarp to remove perspective, scaling effects

Our Approach (cont.)• Incorporate spatial prior on text locations

– Search in most likely and readable locations first– Organize search by absolute size of text

Spatial Prioritization

Our Approach (cont.)• Combine multiple observations

– Increase robustness to noise, incorrect decodings

Combining Multiple Observations

Key Functions of Vision• Safe mobility & orientation• Dynamic social context• Decoding of text and symbols• Private, timely information delivery

– Led by Ph.D. student Xin Xie

Private, Timely Information Delivery• Users want access to information withoutstanding out, or sacrificing privacy– Audio channel may be inappropriate or unusable

• Not all information can be delivered as text:– Complex features of walking terrain– Symbolic information (signage, control panels)– Rich visual material (e.g. plots, diagrams)

• Our goal is to deliver rich information to theuser discreetly, quickly and intuitively– Motivates our high‐resolution tactile display effort

My background: Small machines• Small machines that do large jobs…

– Miniature engines, rockets, power supplies…

• And making small machines quickly and easily– Hardware that assembles itself, folds like origami…

50µm

High‐resolution Tactile Display• Goal: direct access to complex visual information

– Static (printed material) and dynamic (surroundings)– Portable, egocentrically mapped display area– Information rendered intuitively – easy to use– Transduction of text to Braille or letterforms

Our Approach• Map visual and spatial information intuitively

– Static patterns convey graphical information– Moving patterns convey alerts, indicate direction

Challenges• Displays must be fully 2D, with high resolution and an ability to show moving patterns– Fast actuators are too large for full page displays– Fully 2D displays update their patterns too slowly

• Displays must be manufacturable at low cost– Complex assembly as for Braille cells raises costs 

Metec AG 

Our Approach• Fully 2D, high resolution, rapidly refreshed displays from a single layer of vibrating elements– New tactile elements use very small actuators to create large vibrations 

Our Approach (cont.)• Powerful in‐plane vibrations drive large vertical vibrations

Our Approach (cont.)• Initial 28‐element prototype demonstrates that the new display concept works

• Next step:  use scalable batch microfabrication to create large displays of many smaller elements

Conclusion• In collaboration with Blind &V‐I users, we have identified four key functions of vision– Safety, social awareness, text/symbols, private access

• Pursuing multidisciplinary effort todevelop methods for real‐world data– Integrate sensing, 3D mapping, analysis, interaction

• Initial prototypes of each function– Continue to extend and evaluate capabilities

• We seek collaboration with researchers, users– Please see our prototype systems at the exhibition!