CPSC540 - University of British Columbia

CPSC540

Bayesian optimization,

Nando de FreitasFebruary 2013

Bayesian optimization,

bandits and

Thompson sampling

Multi-armed bandit problem

money!

Multi-armed bandit problem

Actions

Reward(s)

Sequence of trials

• Trade-off between Exploration and Exploitation• Regret = Player reward – Reward of best action

CPSC 340 5

Parameter

Exploration-exploitation tradeoff

Recall the expressions for GP prediction:

We should choose the next point x where the mean is high (exploitation) and the variance is high (exploration).

We could balance this tradeoff with an acquisition function as follows:

Acquisition functions

An acquisition function: Probability of Improvement

People as Bayesian reasoners

Utilitarian view: We need models to make the right decisions under uncertainty. Inference and decision making are intertwined.

Learned posterior Cost/Reward model u(x,a)

Bayes and decision theory

P(x=healthy|data) = 0.9

P(x=cancer|data) = 0.1

We choose the action that maximizes the expected utility, or equivalently, which minimizes the expected cost.

EU(a=no treatment) =

EU(a=treatment) =

EU(a) = u(x,a) P(x|data)xΣΣΣΣ

An expected utility criterionAt iteration n+1, choose the point that minimizes the distance to the objective evaluated at the maximum x*:

We don’t know the true objective at the maximum. To overcome this, Mockus proposed the following acquisition function:

Expected improvement

For this acquisition, we can obtain an analytical expression:

A third criterion: GP-UCB

Define the regret and cumulative regret as follows:

The GP-UCB criterion is as follows:The GP-UCB criterion is as follows:

Beta is set using a simple concentration bound:

[Srinivas et al, 2010]

A fourth criterion: Thompson sampling

Acquisition functions

Portfolios of acquisition functions help

Why Bayesian Optimization works

Intelligent user interfaces

Example: Tuning NP hard problem solvers

Why random tuning works sometimes

Example: Tuning random forests

Example: Tuning hybrid Monte Carlo

The games industry, rich in sophisticated large-scale simulators, is a great environment for the design and

study of automatic decision making systems.

Hierarchical policy example

– High-levelmodel-based learning for deciding when to navigate, park, pickup and dropoff passengers.

– Mid-levelactive path learning for navigating a topological map.

– Low-level active policy optimizer to learn control of continuous non-linear vehicle dynamics.

Active Path Finding in Middle Level• Mid-level Navigate policy generates sequence of waypoints on

a topological map to navigate from a location to a destination. V(θ) value function represents the path length from the current node, to the target.

Low-Level: Trajectory following

VyYerr

trajectory

TORCS: 3D game engine that implements complex vehicle dynamics complete with manual and automatic transmission, engine, clutch, tire, and suspension models.

Hierarchical systems apply to many robot tasks – key to build large systems

We used TORCS: A 3D game engine that implements complex vehicle dynamics complete with manual and automatic transmission, engine, clutch, tire, and suspension models.

Gaze planning

Digits Experiment:

Face Experiment:

Next lecture

In the next lecture, we embark on our quest to learn all about random forests. We will begin by learning about decision trees.

CPSC540 - University of British Columbia

Documents

Province of British Columbia Land Reserve … of British Columbia Land Reserve Commission ... British Columbia. ... British Columbia – Periodicals. 5. Forest policy

Mission, British Columbia · Mission, British Columbia

CHILLIWACK, BRITISH COLUMBIA

ResourceGuide2004 British Columbia

NO - British Columbia

Ministry of BRITISH COLUMBIA Agriculture AgriService ... · BRITISH COLUMBIA Agriculture AgriService BRITISH OLUMBIA . Ministry of BRITISH COLUMBIA Agriculture . Author: afox Created

SOUTH COAST BRITISH COLUMBIA TRANSPORTATION AUTHORITY … · SOUTH COAST BRITISH COLUMBIA TRANSPORTATION AUTHORITY . 2016 STATUTORY ANNUAL REPORT . The South Coast British Columbia

Invermere & Columbia Valley, British Columbia ... · Invermere & Columbia Valley, British Columbia ... Headquarters Copper Point Resort ... (FCO) Copper Point Resort

British Columbia Ferry Services Inc. Victoria, British Columbia · 2017-05-02 · British Columbia Ferry Services Inc. Victoria, British Columbia . ... Food/Beverage Services at Terminal

Métis Nation British Columbia A Guide to the Métis Nation ... · Victoria, British Columbia Williams Lake, British Columbia Smithers, British Columbia Vancouver, British Columbia

University of British Columbia Library Rare Books and Special ...rbscarchives.library.ubc.ca/downloads/british-columbia...British Columbia Historical Photograph Collection University

BRITISH COLUMBIA STRUCTURAL ENGINEERING & BUILDING ... · 10 british columbia credentials | entuitive entuitive | british columbia credentials 11 columbia valley community centre,

British Columbia PLUMBER · British Columbia PLUMBER APPRENTICESHIP PROGRAM. ... British Columbia Institute of Technology (reviewer) Open School BC ... For the building official,

British Columbia Case

Canada – British Columbia Environmental Farm Plan … · Canada – British Columbia . Environmental Farm Plan ... The Canada – British Columbia Environmental Farm Plan and Beneficial

Annual British Columbia Conservation Areas Summary … · Annual British Columbia Conservation Areas Summary Report 2016 British Columbia NGO Conservation Areas Database Technical

THE UNIVERSITY OF BRITISH COLUMBIA · University of British Columbia. B.Sc. Chemistry. 1981-1985: University of British Columbia. M.D. Medicine. 1984-1988: University of British Columbia

TABLE - British Columbia

CLIMATE ACTION IN BRITISH COLUMBIA CLIMATE ACTION IN BRITISH COLUMBIA

Dealer Inspire · Richmond, British Columbia, Canada British Columbia, Canada Vancouver, British Columbia, Canada British Columbia, Canada Vancouver, British Columbia, Canada Vancouver,