Upload
amjad-hussain
View
94
Download
0
Embed Size (px)
Citation preview
From Predic+ve to Prescrip+ve Analy+cs by D. Bertsimas (MIT) & N. Kallus (Cornell)
Presenters: Nathan Kallus Asst. Professor, Cornell Amjad Hussain CEO, Silkroute
Produc+on and Opera+ons Management Society Applied Research Challenge
May 6th, 2016
Applied ML in Data Science
Web Search Predict video game demand (Goel et al. ’10)
TwiXer Predict box-‐office gross (Asur & Huberman ‘10)
Blogs Predict amazon book sales (Gruhl et al. ‘05)
TwiXer & News
Predict civil unrest (Kallus ’14)
Data Predic+on Problem Prescrip+on Problem
Inventory management for video game +tles
Assign capaci+es (cinemas)
Supply chain management
Facility loca+on, shipment planning
… … …
A general problem
• Data on quan+ty(ies) of interest E.g. demands at loca+ons/of products, % returns
• Data on associated covariates E.g. recent sales figures, search engine aXen+on
• Decision to minimize uncertain costs ader observing
Y
Xx
1, . . . , x
N
y1, . . . , yN
z 2 Z c(z;Y )X = x
The predic+ve prescrip+on problem • Problem of interest:
• Hypothe+cal full-‐informa+on op+mum – Uses knowledge of to leverage to greatest possible extent in reducing costs
• Our task: use data to construct a data-‐driven predic+ve prescrip+on
µX,Y X = x
SN = {(x1, y
1), . . . , (xN, y
N )}
zN (x) : X ! Z
z
⇤(x) 2 argminz2Z
E⇥c(z;Y )
��X = x
⇤
Standard Data-‐Driven Op+miza+on • Data on quan+ty(ies) of interest • Decision to minimize uncertain costs • Problem of interest is • Standard data-‐driven solu+on is sample average
approxima+on (SAA)
– Also: SA (Robins ‘51), Robust SAA (Bertsimas, Gupta, Kallus ‘14), Data-‐Driven RO (Bertsimas, Gupta, Kallus ‘13), Data-‐Driven DRO (Delage & Ye ’10, Calafiore & El Gahoui ’06)
• In our problem, standard data-‐driven op+miza+on accounts for uncertainty but not for auxiliary data
Yy1, . . . , yN
z 2 Z c(z;Y )minz2Z
E [c(z;Y )]
zSAAN 2 argmin
z2Z
1
N
NX
i=1
c(z; yi)
Standard Supervised Learning in ML • Data on quan+ty(ies) of interest • Data on associated covariates • Problem of interest is predic+on, i.e., • Standard approaches: linear regression, random forest • Standard use in decision making (as taught in 15.060): – Fit a predic+ve model to data (e.g. a random forest) and op+mize determinis+cally
• In our problem, ML point-‐predic+on-‐driven decisions account for auxiliary data but not for uncertainty
Yy1, . . . , yN
Xx
1, . . . , x
N
E⇥Y
��X = x
⇤
mN (x) ⇡ E⇥Y
��X = x
⇤
z
point-pred
N (x) 2 argminz2Z
c(z; mN (x))
Shipment planning example • Stock 4 warehouses to fulfill demand in 12 loca+ons • Observe predic+ve features X about demand in a week
c(z; y) = p1
dzX
i=1
zi + min
0
@p2
dzX
i=1
ti +dzX
i=1
dyX
j=1
cijsij
1
A
s.t. ti � 0 8isij � 0 8i, jdzX
i=1
sij � yj 8j
dyX
j=1
sij zi + ti 8i
Ê
Ê
ÊÊ
Ê
Ê
Ê
Ê
ÊÊ
Ê
Ê
‡
‡
‡
‡
-1.0 -0.5 0.5 1.0
-1.0
-0.5
0.5
1.0
(lower is beXer)
Shipment planning example • Stock 4 warehouses to fulfill demand in 12 loca+ons • Observe predic+ve features X about demand in a week
Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê
‡
‡‡
‡
‡‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡
10 100 1000 104 1051000
1500
2000
2500
4000
Training sample size
TrueRiskH$L
Ê zNSAAHxL‡ zN
point-pred.HxLz*HxL
Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê
‡
‡‡
‡
‡‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡
10 100 1000 104 1051000
1500
2000
2500
4000
Training sample size
TrueRiskH$L
Ê zNSAAHxL‡ zN
point-pred.HxLz*HxL
Methodological gap to fill
Contribu+ons • A new framework – General purpose – Coefficient of prescrip+veness
• Theory – Computa+onal tractability – Asympto+c op+mality
• Prac+ce – Case study of huge media distributor – In collabora+on with Silkroute – Study prescrip've power of large-‐scale data
Our approach
• A local learning approach to prescrip+on • Re-‐weight Y data using data-‐driven weights – Emphasize data that is similar to new observa+on (Analogy breaks down in general)
• Construct predic+ve prescrip+ons of the form
• Draws on ideas from non-‐parametric predic+ve sta+s+cs (Stone ‘77) and extends to op+miza+on
zN (x) 2 argminz2Z
NX
i=1
w
iN (x)c(z; yi)
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
ÊÊÊ
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
ÊÊ
Ê
Ê
Ê
Ê
ÊÊÊ
Ê
ÊÊ
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
ÊÊ
Ê
Ê
Ê
ÊÊ
Ê
Ê
ÊÊ
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
ÊÊ
Ê
Ê
Ê
1 2 3 4X1
-2
-1
1
2
3
4X2
Weights using nearest neighbors z
kNN
N
(x) 2 argminz2Z
X
x
iis kNN of x
c(z; yi)
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
ÊÊÊ
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
ÊÊ
Ê
Ê
Ê
Ê
ÊÊÊ
Ê
ÊÊ
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
ÊÊ
Ê
Ê
Ê
ÊÊ
Ê
Ê
ÊÊ
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
ÊÊ
Ê
Ê
Ê
ÊÊ
1 2 3 4X1
-2
-1
1
2
3
4X2
Weights using nearest neighbors z
kNN
N
(x) 2 argminz2Z
X
x
iis kNN of x
c(z; yi)
Ê
Ê
Ê
Ê
Ê
Ê
ÊÊ
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
ÊÊÊ
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
Ê
ÊÊ
Ê
Ê
ÊÊ
Ê
Ê
Ê Ê
ÊÊ
Ê
Ê
Ê
Ê
ÊÊÊ
Ê ÊÊ
ÊÊ
Ê
ÊÊ
ÊÊ
Ê
Ê
ÊÊ
1 2 3 4X1
-2
-1
1
2
3
4X2
Weights using nearest neighbors z
kNN
N
(x) 2 argminz2Z
X
x
iis kNN of x
c(z; yi)
Weights using Parzen windows
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
-1 1 2 3 4X1
-1
1
2
3
4X2
z
KRN (x) 2 argmin
z2Z
NX
i=1
K((xi � x)/hN )c(z; yi)
Weights using recursive Parzen
ÊÊ
ÊÊ
ÊÊ ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
-2 -1 1 2 3 4 5X1
-1
1
2
3
4X2
z
Rec-KRN (x) 2 argmin
z2Z
NX
i=1
K((xi � x)/hi)c(z; yi)
Weights using LOESS
⌅(x) =nX
i=1
ki(x)(xi � x)(xi � x)T ki(x) =
⇣1�
�����x
i � x
����/hN
�3⌘3I⇥����
x
i � x
���� hN
⇤
x0=20 1 2 3 4 5 6
X0
1
2
3
4
5
cHz0; YL
z
LOESSN (x) 2 argmin
z2Z
NX
i=1
ki(x)
0
@1�nX
j=1
kj(x)(xj � x)T⌅(x)�1(xi � x)
1
Ac(z; yi)
2 5 100
1
2
Weights using recursive par++ons x1 5
R1 = {x : x1 5} x2 1
R2 = {x : x1 > 5, x2 1} R3 = {x : x1 > 5, x2 > 1}
R(x) = (j s.t. x 2 Rj)Implied binning rule
z
CARTN
(x) 2 argminz2Z
X
R(xi)=R(x)
c(z; yi)
Weights using bagging • Train T tree par++ons on bootstrapped samples and random feature subsets
• Get T binning rules
R
t(x) =�j s.t. x 2 R
tj
�
z
RFN
(x) 2 argminz2Z
TX
t=1
1
| {j : Rt(xj) = R
t(x)} |X
R
t(xi)=R
t(x)
c(z; yi)
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
ÊÊ
X dataGiven x
-2 -1 1 2 3 4X1
-4
-3
-2
-1
1
2X2
(lower is beXer)
Shipment planning example • Stock 4 warehouses to fulfill demand in 12 loca+ons • Observe predic+ve features X about demand in a week
Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê
‡
‡‡
‡
‡‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡
10 100 1000 104 1051000
1500
2000
2500
4000
Training sample size
TrueRiskH$L
Ê zNSAAHxL‡ zN
point-pred.HxLz*HxL
(lower is beXer)
Shipment planning example • Stock 4 warehouses to fulfill demand in 12 loca+ons • Observe predic+ve features X about demand in a week
Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê
‡
‡‡
‡
‡‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡
Ï
Ï Ï ÏÏ Ï
ÏÏ
ÏÏ Ï Ï Ï Ï Ï
Ú
ÚÚ Ú
Ú
Ú Ú Ú Ú ÚÚ Ú Ú
Ú Ú
ÙÙ
Ù
Ù Ù
Ù ÙÙ Ù Ù Ù
ÙÙ Ù Ù
Ì
Ì
Ì Ì Ì ÌÌ
Ì Ì Ì Ì Ì Ì Ì Ì
· ··
··
· · · · · · · · · ·
10 100 1000 104 1051000
1500
2000
2500
4000
Training sample size
TrueRiskH$L
Ê zNSAAHxL‡ zN
point-pred.HxLz*HxL
Ï zNkNNHxLÚ zNKRHxLÙ zNRec.-KRHxLÌ zNCARTHxL· zNRFHxL
Data-‐poor prescrip+on
Perfect foresight (determinis+c)
Our prescrip+on
Coefficient of Prescrip+veness
• Measures the prescrip+ve value of X and of the of the prescrip+on trained
• To be measured out of sample
P =
minz2Z
NX
i=1
c(z; yi)�NX
i=1
c(zN (xi); yi)
minz2Z
NX
i=1
c(z; yi)�NX
i=1
minz2Z
c(z; yi)
1! [0, 1]
(higher is beXer)
Shipment planning example • X can get us 43% of the way from no data to perfect foresight – less if prescrip+on is not well trained / insuff. data
Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê
ÊÊÊ
Ï ÏÏ
Ï Ï
Ï
Ï
ÏÏ
Ï Ï Ï Ï Ï
Ú
Ú
Ú
Ú ÚÚ
ÚÚ
ÚÚ Ú
ÚÚ
Ù
Ù Ù
Ù Ù
ÙÙ
ÙÙ
Ù
ÙÙ Ù
ÌÌ
ÌÌ
Ì
ÌÌ
ÌÌ
ÌÌ Ì Ì
·
·
·
·
· ·· · · · · · · · Û
100 1000 10000 100000
-0.2
0.0
0.2
0.4
Training sample size
CoefficientofPrescriptivenessP
Ê zNSAAHxLÏ zNkNNHxLÚ zNKRHxLÙ zNRec.-KRHxLÌ zNCARTHxL· zNRFHxL
Asympto+c Op+mality • Want
• Need
Assump+on 2: is equicon+nuous in . zc(z; y)
Assump+on 1: The full-‐info problem is well defined, i.e.,
E [|c(z;Y )|] < 1
Assump+on 3: is closed and either (a) also bounded, (b) is coercive, or (c) is convex.
Zc(z; y) c(z; y)
Def: predic+ve prescrip+on is asympto'cally op'mal if, with probability 1, for almost everywhere , as
zN (x)x N ! 1
limN!1
E⇥c(zN (x);Y )
��X = x
⇤= min
z2ZE⇥c(z;Y )
��X = x
⇤
L ({zN (x) : N 2 N}) ⇢ argminz2Z
E⇥c(z;Y )
��X = x
⇤
Asympto+c Op+mality
Thm: If Assump+ons 1-‐3 hold and , then is asympto+cally op+mal.
k = min�dCN �e, N � 1
z
kNNN (x)
Weights using Nearest Neighbors:
Thm: If Assump+ons 1-‐3 hold, , and costs sa+sfy I , then is asympto+cally op+mal. E [|c(z;Y )| (log |c(z;Y )|)+] < 1
hN = CN��
z
KRN (x)
Weights using Parzen windows:
Thm: If Assump+ons 1-‐3 hold and , then is asympto+cally op+mal.
hi = Ci��
z
Rec-KRN (x)
Weights using Recursive Parzen windows:
Thm: If Assump+ons 1-‐3 hold, is abs. cts., costs dominated, and . Then is asympto+cally op+mal.
µX
hN = CN��z
LOESSN (x)
Weights using LOESS:
Computa+onal tractability
• Construct predic+ve prescrip+ons of the form
zN (x) 2 argminz2Z
NX
i=1
w
iN (x)c(z; yi)
Thm: if is convex + subgrad oracle, is convex and separa+on oracle is given, then we can compute in polynomial +me and oracle calls.
c(z; y)
zN (x)
Z
Case Study: Distribu+on Arm of Interna+onal Media Conglomerate
• provides analy+cs solu+ons for manufacturers, distributors and retailers
• Client is Fortune Global 100 company – 100+ million units of entertainment media shipped per year – Sells 1/2 million different +tles on CD/DVD/Bluray at over 40,000 retailers worldwide
– Need: SaaS solu+on for Vendor-‐Managed Inventory with Scan-‐Based Trading
• Our target: Maximize number media sold
• Want to maximize number of items sold. • Focus on video media, Europe
max E
2
4dX
j=1
min {Yj , ztrj}
�����X = xtr
3
5
s.t.
dX
j=1
ztrj Kr
ztrj � 0 8j = 1, . . . , d
Case Study: Distribu+on Arm of Interna+onal Media Conglomerate
Case Study: Distribu+on Arm of Interna+onal Media Conglomerate
• Key issues: – Limited shelf space at retail loca+ons
– Huge array of poten+al +tles – Highly uncertain demand for new releases
Case Study: Distribu+on Arm of Interna+onal Media Conglomerate
• Key issues: – Limited shelf space at retail loca+ons
– Huge array of poten+al +tles – Highly uncertain demand for new releases
???
Release date: 5/24/16
Internal Company Data • Sales by item/loca+on, 2010 to present • ~50GB a5er aggrega+ng transac+on records by week
0 10 20 30 40 50 60 700%
2%
4%
6%
8%
10%
Week number on sale
Percentageoftotalsales
Percentage of all sales in Berlin for 13 +tles from the point of release to home entertainment
Dealing with Censored Data • Observe sales, not demand (quan+ty of interest Y )
• Adjust weights for right-‐censored data U = min {Y, V }
wN,(i)(x) =
8>>>>>><
>>>>>>:
wN,(i)(x)
PN`=i wN,(`)(x)
!Y
ki�1 : u(k)<v(k)
PN`=k+1 wN,(`)(x)PN
`=k wN,(`)(x)
!if u
(i)< v
(i),
0 otherwise.
Thm: Under same assump+ons as before and if in addi+on (a) Y and V condi+onally independent given X, (b) Y and V share no atoms, and (c) upper support of V greater than that of Y given X = x, then is asympto'cally op'mal.
zN (x)
Internal Company Data • Sales by item/loca+on, 2010 to present • ~50GB a5er aggrega+ng transac+on records by week
• Loca+on info: – Address
• Google Geocoding API
• Item info: – Medium (DVD/BLU) – Obfuscated +tle
• Disambigua+on
Beyond internal company data: Harves+ng public data (more X)
• Movie/series • Actors (find actor communi+es; Blondel et al 2008) • Plot summary (cosine similari+es, hierarchically clustered) • Box office gross, US • Oscar wins and nomina+ons and other awards • Professional (meta-‐)ra+ngs, user ra+ngs • Num of user ra+ngs • Genre (can be mul+ple) • MPAA ra+ng
Beyond internal company data: Harves+ng public data (more X)
0 100 200 300 4000
0.5
1
100000 300000 5000000
0.5
1
0 2 4 6 80
0.5
1
Box office gross ρ = 0.32
IMDb ra+ng ρ = 0.02
Number user votes ρ = 0.25
“Skyfall” vs “@”
Beyond internal company data: Harves+ng public data (more X)
Released in theaters
Released on DVD
Beyond internal company data: Harves+ng public data (more X)
World
North Rhine-Westphalia
Baden-Württemberg
18ê03ê12 22ê04ê12 27ê05ê12 01ê07ê12 05ê08ê12 09ê09ê12 14ê10ê12 18ê11ê12 23ê12ê12 27ê01ê13
1
2
3
USTheatricalRelease
GermanTheatrical
Release
USHERelease
GermanHERelease
Beyond internal company data: Harves+ng public data (more X)
World
North Rhine-Westphalia
Baden-Württemberg
12ê05ê13 16ê06ê13 21ê07ê13 25ê08ê13 29ê09ê13 03ê11ê13 08ê12ê13 12ê01ê14 16ê02ê14 23ê03ê141
3
5
7
9USTheatricalRelease
German
TheatricalRelease
USHERelease
GermanHERelease
Beyond internal company data: Harves+ng public data (more X)
World
North Rhine-Westphalia
Baden-Württemberg
29ê09ê13 03ê11ê13 08ê12ê13 12ê01ê14 16ê02ê14 23ê03ê14 27ê04ê14 01ê06ê14 06ê07ê14 10ê08ê14
0.5
1.
1.5
USTheatricalRelease
GermanTheatrical
Release
USHERelease
GermanHERelease
Prescribing Order Quan++es
• Using our bagged prescrip+on trees and all our data…
• Out-‐of-‐sample P = 0.88
0.6 0.7 0.8 0.9 1.0
500
1500
2500
3500
Coefficient of Prescriptiveness P
Count
Munich
2012 2013 2014
14Kr
12Kr
34Kr
Kr
P = 0.89
Our prescription SAA++ Perfect foresight
Paris
2012 2013 2014
14Kr
12Kr
34Kr
Kr
Our prescription SAA++ Perfect foresight
P = 0.90
Waterloo
2012 2013 2014
14Kr
12Kr
34Kr
Kr
Our prescription SAA++ Perfect foresight
P = 0.85
The Hague
2012 2013 2014
14Kr
12Kr
34Kr
Kr
Our prescription SAA++ Perfect foresight
P = 0.86
Contribu+ons • A new framework – General purpose – Coefficient of prescrip+veness
• Theory – Computa+onal tractability – Asympto+c op+mality
• Prac+ce – Case study of huge media distributor – In collabora+on with Silkroute – Study prescrip've power of large-‐scale data
Thank you!