Optimization for Data Science - Télécom ParisTech · Optimization for Data Science Master 2 Data...

Optimization for Data ScienceMaster 2 Data Science, Univ. Paris Saclay

Robert M. Gower&

Alexandre Gramfort

Core Info● Where : Telecom ParisTech● Location : Amphi Estaunié or B312 ● ECTS : 5 ECTS● Volume : 40h● When : 12 weeks (including one week break for holidays +

one week for exam)● Online: All teaching materials on moodle: http://datascience-

x-master-paris-saclay.fr/education/● Students upload their projects / reports via moodle too.● All students **must** be registered on moodle.

Who am I? Robert M. Gower

● Assistant Prof at Telecom ● robert.gower@telecom-paristech.fr ● www.ens.fr/~rgower● Research topics: Stochastic algorithms for optimization,

numerical linear algebra, quasi-Newton methods and automatic differentiation (backpropagation).

Introduction to Optimization in Machine Learning

Robert M. Gower

Master 2 Data Science, Univ. Paris SaclayOptimisation for Data Science

An Introduction to Supervised Learning

References for this class

Convex Optimization

Pages 67 to 79

Understanding Machine Learning: From Theory to Algorithms

Chapter 1

Is There a Cat in the Photo?

Find mapping h that assigns the “correct” target to each input

Is There a Cat in the Photo?

x: Input/Feature y: Output/Target

Labeled Data: The training set

y= -1 means no/false

Learning Algorithm

Example: Linear Regression for Height

Sex Male

Age 30

Height 1,72 cm

Sex Female

Age 70

Height 1,52 cm

Labeled data

Example Hypothesis: Linear Model

Sex Male

Age 30

Height 1,72 cm

Sex Female

Age 70

Height 1,52 cm

Labeled data

Example Training Problem:

Example Hypothesis: Linear Model

Sex Male

Age 30

Height 1,72 cm

Sex Female

Age 70

Height 1,52 cm

Labeled data

Linear Regression for Height

Height

The Training Algorithm

Height

The Training Algorithm

Height

Other options aside from linear?

Parametrizing the HypothesisHeight

Linear:

Polinomial:

Height

Neural Net:

Loss Functions

Why a SquaredLoss?

Loss Functions

Why a SquaredLoss?

Loss Functions

The Training Problem

Loss Functions

Why a SquaredLoss?

Loss Functions

The Training Problem

Typically a convex function

Choosing the Loss Function

Quadratic Loss

Binary Loss

Hinge Loss

Quadratic Loss

Binary Loss

Hinge Loss

y=1 in all figures

Quadratic Loss

Binary Loss

Hinge Loss

EXE: Plot the binary and hinge loss function in when

y=1 in all figures

Loss Functions

Is a notion of Loss enough?

What happens when we do not have enough data?

Loss FunctionsThe Training Problem

Is a notion of Loss enough?

What happens when we do not have enough data?

Overfitting and Model Complexity

Fitting 1st order polynomial

Fitting 3rd order polynomial

Fitting 9th order polynomial

Regularizor Functions

General Training Problem

Regularization

Goodness of fit, fidelity term ...etc

Regularization

Penlizes complexity

Regularization

Penlizes complexity

Controls tradeoff between fit and complexity

Regularization

Penlizes complexity

Controls tradeoff between fit and complexity

Fitting kth order polynomial

For big enough, λthe solution is a 2nd order polynomial

Linear hypothesis

Exe: Ridge Regression

Ridge Regression

L2 loss

L2 regularizor

Linear hypothesis

Exe: Support Vector Machines

SVM with soft margin

Hinge loss

L2 regularizor

Linear hypothesis

Exe: Logistic Regression

Logistic Regression

Logistic loss

L2 regularizor

The Machine Learners Job

The Statistical Learning Problem:The hard truth

Do we really care if the loss is small on the known labelled data paris (xi,yi) ? Nope

We really want to have a small loss on new unlabelled Observations! Assume data sampled where is an unknown distribution

The statistical learning problem:Minimize the expected loss over an unknown expectation

The Statistical Learning Problem:The hard truth

Variance of sample mean:

Optimization for Data Science - Télécom ParisTech · Optimization for Data Science Master 2 Data...

Documents

Data-Pooling in Stochastic Optimizationfaculty.marshall.usc.edu/Vishal-Gupta/Papers/DataPooling.pdf · 2019-07-25 · Data-Pooling in Stochastic Optimization Vishal Gupta Data Science

Workshop on Data Science and Applications (DSA 2018) Bio ed_0.pdf · Optimization. He has given talks on Data Science at Abu Dhabi Men’s College (HCT) and at Middlesex ... Alok

The Science of Google Play Optimization

Convex Optimization for Big Data - UBC Computer Science · Convex FunctionsSmooth OptimizationNon-Smooth OptimizationRandomized AlgorithmsParallel/Distributed Optimization Convex

The Deterministic Global Optimization ... - Computer Science

Ronald Brachman VP, Chief Scientist, and Head, Yahoo Labs · processing, natural language processing, data science/analytics, theoretical computer science/algorithms, optimization,

Data Feed Optimization (DFO)

Convex Optimization for Data Science · Introduction Lectures on Convex Optimization. A Basic Course. Applied Optimization. – Springer, 2004. Nemirovski A. Lectures on modern convex

Optimization for Data Science 50pt1pt AMIES ILB · Optimization for data science You want to train a logistic regression with ridge penalization: argmin w2Rd (1 n Xn i=1 log(1 + e

DataClarity Data PlatformDATA VIRTUALIZATION Data Federation Data Caching Query Optimization SQL Data Services Data Profiling Data Science Data Governance Data Preparation Mobile,

Data Science - Convex optimization and applicationbesse/Wikistat/pdf/st-m-datSc1... · 3Data Science - Convex optimization and application Aggregation rules Gradient descent Stochastic

Data-Driven Optimization: Contexts,

Magnetic Field Optimization From Limited Data · Magnetic Field Optimization From Limited Data Matthieu Chassot Master of Science Artificial Intelligence School of Informatics University

Service-Oriented Multidisciplinary Optimization of a ...Service-Oriented Multidisciplinary Optimization of a Closed Loop Flapping Wing Subjected to Wind Gusts Gary Clayman1 Data Science

Digital Consultants · Search Engine Optimization (SEO) Social Media Merketing (SMM) App Store Optimization (ASO) Data Science & Analyse Our Services 6 / 18. 7 / 17 Technologies and

Convex Optimization for Data Science1 Convex Optimization for Data Science Gasnikov Alexander gasnikov.av@mipt.ru Lecture 2. Convex optimization and Big Data applications October,

Robust Optimization and Data Approximation in Machine Learning · 2015-12-01 · Robust Optimization and Data Approximation in Machine Learning ... Robust Optimization and Data Approximation

Science of data feed optimization for shopping campaigns

Conversion rate optimization using big data and data science

Data Performance Optimization Guidelines