LijunZhang zlj@nju.edu.cn //cs.nju.edu.cn/zlj/Course/DM_15_Lecture/Lecture... · ·...

Convex Optimization

Lijun Zhangzlj@nju.edu.cnhttp://cs.nju.edu.cn/zlj

Modification of http://stanford.edu/~boyd/cvxbook/bv_cvxslides.pdf

Outline

Introduction

Convex Sets & Functions

Convex Optimization Problems

Duality

Convex Optimization Methods

Summary

Mathematical Optimization

Optimization Problem

Applications

Dimensionality Reduction (PCA)

Clustering (NMF)

Classification (SVM)

max∈s. t. 1

min∈ , ∈

s. t. 0, 0

Least-squares

The Problem

Given , predict by Properties

Linear Programming

The Problem

Properties

Convex Optimization Problem

The Problem

Conditions

The Problem

Properties

Nonlinear Optimization Definition

The objective or constraint functions are not linear Could be convex or nonconvex

Outline

Introduction

Duality

Summary

Affine Set

Convex Set

Convex Cone

Some Examples (1)

Some Examples (2)

Some Examples (3)

Operations that Preserve Convexity

Intersection

Affine Function

Perspective and Linear-Fractional Function

Convex Functions

Examples on

Examples on and

Restriction of a Convex Function to a Line

First-order Conditions

Second-order Conditions

Examples

Operations that Preserve Convexity

Positive Weighted Sum & Composition with Affine Function

Pointwise Maximum

Hinge loss: ℓ max 0,1

Pointwise Supremum

Composition with Scalar Functions

Vector Composition

Minimization

Perspective

The Conjugate Function

Examples

Outline

Introduction

Duality

Summary

Optimization Problem in Standard Form

Optimal and Locally Optimal Points

Implicit Constraints

Example

Local and Global Optima

Optimality Criterion for Differentiable

Examples

Popular Convex Problems

Linear Program (LP) Linear-fractional Program Quadratic Program (QP) Quadratically Constrained Quadratic

program (QCQP) Second-order Cone Programming

(SOCP) Geometric Programming (GP) Semidefinite Program (SDP)

Outline

Introduction

Duality

Summary

Lagrangian

Lagrange Dual Function

Least-norm Solution of Linear Equations

Lagrange Dual and Conjugate Function

The Dual Problem

Weak and Strong Duality

Slater’s Constraint Qualification

Complementary Slackness

Karush-Kuhn-Tucker (KKT) Conditions

KKT Conditions for Convex Problem

An Example—SVM (1)

The Optimization Problem

Define the hinge loss as

Its Conjugate Function is

The Optimization Problem becomes

It is Equivalent to

The Lagrangian is

The Lagrange Dual Function is

Minimize one by one

Finally, We Obtain

The Dual Problem is

Can be used to recover ∗ from ∗

Outline

Introduction

Duality

Summary

More Assumptions

Lipschitz continuous

Strong Convexity

Smooth1 1 1 2

Performance Measure

The Problem

Convergence Rate

Iteration Complexity

Gradient-based Methods

The Convergence Rate

GD—Gradient Descent AGD—Nesterov’s Accelerated Gradient

Descent [Nesterov, 2005, Nesterov, 2007, Tseng, 2008]

EGD—Epoch Gradient Descent [Hazan and Kale, 2011]

SGD —SGD with -suffix Averaging [Rakhlinet al., 2012]

Gradient Descent (1)

Move along the opposite direction of gradients

Gradient Descent (2)

Gradient Descent with Projection

Projection Operator

Analysis (1)

Analysis (2)

Analysis (3)

A Key Step (1)

Evaluate the Gradient or Subgradient Logit loss

A Key Step (1)

Hinge loss

A Key Step (2)

Hinge loss

A Key Step (3)

Hinge loss

Outline

Introduction

Duality

Summary

Convex Sets & Functions Definitions, Operations that Preserve

Convexity Convex Optimization Problems Definitions, Optimality Criterion

Duality Lagrange, Dual Problem, KKT Conditions

Convex Optimization Methods Gradient-based Methods

Reference (1) Hazan, E. and Kale, S. (2011)

Beyond the regret minimization barrier: an optimal algorithm for stochastic strongly-convex optimization. In Proceedings of the 24th Annual Conference on Learning Theory, pages 421–436.

Nesterov, Y. (2005)Smooth minimization of non-smooth functions. Mathematical Programming, 103(1):127–152.

Nesterov, Y. (2007).Gradient methods for minimizing composite objective function. Core discussion papers.

Reference (2) Tseng, P. (2008).

On acclerated proximal gradient methods for convex-concave optimization. Technical report, University of Washington.

Boyd, S. and Vandenberghe, L. (2004).Convex Optimization. Cambridge University Press.

Rakhlin, A., Shamir, O., and Sridharan, K. (2012)Making gradient descent optimal for strongly convex stochastic optimization. In Proceedings of the 29th International Conference on Machine Learning, pages 449–456.

LijunZhang zlj@nju.edu.cn //cs.nju.edu.cn/zlj/Course/DM_15_Lecture/Lecture... · ·...

Documents

Recovering the Optimal Solution by Dual Random Projectioncs.nju.edu.cn/zlj/pdf/COLT-2013-Zhang.pdf · Recovering the Optimal Solution by Dual Random Projection Lijun Zhang zhanglij@msu.edu

Journal of Alloys and Compounds - nju.edu.cn

Fault Tolerance - nju.edu.cn

Assignment 1, Due - nju.edu.cn

Consistency Theory in Machine Learning - nju.edu.cn

Analytica Chimica Acta - nju.edu.cn

1. Introduction - Engineering | School of Engineering and …vandenbe/cvxbook/bv_cvxslides.… · · 2009-01-03Solving optimization problems general optimization problem very di

Introduction of Java Agent Development Environment (JADE) 余萍 yuping@nju.edu.cn

Optimization Models - Nanjing University models.pdf · Optimization Models one variable optimization and multivariable optimization Wenzhong Li lwz@nju.edu.cn Feb 2011. Mathematical

Introduction to Data Mining - cs.nju.edu.cncs.nju.edu.cn/zlj/Course/DM_15_Lecture/Lecture_1(a).pdf · Ranking, Recommender Systems Big Data Mining Online, Randomized, Distributed

Bv Cvxbook Extra Exercises

交换与网络 Switching - nju.edu.cn

Additional Exercises for Convex Optimizationweb.stanford.edu/~boyd/cvxbook/bv_cvxbook_extra_exercises.pdfAdditional Exercises for Convex Optimization Stephen Boyd Lieven Vandenberghe

Computational Materials Science - nju.edu.cn

Ad Hoc Networks - nju.edu.cn

CMM Based Software Quality Management - nju.edu.cn

Journal of Materials Chemistry A - nju.edu.cn

Exchange-Dominated Pure Spin Current ... - nju.edu.cn

Zhi-Wei Sun zwsun@nju.edu.cn

Towards Safe Weakly Supervised Learning - nju.edu.cn