18
Método de Cuasi Newton & Método de la Métrica Variable Optimización No Lineal BACHILLERES: C.I: 19.192.119 Burgos Raibellys C.I: 20.867.895 Suarez Lindy Diciembre de 2012 Método de Cuasi Newton & Método de la Métrica Variable Optimización No Lineal República Bolivariana De Venezuela Ministerio Del Poder Popular Para La Defensa Universidad Nacional Experimental Politécnica De la Fuerza Armada Ing. Sistemas VI Semestre “S61” Ing. Walter Ayala

cuasinewton_metricavariable

Embed Size (px)

Citation preview

Page 1: cuasinewton_metricavariable

Optimización No Lineal

BACHILLERES:C.I: 19.192.119 Burgos RaibellysC.I: 20.867.895 Suarez Lindy

Diciembre de 2012

República Bolivariana De VenezuelaMinisterio Del Poder Popular Para La Defensa

Universidad Nacional Experimental PolitécnicaDe la Fuerza Armada

UNEFA - Núcleo Barinas

Ing. SistemasVI Semestre “S61”Ing. Walter Ayala

Page 2: cuasinewton_metricavariable

Optimización No Lineal

Método Cua

si Newton

Page 3: cuasinewton_metricavariable

Método de Cuasi Newton

En optimización, métodos Cuasi-Newton (también conocido como métodos

métricos variables) son los algoritmos bien conocidos para encontrar locales máximos y

mínimos de funciones. Los métodos Cuasi-Newton se basan en el método de Newton para

encontrar el punto fijo de una función, donde el gradiente es 0. El método de Newton

supone que la función puede localmente aproximarse como una ecuación cuadrática en la

región alrededor del grado óptimo, y utiliza las primeras y segundas derivadas para

encontrar el punto estacionario. En dimensiones más altas, el método de Newton utiliza el

gradiente y la matriz hessiana de segundas derivadas de la función que debe reducirse al

mínimo. Los métodos Quasi-Newton se basan en utilizar aproximaciones sucesivas de la

matriz Hessiana para acelerar el proceso de convergencia. Teniendo en cuenta que:

Gradiente: es un vector formado por las derivadas parciales de una función. El

gradiente evaluado en un punto dado apunta en la dirección de mayor ascenso de la

función:

Matriz Hessiana: matriz simétrica formada por las derivadas parciales del

gradiente de una función. La matriz Hessiana da información de la curvatura de una

función:

Optimización No Lineal

Page 4: cuasinewton_metricavariable

Cuando no es posible evaluar analíticamente las primeras y segundas derivadas, se

pueden emplear métodos de diferencias finitas para calcularlas:

Descripción del método:

Como en el método de Newton , se utiliza una aproximación de segundo orden

para encontrar el mínimo de una función . La serie de Taylor de alrededor de

una iteración es:

donde ( ) Es el gradiente y una aproximación a la matriz de Hesse . El gradiente de

esta aproximación (con respecto a ) Es:

y el establecimiento de este gradiente a cero proporciona el paso de Newton:

La aproximación de Hesse se elige para satisfacer:

que se llama la ecuación secante (la serie de Taylor de la propia gradiente). En más de una

dimensión es bajo determinado . En una dimensión, para resolver y la etapa de

aplicación de Newton con el valor actualizado es equivalente al método de la secante .Los

diversos métodos cuasi-Newton difieren en su elección de la solución a la ecuación de la

secante (en una dimensión, todas las variantes son equivalentes). La mayoría de los

métodos (aunque con excepciones, como el método de Broyden ) buscan una solución

simétrica ( ), Por otro lado, las variantes que figuran a continuación pueden

estar motivados por la búsqueda de una actualización que está tan cerca como sea

posible a en algunos norma , es decir, donde es

cierta matriz definida como matriz positiva que define la norma. Un valor aproximado

Optimización No Lineal

Page 5: cuasinewton_metricavariable

inicial de a menudo es suficiente para lograr una rápida convergencia. Lo

desconocido se actualiza aplicando el paso de Newton, que se calcula utilizando la

actual matriz hessiana aproximada de :

Con elegido para satisfacer las condiciones Wolfe ;

;

El gradiente calculado en el nuevo punto: , Y

se utiliza para actualizar la aproximación de Hessian , O directamente su

inversa utilizando la fórmula Sherman-Morrison .

Una propiedad clave de los BFGS y actualizaciones de DFP es que si es definida

positiva y se elige para satisfacer las condiciones Wolfe luego También es

definida positiva.

Otra manera de interpretar este método es de la siguiente manera:

Calcular la matriz Hessiana de una función y su inversa puede ser un

procedimiento muy costoso e impráctico.

Una solución a este problema es utilizar aproximaciones a la inversa de la matriz

Hessiana en lugar de la inversa real. Esta es la idea subyacente de los métodos Cuasi

Newton

Las aproximaciones se construyen a partir de información del gradiente durante

un proceso de descenso.

Sea f(x) en Rn una función con segundas derivadas parciales continuas. Para dos

puntos Xk+1 y Xk, con gi=∇ f (x i) y matriz Hessiana constante F se cumple:

qk=gk +1−gk ; pk=xk +1−xk

qk=Fpk (1)

Optimización No Lineal

Page 6: cuasinewton_metricavariable

Esto implica que F puede ser determinada de manera única a partir de n

direcciones linealmente independientes y sus respectivos valores del gradiente.

Si llamamos P a la matriz cuyas columnas son los vectores pk y Q la matriz cuyas

columnas son los vectores qk, a partir de (1), se cumple: F=QP-1

Ejemplo Ilustrativo:

Método: Descenso más rápido

f ( x )=2.5x2+2.5 y2+2.5 z2+2.5w2+2xy+2wz−x−2 y−3 z−4w

f ( x )= xT Fx−bx21

∇ f ( x )=g ( x )=Fx−b

Primera Iteración:

Optimización No Lineal

Page 7: cuasinewton_metricavariable

Segunda Iteración:

Tercera Iteración:

Optimización No Lineal

Page 8: cuasinewton_metricavariable

Cuarta Iteración:

Condición Cuasi Newton:

Es natural intentar construir aproximaciones sucesivas Hk de F-1 de forma tal que

en cada iteración estas sean consistentes con qk=Fpk para todas las direcciones

utilizadas. Es decir:

H k +1qk=pk ; 0 ≤ i ≤ k

Al hacer esto, después de n pasos linealmente independientes, tenemos que:

Hn = F-1, si la matriz Hessiana es constante, o Hn ~= F (xk)-1 en caso contrario.

Para k < n existen infinitas soluciones a este problema ya que hay más grados de

libertad que restricciones

Aproximación de rango a uno:

Optimización No Lineal

Condición de Cuasi Newton

Page 9: cuasinewton_metricavariable

Una solución sencilla es actualizar iterativamente añadiendo una matriz simétrica

de (a lo sumo) rango uno que satisfaga la condición Quasi-Newton. Una forma de

conseguir esto es hacer:

H k +1=H k+(pk−H k qk )( pk−H k qk )

T

qkT (pk−H k qk)

Siendo qk≣ gk+1−gk y pk≣ xk+1−xk

Este proceso se inicia a partir de una matriz simétrica H0 cualquiera.

Este algoritmo no garantiza que la aproximación a la inversa de la matriz hessiana

sea positiva definida. Además puede presentar dificultades numéricas.

Ejemplo Ilustrativo:

Descripción y Puntos Iniciales:

Métodos: Descenso Rápido, Actualización del Hessiano de rango a uno

( x )=2.5 x2+2.5 y2+2.5 z2+2.5w2+2 xy+2wz−x−2 y−3 z−4w

f ( x )= xT Fx−bx21

∇ f ( x )=g ( x )=Fx−b

Optimización No Lineal

Matriz Simétrica de (a lo sumo) rango a uno

Page 10: cuasinewton_metricavariable

Primera Iteración:

Segunda Iteración:

Optimización No Lineal

Page 11: cuasinewton_metricavariable

Tercera Iteración:

Cuarta Iteración:

Optimización No Lineal

Page 12: cuasinewton_metricavariable

Optimización No Lineal

Método

Métrica

Vari

Page 13: cuasinewton_metricavariable

Método de la Métrica Variable

Existe una gran similitud entre los esfuerzos actuales por mejorar los métodos de

métrica variable y aquellos que buscan mejorar los métodos de gradiente conjugado. Por

tanto, mucho de lo descrito en métodos de gradiente conjugado aplica también para los

métodos de métrica variable.

Davidon (1975) ha propuesto una clase de actualizaciones que permiten

búsquedas lineales inexactas. Powell (1977) estableció posteriormente la propiedad de

terminación cuadrática de estos métodos en la ausencia de búsquedas lineales. Pareciera

ser que un método de métrica variable con terminación cuadrática pero sin la necesidad

de búsquedas lineales costosas seria robusto y rápido en funciones generales. Goldfarb

(1977) se cuenta entre los que han explorado esta promisoria línea de investigación.

En general, el método de Davidon-Fletcher-Powell suele reinicializarse (es decir,

hacemos A = I) después de N actualizaciones. Esto es usualmente una medida muy

conservadora, ya que pueden requerirse muchos más pasos antes de que realmente se

requiera una reinicialización. La necesidad de reinicializar se incrementa conforme

empeora el valor de condicionamiento de la matriz:

Optimización No Lineal

Método

Métrica

Vari

Page 14: cuasinewton_metricavariable

Donde K(A) es el número de condicionamiento de la matriz A, λh y

λ l son los

valores de mayor y menor modulo, respectivamente. Una matriz con un valor de

condicionamiento grande está mal condicionada. Una matriz con un valor de

condicionamiento cercano a 1 está bien condicionada.

Es importante hacer notar que aunque las reinicializaciones proporcionan un cierto

grado de seguridad (o robustez) en los métodos de métrica variable, estas típicamente

hacen más lento el progreso a la solución, puesto que se desecha una estimación de

segundo orden.

McCormick (1972), Shanno (1978) y Shanno & Phua (1979) han investigado de

manera extensiva la relación entre el gradiente conjugado y los métodos de métrica

variable.

Shanno ve a los métodos de gradiente conjugado como métodos de métrica

variable “sin memoria”.

La mayor parte de los investigadores coinciden en la actualidad en afirmar que

estas 2 clases de métodos comparten mucho más de lo que originalmente se creía.

Además, resulta claro que las muchas variantes de los métodos de métrica variable

tienen mucho en común en la práctica (Dixon, 1972), lo que hace que se tenga que

sopesar cuidadosamente el costo computacional adicional de los métodos más complejos.

Shanno & Phua (1978) proporcionan numerosos resultados que favorecen el uso del

método de Broyden-Fletcher-Goldfarb-Shanno.

Los métodos de métrica variable han sido utilizados de manera extensiva para el

desarrollo de técnicas de optimización para problemas con restricciones. También hay una

cantidad importante de trabajo en torno a hacer los métodos de métrica variable más

atractivos para problemas grandes.

Optimización No Lineal

Page 15: cuasinewton_metricavariable

Los métodos de gradiente conjugado son los que suelen considerarse como los

mejores para problemas de alta dimensionalidad (o sea, aquellos con muchas variables de

decisión). Sin embargo, se han logrado muchos avances en lo que a los métodos de

métrica variable se refiere, sobre todo en aquellos casos en los que la matriz Hessiana es

dispersa.

Algoritmo de la métrica variable:

1. Elegir X0 ∈ IRn y B0 matriz n × n definida positiva; k = 0.

2. Test de convergencia: (por ejemplo ǁ∇f(xk)ǁ < Ɛ, Ɛ pequeño dado)

• Si se verifica, PARAR

• Si no se verifica, continuar

3. Calcular la dirección de búsqueda dK como solución del sistema lineal:

(BK)dK = −∇f(xK)

4. Calcular tK > 0 por una regla de búsqueda lineal adecuada.

Hacer xK+1 = xK + tkdk

5. Calcular BK+1 = Φ(BK, yK, sK) , con sk = xK+1 –xk, e yk = ∇f(xK+1)−∇f(xK). Hacer k = k + 1. Ir a 2.

Optimización No Lineal