Maracaibo, 5 de Noviembre de 2007Maracaibo, 5 de Noviembre de 2007
Universidad del ZuliaFacultad de Ingeniería
Instituto de Cálculo Aplicado
Universidad del ZuliaFacultad de Ingeniería
Instituto de Cálculo Aplicado
Prof. Daniel Ernesto Finol GonzálezProf. Daniel Ernesto Finol González
Optimización Global Usando Ensamblaje de
Modelos
Justificación del EstudioJustificación del EstudioJustificación del EstudioJustificación del Estudio
• En distintas industrias es frecuente la necesidad de optimizar funciones de las cuales sólo se conoce (o puede conocerse) una cantidad limitada de evaluaciones.
•El proceso de optimización requiere muchas evaluaciones.
• En distintas industrias es frecuente la necesidad de optimizar funciones de las cuales sólo se conoce (o puede conocerse) una cantidad limitada de evaluaciones.
•El proceso de optimización requiere muchas evaluaciones.
Justificación del EstudioJustificación del EstudioJustificación del EstudioJustificación del Estudio
• Se debe construir un modelo que aproxime la función a partir de unas pocas evaluaciones.
• Crear el modelo es un problema inverso:• Existen muchos modelos que se ajustan bien a
los datos sin parecerse a la función original.
• Se debe construir un modelo que aproxime la función a partir de unas pocas evaluaciones.
• Crear el modelo es un problema inverso:• Existen muchos modelos que se ajustan bien a
los datos sin parecerse a la función original.
ObjetivoObjetivoObjetivoObjetivo
ObjetivoObjetivo
Evaluar el desempeño relativo de una metodología de optimización global de funciones costosas basada en el uso de múltiples modelos sustitutos.
Evaluar el desempeño relativo de una metodología de optimización global de funciones costosas basada en el uso de múltiples modelos sustitutos.
Casos de EstudioCasos de EstudioCasos de EstudioCasos de Estudio
Se seleccionaron seis casos de estudio. Éstos se distinguen por tres características:– Alta o baja no–linealidad.– Alta o baja dimensionalidad.– Ruido aleatorio presente o no.
Caso de Estudio 1 (P1)Caso de Estudio 1 (P1)Caso de Estudio 1 (P1)Caso de Estudio 1 (P1)
Dimens: 10No–Lin: Alta
Dimens: 10No–Lin: Alta
Caso de Estudio 2 (P5)Caso de Estudio 2 (P5)Caso de Estudio 2 (P5)Caso de Estudio 2 (P5)
Dimens: 16No–Lin: Baja
Dimens: 16No–Lin: Baja
Caso de Estudio 3 (P6)Caso de Estudio 3 (P6)Caso de Estudio 3 (P6)Caso de Estudio 3 (P6)
Dimens: 2No–Lin: Alta
Dimens: 2No–Lin: Alta
Caso de Estudio 4 (P7)Caso de Estudio 4 (P7)Caso de Estudio 4 (P7)Caso de Estudio 4 (P7)
Dimens: 2No–Lin: Alta
Dimens: 2No–Lin: Alta
Caso de Estudio 5 (P12)Caso de Estudio 5 (P12)Caso de Estudio 5 (P12)Caso de Estudio 5 (P12)
Dimens: 2No–Lin: Baja
Dimens: 2No–Lin: Baja
Caso de Estudio 6 (P13)Caso de Estudio 6 (P13)Caso de Estudio 6 (P13)Caso de Estudio 6 (P13)
Dimens: 2No–Lin: BajaCon Ruido
Dimens: 2No–Lin: BajaCon Ruido
1. Diseño del Experimento y Muestreo (Hipercubo latino) ==> Conjunto de datos iniciales.
2. Ajuste RBF; PRE y KRI ==> 3 Modelos Base.
3. Obtener medidas de incertidumbre para cada modelo ==> Medidas de Incertidumbre.
4. Realizar “Ensamblaje de modelos” (Suma Ponderada) ==> Cuarto Modelo.
5. Optimizar c/u de los 4 modelos (Direct) ==> 4 soluciones.
6. Comparar y analizar resultados.
1. Diseño del Experimento y Muestreo (Hipercubo latino) ==> Conjunto de datos iniciales.
2. Ajuste RBF; PRE y KRI ==> 3 Modelos Base.
3. Obtener medidas de incertidumbre para cada modelo ==> Medidas de Incertidumbre.
4. Realizar “Ensamblaje de modelos” (Suma Ponderada) ==> Cuarto Modelo.
5. Optimizar c/u de los 4 modelos (Direct) ==> 4 soluciones.
6. Comparar y analizar resultados.
MetodologíaMetodologíaMetodologíaMetodología
Modelos SustitutosModelos SustitutosModelos SustitutosModelos Sustitutos
Los modelos usados fueron:
•Kriging (KRI).•Regresión Polinómica (PRE).•Funciones de Base Radial (RBF).
Cada uno de ellos es un caso especial de:
Los modelos usados fueron:
•Kriging (KRI).•Regresión Polinómica (PRE).•Funciones de Base Radial (RBF).
Cada uno de ellos es un caso especial de:
)()()(1
xxfxyp
iii
KrigingKriging
En nuestra versión de Kriging p = 1 y f(x) = 1. Lo cual hace β = μ. Y el modelo queda:
μ + ε(x)
con
donde ; Y es el valor de la función en
cada punto de la muestra.
R es la matriz de correlación entre los puntos de la muestra y r(x) es el vector de correlación entre cada punto de la muestra y x.
)()()(1
xxfxyp
iii
Txrx )()(
)ˆ(1 u YR
KrigingKriging
R y r(x) se estiman mediante modelos de la forma:
Donde cada Cj es una función parametrizada decreciente de la distancia entre los puntos.
Los Cj usados fueron: exponencial generalizada, gaussiana, spline y esférica.
dim
1
),())(),((j
jjj zxCzxCorr
Regresión PolinómicaRegresión PolinómicaRegresión PolinómicaRegresión Polinómica)()()(
1
xxfxyp
iii
•Este es una caso especial de la regresión lineal.•ε(x) se asume que es cero.•Cada fi(x) es una de las siguientes:
•La constante 1.•La función identidad de una de las variables.•El producto de dos variables.•El cuadrado de alguna variable.
•Este es una caso especial de la regresión lineal.•ε(x) se asume que es cero.•Cada fi(x) es una de las siguientes:
•La constante 1.•La función identidad de una de las variables.•El producto de dos variables.•El cuadrado de alguna variable.
Funciones de Base RadialFunciones de Base RadialFunciones de Base RadialFunciones de Base Radial•En este caso también se asume ε(x) como cero.•Las fi(x) son funciones gausianas o
multicuádricas con centro en algún punto de la muestra.•Además una fi(x) puede ser constante.
•Potencialmente a todo punto de la muestre le puede corresponder una función; pero se seleccionan con el método de forward selection.•El radio de cada función se escoge entre distintas opciones según una medida de error.
•En este caso también se asume ε(x) como cero.•Las fi(x) son funciones gausianas o
multicuádricas con centro en algún punto de la muestra.•Además una fi(x) puede ser constante.
•Potencialmente a todo punto de la muestre le puede corresponder una función; pero se seleccionan con el método de forward selection.•El radio de cada función se escoge entre distintas opciones según una medida de error.
Medidas de IncertidumbreMedidas de Incertidumbre
Kriging:
PRE y RBF:
RBF:
uu
u1
21122 )1(
1ˆ)(R
rRrRrx
T
TT
MVKRI
)1)()()((ˆ)( 122 xfFFxfx TTMSELIN
) ,(
n/3 p 100n
ˆ
2
2
2LOO
2CSM
2CSM
MSE
máx sino
sino
sisi
Modelo Suma PonderadaModelo Suma Ponderada
)()()()()()()( xyxxyxxyxxy KRIKRIPREPRERBFRBFSUM
KRIPRERBFV V
ZZ
x
xx
,,2
2
)(1)(
1
)(
Resumen de ResultadosResumen de Resultados
P1 P5 P6 P7 P12 P13 PROMEDIO VARIANZA
RBF 0,89169 0,95800 0,35451 0,35954 0,98831 0,91970 0,74529 0,09153
PRE 0,81004 0,92023 0,16737 -0,32041 1,00000 0,98009 0,59289 0,29703
KRI 0,80204 0,92551 0,50189 0,45462 1,00000 0,93992 0,77066 0,05567
SUM 0,85690 0,96405 0,43556 0,40833 1,00000 0,93875 0,76727 0,07384
P1 P5 P6 P7 P12 P13 PROMEDIO VARIANZA
RBF 0,93270 0,97221 0,68067 0,95785 1,00000 0,98064 0,92068 0,01433
PRE 0,90733 0,96464 0,28533 0,02668 1,00000 0,98515 0,69486 0,18190
KRI 0,88000 0,87917 0,98179 0,97605 1,00000 0,96479 0,94697 0,00285
SUM 0,92739 0,97264 0,98253 0,96481 1,00000 0,98359 0,97183 0,00061
R–CuadradoR–Cuadrado
Resumen de ResultadosResumen de Resultados
P1 P5 P6 P7 P12 P13 AVERAGE VAR RBF 0,812 1,017 0,523 0,504 3,031 0,119 1,001 1,082 PRE 0,528 1,337 3,019 1,325 1,785 1,440 1,572 0,673 KRI 0,420 0,916 1,820 0,977 4,657 0,037 1,471 2,797
P1 P5 P6 P7 P12 P13 AVERAGE VAR
RBF 0,630 0,678 3,265 0,555 0,696 0,310 1,022 1,226
PRE 0,837 1,121 1,828 1,408 1,640 0,878 1,285 0,166
KRI 0,659 1,298 0,427 3,181 8,438 2,063 2,678 8,971
Razón VEP / SSEPRazón VEP / SSEP
Resumen de ResultadosResumen de Resultados
P1 P5 P6 P7 P12 P13 P -40.857 79.421 100.82 –1 -57.411 -55.001
RBF -34.446 323.62 101.33 -0.940 -57.411 -34.888
PRE -24.402 372.26 102.36 -0.524 -57.411 -57.411
KRI -25.955 102.72 102.06 -0.975 -57.411 -57.315
SUM -29.149 229.42 101.96 -0.960 -57.411 -51.709
P1 P5 P6 P7 P12 P13
P -40.857 79.421 100.820 –1 -57.411 -55.001
RBF -36.534 692.475 101.003 -0.996 -57,411 -57,315
PRE -30.232 121.055 108.283 -0.361 -57,411 -57,411
KRI -29.387 1034.323 100.805 -0.986 -57,411 -53,763
SUM -29.072 415.081 100.756 -0.996 -57,411 -57,315
OptimizaciónOptimización
ConclusionesConclusiones
La primera conclusión es que sí es eficaz usar más de un modelo para aproximar una función a partir de una muestra.
Esta conclusión está basada en cuatro razones:
ConclusionesConclusiones
1ra: No hubo ningún modelo que fuera
siembre, o la mayoría de las veces, el mejor.
De hecho cada modelo fue el mejor en por lo menos dos casos.
ConclusionesConclusiones
2da: El modelo Suma Ponderada obtuvo
el mejor R2 promedio con la muestra “Pequeña”, y el segundo mejor promedio con la muestra “Escasa”, siendo la diferencia con el mejor promedio, en este último caso, muy pequeña.
ConclusionesConclusiones
3ra: Cuando el modelo Suma Ponderada
no tiene el mejor R2 tiene el segundo mejor, con una excepción (P13, “Escasa”).
ConclusionesConclusiones
4ta: También se observó que el modelo
Suma Ponderada, tiene la varianza de R2 más baja o segunda más baja. Esto indica que la calidad de sus resultados es consistente.
ConclusionesConclusiones
Sin embargo la pregunta más importante que esta investigación trata de contestar es si vale la pena calcular más de un modelo desde el punto de vista de la optimización.
ConclusionesConclusiones
Aunque en algunos problemas la diferencia entre los óptimos encontrados con los distintos modelos no es muy grande, sí es frecuente que haya uno mucho peor que los demás; y, aunque suele ser el modelo de “Regresión Polinómica” quien presenta ese problema, no es poco frecuente que sea algún otro el peor.
ConclusionesConclusiones
De modo que sigue siendo válido el primero de los argumentos esgrimidos con respecto al modelado: como no hay un modelo que obtenga el mejor óptimo en todos los casos, y ni siquiera uno que sea siempre uno de los dos mejores (aparte del modelo Suma Ponderada), es necesario construir más de un modelo para obtener un óptimo confiable.
ConclusionesConclusionesOtras observaciones y conclusiones son:El estimador estándar de la varianza del
error de RBF, usando el método de Forward Selection, está significativamente sesgado hacia abajo.
El estimador de la de Kriging en teoría es sesgado hacia abajo; pero esto no se notó.
ConclusionesConclusionesOtras observaciones y conclusiones son:Los modelos RBF tuvieron, en promedio,
más parámetros que la mitad del tamaño de la muestra (> 57%).
Los coeficientes del modelo Suma Ponderada asumen que no hay correlación entre las predicciones de los modelos. Esto no es cierto.
ConclusionesConclusionesOtras observaciones y conclusiones son:La estimación de la varianza del modelo
Suma Ponderada estuvo significativamente sesgada hacia abajo.
RecomendacionesRecomendacionesMejorar el modelo Suma Ponderada con
información acerca de la correlación de las predicciones de los modelos.
Implementar EGO sustituyendo Suma Ponderada por Kriging (o RBF); pero hay que tener en cuenta el sesgo en la estimación de la varianza de Suma Ponderada.
RecomendacionesRecomendaciones
Encontrar un buen estimador de la varianza de RBF que no sea tan ad–hoc.
Los modelos RBF y PRE podrían integrarse como la parte determinística de un modelo de Kriging. (En vez de usar Suma Ponderada).