inteligencia artificial febrero 9

INTELIGENCIA ARTIFICIAL2016-1

Docente: July Andrea Galeano Zea [email protected]

10 de Febrero de 2016

REGRESIÓN LOGÍSTICA


• En la clase pasada estudiamos la predicción devalores:

• En las siguientes clases estudiaremos laclasificación de valores:

Algoritmo de predicción

(ℎ𝛽(𝑥))X

(área, número alcobas apartamento)

Y(valor apartamento)

Algoritmo de clasificación

(ℎ𝛽(𝑥))X

(área, número alcobas apartamento)

Y=1 Apartamento

Precio alto

Y=0 Apartamento

Precio bajo

REGRESIÓN LOGÍSTICA: clasificación a partir de una variable


(ℎ𝛽(𝑥))X

(tamaño de una mancha)

Y=1 piel con cáncer

Y=0 piel sana

X: tamaño de una mancha

1: piel con cáncer

0: piel sana

𝒀

Nuestro algoritmo o funciónhipótesis nos permitirárealizar la clasificación deseada:

Si

REGRESIÓN LOGÍSTICA: clasificación a partir de una variable

𝒉𝜷(𝑿)


(ℎ𝛽(𝑥))X

(tamaño de una mancha)


Y=0 piel sana

X

1

0

𝒀

0.5 𝒉𝜷(𝑿)𝒉𝜷 𝑿 ≥ 𝟎. 𝟓 → 𝒀 = 𝟏

𝒉𝜷 𝑿 < 𝟎. 𝟓 → 𝒀 = 𝟎

REGRESIÓN LOGÍSTICA: función Sigmoid

En regresión logística, la función de hipótesisℎ𝛽(𝑋) se define como:

ℎ𝛽 𝑋 = 𝑔 𝛽𝑋 =1

1 + 𝑒−𝛽𝑋

Esta función estima la probabilidad que Y=1; i.e:ℎ𝛽 𝑋 = 𝑃( 𝑦 = 1 𝑥; 𝛽)

REGRESIÓN LOGÍSTICA: función Sigmoid

ℎ𝛽 𝑋 = 𝑔 𝛽𝑋 =1

1 + 𝑒−𝛽𝑋

𝑌 = 1 𝑠𝑖𝑔 𝛽𝑋 ≥ 0.5

𝛽𝑋 ≥ 0

𝑌 = 0 𝑠𝑖𝑔 𝛽𝑋 < 0.5

𝛽𝑋 < 0

La función Sigmoid nos permite realizarclasificaciones a partir de múltiples variables:

REGRESIÓN LOGÍSTICA: múltiples variables


(ℎ𝛽(𝑥))

𝑿𝟏(tamaño de la mancha)


Y=0 piel sana𝑿𝟐(color de la mancha)



(ℎ𝛽(𝑥))




𝑿𝟏0

𝑿𝟐Piel con cáncer

Piel sana



(ℎ𝛽(𝑥))




𝑿𝟏0

𝑿𝟐 Piel con cáncer

Piel sana

ℎ𝛽 = 𝑔(𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2)

𝑦 = 1 𝑠𝑖 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 ≥ 0

𝑦 = 0 𝑠𝑖 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 < 0


X(tamaño de una mancha)

Y=1 cáncer

Y=0 sana

X

1

0

𝒀

𝑌 = 1 𝑠𝑖𝛽𝑋 ≥ 0

𝑌 = 0 𝑠𝑖𝛽𝑋 < 0

𝑿𝟏(tamaño)

Y=1 cáncer

Y=0 sana𝑿𝟐(color)

𝑿𝟏0

𝑿𝟐 Piel con cáncerPiel sana

¿Cómo obtener los valores 𝛽?


Para cálcular los parámetros β de la función hipótesis, se necesita:

• Un set de datos de entrenamiento: valores 𝑥, 𝑦 previamente medidos.• Una función de optimización (como gradiente descendente), la cual requiere de:

– Función hipótesis: ℎ𝛽(𝑋)

– Una función « cost » J 𝛽 (mide la diferencia entre ℎ𝛽(𝑋)

y Y)– Cálculo del gradiente con respecto a J(β).

El objetivo de la función de optimización es encontrar los valores de los parámetros β que minimizan la función J.


La función « cost » J 𝛽 se define como:

𝐽 𝛽 = −1

𝑚

𝑖=1

𝑚

𝑦𝑖 ∙ log ℎ𝛽 𝑥𝑖 + 1 − 𝑦𝑖 ∙ log 1 − ℎ𝛽 𝑥𝑖

El gradient descendente se define entonces como:

𝜕

𝜕𝛽𝑗𝐽 𝛽 =

1

𝑚

𝑖=1

𝑚

ℎ𝛽 𝑥𝑖 − 𝑦𝑖 ∙ 𝑥𝑖𝑗

for j = 1:1:K {

𝛽𝑗 ≔ 𝛽𝑗 − 𝛼𝜕

𝜕𝛽𝑗𝐽 𝛽 +

1

𝑚𝛽𝑗

}


for i = 1:1:numIte {for j = 1:1:K {Z = 𝛽𝑋;

ℎ𝛽 𝑍 =1

1+𝑒−𝑍

𝜷𝒋𝒕𝒆𝒎𝒑 ≔ 𝜷𝒋 −𝜶

𝑚( 𝑖=1𝑚 ℎ𝛽 𝑥𝑖 − 𝑦𝑖 ∙ 𝑥𝑖𝑗) + (

1

𝑚𝛽𝑗)

}

𝜷 = 𝜷𝒕𝒆𝒎𝒑}

REFERENCIAS

• Curso internet sobre aprendizaje de máquina:https://www.coursera.org/course/ml

inteligencia artificial febrero 9

Documents