métricas de rendimiento de un ann

8
Universidad Cat´ olica de Temuco Ingenier´ ıa Civil Inform´ atica Actividad 2 etricas de Rendimiento de una ANN Angel Aedo Busto [email protected] 27 de Mayo de 2015 1. Resumen A continuaci´ on se presentan las m´ etricas usadas para medir el error en el ren- dimiento de las Redes Neuronales Artificiales. 1.1. The Mean Absolute Deviation (MAD) Literalmente significa el promedio de las desviaciones absolutas matem´ aticas de los errores de pron´ ostico (desviaciones). Desviaci´ on Media Absoluta, est´ a representada por la siguiente ecuaci´ on: |e i - p| N Donde e i es el error individual, N el n´ umero de t´ erminos de error y p es el pron´ ostico. Esto representa un n´ umero muy importante, ya que nos indica el error de pron´ ostico promedio (siempre positivo) sobre el periodo en cuesti´ on. La desviaci´ on absoluta media de un conjunto de datos es el promedio de las desviaciones absolutas de un punto central. Es un resumen estad´ ıstico de la dis- persi´ on estad´ ıstica o variabilidad. En esta forma general, el punto central puede ser la media, la mediana, la moda o el resultado de otra medida de tendencia central. Adem´ as la operaci´ on de desviaci´ on promedio puede referirse a la media o la mediana. As´ ı, el n´ umero total de combinaciones asciende a por lo menos cuatro tipos de desviaci´ on absoluta media. 1.2. The Sum of Squared Error (SSE) El error de la suma al cuadrado es una medida de la discrepancia entre los da- tos y un modelo de estimaci´ on. Un peque˜ no SSE indica un ajuste apretado del modelo a los datos. En un modelo con una sola variable explicativa, SSE est´ a dada por: SSE = n X i=1 (y i - f (x i )) 2 1

Upload: angelaedo

Post on 13-Dec-2015

4 views

Category:

Documents


1 download

DESCRIPTION

descripción de las principales métricas de rendimiento de las redes neuronales

TRANSCRIPT

Page 1: Métricas de Rendimiento de un ANN

Universidad Catolica de Temuco Ingenierıa Civil Informatica

Actividad 2Metricas de Rendimiento de una ANN

Angel Aedo [email protected]

27 de Mayo de 2015

1. Resumen

A continuacion se presentan las metricas usadas para medir el error en el ren-dimiento de las Redes Neuronales Artificiales.

1.1. The Mean Absolute Deviation (MAD)

Literalmente significa el promedio de las desviaciones absolutas matematicasde los errores de pronostico (desviaciones). Desviacion Media Absoluta, estarepresentada por la siguiente ecuacion:∑

|ei − p|N

Donde ei es el error individual, N el numero de terminos de error y p es elpronostico. Esto representa un numero muy importante, ya que nos indica elerror de pronostico promedio (siempre positivo) sobre el periodo en cuestion.

La desviacion absoluta media de un conjunto de datos es el promedio de lasdesviaciones absolutas de un punto central. Es un resumen estadıstico de la dis-persion estadıstica o variabilidad. En esta forma general, el punto central puedeser la media, la mediana, la moda o el resultado de otra medida de tendenciacentral. Ademas la operacion de desviacion promedio puede referirse a la mediao la mediana. Ası, el numero total de combinaciones asciende a por lo menoscuatro tipos de desviacion absoluta media.

1.2. The Sum of Squared Error (SSE)

El error de la suma al cuadrado es una medida de la discrepancia entre los da-tos y un modelo de estimacion. Un pequeno SSE indica un ajuste apretado delmodelo a los datos.

En un modelo con una sola variable explicativa, SSE esta dada por:

SSE =

n∑i=1

(yi − f(xi))2

1

Page 2: Métricas de Rendimiento de un ANN

Universidad Catolica de Temuco Ingenierıa Civil Informatica

Donde yi es el iesimo valor de la variable a predecir, xi es el iesimo valor de lavariable explicativa, y f(xi) es el valor que se predijo de yi. En un modelo deregresion lineal simple estandar, yi = a+ bxi + εi, donde a y b son coeficientes,Y y X son la variable dependiente y la variable independiente, respectivamente,y ε es el termino de error. La suma de los cuadrados de los residuos es la sumade los cuadrados de las estimaciones de εi; esto es:

SSE =

n∑i=1

(εi)2 =

n∑i=1

(yi − (α+ βxi))2,

Donde α es el valor estimado del termino constante a y β es el valor estimadodel coeficiente de la pentiende b.

1.3. The Mean Squared Error (MSE)

El error cuadratico medio (MSE) de un estimador mide el promedio de los erro-res al cuadrado, es decir, la diferencia entre el estimador y lo que se estima. ElMSE es una funcion de riesgo, correspondiente al valor esperado de la perdidadel error al cuadrado o perdida cuadratica. La diferencia se produce debido a laaleatoriedad o porque el estimador no tiene en cuenta la informacion que podrıaproducir una estimacion mas precisa.

El MSE es el segundo momento (sobre el origen) del error, y por lo tanto in-corpora tanto la varianza del estimador ası como su sesgo. Para un estimadorinsesgado, el MSE es la varianza del estimador. Al igual que la varianza, el MSEtiene las mismas unidades de medida que el cuadrado de la cantidad que se es-tima. En una analogıa con la desviacion estandar, tomando la raız cuadrada delMSE produce el error de la raız cuadrada de la media o la desviacion de la raızcuadrada media (RMSE o RMSD), que tiene las mismas unidades que la canti-dad que se estima; para un estimador insesgado, el RMSE es la raız cuadradade la varianza, conocida como la desviacion estandar.

Si Y es un vector de n predicciones y Y es el vector de los verdaderos valo-res, entonces el (estimado) MSE del predictor es:

MSE =1

n

n∑i=1

(Yi − Yi)2.

Esta es una cantidad conocida, calculado dada una muestra particular (y por lotanto es dependiente de la muestra).

El MSE de un estimador θ con respecto al parametro desconocido θ se defi-ne como:

MSE(θ) = E[(θ − θ)2

]Esta definicion depende del parametro desconocido, y el MSE en este sentido esuna propiedad de un estimador (de un metodo de obtencion de una estimacion).

1.4. The Root Mean Squared Error (RMSE)

El error de raız cuadrada media (RMSE) es una medida de uso frecuente de lasdiferencias entre los valores de la muestra (y valores de la poblacion) predichos

2

Page 3: Métricas de Rendimiento de un ANN

Universidad Catolica de Temuco Ingenierıa Civil Informatica

por un modelo o un estimador y los valores realmente observados. Basicamente,la RMSE representa la desviacion estandar de la muestra de las diferencias entrelos valores predichos y los valores observados. Estas diferencias individuales sedenominan residuos cuando los calculos se realizan sobre la muestra de datosque se utilizo para la estimacion, y se denominan errores de prediccion cuandocomputado fuera de la muestra. El RMSE sirve para agregar las magnitudes delos errores en las predicciones para varias veces en una sola medida de la capa-cidad de prediccion. RMSE es una buena medida de la precision, pero solo paracomparar los errores de prediccion de los diferentes modelos para una variableparticular y no entre las variables, ya que es dependiente de la escala.

El RMSE de un estimador ˆtheta con respecto a un estimado del parametroθ se define como la raız cuadrada del error cuadratico medio:

RMSE(θ) =

√MSE(θ) =

√E((θ − θ)2).

Para un estimador insesgado, el RMSE es la raız cuadrada de la varianza, co-nocido como el error estandar.

1.5. The Mean Absolute Percentage Error (MAPE)

El error absoluto porcentual promedio (MAPE), es una medida de la exacti-tud de un metodo para construir los valores de series de tiempo armarios en lasestadısticas, especıficamente en la estimacion de la tendencia. Por lo general, laprecision expresa como un porcentaje, y se define por la ecuacion:

M =1

n

n∑t=1

∣∣∣∣At − Ft

At

∣∣∣∣Donde At es el valor real y Ft es el valor pronostico.

La diferencia entre At y Ft se divide por el valor actual At de nuevo. El va-lor absoluto en este calculo es sumado a cada punto equipado o pronosticado enel tiempo y se divide de nuevo por el numero de puntos equipada n. Multipli-cando por 100 hace que sea un porcentaje de error.

Aunque el concepto de MAPE suena muy simple y convincente, tiene dos gran-des inconvenientes en la aplicacion practica:

Si hay cero valores (lo que a veces sucede por ejemplo en la serie de lademanda), habra una division por cero

Al tener un ajuste perfecto, MAPE es cero. Pero en lo que se refiere a sunivel superior, el MAPE tiene ninguna restriccion.

Al calcular la MAPE promedio de un numero de serie de tiempo podrıa haberun problema: algunas de las series que tienen una muy alta distorcion MAPEque podrıa distorsionar una comparacion entre la MAPE promedio de series detiempo equipado con un metodo en comparacion con el MAPE promedio al usarotro metodo.

3

Page 4: Métricas de Rendimiento de un ANN

Universidad Catolica de Temuco Ingenierıa Civil Informatica

1.6. The Mean Error (ME)

El error medio es la media aritmetica de todos los errores de prediccion:

ME =1

n

∑et

1.7. Theil’s U-statistic

Theil’s U-Statistic es una medida de precision relativa que compara los resul-tados pronosticados con los resultados de la prediccion con datos historicosmınimos. Tambien cuadrados las desviaciones para dar mas peso a los erroresgrandes y exagerar los errores, lo que puede ayudar a eliminar metodos congrandes errores.

Si el resultado obtenido es menor a 1; La tecnica de pronostico es mejor queadivinar.

Si el resultado es 1; La tecnica es casi tan buena como adivinar.

Si el resultado es mayor a 1; La tecnica es peor que adivinar.

La ecuacion para calcular esta dada por:

U =

√√√√√√√√√√n−1∑t=1

(Yt+1 − Yt+1

Yt

)2

n−1∑t=1

(Yt+1 − Yt

Yt

)2

Donde Yt es el valor actual del punto para un periodo de tiempo t, n es elnumero de puntos de datos y Yt es el valor de prediccion.

1.8. The Median Absolute Percentage Error (MdAPE)

La mediana del Porcentaje Absoluto de error es similar a la MAPE (ya searegular o simetrica) pero en vez de resumir los Porcentaje errores absolutos(APE) y luego computar su promedio, encontramos su mediana. Es decir, todoel APE se ordena desde el mas pequeno hasta el mas grande y el APE en el medio(en el caso de que haya un numero par de APE entonces el promedio de los dosmedia se calcula) se utiliza para denotar la mediana. La mayor ventaja de laMdAPE es que no esta influenciada por los valores atıpicos. Su mayor desventajaes que su significado es menos intuitivo. Un MdAPE de 8 % no significa que elporcentaje de error medio absoluto es 8 %. En su lugar, significa que la mitadde los errores porcentuales absolutos son menos de 8 % y medio son mas de 8 %.(Uso de la simetrica APE reduce las posibilidades de los valores atıpicos y reducela necesidad de utilizar MdAPE). Por otra parte, es difıcil combinar MdAPEtraves de horizontes y / o series y cuando los nuevos datos esten disponibles.

4

Page 5: Métricas de Rendimiento de un ANN

Universidad Catolica de Temuco Ingenierıa Civil Informatica

1.9. The Geometric Mean Relative Absolute Error (GM-RAE)

La media geometrica de los errores absolutos relativos se define como:

GMRAE =

(∏t

RAEt

) 1m

Donde RAE es calculado como:

RAEt =

∣∣∣Xt−Ft

Xt

∣∣∣∣∣∣Xt−FNt

Xt

∣∣∣Es decir, RAE es equivalente a los dos terminos de promedio de bateo deMcLaughlin. Una forma alternativa de usar GMRAE es elevando al cuadradolos terminos de error de RAE en cuyo caso cada RAE sera equivalente Theil’sU-Statistic.

La ventaja de los medios geometrica relativa es que no estan contaminadastanto por los valores atıpicos y que son mas faciles de comunicar Theil’s U-Statistic. Al mismo tiempo la expresion RAE se ve influenciada por los valoresextremadamente bajos y grandes. Armstrong y Collopy sugieren Winsorizinglos valores de RAE mediante el establecimiento de un lımite maximo de 10 yun mınimo de un 0,01. Aunque el GMRAE podrıa ser mas facil de comunicarseque Theil’s U-Statistic todavıa es ”tıpicamente inapropiado para la toma dedecisiones de gestion”

1.10. The Average Relative Variance (ARV)

ARV =

N∑j=1

R2i

N∑j=1

(Fj −Amean)2

1.11. The Residual Variance

Cuando se considera el valor ajustado mediante el modelo de regresion linealpara un valor fijo x:

yest = a+ bx

se tiene, en realidad, un estadıstico. La varianza de este estadıstico es conocidacomo varianza residual, la cual resulta igual a:

(Sy)2(1− r2)

La raız cuadrada de la varianza residual es conocida como el error tıpico.

La varianza residual coincide tambien con la suma de cuadrados de las dife-rencias entre los valores de la variable dependiente observados y estimados por

5

Page 6: Métricas de Rendimiento de un ANN

Universidad Catolica de Temuco Ingenierıa Civil Informatica

la recta, dividiendo el resultado final por el tamano de la muestra.

Denotada como E2Y = V (e) .Se define como el promedio de diferencias cuadrati-

cas que se comete al estimar la variable dependiente en funcion de la variableindependiente. Presenta el gran inconveniente de venir expresada en unidadescuadradas, hecho que limita su uso y utilizacion, razon por la cual se le extraela raız cuadrada, obteniendo de esta manera el error de estimacion.

El error de estimacion denotado por E y, se define como el error promedioque se comete al estimar la variable dependiente en funcion de la variable in-dependiente. Tiene por objeto determinar que tan bueno es el ajuste y podergenerar intervalos de confianza para la variable dependiente ante determinadosvalores de la variable independiente.

La ecuacion que permite calcular la varianza residual. Viene dada por:

E2Y =

∑Y 2 − β0

∑Y − β1

∑XY

n− 2

1.12. The Akaike Information Criterion

El criterio de informacion de Akaike es una medida de la calidad relativade un modelo estadıstico, para un conjunto dado de datos. Como tal, el AICproporciona un medio para la seleccion del modelo.

AIC maneja un trade-off entre la bondad de ajuste del modelo y la complejidaddel modelo. Se basa en la entropıa de informacion: se ofrece una estimacion re-lativa de la informacion perdida cuando se utiliza un modelo determinado pararepresentar el proceso que genera los datos.

AIC no proporciona una prueba de un modelo en el sentido de probar unahipotesis nula , es decir AIC puede decir nada acerca de la calidad del modeloen un sentido absoluto. Si todos los modelos candidatos encajan mal, AIC nodara ningun aviso de ello.

En el caso general, la AIC es:

AIC = 2k − 2 ln(L)

Donde k es el numero de parametros en el modelo estadıstico , y L es el maximovalor de la funcion de verosimilitud para el modelo estimado.

Dado un conjunto de modelos candidatos para los datos, el modelo preferidoes el que tiene el valor mınimo en el AIC. Por lo tanto AIC no solo recompensala bondad de ajuste, sino tambien incluye una penalidad, que es una funcioncreciente del numero de parametros estimados. Esta penalizacion desalienta elsobreajuste (aumentando el numero de parametros libres en el modelo mejorala bondad del ajuste, sin importar el numero de parametros libres en el procesode generacion de datos).

6

Page 7: Métricas de Rendimiento de un ANN

Universidad Catolica de Temuco Ingenierıa Civil Informatica

1.13. The Bayesian Information Criterion (BIC)

El criterio de informacion bayesiano (BIC) o el mas general criterio de Sch-warz (SBC tambien, SBIC) es un criterio para la seleccion de modelos entre unconjunto finito de modelos. Se basa, en parte, de la funcion de probabilidad yque esta estrechamente relacionado con el Criterio de Informacion de Akaike(AIC).

Cuando el ajuste de modelos, es posible aumentar la probabilidad mediantela adicion de parametros, pero si lo hace puede resultar en sobreajuste. Tantoel BIC y AIC resuelven este problema mediante la introduccion de un terminode penalizacion para el numero de parametros en el modelo, el termino de pe-nalizacion es mayor en el BIC que en el AIC.

El BIC fue desarrollado por Gideon E. Schwarz, quien dio un argumento baye-siano a favor de su adopcion. Akaike tambien desarrollo su propio formalismoBayesiano, que ahora se conoce como la ABIC por Criterio de Informacion Ba-yesiano de Akaike.

El BIC es una consecuencia derivada asintotica bajo los supuestos de que ladistribucion de los datos se encuentra en la familia exponencial. Donde:

x = los datos observados

n = el numero de datos u observaciones x, o equivalentemente, el tamanode la muestra

k = el numero de parametros libres a ser estimados. Si el modelo esta bajoel supuesto de que es lineal, k es el numero de regressores, incluyendo elintercepto.

p(x|M) = La probabilidad marginal de los datos observados dado el mode-lo M ; esto es, Es decir, la integral de la funcion de verosimilitud p(x|θ,M)veces la distribucion de probabilidad antes p(θ|M) sobre los parametros θdel modelo M para los datos observados fijos x

L = El maximo valor de la funcion de verosimilitud del modelo M , i.e. L= p(x|θ,M), donde θ son los valores de los parametros que maximizan lafuncion de verosimilitud.

La ecuacion para el BIC es:

−2 · ln p(x|M) ≈ BIC = −2 · ln L+ k ln(n)

Referencias

[1] Guoqiang Zhang, B. Eddy Patuwo, Michael Y. Hu, Forecasting withartificial neural networks: The state of the art, Graduate School of Ma-nagement, Kent State University, Kent, Ohio 44242-0001, USA,

[2] Gary D. Kader, Means and MADs, http://www.learner.org/courses/learningmath/data/pdfs/session5/mads_1.pdf,

7

Page 8: Métricas de Rendimiento de un ANN

Universidad Catolica de Temuco Ingenierıa Civil Informatica

[3] Wikipedia, Residual sum of squares, http://en.wikipedia.org/wiki/

Residual_sum_of_squares,

[4] Wikipedia, Mean squared error, http://en.wikipedia.org/wiki/Mean_squared_error

[5] Wikipedia, Root mean Square Deviation, http://en.wikipedia.org/

wiki/Root-mean-square_deviation,

[6] Wikipedia, Root mean Square Deviation, http://en.wikipedia.org/

wiki/Root-mean-square_deviation,

[7] Oracle, Theil’s U, http://docs.oracle.com/cd/E40248_01/epm.1112/cb_statistical/frameset.htm?ch07s02s03s04.html

[8] S. Makridakis AND M. Hibon Evaluating Accuracy (Or Error) Measu-res http://www.insead.edu/facultyresearch/research/doc.cfm?did=

46875

[9] NA Varianza Residual http://www.ub.edu/stat/GrupsInnovacio/

Statmedia/demo/Temas/Capitulo13/B0C13m1t6.htm

[10] Universidad Nacional de Colombia Varianza Residualhttp://www.virtual.unal.edu.co/cursos/sedes/manizales/OLD/

4010036-old/lecciones/capitulodos/varianza.html

[11] Wikipedia Akaike information criterion http://en.wikipedia.org/

wiki/Akaike_information_criterion

[12] WIKIPEDIA Bayesian information criterion http://en.wikipedia.

org/wiki/Bayesian_information_criterion

8