log( - minsalud.gov.co · más respecto a la relación entre las variables, permite convertir en...

6
1 Transformación de datos violencia interpersonal positivamente asimétricos, Colombia 2013 Introducción La importancia de la distribución normal o Gaussiana radica en el uso ex- tendido en las aplicaciones estadísticas; más aún el campo de la salud. Por ejemplo, el Índice Compuesto de Necesidad en Salud (ICNS) requiere en- tre de sus condiciones básicas la evaluación de la normalidad de las varia- bles a incluir. Los datos no siempre se ajustan a los criterios de distribución normal. En estos casos debe transformar los datos no normales en datos que sigan una distribución aproximadamente normal 1 . La transformación de una varia- ble es un cambio en la magnitud de las distancias entre los valores de la variable. No afecta la forma o estructura de los datos. En esta expresión pueden intervenir variables, constantes, operadores aritméticos y funcio- nes 2 . En concreto, las transformaciones consisten en obtener valores nu- méricos diferentes a los originales, manteniendo la capacidad de represen- tación de las relaciones empíricas 2 . Se transforman los datos cuando mues- tran alta simetría, hay presencia de muchos datos atípicos y cuando la va- riable no cumple con la asunción de normalidad, homogeneidad de varian- zas o linealidad. La utilización de las transformaciones permite corregir la asimetría de una distribución muestral; así los valores originales aparentemente atípicos se encontrarán más cercanos al promedio o media de los datos, facilitando la identificación de los verdaderos datos atípicos extremos 3 . Además, mejora la posibilidad de análisis e interpretación de los datos, simplifica los cálcu- los, aumenta la potencia de las pruebas estadísticas y mejora la simetría de la distribución 2,3 . Para la ejemplificar los métodos de transformación se utilizaran los datos de violencia interpersonal positivamente asimétricos. Hechas las consideraciones anteriores, el objetivo del presente boletín es explicar los métodos estadísticos para la transformación de los datos con una distribución no Gaussiana. En efecto, ¿Qué hacer cuando no se puede asumir la normalidad y se desea utilizar un método que exija la norma- lidad como supuesto? Ante la situación planteada se pueden utilizar las transformaciones logaritmo neperiano y raíz cuadrada que a continua- ción se explicarán en detalle. Metodología Las transformaciones logaritmo neperiano y raíz cuadrada son las más utili- zadas para cumplir con los supuestos teóricos de normalidad y la homoge- neidad de varianzas 4 .Al no cumplir las condiciones de normalidad, se pue- den invalidar los resultados de los análisis estadísticos 2 .Además las trans- formaciones permiten, simplificar los cálculos, aumentar el nivel de potencias de las pruebas estadísticas, mejorar la simetría de la distribución, permite la comparación de valores con distribución distintas. Cabe mencio- nar, que la transformación puede modificar la media y desviación estándar de la distribución de los datos, sin embargo no modifica la forma, es decir las pruebas gráficas de normalidad 3 . Para la transformación de los datos originales se requieren cuatro condicio- nes básicas 2 : a) Simplicidad: no se refiere a las operaciones matemáticas implicadas sino al efecto que la transformación ejerce en los datos originales. b) Continuidad: garantiza que solo se producirán los cambios deseables en las distancias relativas entre los puntos de la escala transformada. c) Monotonicidad: la función debe preservar el orden y por ende todos los estadísticos basados en él. d) Derivabilidad: asegura la ausencia de brusquedades susceptibles de in- validar la re-expresión Transformación logaritmo neperiano o natural Es la transformación más común aplicada en datos asimétricos positivos o con sesgo positivo (con cola más larga hacia la derecha), donde los datos muestran una media o promedio mayor a la mediana y también se utilizan cuando están en diferente rango de magnitud los datos. Corrige la asimetría y la Curtosis de la variable, suele conseguir una distribución normal. Ade- más respecto a la relación entre las variables, permite convertir en lineal una relación que con los datos originales no ocurre 2 . La transformación logarítmica utiliza escalas de distancia de decimales con base 10 (1 a 10, 10 a 100, 100 a 1.000). En concreto las variables transfor- madas en su logaritmo, los valores 1 y 10 se expandirán, mientras que los valores más altos se comprimirán, es decir los datos que se encuentran a la izquierda se expandirán, en tanto los datos ubicados a la derecha se com- primirán. Esta transformación logarítmica solo es válida en datos con valo- res mayores que cero. Cuando se genera la nueva curva de normalidad, se denomina como una distribución lognormal . Ecuación general: Ejemplificación Para hacer la transformación de los datos se usará el paquete esta- dístico Epidat 4.1. Recuerde disponer los datos en el Excel previa- mente. Como se muestra a continuación: a. Abra el programa Epidat 4.1 y escoja la opción módulos, seleccione en Inferencia sobre parámetros y escoja la opción Contraste de normalidad. ) log( X y Enero, 2016 Vol. 4, No. 1 1 Boletín Epidemiológico / MSPS, Vol 4, No. 1 (2016)

Upload: vananh

Post on 20-Sep-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

1

Transformación de datos violencia interpersonal positivamente asimétricos, Colombia 2013

Introducción

La importancia de la distribución normal o Gaussiana radica en el uso ex-tendido en las aplicaciones estadísticas; más aún el campo de la salud. Por ejemplo, el Índice Compuesto de Necesidad en Salud (ICNS) requiere en-tre de sus condiciones básicas la evaluación de la normalidad de las varia-bles a incluir. Los datos no siempre se ajustan a los criterios de distribución normal. En estos casos debe transformar los datos no normales en datos que sigan una distribución aproximadamente normal1. La transformación de una varia-ble es un cambio en la magnitud de las distancias entre los valores de la variable. No afecta la forma o estructura de los datos. En esta expresión pueden intervenir variables, constantes, operadores aritméticos y funcio-nes2. En concreto, las transformaciones consisten en obtener valores nu-méricos diferentes a los originales, manteniendo la capacidad de represen-tación de las relaciones empíricas2. Se transforman los datos cuando mues-tran alta simetría, hay presencia de muchos datos atípicos y cuando la va-riable no cumple con la asunción de normalidad, homogeneidad de varian-zas o linealidad. La utilización de las transformaciones permite corregir la asimetría de una distribución muestral; así los valores originales aparentemente atípicos se encontrarán más cercanos al promedio o media de los datos, facilitando la identificación de los verdaderos datos atípicos extremos3. Además, mejora la posibilidad de análisis e interpretación de los datos, simplifica los cálcu-los, aumenta la potencia de las pruebas estadísticas y mejora la simetría de la distribución

2,3.

Para la ejemplificar los métodos de transformación se utilizaran los datos de violencia interpersonal positivamente asimétricos. Hechas las consideraciones anteriores, el objetivo del presente boletín es explicar los métodos estadísticos para la transformación de los datos con una distribución no Gaussiana. En efecto, ¿Qué hacer cuando no se puede asumir la normalidad y se desea utilizar un método que exija la norma-lidad como supuesto? Ante la situación planteada se pueden utilizar las transformaciones logaritmo neperiano y raíz cuadrada que a continua-ción se explicarán en detalle.

Metodología Las transformaciones logaritmo neperiano y raíz cuadrada son las más utili-zadas para cumplir con los supuestos teóricos de normalidad y la homoge-neidad de varianzas4.Al no cumplir las condiciones de normalidad, se pue-den invalidar los resultados de los análisis estadísticos2.Además las trans-formaciones permiten, simplificar los cálculos, aumentar el nivel de potencias de las pruebas estadísticas, mejorar la simetría de la distribución, permite la comparación de valores con distribución distintas. Cabe mencio-nar, que la transformación puede modificar la media y desviación estándar de la distribución de los datos, sin embargo no modifica la forma, es decir las pruebas gráficas de normalidad3. Para la transformación de los datos originales se requieren cuatro condicio-nes básicas2: a) Simplicidad: no se refiere a las operaciones matemáticas implicadas sino al efecto que la transformación ejerce en los datos originales. b) Continuidad: garantiza que solo se producirán los cambios deseables en las distancias relativas entre los puntos de la escala transformada. c) Monotonicidad: la función debe preservar el orden y por ende todos los estadísticos basados en él. d) Derivabilidad: asegura la ausencia de brusquedades susceptibles de in-validar la re-expresión

Transformación logaritmo neperiano o natural Es la transformación más común aplicada en datos asimétricos positivos o con sesgo positivo (con cola más larga hacia la derecha), donde los datos muestran una media o promedio mayor a la mediana y también se utilizan cuando están en diferente rango de magnitud los datos. Corrige la asimetría y la Curtosis de la variable, suele conseguir una distribución normal. Ade-más respecto a la relación entre las variables, permite convertir en lineal una relación que con los datos originales no ocurre2. La transformación logarítmica utiliza escalas de distancia de decimales con base 10 (1 a 10, 10 a 100, 100 a 1.000). En concreto las variables transfor-madas en su logaritmo, los valores 1 y 10 se expandirán, mientras que los valores más altos se comprimirán, es decir los datos que se encuentran a la izquierda se expandirán, en tanto los datos ubicados a la derecha se com-primirán. Esta transformación logarítmica solo es válida en datos con valo-res mayores que cero. Cuando se genera la nueva curva de normalidad, se denomina como una distribución lognormal.

Ecuación general:

Ejemplificación

Para hacer la transformación de los datos se usará el paquete esta-

dístico Epidat 4.1. Recuerde disponer los datos en el Excel previa-

mente. Como se muestra a continuación:

a. Abra el programa Epidat 4.1 y escoja la opción módulos, seleccione en

Inferencia sobre parámetros y escoja la opción Contraste de normalidad.

)log(Xy

Enero, 2016 Vol. 4, No. 1

1

Boletín Epidemiológico / MSPS, Vol 4, No. 1 (2016)

2

b.Se abrirá el recuadro de dialogo Contraste de normalidad, de clic sobre el

botón Abrir tabla de datos (1) aparecerá la ventana Asistente para la obtención de datos (2), ubíquese en Examinar, que permite buscar el archivo seleccionado. Haga clic sobre el icono Aceptar.

c. En la ventana Contraste de normalidad, seleccione en la Transformación de la variable: Logaritmo y los métodos Shapiro – Francia, Asimetría - Cur-tosis, también se escoja la opción cuantil – cuantil (Q-Q Plot), este tipo de gráfico nos permite comprobar la normalidad de los datos después de transformarlos. Haga clic sobre el icono Calcular.

d. A continuación, aparecerá la ventana para Editor de gráficos. Haga clic

sobre el icono Aceptar.

e. La gráfica de normalidad: el cuantil-cuantil QQ-plots (3) muestra la varia-

ble de casos de violencia interpersonal ajustada parcialmente a la línea rec-

ta, es decir, muestra una ligera simetría de los datos.

f. Ahora se muestran los resultados del test Shapiro – Francia (1) con los

datos de casos de violencia interpersonal describen una distribución asi-métrica. En relación con el apuntamiento o Curtosis (2) muestra una dis-tribución normal o simétrica.

g.Con el objeto de verificar la transformación logarítmica de los datos de

violencia interpersonal. Vaya al programa Excel. h.Para transformar los datos, es necesario calcular el logaritmo natural con

base en 10 de los datos de violencia interpersonal. Vaya a menú y selec-cione la opción fórmulas y escoja la opción Insertar función.

i. Aparece el cuadro de diálogo Insertar función y en buscar función escri-

ba la función logaritmo (LOG10) y dé clic sobre la opción ir. j. Después aparece el siguiente recuadro de Argumentos de función,

seleccione la celda donde va calcular el logaritmo natural o con base en 10 y luego escoja la opción Aceptar.

k. Con clic sostenido arrastre el cursor hasta la celda que desea copiar

la formula =LOG10(B2).

Boletín Epidemiológico / MSPS, Vol 4, No. 1 (2016)

12

1

2

3

3

f.

3

l. Para el cálculo de las medidas de tendencia central, dispersión, posi-

ción y forma vaya a la barra de herramientas y seleccione la opción

Datos y escoja la opción Análisis de datos.

m. Aparece el siguiente recuadro de Análisis de datos, seleccione la op-

ción Estadística descriptiva y dé clic en aceptar.

n. Se abrirá el recuadro de diálogo Estadística descriptiva, en la opción

Rango de Entrada seleccione la matriz de datos de la cual desea

estimar las medidas descriptivas.

o. Luego, escoja la opción Rango de salida, seleccione la celda donde

se mostrarán los resultados. Después escoja la opción Resumen de

estadísticas y dé clic sobre Aceptar.

p. Aparecerá los resultados, que muestra los estadísticos de tendencia

central, dispersión, posición y forma.

Resultados Los datos de violencia interpersonal transformados, coinciden en el valor de la media (3,19) y mediana (3,43), describe una distribución normal o Gaus-siana. El coeficiente de asimetría fue -1,94 mostrando que los datos se desplazan ligeramente hacia la izquierda. La Curtosis fue 4,85, la curva se-rá una forma achatada o platicúrtica. En la figura 1 se pueden apreciar los resultados obtenidos la transformación logarítmica en base 10.

Figura 1. Comparación de los datos de violencia interpersonal sin

transformar y transformados por el logaritmo

Transformación raíz cuadrada

Esta transformación reduce el sesgo positivo de tipo medio. Se utili-

za si la varianza es proporcional al promedio y se emplea para da-

tos de conteos o recuentos6, por ejemplo el número de células sanguíneas

en un volumen de sangre, microorganismos en una hoja, el número de de-

funciones por SIDA en una población durante un año determi-

nado2,5.Corrige en la asimetría y la Curtosis de la variable y mejora la forma

de la distribución, aunque en menor grado que la transformación logarítmi-

ca7.

Ecuación general:

2 Xy

Boletín Epidemiológico / MSPS, Vol 4, No. 1 (2016)

Datos sin transformar Datos transformados logarítmicamente

2

4

Ejemplificación

Disponga los datos en el Excel previamente; para realizar la transformación

cuadrática se empleará Epidat 4.1.

a.Abra el programa Epidat 4.1 y escoja la opción módulos; seleccione en

Inferencia sobre parámetros y escoja la opción Contraste de normalidad.

b. Se abrirá el recuadro de diálogo Contraste de normalidad, dé clic so-

bre el botón Abrir tabla de datos (1) aparecerá la ventana Asis-

tente para la obtención de datos (2), ubíquese en Examinar, que per-

mite buscar el archivo seleccionado. Haga clic sobre el icono Aceptar.

c. En la ventana Contraste de normalidad, seleccione en la Transformación

de la variable: Raíz Cuadrada y los métodos Shapiro – Francia, Asimetría -

Curtosis, también se escoja la opción cuantil – cuantil (Q-Q Plot), este tipo

de gráfico nos permite comprobar la normalidad de los datos después de

transformarlos. Haga clic sobre el icono Calcular.

d. Luego aparecerá la ventana para Editor de gráficos. Haga clic sobre el

icono Aceptar.

e. El gráfico de normalidad: el cuantil-cuantil QQ-plots (3), muestra la varia-

ble de casos de violencia interpersonal ajustan a la línea recta, al comparar

con la transformación logarítmica se observa que la transformación cuadrá-

tica muestra mejor distribución normal de los datos.

f. Los resultados del test Shapiro – Francia (1) muestra que los datos de casos de violencia interpersonal describen una distribución asimétri-ca. En relación al apuntamiento o Curtosis (2), muestra una distribución normal o simétrica.

g.Para verificar la transformación raíz cuadrada de los datos de violencia interpersonal. Diríjase al programa Excel.

h.Para transformar los datos, es necesario calcular la raíz cuadrada de los datos de violencia interpersonal. Vaya a menú y seleccione la opción fór-mulas y escoja la opción Insertar función.

Boletín Epidemiológico / MSPS, Vol 4, No. 1 (2016)

1 2

1

2

3

3

5

I. Aparece el cuadro de diálogo Insertar función y en buscar función escri-ba la función raíz cuadrada (RAIZ) y dé clic sobre la opción ir.

j. A continuación aparece el siguiente recuadro de Argumentos de función, seleccione la celda donde va estimar la raíz cuadrada y escoja la opción Aceptar.

k.Con clic sostenido arrastre el cursor hasta la celda en la que desea copiar la fórmula =LRAIZ(B2).

l. Para estimar las medidas de tendencia central, dispersión, posición y forma vaya a la barra de herramientas y seleccione la opción Datos y escoja la opción Análisis de datos.

m. A continuación aparece el recuadro de Análisis de datos; seleccione la opción Estadística descriptiva y dé clic en aceptar.

n. En el recuadro de diálogo Estadística descriptiva, en la opción Rango de Entrada seleccione la matriz de datos de la cual desea estimar las me-didas descriptivas.

o. Luego escoja la opción Rango de salida, seleccione la celda donde se

mostrarán los resultados. Después escoja la opción Resumen de estadísti-cas y dé clic sobre Aceptar.

p. Aparecerán los resultados que muestran los estadísticos de tendencia central, dispersión, posición y forma.

Boletín Epidemiológico / MSPS, Vol 4, No. 1 (2016)

6

Resultados

Los datos de violencia interpersonal transformados con la raíz cuadrada son consistentes en el valor de la media (56,36) y mediana (52,27) y descri-be una distribución normal. El coeficiente de asimetría fue -1,79 mostrando que los datos se desplazan ligeramente hacia la izquierda. La Curtosis fue 5,74, la curva será una forma achatada o platicúrtica. (Figura 2)

Figura 2. Comparación de los datos de violencia interpersonal sin

transformar y transformados por la raíz cuadrada.

Datos sin transformar Datos transformados

Fuente: elaboración propia

Conclusión

Resulta conveniente emplear distribuciones más simétricas por las siguien-tes razones: 1) Las distribuciones normales o simétrica de las medidas de tendencia central coincidirán. 2) este tipo de distribución es más fácil de interpretar y 3) para presentar mayor robustez en los métodos estadísticos. Las variables biológicas muestran una distribución normal con varianza uni-forme, esta una de las razones por las cuales se utilizan en el área de la salud. Cuando no se disponen de datos con distribución simétrica, se pue-den hacer transformaciones, que mejoran las suposiciones estadísticas de normalidad, linealidad y homocedasticidad. Las transformaciones logarítmicas y raíz cuadrada reducen la heteroge-neidad de las varianza pero no logran homogeneizarlas. La transformación logarítmica es la que mejor logra una distribución simétrica (coeficiente de asimetría:-1,94 y Curtosis: 4,85) que la raíz cuadrada (coeficiente de asimetría: 1,79 y Curtosis: 5,57). Finalmente, la transformación logarítmica es la mejor opción para modificar la distribución de datos con sesgo positivo o distribución asimétrica hacia la derecha, ya que corrige la asimetría y la Curtosis de los datos o varia-bles. En el próximo boletín revisaremos las transformaciones en datos con distribución asimétrica negativa.

Bibliografía

1. Olivier, Jake; Norberg, Melissa M.Positively Skewed Data: Revisiting the Box-Cox Power Transformation. International Journal of Psychological Research, vol. 3(1), 2010. Disponible en http://www.redalyc.org/pdf/2990/299023509016.pdf consultado el 24 de septiembre de 2015 2. Fornieles A. Transformaciones de datos en la elaboración de estu-dios salariales Journal of Work and Organizational Psychology 29 (2013) 75-82) 3. Comisión Económica para América Latina y el Caribe (CEPAL) Schuschny A.Soto H. Guía metodológica Diseño de indicadores com-puestos de desarrollo sostenible. Naciones Unidas. 2009 4. Calzadilla J, Guerra W, Torres V. El uso y abuso de transformacio-nes matemáticas. Aplicaciones en modelos de análisis de varianza. Revista Cubana de Ciencia Agrícola, Tomo 36(2), 2002. Disponible: http://www.redalyc.org/pdf/1930/193018119002.pdf .Consultado: octubre 26 del 2015 5. Engañando a Gauss. Disponible en: http://www.cienciasinseso.com/tag/transformacion-logaritmica/. Consultado: octu-bre 26 de 2015 6. J Martin Bland, Douglas G Altman. Transformando datos. Brit Med J 312: 770-771.1996 Disponible en: http://patoral.umayor.cl/patoral/?p=1809. Consultado: octubre 27 de 2015 7. Variables aleatorias. Disponible en: file:///C:/Users/aherreral/Downloads/VARIABLE%20ALEATORIA%20notas.pdf. Consultado el 27 de octubre de 2015

Preparado por Astrid Berena Herrera López.

Grupo de Análisis de Situación de Salud (ASIS).

Dirección de Epidemiología y Demografía.

Ministerio de Salud y Protección Social.

Contacto: [email protected].

Tel. 330 5000 Ext: 1753 .

Boletín Epidemiológico / MSPS, Vol 4, No. 1 (2016)