estadística_descriptiva

Estadística: introducción

¿Estadística para qué? } Manera de organizar los datos para que tengan

sentidofile://localhost/Users/leonororozco/Documents/CURSOS/ESTADÍSTICA 2015/Greenberg 1963.docx

} Argumento cuantitativo para sustentar nuestras hipótesis file://localhost/Users/leonororozco/Documents/CURSOS/ESTADÍSTICA 2015/Relación entre la posición del adjetivo y lectura específica y genérica.docx

Población

}  Conjunto de datos, de diversa naturaleza } Estudiantes } Adverbios en -mente } Construcciones para marcar futuro

Estadística descriptiva }  Describe cómo se comportan los datos de una muestra,

por ej. cuántos casos de futuro perifrástico/ morfológico se documentan en un conjunto de entrevistas, cuántas veces se encontró el orden Adj+N y cuántas N+ adj

}  No es posible hacer generalizaciones más allá de la muestra

file://localhost/Users/leonororozco/Documents/CURSOS/ESTADÍSTICA 2015/porcentajes datos historia de las peras.docx

Qué es una variable

}  Atributo de una persona o de un objeto que varía de una persona a otra o de un objeto a otro

}  Niveles o variantes: }  debe haber al menos dos }  Ej. posibles realizaciones de /s/ en coda en español

}  ‘costa’ }  [kósta] }  [kóhta]

}  [kóta]

Tipos de variables según las escalas de medición VARIABLES CATEGÓRICAS (o discretas) (se analizan con pruebas no paramétricas) }  Variables nominales

}  Presencia/ausencia (+/-) }  Los niveles (variantes) no están jerarquizados }  Pueden clasificarse en más de dos niveles, por ej.

}  Consonantes resonantes vs. obstruyentes }  Consonantes oclusivas, fricativas, africadas, nasales, etc…

}  Variables ordinales }  Están jerarquizadas }  La distancia entre puntos NO tiene un valor equivalente }  Por ej. respuestas a prueba de actitudes lingüísticas

(completamente de acuerdo, moderadamente de acuerdo, ni de acuerdo ni en desacuerdo…)

Variables continuas ) (se analizan con pruebas paramétricas) }  Intervalo

}  Están jerarquizadas }  La distancia entre puntos tiene un valor equivalente }  No hay un cero absoluto (p. ej. temperatura).

}  Razón o relación }  Están jerarquizadas }  Sí hay un cero absoluto (significa ausencia de la característica

analizada) }  La distancia entre puntos tiene un valor equivalente ej. milisegundos,

hertz, decibeles…

}  NOTA: intervalo y razón o relación suelen agruparse (ambas son continuas); en SPSS se les llama variables de escala.

VARIABLE: bilingüismo organizada en diferentes escalas

} Variable nominal }  bilingüe/ no bilingüe

} Variable ordinal }  Poco bilingüe }  Muy bilingüe }  Completamente bilingüe

} Variable de intervalo }  Nivel de bilingüismo medido a través de una prueba

Tipos de variables } Dependiente }  Es el fenómeno que se analiza, la variación se

explicará por medio de otras variables

}  Independientes o explicativas }  Aquellas que el investigador asume que inciden en

la variación del fenómeno analizado

} Variables ocultas }  Son aquellas que el investigador no incluye en el

análisis pero que pueden influir en los resultados

Cómo organizar datos }  Frecuencia “absoluta” (F)

}  indica el número de ocurrencias de un evento en un conjunto de datos. La suma total de las ocurrencias de todos los eventos es N

}  Frecuencia relativa o proporción }  Si el total de datos conforma una unidad, entonces la frecuencia

relativa es una fracción de esa unidad _f_ N

}  La suma de todas las frecuencias relativas debe ser igual a 1

}  Porcentajes }  Igual que la frecuencia relativa pero la unidad de medida es igual a

100

Medidas de tendencia central

}  Sirven para describir un grupo al hacer afirmaciones del tipo “el promedio”, “lo típico”, “lo más común”.

}  Media (aritmética) : es el promedio de los datos.

}  Mediana: Se organizan los datos del menor al mayor, es el valor que se encuentra en medio de los datos.

}  Moda: es el valor que se repite más veces.

Desviación estándar

Muestra el promedio de variabilidad de todas las puntuaciones a partir de la media

Ejemplo de datos en excel }  file://localhost/Users/leonororozco/Documents/CURSOS/

ESTADÍSTICA 2015/varianza y desviación.xlsx

Organizar un conjuntos de datos }  Se agrupan en intervalos de clase }  Para hacer intervalos se calcula el rango de los datos }  Rango = máximo – mínimo }  Se grafican en un histograma

}  Se pidió a un grupo de hablantes afroamericanos que leyeran una lista de 250 items léxicos que contenían la terminación -ing (i.e. surfing, running).

}  La siguiente lista presenta la frecuencia en que la nasal se realizó como alveolar [n], se omiten los casos en que la nasal se realizó como velar [ŋ]

Resultados 108 mujeresintervalos de clase Frecuencia Frecuencia

relativaFrecuencia acumulativa

Frecuencia relativa acumulativa

110-124 2 0.02 2 0.02125-139 2 0.02 4 0.04140-154 11 0.10 15 0.14155-169 12 0.11 27 0.25170-184 19 0.18 46 0.43185-199 23 0.21 69 0.64200-214 17 0.16 86 0.80215-229 15 0.14 101 0.94230-244 6 0.06 107 0.99245-250 1 0.01 108 1.00

0

5

10

15

20

25

110-124 125-139 140-154 155-169 170-184 185-199 200-214 215-229 230-244 245-259

Histograma

Distribución normal (la media y la mediana tiene el mismo valor)

Sesgos en la distribución

Sesgo positivo

}  Cuando el sesgo es negativo, la media suele ser más alta que la mediana

Curtosis

Distribución normal

}  En una distribución normal de media (µ) y desviación estándar (σ)

}  a) }  El 68% de las observaciones se encuentran entre µ

± 1σ }  El 95% de las observaciones se encuentran entre µ

± 2σ }  El 99% de las observaciones se encuentran entre µ

± 3σ b) El histograma de los datos es simétrico

Distribución normal

c) La media de medias es muy cercana la de la población (no se sabe, se asume)

A este valor se le conoce como error estándar _σ_ √N d) el error estándar de la media será menor cuanto mayor es el

tamaño de la muestra o el número de muestras Ej. si se tiene una σ de 1.71 en una muestra Al tener 10 muestras es de 0.54 porque 1.71 √10 Al tener 100 muestras es 0.17 porque 1.71 √100

Distribución de la población

Distribución de medias

Medidas estandarizadas para 95%

Estandarización A partir de distribución normal, hay una tabla de distribución normal

con resultados estandarizados

nivel de confianza

área de la cola valor estandarizado (z)

90% .05 1.64 95% .025 1.96 99% .005 2.57

}  Para conocer donde se encuentra la media verdadera (µ), se usa la siguiente fórmula

}  Para 95% de confianza 1.96 (_σ_) √N

}  Ejemplo, dada una media de 3.45 ms. y una desv. estándar de 0.84 ms., con un N=100 vocales

3.45 ± 1.96 ( .84) √100 }  De modo que la media verdadera se ubica entre 3.45 ±

0.1646

}  NOTA: Al aumentar la probabilidad los límites son también más amplios (menos explicativos)

}  Al incrementar el tamaño de la muestra disminuye el error estándar

Prueba de estandarización (score z) }  La puntuación z es la desviación entre cualquier valor de

la muestra y la media de la muestra. Se expresa como un múltiplo de la desviación estándar.

}  X= cualquier valor de la variable }  _ }  X= la media }  S= la desviación estándar

}  se pueden hacer una serie de cálculos con las tablas de estandarización

}  Por ejemplo, proporción (%) de la población en que se esperaría ocurra cierto evento, a partir de una muestra.

}  ¿Qué proporción de la población de vocales se espera que esté por debajo de los 3 ms. en un conjunto de datos con una media de 3.45 y una desv. est. de 0.84

}  Z = 3-3.45 = -0.54 }  0.84 }  Se interpreta como que el valor de 3 ms. se encuentra a

0.54 desv. estándar por debajo de la media. }  Se busca en la tabla de valores para z o distribución

normal, 0.54 es igual a 0.2946, entonces 29.46%, es decir, que ese porcentaje de la población se ubica desde el valor menor hasta 3 ms.

}  ¿Qué proporción de la población de vocales se espera que esté por arriba de los 4 ms.?

}  Z = 4-3.45 = 0.66 }  0.84 }  Se interpreta como que el valor de 4 ms., se

encuentra a 0.66 desv. estándar por arriba de la media.

}  Se busca en la tabla de valores para z o distribución normal, 0.66 es igual a 0.2546, entonces 25.46%, es decir, que ese porcentaje de la población se ubica desde el valor mayor y hasta 4 ms.

}  ¿en qué proporción de casos la duración de una vocal será de entre 3 y 4 ms.?

}  Es igual a 100 - 29.46 – 25.46 = 45.08 %

Fórmula para variables nominales En una muestra de 500 lenguas, 150 son SVO ¿es posible que ocurra así para la población? ¿Con qué nivel de

confianza? En este caso se calcula el error estándar con la siguiente fórmula √p (1-p) N √.30 (1-.30) 500 √.30 (.70) = 0.02 o 2% 500 Entonces con una confianza de 95% Proporción de la muestra ± (1.96 x error estándar) .30 ± (1.96 x 0.02) .30 ± 0.04 = 0.26 a 0.34 Con 95% de confianza se dice que la proporción de lenguas SVO es

de entre 26 y 34%

Referencias bibliográficas:

}  Todas las figuras fueron tomadas de Butler 1985, Woods, Fletcher y Hughes 1986 y Llisterri 1991.