estadística_descriptiva

36
Estadística: introducción

Upload: martha-chavez

Post on 17-Jan-2016

214 views

Category:

Documents


0 download

DESCRIPTION

material de estadistica

TRANSCRIPT

Page 1: Estadística_descriptiva

Estadística: introducción

Page 2: Estadística_descriptiva

¿Estadística para qué? } Manera de organizar los datos para que tengan

sentidofile://localhost/Users/leonororozco/Documents/CURSOS/ESTADÍSTICA 2015/Greenberg 1963.docx

} Argumento cuantitativo para sustentar nuestras hipótesis file://localhost/Users/leonororozco/Documents/CURSOS/ESTADÍSTICA 2015/Relación entre la posición del adjetivo y lectura específica y genérica.docx

Page 3: Estadística_descriptiva

Población

}  Conjunto de datos, de diversa naturaleza } Estudiantes } Adverbios en -mente } Construcciones para marcar futuro

Page 4: Estadística_descriptiva

Estadística descriptiva }  Describe cómo se comportan los datos de una muestra,

por ej. cuántos casos de futuro perifrástico/ morfológico se documentan en un conjunto de entrevistas, cuántas veces se encontró el orden Adj+N y cuántas N+ adj

}  No es posible hacer generalizaciones más allá de la muestra

file://localhost/Users/leonororozco/Documents/CURSOS/ESTADÍSTICA 2015/porcentajes datos historia de las peras.docx

Page 5: Estadística_descriptiva

Qué es una variable

}  Atributo de una persona o de un objeto que varía de una persona a otra o de un objeto a otro

}  Niveles o variantes: }  debe haber al menos dos }  Ej. posibles realizaciones de /s/ en coda en español

}  ‘costa’ }  [kósta] }  [kóhta]

}  [kóta]

Page 6: Estadística_descriptiva

Tipos de variables según las escalas de medición VARIABLES CATEGÓRICAS (o discretas) (se analizan con pruebas no paramétricas) }  Variables nominales

}  Presencia/ausencia (+/-) }  Los niveles (variantes) no están jerarquizados }  Pueden clasificarse en más de dos niveles, por ej.

}  Consonantes resonantes vs. obstruyentes }  Consonantes oclusivas, fricativas, africadas, nasales, etc…

}  Variables ordinales }  Están jerarquizadas }  La distancia entre puntos NO tiene un valor equivalente }  Por ej. respuestas a prueba de actitudes lingüísticas

(completamente de acuerdo, moderadamente de acuerdo, ni de acuerdo ni en desacuerdo…)

Page 7: Estadística_descriptiva

Variables continuas ) (se analizan con pruebas paramétricas) }  Intervalo

}  Están jerarquizadas }  La distancia entre puntos tiene un valor equivalente }  No hay un cero absoluto (p. ej. temperatura).

}  Razón o relación }  Están jerarquizadas }  Sí hay un cero absoluto (significa ausencia de la característica

analizada) }  La distancia entre puntos tiene un valor equivalente ej. milisegundos,

hertz, decibeles…

}  NOTA: intervalo y razón o relación suelen agruparse (ambas son continuas); en SPSS se les llama variables de escala.

Page 8: Estadística_descriptiva

VARIABLE: bilingüismo organizada en diferentes escalas

} Variable nominal }  bilingüe/ no bilingüe

} Variable ordinal }  Poco bilingüe }  Muy bilingüe }  Completamente bilingüe

} Variable de intervalo }  Nivel de bilingüismo medido a través de una prueba

Page 9: Estadística_descriptiva

Tipos de variables } Dependiente }  Es el fenómeno que se analiza, la variación se

explicará por medio de otras variables

}  Independientes o explicativas }  Aquellas que el investigador asume que inciden en

la variación del fenómeno analizado

} Variables ocultas }  Son aquellas que el investigador no incluye en el

análisis pero que pueden influir en los resultados

Page 10: Estadística_descriptiva

Cómo organizar datos }  Frecuencia “absoluta” (F)

}  indica el número de ocurrencias de un evento en un conjunto de datos. La suma total de las ocurrencias de todos los eventos es N

}  Frecuencia relativa o proporción }  Si el total de datos conforma una unidad, entonces la frecuencia

relativa es una fracción de esa unidad _f_ N

}  La suma de todas las frecuencias relativas debe ser igual a 1

}  Porcentajes }  Igual que la frecuencia relativa pero la unidad de medida es igual a

100

Page 11: Estadística_descriptiva

Medidas de tendencia central

}  Sirven para describir un grupo al hacer afirmaciones del tipo “el promedio”, “lo típico”, “lo más común”.

}  Media (aritmética) : es el promedio de los datos.

}  Mediana: Se organizan los datos del menor al mayor, es el valor que se encuentra en medio de los datos.

}  Moda: es el valor que se repite más veces.

Page 12: Estadística_descriptiva

Desviación estándar

Muestra el promedio de variabilidad de todas las puntuaciones a partir de la media

Page 13: Estadística_descriptiva
Page 14: Estadística_descriptiva

Ejemplo de datos en excel }  file://localhost/Users/leonororozco/Documents/CURSOS/

ESTADÍSTICA 2015/varianza y desviación.xlsx

Page 15: Estadística_descriptiva

Organizar un conjuntos de datos }  Se agrupan en intervalos de clase }  Para hacer intervalos se calcula el rango de los datos }  Rango = máximo – mínimo }  Se grafican en un histograma

Page 16: Estadística_descriptiva

}  Se pidió a un grupo de hablantes afroamericanos que leyeran una lista de 250 items léxicos que contenían la terminación -ing (i.e. surfing, running).

}  La siguiente lista presenta la frecuencia en que la nasal se realizó como alveolar [n], se omiten los casos en que la nasal se realizó como velar [ŋ]

Page 17: Estadística_descriptiva

Resultados 108 mujeresintervalos de clase Frecuencia Frecuencia

relativaFrecuencia acumulativa

Frecuencia relativa acumulativa

110-124 2 0.02 2 0.02125-139 2 0.02 4 0.04140-154 11 0.10 15 0.14155-169 12 0.11 27 0.25170-184 19 0.18 46 0.43185-199 23 0.21 69 0.64200-214 17 0.16 86 0.80215-229 15 0.14 101 0.94230-244 6 0.06 107 0.99245-250 1 0.01 108 1.00

Page 18: Estadística_descriptiva

0

5

10

15

20

25

110-124 125-139 140-154 155-169 170-184 185-199 200-214 215-229 230-244 245-259

Histograma

Page 19: Estadística_descriptiva

Distribución normal (la media y la mediana tiene el mismo valor)

Page 20: Estadística_descriptiva

Sesgos en la distribución

Page 21: Estadística_descriptiva

Sesgo positivo

}  Cuando el sesgo es negativo, la media suele ser más alta que la mediana

Page 22: Estadística_descriptiva

Curtosis

Page 23: Estadística_descriptiva

Distribución normal

}  En una distribución normal de media (µ) y desviación estándar (σ)

}  a) }  El 68% de las observaciones se encuentran entre µ

± 1σ }  El 95% de las observaciones se encuentran entre µ

± 2σ }  El 99% de las observaciones se encuentran entre µ

± 3σ b) El histograma de los datos es simétrico

Page 24: Estadística_descriptiva

Distribución normal

Page 25: Estadística_descriptiva

c) La media de medias es muy cercana la de la población (no se sabe, se asume)

A este valor se le conoce como error estándar _σ_    √N d) el error estándar de la media será menor cuanto mayor es el

tamaño de la muestra o el número de muestras Ej. si se tiene una σ de 1.71 en una muestra Al tener 10 muestras es de 0.54 porque 1.71 √10 Al tener 100 muestras es 0.17 porque 1.71 √100

Page 26: Estadística_descriptiva

Distribución de la población

Page 27: Estadística_descriptiva

Distribución de medias

Page 28: Estadística_descriptiva

Medidas estandarizadas para 95%

Page 29: Estadística_descriptiva

Estandarización A partir de distribución normal, hay una tabla de distribución normal

con resultados estandarizados

 

nivel de confianza

área de la cola valor estandarizado (z)

90% .05 1.64 95% .025 1.96 99% .005 2.57

Page 30: Estadística_descriptiva
Page 31: Estadística_descriptiva

}  Para conocer donde se encuentra la media verdadera (µ), se usa la siguiente fórmula

}  Para 95% de confianza 1.96 (_σ_) √N

}  Ejemplo, dada una media de 3.45 ms. y una desv. estándar de 0.84 ms., con un N=100 vocales

3.45 ± 1.96 ( .84) √100 }  De modo que la media verdadera se ubica entre 3.45 ±

0.1646

}  NOTA: Al aumentar la probabilidad los límites son también más amplios (menos explicativos)

}  Al incrementar el tamaño de la muestra disminuye el error estándar

Page 32: Estadística_descriptiva

Prueba de estandarización (score z) }  La puntuación z es la desviación entre cualquier valor de

la muestra y la media de la muestra. Se expresa como un múltiplo de la desviación estándar.

}  X= cualquier valor de la variable }  _ }  X= la media }  S= la desviación estándar

Page 33: Estadística_descriptiva

}  se pueden hacer una serie de cálculos con las tablas de estandarización

}  Por ejemplo, proporción (%) de la población en que se esperaría ocurra cierto evento, a partir de una muestra.

}  ¿Qué proporción de la población de vocales se espera que esté por debajo de los 3 ms. en un conjunto de datos con una media de 3.45 y una desv. est. de 0.84

}  Z = 3-3.45 = -0.54 }  0.84 }  Se interpreta como que el valor de 3 ms. se encuentra a

0.54 desv. estándar por debajo de la media. }  Se busca en la tabla de valores para z o distribución

normal, 0.54 es igual a 0.2946, entonces 29.46%, es decir, que ese porcentaje de la población se ubica desde el valor menor hasta 3 ms.

Page 34: Estadística_descriptiva

}  ¿Qué proporción de la población de vocales se espera que esté por arriba de los 4 ms.?

}  Z = 4-3.45 = 0.66 }  0.84 }  Se interpreta como que el valor de 4 ms., se

encuentra a 0.66 desv. estándar por arriba de la media.

}  Se busca en la tabla de valores para z o distribución normal, 0.66 es igual a 0.2546, entonces 25.46%, es decir, que ese porcentaje de la población se ubica desde el valor mayor y hasta 4 ms.

}  ¿en qué proporción de casos la duración de una vocal será de entre 3 y 4 ms.?

}  Es igual a 100 - 29.46 – 25.46 = 45.08 %

Page 35: Estadística_descriptiva

Fórmula para variables nominales En una muestra de 500 lenguas, 150 son SVO ¿es posible que ocurra así para la población? ¿Con qué nivel de

confianza? En este caso se calcula el error estándar con la siguiente fórmula √p (1-p) N √.30 (1-.30) 500 √.30 (.70) = 0.02 o 2% 500 Entonces con una confianza de 95% Proporción de la muestra ± (1.96 x error estándar) .30 ± (1.96 x 0.02) .30 ± 0.04 = 0.26 a 0.34 Con 95% de confianza se dice que la proporción de lenguas SVO es

de entre 26 y 34%

Page 36: Estadística_descriptiva

Referencias bibliográficas:

}  Todas las figuras fueron tomadas de Butler 1985, Woods, Fletcher y Hughes 1986 y Llisterri 1991.