introducción al análisis estadístico de data

Post on 09-Jul-2015

3.238 Views

Category:

Education

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Introducción al Análisis de Data Estadística

Probabilidad y Estadística

Definiciones de Terminología Estadística

Definiciones de Terminología Estadística

Definiciones de Terminología Estadística

• Clasificando Variables– Población

• Es el grupo entero que se está estudiando.

– Unidad• Cada miembro de la población.

– Variables• Características de las cuales se recoge información.

• Tipos de variables– Categóricas (Cualitativas)

– Numéricas (Cuantitativas)

Definiciones de Terminología Estadística

Definiciones de Terminología Estadística

• Las variables también se pueden clasificar como:

– Discreta

– Continua

Definiciones de Terminología Estadística

• Población vs. Muestra

– Muestra

• Grupo representativo de la población

– Parámetro

• Valor real de la variable de una población

– Estadístico (a)

• Estimado de un parámetro basado en la muestra

Definiciones de Terminología Estadística

• Errores en Muestreo

– “Sampling error”

• La diferencia potencial entre el parámetro verdadero y la estadística obtenida al utilizar la muestra.

– “Bias”

• Cuando se favorece, voluntaria o involuntariamente, algún resultado en particular.

Definiciones de Terminología Estadística

Definiciones de Terminología Estadística

Definiciones de Terminología Estadística

Una Visión General de Data

• Niveles de Medida

– Nominal

– Ordinal

– Intervalo

– Ratio (Razón)

Una Visión General de Data

• Medida Nominal– Este es el tipo de medidas en el cual los valores de

las variables son nombres y no del todo numéricos.

• Medida Ordinal– Este tipo de medida envuelve recolectar

información en el cual el orden es en alguna forma significativo

– En la medida ordinal, la distancia entre dos valores consecutivos no tiene significado.

Una Visión General de Data

• Medida de Intervalo

– En este tipo de medida, además de dar un orden como en la medida ordinal, le da significado a la distancia entre dos valores cualesquiera.

• Medida de Ratio (Razón)

– Este tipo de medida incluye los conceptos de orden e intervalo, como en la medida de intervalo, pero añade la idea de “la nada” o cero absoluto.

Una Visión General de Data

• Ejemplo: Supongamos que la escuela quiere recolectar información (data) sobre todos los estudiantes en la escuela.– Nominal: Podemos recolectar información sobre el

genero de los estudiantes, pueblo en el que viven, raza u opiniones políticas.

– Ordinal: Podemos recolectar data sobre el grado en que se encuentran los estudiantes.

– Intervalo: Podemos recolectar data de los resultados de College Board en la parte de matemáticas.

– Ratio: Data sobre la edad, peso y altura de los estudiantes.

Una Visión General de Data

Una Visión General de Data

• Estudios Observacionales

– En un estudio observacional, el investigador observa la población de interés y anota los resultados sin hacer intento alguno de controlar los resultados.

– Un estudio observacional de periodo largo en el cual el grupo de sujetos es observado por largos periodos de tiempo es llamado un estudio longitudinal.

Una Visión General de Data

• Experimentos

– En un experimento, el investigador impone un tratamiento en un grupo de sujetos en un esfuerzo por determinar una relación “causa y efecto” entre las variables.

– En este método el investigador necesitará asegurarse que cualquier otra cosa que pueda influenciar la variable a ser investigada sea controlada.

Una Visión General de Data

• Medidas de Centro y Esparcimiento

– Si queremos utilizar un número o valor para resumir la data, podemos mirar hacia donde la data está centrada.

• Las variables que son medidas a nivel nominal pueden ser resumidas fácilmente identificando el valor más común (moda)

• Las variables que son medidas a nivel de ratio se pueden resumir utilizando el promedio (media) o el número del medio (mediana)

Una Visión General de Data

• Medidas de Centro y Esparcimiento

– Otro elemento importante del conjunto de data es como esta esparcida.

– Otras medidas que nos brindan información sobre el esparcimiento los son:

• Rango intercuartil

• Desviación estándar

Una Visión General de Data

Una Visión General de Data

Una Visión General de Data

Medidas de Tendencia Central

• Moda– La moda se define como el número que más

frecuentemente aparece en un conjunto de data.

– La moda es más útil en situaciones que envuelven data categórica (cualitativa) que es medida al nivel nominal.

– Ejemplo• Se le preguntó a los estudiantes en la clase de estadística que

dijeran cuantos niñ@s viven en sus casa. La data es la siguiente:1, 3, 4, 3, 1, 2, 2, 2, 1, 2, 2, 3, 4, 5, 1, 2, 3, 2, 1, 2, 3, 6

– Dos asuntos con la moda• Bimodal

• “No hay moda”

Medidas de Tendencia Central

• Media

– Media es el nombre que los estadísticos le dan a lo que comúnmente conocemos como promedio.

– La media es “el punto de balance” numérico del conjunto de datos.

Medidas de Tendencia Central

Medidas de Tendencia Central

• Ejemplo con bloques.

• Ejemplo con calculadora.

Medidas de Tendencia Central

• Mediana

– La mediana es el número que está en medio de un conjunto de data.

– Ejemplos:

• 80, 94, 75, 90, 96

• 91, 83, 97, 89

Medidas de Tendencia Central

• “Outliers” y Resistencia

– “Outliers” o valores atípicos son valores extremos, ya sean muy grandes o pequeños.

– La media es afectada por la presencia de un “outlier”, pero la mediana no.

– Una estadística que no es afectada por los “outliers” es llamada resistente.

Medidas de Tendencia Central

• Media de la Población vs. Media de la Muestra

1 2

Media de la Muestra

nx x xx

n

1 2

Media de la Población

NX X X

N

En general, los estadísticos dicen que , la media de una porción

de la población es un estimado de , la media de la población,

la cual es usualmente desconocida.

x

Medidas de Tendencia Central

• Otras medidas de Tendencia Central– Midrange

• Es la media de los valores máximos y mínimos del conjunto de data

– Trimmed Mean• Es la media de los datos removiendo los valores

máximo y el mínimo.

– n% Trimmed Mead• Es la media cuando se remueve un porciento específico

de los datos, la mitad a cada lado.

Medidas de Tendencia Central

• Encuentra el midrange y el trimmed mean de los siguientes datos:

94, 80,75, 96, 90

• Encuentra el 20% trimmed mean de los siguientes datos:

1, 3, 4, 3, 1, 2, 2, 2, 1, 2, 2, 3, 4, 5, 1, 2, 3, 2, 1, 2, 3, 6

Medidas de Tendencia Central

• Weighted Mean (Media Ponderada)

– Este es un método de calcular la media cuando algunos de los datos se cuentan frecuentemente.

– Se multiplica la frecuencia de cada dato por el valor del dato se suman y se divide entre la cantidad de datos.

• Determina la media para los siguientes datos utilizando weighted mean.

1, 3, 4, 3, 1, 2, 2, 2, 1, 2, 2, 3, 4, 5, 1, 2, 3, 2, 1, 2, 3, 6

Medidas de Tendencia Central

• Percentiles y Cuartiles– Un percentil es un estadístico, que identifica el

porciento de la data que es menor que el valor dado.• La mediana es el percentil 50.

• Dos percentiles usados comúnmente son el percentil 25 y el 75 y se le refiere a estos como cuartil inferior (Q1) y cuartil superior (Q3).

– Encuentra Q1, Q2 y Q3 para los siguientes datos:

73, 75, 80, 84, 90, 92, 93, 94, 96

Medidas de Tendencia Central

• Medianas y Cuartiles en la Calculadora Gráfica

Datos Frecuencia

1 5

2 8

3 5

4 2

5 1

6 1

Medidas de Tendencia Central

Medidas de Tendencia Central

• Para esta data, calcula lo siguiente:

a) Moda

b) Mediana

c) Media

d) 10% trimmed mean

e) Midrange

f) Q1 y Q3

Medidas de Esparcimiento

• Rango– Es la diferencia entre el valor mínimo y el valor máximo.

• Rango Intercuartil (IQR)– Es la diferencia entre los cuartiles.

Medidas de Esparcimiento

Determina el rango y el IQR de la data.

Medidas de Esparcimiento

• Desviación Estándar

– La desviación estándar es una medida de esparcimiento que se basa en la media, esta nos da información sobre cuan lejos están los datos de la media.

– La diferencia entre el valor actual y la media es llamada desviación.

Desviación x x

Medidas de Esparcimiento

• Ejemplo;

– Seleccionamos al azar a tres personas y le preguntamos su tamaño de zapato.

9½, 11½ y 12

– La media es 11.

La suma de las desviaciones siempre va a dar a cero.

Medidas de Esparcimiento

Dato observado Desviaciones

9.5 -1.5 2.25

11.5 0.5 0.25

12 1 1

2x x

Suma de las desviaciones cuadradas = 3.5

Este resultado se divide entre n – 1; lo que nos da lo que se conoce como la varianza.

3.51.75

2

Por último le tomamos la raíz cuadrada a la varianza y obtenemos la desviación estándar.

1.75 1.32

Medidas de Esparcimiento

• Desviación Estándar

2

1

1

n

i

i

x x

sn

Medidas de Esparcimiento

• Para la información provista:

a) Calcula la media.

b) Completa la tabla.

c) Calcula la varianza y la desviación estándar.

top related