carlosatienzagomez.files.wordpress.com  · web view2020. 5. 6. · la estadística descriptiva es...

11
INFORME ESTADÍSTICA DESCRIPTIVA (SEMINARIOS 5 Y 6) INTRODUCCIÓN En el presente informe, el cuál corresponde a los seminarios 5 y 6 de la asignatura de Estadística y TIC, vamos a responder a una serie de cuestiones relacionadas con la estadística descriptiva propuestas por el profesorado de la asignatura. La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de datos con el propósito de facilitar el uso generalmente con el apoyo de tablas, medidas numéricas o gráficas. Además, calcula parámetros estadísticos como las medidas de centralización y de dispersión que describen el conjunto estudiado. Para poder responder a las cuestiones correctamente, en primer lugar, debemos ver los vídeos correspondientes al seminario 5, en los cuáles se explica cómo instalar el software R y R Commander, esenciales y necesarios para la realización de las actividades propuestas, además de como utilizar dicho software y como realizar análisis estadísticos. En el material disponible para este seminario encontramos varios archivos los cuáles deberíamos descargar para su posterior utilización en el seminario 6. Seguidamente, deberíamos ver los vídeos explicativos del seminario 6, dónde se nos explican detenidamente, otras funciones que también se hay que utilizar para realizar el informe. Las cuestiones a responder para la realización del informe son las siguientes: 1.-Seleccione dos variables numéricas (no elegir “altura”) del fichero “activossalud.RData”. Observe los valores de los cuartiles y junto con el valor de la media y desviación típica. - Comente brevemente cómo se comporta la variable a partir de los datos - ¿Es simétrica o asimétrica la distribución de valores de las variables escogidas?

Upload: others

Post on 18-Aug-2021

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: carlosatienzagomez.files.wordpress.com  · Web view2020. 5. 6. · La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de

INFORME ESTADÍSTICA DESCRIPTIVA (SEMINARIOS 5 Y 6)

INTRODUCCIÓN

En el presente informe, el cuál corresponde a los seminarios 5 y 6 de la asignatura de Estadística y TIC, vamos a responder a una serie de cuestiones relacionadas con la estadística descriptiva propuestas por el profesorado de la asignatura.

La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de datos con el propósito de facilitar el uso generalmente con el apoyo de tablas, medidas numéricas o gráficas. Además, calcula parámetros estadísticos como las medidas de centralización y de dispersión que describen el conjunto estudiado.

Para poder responder a las cuestiones correctamente, en primer lugar, debemos ver los vídeos correspondientes al seminario 5, en los cuáles se explica cómo instalar el software R y R Commander, esenciales y necesarios para la realización de las actividades propuestas, además de como utilizar dicho software y como realizar análisis estadísticos. En el material disponible para este seminario encontramos varios archivos los cuáles deberíamos descargar para su posterior utilización en el seminario 6.

Seguidamente, deberíamos ver los vídeos explicativos del seminario 6, dónde se nos explican detenidamente, otras funciones que también se hay que utilizar para realizar el informe.

Las cuestiones a responder para la realización del informe son las siguientes:

1.-Seleccione dos variables numéricas (no elegir “altura”) del fichero “activossalud.RData”. Observe los valores de los cuartiles y junto con el valor de la media y desviación típica.

- Comente brevemente cómo se comporta la variable a partir de los datos

- ¿Es simétrica o asimétrica la distribución de valores de las variables escogidas?

- ¿Cuál de las dos variables tiene mayor dispersión?

2.- Filtre a los sujetos que no poseen una madre sanitaria y (además) poseen una altura mayor a 1.6 m. Posteriormente realice dos gráficas apropiadas para las variables elegidas en apartado 1 y coméntelas.

3.- Agrupe las variables numéricas elegidas en apartado 1 en 4 intervalos de acuerdo con los cuartiles y a los que puede llamar intervaloq1, intervaloq2, intervaloq3 e intervaloq4. Es decir, intervalo “intervaloq1” los que tengan valores menores o iguales al cuartil 1, intervalo “intervaloq2” los que tengan valores entre cuartil uno y dos, y así sucesivamente. Llame a esta nueva variable igual que a la original añadiendo el prefijo “cuali”, por ejemplo: “cuali_tallapantalon” si la variable original era “tallapantalon”

4.- Realice un descriptivo de frecuencias y porcentaje de la nueva variable y elija dos gráficas apropiadas para representarlas interpretando lo que en ellas observa. ¿Cuál es la prevalencia de sujetos ubicados en el 50% central de la variable?

Page 2: carlosatienzagomez.files.wordpress.com  · Web view2020. 5. 6. · La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de

CUESTIONES

1.-Seleccione dos variables numéricas (no elegir “altura”) del fichero “activossalud.RData”. Observe los valores de los cuartiles y junto con el valor de la media y desviación típica.

- Comente brevemente cómo se comporta la variable a partir de los datos

- ¿Es simétrica o asimétrica la distribución de valores de las variables escogidas?

- ¿Cuál de las dos variables tiene mayor dispersión?

Las dos variables cuantitativas o numéricas seleccionadas son “peso” y “medicalización”.

Cómo podemos observar en la siguiente imagen, en la variable “peso” tenemos una media de 62,75 y una mediana de 60. Estos datos nos sirven para interpretar que la variable no es simétrica (para que una variable sea simétrica deben coincidir su media y su mediana), si no que es ligeramente asimétrica hacia la derecha.

En la imagen siguiente, que corresponde a la variable “medicalización”, vemos que tenemos una media de 43,45 y una mediana de 44. Tomando estos datos como referencia, observamos que, aunque la media y la media están cercanas a coincidir, no llegan a hacerlo, por lo que la variable no es simétrica y es ligeramente asimétrica hacia la izquierda. Aun así, la asimetría es mínima.

Para poder decir cuál de las dos variables tiene mayor dispersión, nos tenemos que fijar en la desviación típica, representada en las capturas de pantalla adjuntas como “sd”. En la variable “peso” nos encontramos con una desviación típica de 12,65 mientras que en la variable “medicalización” tenemos una desviación típica de 9,57. Concluimos entonces que la variable “peso” tiene una mayor dispersión.

Page 3: carlosatienzagomez.files.wordpress.com  · Web view2020. 5. 6. · La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de

2.- Filtre a los sujetos que no poseen una madre sanitaria y (además) poseen una altura mayor a 1.6 m. Posteriormente realice dos gráficas apropiadas para las variables elegidas en apartado 1 y coméntelas.

En primer lugar, utilizamos las variables “madresanitaria” y “altura” para realizar una selección de los sujetos que no poseen una madre sanitaria y que además poseen una altura mayor a 1,6 metros. Para ellos debemos utilizar las opciones de filtrar de R Commander. El proceso a seguir es:

1) Hacemos clic en “Datos” (Barra de herramientas superior).

2) En la primera ventana que se nos abre seleccionamos “Conjunto de datos activo”.

3) En la siguiente ventana seleccionamos “Filtrar el conjunto de datos activo”

4) En la ventana que se nos abre, quitamos el tick en “Incluir todas las variables”, seleccionamos las variables “altura” y “madresanitaria” (clicando con la tecla Ctrl pulsada) y en Expresión de selección escribimos: madresanitaria==”No” & altura>=”1.60”. Clicamos en aceptar y nos aparece que el conjunto de datos filtrado tiene 193 filas y 2 columnas.

Page 4: carlosatienzagomez.files.wordpress.com  · Web view2020. 5. 6. · La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de

A continuación, debemos realizar dos gráficas para las variables escogidas en la cuestión 1, en este caso serían las variables “peso” y “medicalización”. A continuación, se adjuntan las 2 gráficas correspondientes a las variables de peso e identificación. En cada variable hemos realizado una gráfica en forma de histograma.

En cuanto al histograma realizado para la variable “peso”, observamos la distribución de las frecuencias es asimétrica hacia la derecha. También podemos observar que el pico o la moda se encuentra entre 50 y 60. Como se puede observar la gráfica presenta continuidad y tiene 3 picos de mínimo. Observamos también que la mayoría de los valores se encuentran entre 50 y 80. Por último, observamos como la mediana y la media no coinciden por poco, como ya vimos en los datos numéricos del apartado anterior, y que la gráfica presenta dispersión. El máximo coincide con la moda.

Haciendo referencia al histograma de la variable “medicalización”. Observamos que la mediana coincide prácticamente con la media, y además también con la moda, lo que indica que la gráfica a simple vista es simétrica, aunque como vimos en el apartado anterior, es ligeramente asimétrica hacia la izquierda. Presenta una ligera dispersión y no presenta continuidad. El mínimo se encuentra en el 7, y el máximo en el 10.

Histograma de la variable “peso” Histograma de la variable “medicalización”

Page 5: carlosatienzagomez.files.wordpress.com  · Web view2020. 5. 6. · La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de

3.- Agrupe las variables numéricas elegidas en apartado 1 en 4 intervalos de acuerdo con los cuartiles y a los que puede llamar intervaloq1, intervaloq2, intervaloq3 e intervaloq4. Es decir, intervalo “intervaloq1” los que tengan valores menores o iguales al cuartil 1, intervalo “intervaloq2” los que tengan valores entre cuartil uno y dos, y así sucesivamente. Llame a esta nueva variable igual que a la original añadiendo el prefijo “cuali”, por ejemplo: “cuali_tallapantalon” si la variable original era “tallapantalon”

Para poder agrupar las variables en intervalos, de acuerdo con los cuartiles, debemos primero recoger los datos de las dos variables:

Una vez conocemos los valores de los cuatro cuartiles, debemos recodificar la variable. Para ello:

1) Hacemos clic en “Datos” (Barra de herramientas superior).

2) En la primera ventana que se nos abre seleccionamos “Modificar variables del conjunto de datos activo”.

3) En la siguiente ventana seleccionamos “Recodificar variables…”

4) Seleccionamos la variable deseada en nuestro caso “peso”

5) Para agruparlas en 4 intervalos correspondientes a los valores de los cuartiles, como se nos pide, debemos utilizar las expresiones “lo” (valor mas bajo), “hi” (valor más alto) y “:” (hasta). En la ventana para introducir las directrices de recodificación, escribimos lo que aparece en la captura, para así agrupar los datos en 4 intervalos.

Para la variable “medicalización”, el proceso para agruparla en 4 intervalos en función del valor de los cuartiles es similar, con la diferencia de que a la hora de introducir las directrices de recodificación tenemos que utilizar los valores correspondientes a esta variable:

Page 6: carlosatienzagomez.files.wordpress.com  · Web view2020. 5. 6. · La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de

4.- Realice un descriptivo de frecuencias y porcentaje de la nueva variable y elija dos gráficas apropiadas para representarlas interpretando lo que en ellas observa. ¿Cuál es la prevalencia de sujetos ubicados en el 50% central de la variable?

Para la realización de un descriptivo de frecuencias y porcentajes utilizaremos las nuevas variables cualitativas creadas en el ejercicio anterior. Estas dos variables son variables cualitativas, por lo que, a diferencia de las cuantitativas, nos sirven para realizar el descriptivo de frecuencias y porcentajes. Primero realizaremos un análisis de la variable “cuali_peso”, mediante sus datos, un diagrama de sectores y un diagrama de barras.

CUALI_PESO

Una vez realizadas las gráficas y con los datos numéricos de las variables, podemos observar que los sujetos se encuentran distribuidos de manera casi semejante en los 4 intervalos. En los intervalos q1 y q2 se encuentran el mismo número de sujetos (72), en el intervalo q3 encontramos que hay 65 sujetos, y por último en el intervalo q4 hay 66 sujetos. En cuanto a los porcentajes, es obvio que son proporcionales a las frecuencias ya citadas, es decir, hay un 26,18% de los sujetos tanto en el intervalo q1 como en el intervalo q2, mientras que en el intervalo q3 hay un 23,64% y en el intervalo q4 un 24%. En las gráficas observamos la equidad y homogeneidad de los datos.

Page 7: carlosatienzagomez.files.wordpress.com  · Web view2020. 5. 6. · La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de

Nota: en este diagrama de barras no pude cambiar los colores debido a que me daba un error inesperado con el comando que aparece en los vídeos explicativos.

50%50%

CUALI_MEDICALIZACIÓN

En esta variable podemos observar que en el intervalo q1 hay 85 sujetos y en el q2 hay 84, lo que no supone una gran diferencia. Donde vemos una gran diferencia es en el intervalo q3 y q4 con respecto al q1 y el q2, habiendo en el intervalo q3 un total de 54 sujetos y en el q4 28 sujetos. Si trasladamos esta descripción de frecuencias a porcentajes, observamos que hay un 33,86% de la población en el intervalo q1, un 33,47% en el q2, un 21,51% en el q3 y un 11,16% en el q4. En los diagramas tanto de barras como de sectores observamos la disparidad de los intervalos q1 y q2 con los intervalos q3 y q4, así como otro gran “salto” entre el q3 y el q4.

Para calcular la prevalencia de los sujetos ubicados en el 50% central de la variable, debemos primero calcular cuantos sujetos o casos hay en los cuartiles 2 y 3, los cuales forman el 50% central de nuestra población y después lo dividiremos entre el número de casos posible o total. Para ello utilizamos R Commander como ya lo hemos hecho anteriormente, para obtener una distribución de las frecuencias en los distintos cuartiles de las dos variables.

CUALI_PESO CUALI_MEDICALIZACION

Page 8: carlosatienzagomez.files.wordpress.com  · Web view2020. 5. 6. · La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de

Por tanto, para la variable “cuali_peso”:

Nº casos cuartil 2: 84

Nº casos cuartil 3: 54

Nº casos favorables: 138

Nº casos totales: 251

Casos favorables / Casos posibles = 138/251=0,55

Esto nos dice que la probabilidad de que un sujeto aleatorio se encuentre en el 50% central es de 0,49, es decir, hay una probabilidad del 49%.

Para la variable “cuali_medicalizacion”:

Nº casos cuartil 2: 72

Nº casos cuartil 3: 65

Nº casos favorables: 137

Nº casos totales: 275

Casos favorables / Casos posibles = 137/275=0,49.

Esto nos dice que la probabilidad de que un sujeto aleatorio se encuentre en el 50% central es de 0,55, es decir, hay una probabilidad del 55%.