Download - Stata

Transcript
  • Coordinacion Matematicas y estadsticasInferencia estadsticaProfesor: Omar Ramos

    1. Manejo fundamental de Stata

    Las ciencias economicas, sociales y aplicadas se han vinculado desde hace varias decadasa las ciencias puras para poder por medio de los metodos cuantitativos verificar los hechossociales, el uso de la estadstica, la matematica y la fsica cada da van en incremento; perode igual forma estos metodos han necesitado de diferentes recursos para su aplicacion, es enbusca de suplir estas necesidades que Stata Corp se ha comprometido da a da en apoyar aldesarrollo de la teora con la practica haciendo uso del total de recursos disponibles. Se aclaraque Stata no es un software libre ni gratuito, para poder acceder a el es necesario adquirir unplan de licenciamiento, para mayor informacion ingresar a www.stata.com. Una de las ventajasdel software es la posibilidad de trabajo por ambiente GUI (interactivo) y/o por ambiente decomandos con una programacion bastante potente, incluyendo un lenguaje de programacionpara matrices conocido como MATA.

    Al tratarse de un programa en ambiente Windows, su interface es similar a la de todos losprogramas bajo este ambiente.

    1.1. Conociendo el entorno de Stata

    Una vez que se hace clic en el icono de Stata en el menu de inicio, se despliegan los siguientescuadros de trabajo. Estas ventanas constituyen el cuerpo basico Stata para llevar a cabo unanalisis de datos, teniendo una interface bastante amigable.

    Figura 1: Ventana de Stata

    1

  • 1. Ventana de Variables: Muestra el listado de variables de la base de datos activa.

    2. Ventana de Comandos: En este cuadro se escriben y almacenan las lneas de comandos,si se desea recuperar un comando previo puede utilizar las teclas RePag o AvPag ypodra autocompletar el nombre de la variable utilizando la tecla TAB.

    3. Ventana de Resultados: Permite visualizar la sintaxis, y los resultados de los procedimien-tos ejecutados por el usuario. Aqu encontrara el logo de Stata, indicando la version y eltipo de licencia y el numero maximo de variables a importar. Una de las caractersticasde esta ventana es que por medio de colores el programa informa si un comando ha sidocorrectamente ejecutado, si aparece en color negro no hubo problema en la realizacion,rojo indicar error y el azul es un hipervnculo al menu de ayuda.

    4. Ventana de Revision: Bitacora que permite llevar un completo registro de todos los proced-imientos ejecutados durante una sesion de Stata ya sea que se ejecutaron por el ambienteGUI, por la ventana de comandos o por un editor .do. Una de las propiedades de laventana Review es que si se desea repetir un comando simplemente debe hacer doble clicsobre el comando deseado y Stata lo ejecutara de nuevo.

    5. Ventana de Propiedades: Presenta la informacion de cada variable, como nombre, tipo devariable, formato, las notas de la base de datos (puede usar el comando notes para verlasen la ventana de resultados), entre otras caractersticas.

    1.2. Barras

    Figura 2: Menu de Stata

    1. Barra de Nombre: Indica la version de Stata disponible, el nombre y la ruta de la basede datos activa.

    2. Barra de Menus: Es el conjunto de las diferentes herramientas que tiene Stata las cualesle permiten al usuario cargar, transformar, modificar, analizar, graficar y solicitar infor-macion y ayuda del programa.

    3. Barra de Herramientas: Es el conjunto de conos de acceso rapido a herramientas fun-damentales como son abrir, salvar, creacion de un archivo Log, un archivo .do, abrir eleditor, el visor y el administrador de variables.

    2

  • 1.3. Menu de ayuda

    Stata ha incorporado a partir de la version 11 un conjunto de nuevas opciones en el menu deayuda para facilitarle al usuario la mejor forma de entender como funciona el programa. Unade las novedades principales es que se ha agregado la opcion de tener disponibles los manualesde Stata en formato PDF. Para acceder a los manuales de ayuda debe seguir la ruta Help PDF DocumentationEl menu de ayuda de Stata le permite:

    Ver el ndice de contenidos del programa

    Buscar informacion sobre algun tema, la rutina que permite ejecutarla en Stata, o el sitiodesde donde es posible descargar la macro para alimentar el programa.

    Obtener ayuda sobre algun comando de Stata.

    Listar y descargar las ultimas actualizaciones del programa.

    Instalar programas de Stata escritas por otros usuarios, desde el Stata Journal o delboletn tecnico Stata Technical Bulletin.

    Acceder a lugares de interes en el sitio Web de Stata.

    rapidamente puede familiarizar al usuario con el manejo de Stata. Alternativamente al sis-tema de ventanas, el usuario puede digitar en el cuadro de comandos help seguido del comandodel cual desea informacion. Por ejemplo al digitar en el cuadro de comandos: help describeemerge la siguiente ventana

    Figura 3: Ayuda de Stata

    La ayuda de Stata ofrece informacion sobre:

    3

  • La sintaxis completa y abreviada de letra(s) subrayadas) de cada comando,

    Descripcion del comando,

    Opciones adicionales para ejecutar el comando,

    Ejemplos sobre como usar el comando,

    Ejemplos sobre como usar el comando,

    El manual impreso de Stata en el que puede consultar los detalles sobre el comando.

    Con frecuencia, el usuario desconoce el nombre del comando especfico que realiza algunprocedimiento en Stata. En estos casos es conveniente realizar una busqueda tematica pormedio del comando search. A traves de este comando Stata realiza una busqueda en lnea en:

    Los ejemplos oficiales de Stata disponibles en su sitio web,

    El sitio de preguntas frecuentes Frequently Asked Questions de Stata,

    Ejemplos en lnea compilados por la universidad de UCLA,

    Las referencias bibliograficas en Stata Journal y Stata Technical Bulletin.

    Por ejemplo busquemos el comando summarize, el cual nos permite obtener una tabla re-sumen descriptivo de una variable

    search summarize

    4

  • Se desplegara la siguiente tabla

    Figura 4: Ayuda de Stata

    1.3.1. Tipos de archivos

    Antes de iniciar una sesion de trabajo es importante tener en cuenta que Stata opera atraves de diferentes tipos de archivos.

    Figura 5: Tipos de archivo

    Aunque en este curso ocuparemos Stata de forma regular, el objetivo principal es aprendersobre inferencia estadstica. Por lo tanto simplificaremos los ejercicios en Stata de modo queno tengan que hacer mucha administracion de los datos. En general trabajaremos con basesde datos con las variables ya creadas y sin datos perdidos. Sin embargo, esta es una buena

    5

  • oportunidad para desarrollar destrezas en el uso de Stata que vayan mas alla de lo estrictamentenecesario para realizar inferencias estadsticas. A lo largo de la carrera seguiran ocupando estesoftware y muchos de ustedes lo seguiran ocupando durante su carrera.

    Stata es un programa basado en comandos, mediante los cuales el usuario le dice lo que quierehacer. La estructura tpica de los comandos esta compuesta de cuatro elementos: comando,nombre, condiciones y opciones. Para saber que decirle a Stata, necesitamos responder cuatropreguntas que corresponden a los cuatro elementos mencionados:

    Comando: Que quiero hacer?

    Nombres: Cuales son los nombres de las variables o archivos que quiero ocupar?

    Condiciones: Que observaciones deseas ocupar?

    Opciones: Tienes otros requisitos respecto a este programa?

    Muchas veces es mas facil especificar con palabras normales lo que quiero hacer y luegointentar pedrselo a Stata. Para los usuarios avanzados, una de las ventajas de Stata es quepermite a los usuarios crear sus propios comandos. Cada comando se debe ingresar en una lneaseparada, salvo que se este trabajando en un archivo .do y se utilice /// al final de la lnea paraindicar que el comando sigue en la lnea siguiente.

    1.3.2. Abrir una base de datos

    Las bases de datos de Stata finalizan con la extension .dta, cuando se tiene un base tipoStata para abrirla puede utilizar la ruta File Open o mediante el teclado CTRL+ O y se-leccionar el archivo o por el icono abrir de la barra de herramientas, por medio de comandospodra usar la instruccion use

    use C:\Users\Omar\Desktop\ipc raw.dta, clear

    Dado que la instruccion solo importa bases de datos de formato Stata no se requiere ingresarla extension .dta.

    1.4. ANALISIS ESTADISTICOS CON STATA

    Stata tiene una amplia posibilidad de realizar los procedimientos generalmente es posibleencontrar varios comandos en diferentes menus. Por ejemplo para poder obtener las estadsti-cas descriptivas de una variable es posible usando inicialmente los comandos o por medio deventanas de ejecucion. .

    Para el analisis estadistico el menu Statistics permite obtener gran cantidad de opcionespara poder desarrollar los temas del manual. Por ejemplo en Statistics Summary, tables, andtest Summary and descriptive statistics:

    6

  • Figura 6: Analisis estadstico

    Finalmente en StatisticsSummarize, tables and test, se pueden realizar varias operacionescomo son calculo del intervalo de confianza, test para medias, varianzas, dos muestras, etc.,pruebas parametricas y no parametrica.

    Ejemplo 1.1. Lo que haremos aqu es abrir un extracto de la base de datos CASEN 2011 ypedirle que resuma la variable edad. Deben descargar la Base de Datos Inferencia Estadsti-cade la seccion Inferencia Estadsticadel siguiente enlace: http: /www.estebancalvo.comesdifusion recursos.Luego guarden la base de datos en el disco C o en un pendrive (traer pendrive para las proximasclases).

    .use C:\casen2011 ie.dta, clearA continuacion ocuparemos el comando summarize, que nos permite obtener una tabla

    resumen descriptivo de una variable, en este caso edad. La tabla que obtenemos muestra elnumero de observaciones que tiene la base de datos utilizada (4853), la media de la variableedad (43.7 anos) y la respectiva desviacion estandar (18.8). Tambien muestra el valor mnimoy maximo de edad entre las observaciones (0 y 100).Ingresar el comando:sum edad

    7

  • Ejemplo 1.2. Con las distribuciones que revisamos podemos replicar problemas de la vida real.Por ejemplo, supongamos que estamos administrando un call center y queremos saber cuantaspersonas atiende un trabajador en una hora. Si el unico dato que tenemos es que en promedioatiende a 10 personas, podramos simular, usando la funcion de distribucion, a cuantas per-sonas atiende en cada hora. As tenemos valores que podran perfectamente ser reales, como semuestra a continuacion:

    8

  • Por lo tanto, puede que en una hora atienda a 4 personas (fila 27) o 15 (fila 6). Pero siendo10 personas el promedio de atencion, podemos decir que atender a 4 personas tiene la mismaprobabilidad que atender a 15? La respuesta es no. Recordemos que estas probabilidades estanmodeladas por la distribucion Poisson ya que estamos hablando de un evento (atender a unapersona) que se repite en un ciclo igual (una hora). Veamos sus probabilidades:

    Aqu observamos que la probabilidad de que en una hora se atienda solamente a 4 personases muy baja (1.89mientras que la probabilidad de que atienda a 15 personas es un poco mas alta(3.47promedio, vemos que la probabilidad de que atienda a 10 personas es de 12distribucionesde probabilidad nos puede ayudar a anticipar escenario mas probable. En este caso, que es masprobable que suceda? Atenderan entre 9 a 12 personas por hora o mas de 16? Es mucho menosriesgoso apostar por la primera. Saber esto nos puede permitir tomar decisiones informadas, porejemplo, estimar cuantas personas tendremos que contratar para un optimo funcionamiento.

    Descripcion de los comandos utilizados

    : Nos sirve para indicar cuantas observaciones queremos crear. # es reem-plazado por dicho numero.

    : Cuando trabajamos con simulaciones y creamos numeros aleatorios, es im-portante siempre fijar un punto de partida (una semilla) para que as cuando los alumnosrepliquen el ejercicio en casa puedan tener los mismos resultados. Una semilla esta definidapor un numero, el cual se reemplaza en lugar del #.

    : El comando gen es una abreviacion para generate, el cual generanuevas variables. El nombre de la variable sera el que se reemplace en newvar y la formaque tendra la variable es lo que va en exp.

    9

  • : Genera numeros aleatorios que puedan describirse con una Poisson conpromedio #.

    : Abreviacion de browser. Muestra la base de datos.

    : Entrega la probabilidad de un numero k, si la distribucion es Poissoncon media m.

    Ejemplo 1.3. Usando el programa estadstico podemos tomar muestras aleatorias de manerasbien simples, utilizando algunos comandos. Vamos a partir utilizando una de las bases de datosque nos proporciona el programa, esta es la base de autos que hemos visto anteriormente.

    . use auto(1978 Automobile Data)Luego generamos una variable, denominada random, con numeros seudo-aleatorios con dis-tribucion uniforme entre 0 y 1. Despues se ordena de menor a mayor la variable, esto ordena atodas las observaciones dependientes de la variable creada anteriormente llamada random. Parafinalizar se genera otra variable con la caracterstica que asigna valor 1 a la primera mitad dela base y el valor 2 a la segunda. A su vez podemos darnos cuenta de que el tamano maestrales de 34 observaciones cada uno, siendo mayores a 30.

    . generate random= runiform(). sort random. generate group = ceil(2 * n/ N)Seleccione data editor para que aparezca siguiente imagen

    El numero de observaciones de la base es de 74 automoviles, y podemos darnos cuenta deque se dividieron en dos muestras de igual tamano. Para la siguiente parte veremos como lamedia poblacional se puede acercar mucho a la media de las medias muestrales. En este casotomaremos la media de los precios de ambas muestras generadas.

    10

  • Ingrese comando sum price if group==1

    Luego comando sum price if group==2

    Podemos ver que la media de ambas muestras difiere en mas 600 dolares, y que las desvia-ciones estandar tambien difieren. Y si recordamos, x = la media de las medias muestraleses igual a la media poblacional. Comprobemoslo.

    Ingrese el comando sum priceLa media poblacional es de 6165,257 dolares, y si obtenemos la media de la media de ambas

    muestras, podemos darnos cuenta de que son iguales.

    Ingreso ahora display (6469.054+5861.459)/2

    El comando display sirve para hacer operaciones matematicas simple en STATA.

    11


Top Related