manual stata 12
TRANSCRIPT
-
7/22/2019 Manual Stata 12
1/161
SOFTWARE SHOP
MANEJO DE BASES DE DATOS Y ANLISIS
ECONOMTRICO CON Stata 12
CONFERENCISTA:
BRAYAN RICARDO ROJAS ORMAZA*
* Economista, Certificado en Administracin del Riesgo, realizando curso de Posgrado en Gestin de
Riesgos Financieros, actualmente se desempea como Director Tcnico Cuantitativo de Software Shop paraLatinoamrica y es profesor de la Universidad del Rosario y de la Universidad Piloto, ha trabajado en el reade Investigaciones del Banco de la Repblica de Colombia, y como asistente de investigacin en laUniversidad Nacional, tiene publicaciones en modelos economtricos y en software aplicado.
Como instructor a nivel internacional ha dictado cursos y conferencias de Stata, EViews y Risk Simulator enentidades estatales, instituciones financieras y universidades en pases como Chile, Venezuela, Colombia,Ecuador, Mxico, entre muchos otros.
Contacto a:[email protected].
mailto:[email protected]:[email protected]:[email protected]:[email protected] -
7/22/2019 Manual Stata 12
2/161
Este documento es una introduccin al manejo del Software Stata 12. Est dirigido a profesionalesde todas las reas del conocimiento que requieran manejar Stata. Trata de abarcar diversos temasdel manejo del software, adems de diferentes temas aplicados de estadstica y econometra.
El texto est acompaado de bases de datos y est totalmente basado en ejemplos a lo largo del
texto para ayudar al aprendizaje. Est basado en otros textos introductorios, en material online y encursos previos dictados en diversas universidades. Es recomendable tener conocimiento previo deestadstica para entender mejor el material.
Este documento es propiedad de su autor y tiene fines acadmicos. Toda reproduccin total oparcial est prohibida.
INTRODUCCIN
Hoy en da es comn encontrar diferentes aplicaciones computacionales capaces de realizar sin fin
de procedimientos en milsimas de segundo, desde hace varios aos el computador ha sido unaherramienta muy til para las diferentes reas del conocimiento y las ciencias econmicas no hansido la excepcin, los grandes avances tericos han llevado a necesitar cada vez ms de lasaplicaciones computacionales para poder pasar de la teora a la prctica.
Las ciencias econmicas, sociales y aplicadas se han vinculado desde hace varias dcadas a lasciencias puras para poder por medio de los mtodos cuantitativos verificar los hechos sociales, eluso de la estadstica, la matemtica y la fsica cada da van en incremento; pero de igual forma stosmtodos han necesitado de diferentes recursos para su aplicacin, es en busca de suplir estasnecesidades que Stata se ha comprometido da a da en apoyar al desarrollo de la teora con laprctica haciendo uso del total de recursos disponibles.
Se aclara que Stata no es un software libre ni gratuito, para poder acceder a l es necesario adquirirun plan de licenciamiento, para mayor informacin ingresar awww.stata.com.Una de las ventajasdel software es la posibilidad de trabajo por ambiente GUI (interactivo) y/o por ambiente decomandos con una programacin bastante potente, incluyendo un lenguaje de programacin paramatrices conocido como MATA.
Este material es dirigido a todo tipo de usuario, para el estudiante que se est involucrando almundo de la estadstica y econometra, el docente que utiliza la herramienta para impartir sus clasesusando para ello un software de alto nivel como es Stata y para profesionales e investigadores queda a da requieren una herramienta que les sirva para apoyar sus labores y sus tesis.
El documento se ha dividido en 8 captulos, en los primeros tres podr encontrar informacin sobre
la introduccin manejo y manipulacin de datos as como la presentacin de resultados por mediode grficas y tablas; en el captulo 4 encontrar el tema de regresin, captulo 5 modelos deregresin para variable discreta, captulo 6 modelos de series de tiempo ARIMA, captulo 7modelos de datos de panel y los ltimos dos captulos es introduccin a la programacin y algunostrucos y recomendaciones.
DESCRIPCIN DEL LIBRO
Este manual es de carcter acadmico y representa una gua para los usuarios de Stata.
http://www.stata.com/http://www.stata.com/http://www.stata.com/http://www.stata.com/ -
7/22/2019 Manual Stata 12
3/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
3
El manual contiene #### pginas, las cuales describe los principales usos para un usuario dediferente nivel y estudios. Para el mejor entendimiento del manual se describe el siguiente cuadro:
DESCRIPCIN CARACTERSTICA
Comando Tipo de Letra cursiva, fuente Times NewRoman, tamao de letra 11
Notas o recomendaciones Resaltado en un cuadro de textoRutas de acceso por medio de los mens Se describe el nombre del Men seguido por el
smbolo Mensajes de Error Color de Fuente Rojo
TABLA DE CONTENIDO
1. MANEJO FUNDAMENTAL DE Stata 12 ....................................................... 5
1.1 CONOCIENDO EL ENTORNO DE Stata ......................................................................... 61.2 EL MEN DE AYUDA ..................................................................................................... 71.3 TIPOS DE ARCHIVOS .................................................................................................... 121.4 ESTRUCTURA DE COMANDOS .................................................................................. 121.5 VENTANAS DE COMANDOS ....................................................................................... 121.6 CONFIGURANDO LA MEMORIA DE Stata ................................................................. 131.7 CAMBIANDO EL DIRECTORIO DE TRABAJO DE Stata ........................................... 141.8 BASES DE DATOS DE EJEMPLO ................................................................................. 141.9 TIPOS DE VARIABLES .................................................................................................. 14
2. MANEJO DE BASES DE DATOS ................................................................ 16
2.2 SALVANDO UNA BASE DE DATOS ........................................................................... 222.3 DESCRIPCIN DE LA BASE DE DATOS .................................................................... 222.4 CONSERVAR Y RECARGAR BASES DE DATOS ...................................................... 302.5 FILTROS DE LA BASE DE DATOS .............................................................................. 302.6 ADMINISTRADOR DE VARIABLES ............................................................................ 312.7 CREACIN DE CATEGORAS ...................................................................................... 322.10 CAMBIO EN LA ORGANIZACIN DE LOS DATOS ................................................. 382.11 PROBLEMAS EN EL MANEJO DE BASES DE DATOS ............................................. 432.12 ANLISIS DE DUPLICADOS ........................................................................................ 452.13 CREACIN DE PROGRAMASEDITOR DE TEXTO ............................................... 49
3 ANLISIS ESTADSTICO CON Stata ......................................................... 503.1 ESTADSTICAS DESCRIPTIVAS .................................................................................. 513.2 PONDERADORESWEIGHT- ...................................................................................... 523.3 CALCULO DE MEDIAS ................................................................................................. 533.4 INTERVALOS DE CONFIANZA ................................................................................... 533.5 PRUEBAS DE HIPTESIS ............................................................................................. 543.6 MANEJO DE Tablas DE DATOS .................................................................................... 543.7 PRUEBAS PARAMTRICAS ......................................................................................... 56
-
7/22/2019 Manual Stata 12
4/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
4
3.8 PRUEBAS NO PARAMTRICAS .................................................................................. 564 GRFICAS CON Stata ................................................................................... 58
4.1 HISTOGRAMAS .............................................................................................................. 594.2 GRFICO DE TORTAS .................................................................................................. 61
4.3 GRFICO DE CAJAS ...................................................................................................... 664.4 GRAFICAS TWOWAY ................................................................................................... 674.5 EDITOR DE GRFICOS DE Stata .................................................................................. 684.6 GRAFICA DE SERIES DE TIEMPO .............................................................................. 724.7 SCATTER GRAPH .......................................................................................................... 744.8 GRAFICA DE PUNTOS .................................................................................................. 754.9 GRAFICOS DE BARRAS ................................................................................................ 764.10 OPCIONES Y EJEMPLOS ............................................................................................... 794.11 COMBINANDO GRFICAS .......................................................................................... 864.12 OTRAS GRFICAS ......................................................................................................... 865 REGRESIN LINEAL EN Stata .................................................................... 95
6 MODELOS ARIMA ..................................................................................... 1077 MODELOS DE VARIABLE DEPENDIENTE DICOTMICA MODELOSLOGIT Y PROBIT .................................................................................................. 116
8 MODELOS DE DATOS PANEL O LONGITUDINALES ......................... 123
8.1 ANLISIS DE DATOS PANEL .................................................................................... 123VENTAJAS DE ESTIMACIN POR PANEL .............................................................................. 1248.2 ANLISIS DE DATOS PANEL DE DOS PERODOS ................................................ 1258.3 ANLISIS DE POLTICAS POR MEDIO DE DATOS PANEL .................................. 1278.4 ANLISIS DE MS DE DOS PERODOS ................................................................... 1288.5 EFECTOS FIJOS ............................................................................................................ 131
8.6 EFECTOS ALEATORIOS ............................................................................................. 1328.7 ANLISIS DE DATOS PANEL EN Stata ..................................................................... 1328.8 ESTRUCTURA DE BASES DE DATOS PANEL ........................................................ 1338.9 REGRESIN AGRUPADA ........................................................................................... 1348.10 EFECTOS ALEATORIOS ............................................................................................. 1358.11 EFECTOS FIJOS ............................................................................................................ 1368.12 EFECTOS ALEATORIOS vs. FIJOS ............................................................................. 1378.13 AUTOCORRELACIN Y HETEROSCEDASTICIDAD ............................................. 1398.14 CORRECCIN DE HETEROCEDASTICIDAD Y AUTOCORRELACIN .............. 1418.15 MODELOS DINMICOS CON DATOS PANEL ........................................................ 1419 INTRODUCCIN A LA PROGRAMACIN ............................................. 143
9.1 LOCAL MACROS.......................................................................................................... 1439.2 CREANDO CICLOS ...................................................................................................... 1439.3 ESCALARES Y MATRICES ......................................................................................... 14410 TRUCOS CON Stata ..................................................................................... 148
11 BIBLIOGRAFIA ........................................................................................... 161
-
7/22/2019 Manual Stata 12
5/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
5
1. { TC "MANEJO FUNDAMENTAL DE STATA 11" }MANEJOFUNDAMENTAL DE Stata 12{TC "MANEJO FUNDAMENTAL DE
STATA 11" }
Stataes un programa estadstico para investigadores de diferentes disciplinas, como bioestadsticosinvestigadores sociales y econmicos. Los diferentes tipos de anlisis integrados a Stata estndocumentados y soportados tericamente por numerosos documentos, publicaciones y revistas. Losmanuales de Stata renen en 19 volmenes con ejemplos estadsticos, explicaciones tericas,mtodos, frmulas y documentos de referencia. Al tratarse de un programa en ambiente Windows,su interface es similar a la de todos los programas bajo este ambiente.
Stata est disponible en 4 tipos de versin.
Small Stata Versin estudiantil de StataIntercooled Stata Versin estndar de StataStata/SE Versin especial de Stata para manejo de
bases de datos grandes.Stata/MP Versin especial de Stata diseada para
trabajar en equipos con ms de unprocesador o ncleo (2 a 32 procesadores)
Tabla 1. Tipos de versin Stata
A continuacin se presentan las principales diferencias entre las versiones Intercooled y SE deStata2:
Small Stata/IC Stata/MP and Stata/SE
Nmero de observaciones 1,200 2,147,483,647 2,147,483,647
2Para conocer todas las diferencias entre las versiones de Stata, dirigirse a la ayuda por medio del comandohelp limits
-
7/22/2019 Manual Stata 12
6/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
6
Nmero de Variables 99 2,047 32,767Tabla 2. Diferencia entre versiones
1.1CONOCIENDO EL ENTORNO DE StataUna vez que se hace clic en el icono de Stata en el men de inicio, se despliegan los siguientescuadros de trabajo. Estas ventanas constituyen el cuerpo bsico Stata para llevar a cabo un anlisisde datos, teniendo una interface bastante amigable.
Figura 1. Ventanas de Stata
Ventana de Variables: Muestra el listado de variables de la base de datos activa.
Ventana de Comandos: En este cuadro se escriben y almacenan las lneas de comandos, sise desea recuperar un comando previo puede utilizar las teclasRePg o AvPg y podr autocompletar el nombre de la variableutilizando la tecla TAB.
Ventana de Resultados: Permite visualizar la sintaxis, y los resultados de los procedimientosejecutados por el usuario. Aqu encontrar el logo de Stata,indicando la versin y el tipo de licencia y el nmero mximo devariables a importar. Una de las caractersticas de sta ventana esque por medio de colores el programa informa si un comando hasido correctamente ejecutado, si aparece en color negro no hubo
VENTANA DE RESULTADOS
VENTANA DE COMANDOS
VENTANA
DE
REVISIN
VENTANA DEVARIABLES
VENTANA DEPROPIEDADESDE VARIABLES
-
7/22/2019 Manual Stata 12
7/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
7
problema en la realizacin, rojo indicar error y el azul es unhipervnculo al men de ayuda.
Ventana de Revisin: Bitcora que Permite llevar un completo registro de todos losprocedimientos ejecutados durante una sesin de Stata ya sea que se
ejecutaron por el ambiente GUI, por la ventana de comandos o porun editor .do. Una de las propiedades de la ventana Review es quesi se desea repetir un comando simplemente debe hacer doble clicsobre el comando deseado y Stata lo ejecutar de nuevo.
Ventana de Propiedades: Presenta la informacin de cada variable, como nombre, tipo devariable, formato, las notas de la base de datos (puede usar elcomando notespara verlas en la ventana de resultados), entre otrascaractersticas.
BARRAS
Figura 2. Mens de Stata
Barra de Nombre: Indica la versin de Stata disponible, el nombre y la ruta de la basede datos activa.
Barra de Mens: Es el conjunto de las diferentes herramientas que tiene Stata lascuales le permiten al usuario cargar, transformar, modificar,analizar, graficar y solicitar informacin y ayuda del programa.
Barra de Herramientas: Es el conjunto de conos de acceso rpido a herramientasfundamentales como son abrir, salvar, creacin de un archivo Log,un archivo .do, abrir el editor, el visor y el administrador devariables.
1.2EL MEN DE AYUDAStata ha incorporado en la versin 11 un conjunto de nuevas opciones en el men de ayuda parafacilitarle al usuario la mejor forma de entender cmo funciona el programa. Una de las novedadesprincipales es que se ha agregado la opcin de tener disponibles los manuales de Stata en formatoPDF.
Para acceder a los manuales de ayuda debe seguir la rutaHelp PDF Documentation
Barra de Nombre
Barra de Mens
Barra de Herramientas
-
7/22/2019 Manual Stata 12
8/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
8
El men de ayuda de Stata le permite:
- Ver el ndice de contenidos del programa- Buscar informacin sobre algn tema, la rutina que permite ejecutarla en Stata, o el sitio desde
donde es posible descargar la macro para alimentar el programa.- Obtener ayuda sobre algn comando de Stata- Listar y descargar las ltimas actualizaciones del programa.- Instalar programas de Stata escritas por otros usuarios, desde el Stata Journal o del boletn
tcnico Stata Technical Bulletin.
- Acceder a lugares de inters en el sitio Web de Stata.
El sistema de ayuda para los comandos de Stata es una de las herramientas que ms rpidamentepuede familiarizar al usuario con el manejo de Stata. Alternativamente al sistema de ventanas, elusuario puede digitar en el cuadro de comandos help seguido del comando del cual deseainformacin.
Por ejemplo al digitar en el cuadro de comandos: help describeemerge la siguiente ventana
-
7/22/2019 Manual Stata 12
9/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
9
Figura 3. La Ayuda de Stata
La ayuda de Stata ofrece informacin sobre:
- La sintaxis completa y abreviada de letra(s) subrayadas) de cada comando,- Descripcin del comando,- Opciones adicionales para ejecutar el comando,- Ejemplos sobre cmo usar el comando,- Hipervnculos a otros comandos relacionados y/o similares y,- El manual impreso de Stata en el que puede consultar los detalles sobre el comando.
-
7/22/2019 Manual Stata 12
10/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
10
Con frecuencia, el usuario desconoce el nombre del comando especfico que realiza algnprocedimiento en Stata. En estos casos es conveniente realizar una bsqueda temtica por medio delcomandosearch. A travs de este comando Stata realiza una bsqueda en lnea en:
- Los ejemplos oficiales de Stata disponibles en su sitio web,- El sitio de preguntas frecuentes Frequently Asked Questions de Stata,- Ejemplos en lnea compilados por la universidad de UCLA,- Las referencias bibliogrficas en Stata Journal y Stata Technical Bulletin.
Por ejemplo, supongamos que queremos calcular en Stata el coeficiente de concentracin gini(procedimiento muy conocido en economa y estadstica), pero no sabemos si Stata realiza esteclculo y, adems, si es posible hacerlo, no conocemos el comando para ejecutarlo. En estos casosel comandosearchresulta de gran ayuda. Por ejemplo al escribir en el cuadro de comandos
search gini
adoupdate, update
Se despliega el siguiente cuadro de ayuda:
-
7/22/2019 Manual Stata 12
11/161
-
7/22/2019 Manual Stata 12
12/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
12
1.3TIPOS DE ARCHIVOSAntes de iniciar una sesin de trabajo es importante tener en cuenta que Stata opera a travs dediferentes tipos de archivos.
Tipo de Archivo ExtensinArchivos de datos *.dtaArchivos grficos *.gphBitcoras de salida *.smclArchivos de comandos *.doArchivos de programacin *.ado
Tabla 3. Tipos de Archivos
1.4ESTRUCTURA DE COMANDOS[by varlist:] Command[varlist] [=exp] [if exp] [in range] [weight] [using filename] [,options]
Por ejemplo:
Se debe tener en cuenta que Stata distingue entre letras maysculas y minsculas. Todos loscomandos del programa se deben escribir en letras minsculas. De lo contrario el programa no lo
reconoce. Los parntesis cuadrados indican que no es un carcter obligatorio dependiendo elcomando especfico.
Es posible usar con Stata prefijos para algunos comandos, por ejemplo, el comando regress quepermite realizar el procedimiento de regresin se puede ejecutar digitando solamente los tresprimeros caracteres, es decir al tener regejecuta la misma funcin que al escribir regress.
Para conocer mayor informacin sobre la estructura de los comandos de Stata, busque informacinas: help syntax
1.5VENTANAS DE COMANDOS
Es comn encontrar en las ventanas emergentes de Stata el nombre del comando que permiterealizar la instruccin que se le ordenar al programa para que realice, por ejemplo, al seguir la ruta
FileImport ASCII data created by a Spreedsheet
-
7/22/2019 Manual Stata 12
13/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
13
En este caso es el comando insheet. A continuacin se explican algunas caractersticas generales delas ventanas emergentes de Stata para la realizacin de procedimientos, este manual no presentarlas ventanas en las cuales se ejecutan las instrucciones sino los comandos y las opcionescorrespondientes.
Figura 5. Caractersticas de una ventana
1.6CONFIGURANDO LA MEMORIA DE StataStata funciona exclusivamente desde la memoria RAM. El programa nicamente interacta con eldisco duro del computador cuando se hacen salvados de bases de datos, grficos, archivos log, oarchivos de comandos. En la versin 12 Stata configura automticamente el tamao de la memoria
para poder trabajar con bases de datos muy grandes.
Para versiones inferiores a la 12 las versiones SE y MP del programa trabajan con 10 megas dememoria RAM. Sin embargo, cuando se trabaja con bases de datos muy grandes, es posibleconfigurar la cantidad de memoria RAM disponible para una sesin de trabajo a travs del comandoset memory.3Por ejemplo, para trabajar con 100 megas de memoria RAM la sintaxis es4:
3Si desea conocer qu versin tiene de Stata y la configuracin de la memoria y la licencia del programaescriba el comando abouty creturn list.
Comando
Descripcin del comando
Copiarcomo
comando
Ejecutar No Ejecutar
Ejecutar ymantener la
ventanaactiva
Ayuda dela
instruccin
Limpiar laventana
-
7/22/2019 Manual Stata 12
14/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
14
set mem 100m
Es muy importante que antes de empezar una sesin de trabajo el usuario configure la cantidad dememoria RAM que necesita de lo contrario emerger el siguiente error:
no room to add more observations
r (901);
1.7CAMBIANDO EL DIRECTORIO DE TRABAJO DE StataLa sintaxis para cargar y salvar datos puede ser muy extensa dependiendo de la ruta de acceso a lasbases de datos o el lugar en el disco duro donde se quieran almacenar los resultados. Una formaprctica de abreviar la sintaxis en ambos casos consiste en indicarle a Stata, antes de comenzar lasesin de trabajo, el lugar en el disco duro de donde se desean tomar los datos y donde se quierenalmacenar los resultados. Este procedimiento se lleva a cabo a travs del comando cd as:
cd "C:\...."
La otra opcin es por medio del Men FileChange Working Directory
Entre comillas se debe encontrar la direccin o ruta de la carpeta donde se encuentran las bases dedatos que sern empleadas en la sesin de trabajo de Stata.
1.8BASES DE DATOS DE EJEMPLOEn el momento en que Stata se instala en su equipo se incluyen bases de datos de ejemplolas cuales le permitirn trabajar con el software, tenga en cuenta estos archivos dado que la
ayuda en muchas ocasiones se referencia a las bases de datos del software, para acceder aellas siga la rutaFile Example Datasets Example datasets installed with Statao paraacceder a todas las bases de datos seleccione Stata 12 manual datasets pero debe teneracceso a internet.
El comando asociado es
sysuse dir * para ver el directorio de bases de ejemplo en su equiposysuse auto.dta * cargar la base auto.dta que es una base de ejemplo de Stata
1.9TIPOS DE VARIABLESUna de las preguntas comunes en el manejo de un software estadstico es cmo el programaclasifica o categoriza las variables, es decir que formato es posible asignarle a una variable, paraello es necesario primero que el usuario tenga claro el tipo de variable.
4Se recomienda revisar la ayuda sobre el comandosety el comando memory
-
7/22/2019 Manual Stata 12
15/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
15
Las variables las podemos dividir de acuerdo al siguiente esquema
Stata es case sensitive, es decir, distingue entre maysculas y minsculas, de forma que lasvariables var1 es diferente a Var1.
Para Stata se manejan los datos cuantitativos por diferentes tipos de variables los cuales sediferencian por el rango de los datos o por el tamao en el nmero de caracteres disponibles acontinuacin se presenta una tabla que describa los tipos de datos.
TIPO DE VARIABLERANGO
FORMATOMNIMO MXIMO
Byte -127 100 %8.0g
Int -32,767 32,740 %8.0gLong -2,147,483,647 2,147,483,620 %12.0g
Float -1.70141E+38 1.70141173319*10^38 %9.0g
Doubl -8.9885E+307 8.9884656743*10^307 %10.0g
Precisin para FLOAT 3.795x10^-8.
Precisin para DOBLE1.414x10^-16.Tabla 4. Tipos de Variable
El nmero que aparece despus del smbolo % es el nmero mximo de dgitos enteros o ancho quesoporta el formato y el nmero a la derecha ndica el nmero de decimales, posteriormente seencuentra una letra. Donde [f] es aproximacin al entero ms cercano, [e] indica notacin cientfica
y [g] indica decimales.
Stata por defecto selecciona el formato FLOAT, el otro tipo de variables son las variablesalfanumricas, estas variables en las que se encuentran principalmente las variables cualitativas,Stata define un formato especial para ellas, y es el formato STRING, %str# es la visualizacin deeste formato, en el cual el carcter # indica el largo de la cadena.
VARIABLE
CUANTITATIVA
Continua Discreta
CUALITATIVA
-
7/22/2019 Manual Stata 12
16/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
16
FORMATO DE LAS VARIABLES: El formato de las variables hace referencias a la forma comoson almacenadas y desplegadas las variables en STATA. Para cambiar el formato de una de unavariable a travs del lenguaje de sintaxis debe tener en cuenta que el formato de toda variablesiempre antecedido por el smbolo %.
Variables de cadena
Variable numrica
Si desea cambiar el formato de una variable utilice el comando recast.
sysuse auto
describe Pricerecast float price
Para mayor informacin: help data_types y help recast
2. { TC "MANEJO FUNDAMENTAL DE STATA 11" }MANEJO DEBASES DE DATOS
Antes de realizar usted un anlisis de la informacin ya sea de tipo descriptivo, inferencial, debecontar con la informacin lo mejor posible para poder realizar los correspondientes anlisis, por elloen ste captulo podr ver como realizas manejo de bases de datos financieras y econmicas.
Una de las ventajas de Stata es su fortaleza en el manejo de bases de datos, principalmente porquepermite al usuario manejar gran cantidad de variables y de observaciones, adems, es posiblerealizar manipulacin y transformaciones como es crear, eliminar, modificar, concatenar y demsfunciones a variables, de igual forma permite agregar variables y observaciones a una base de datoscon otras bases.
Entre opciones avanzadas se encuentran la proteccin de bases de datos, la creacin de firmas yrestricciones a usuarios. Stata permite a los usuarios manejar bases de datos de formatos como son
% 20 s Variable StringInicio de un formato nmero de caracteres
Formato general g, Notacin cientfica e,formato fijo f
% 10. 0 g c opcional, separados demiles por comas
Inicio de un formatoDgitos antes del punto decimal
Dgitos despus del punto decimal
-
7/22/2019 Manual Stata 12
17/161
-
7/22/2019 Manual Stata 12
18/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
18
Recuerde que las bases de datos de Stata finalizan con la extensin .dta, cuando se tiene unbase tipo Stata para abrirla puede utilizar la ruta File Open y seleccionar el archivo o porel cono abrir de la barra de herramientas, por medio de comandos podr usar la instruccinuse
use "C:\Users\Brayan\Desktop\ipc_raw.dta", clear
Recuerde la seccin 1.7 en donde se indica como activar un directorio de trabajo para notener que referenciar la ruta o path en donde se encuentra el archivo; si ya tiene undirectorio activo la instruccin es:
use ipc_raw, clear
Dado que la instruccin solo importa bases de datos de formato Stata no se requiereingresar la extensin .dta.
Finalmente con el comando usepodr seleccionar solamente las variables que desea usandola opcin usingimportar por ejemplo
use fecha ipc inflacin usingipc_ra, clear
2.1.1 Importar una base de datos .CSV o TXTUno de los formatos ms comunes en el manejo de informacin estadstica es el formatoSeparado por Comas (CSV), para importar una base de dato se sigue la ruta:
FileImport ASCII data created by a Spreedsheet
Como se mencion anteriormente en la parte superior de cada ventana aparece el nombre delcomando correspondiente, si el usuario desea llamar una ventana puede hacerlo desde la ventana decomandos por medio de db nombre_comando.
En este caso el comando insheettiene la siguiente estructurainsheet [variables] using ruta , opciones
Por ejemplo:
insheet using "C:\Users\USER\Documents\Software Shop\Stata\Taller docentes\Docentes_01.csv",delimiter(":") clear
En el caso que el usuario no requiera importar la totalidad de la base de datos debe especificardespus del comando insheetel nombre de las variables; entre las opciones encontramos el tipo deformato que separa los datos, como son tabulaciones (tab), comas (comma) o especificado por elusuario (delimiter(x)).
-
7/22/2019 Manual Stata 12
19/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
19
La funcin anterior es similar para archivos con extensin .TXT.
2.1.2 Importar una base de datos .XLS o .XLSX2.1.2.1Pegar bases de datos de Hojas de clculo
Es comn que las bases de datos y los archivos que se usan a diario por las empresas y sustrabajadores sean de hojas de clculo, para facilitar el trabajo de uso de Stata cuando lasbases son de una hoja de clculo se puede sin mayor problema copiar los datos de la hojacorrespondiente y posteriormente en la ventana editdar clic derecho y seleccionar pegar ola secuencia CTRL + V, de sta forma Stata reconoce los datos correspondientes.
Nota: El usuario debe tener sumo cuidado con el formato de la base original dado que Statatrabaja los separadores decimales con el punto y no con la coma como se usa en laconfiguracin de los computadores con idioma espaol. Para ello se recomienda al usuariocambiar el formato de separador decimal y de miles en su hoja de clculo o directamentedesde la configuracin regional de su equipo. De igual forma usar la tcnica de buscar yreemplazar le permite obtener un buen resultado.
Se recomienda ver informacin adicional con help input, infix einfile.
Editor de datos en stata
Los datos pueden ser visualizados o introducidos en Stata haciendo clic en el cono de la ventanaData Editor, presionando control+7, o haciendo clic en
Data Data Editor Editor
Figura 7. Editor de datos de Stata
La ventana emergente presenta un formato similar a una hoja de clculo y le permite a un usuariohacer manipulacin de variables y observaciones similares a las que se realizan en una hoja declculo. La opcin ms sencilla para cargar una base de datos es copiar y pegar la informacin de suhoja de clculo a la ventana de Edit de Stata.
cono de EDIT
-
7/22/2019 Manual Stata 12
20/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
20
Snapshots: Permite preservar y restaurar la base de datos a un puntopredeterminado por el usuario.
Hide/Show Variables: Slo para efectos de visualizacin, esta opcin permite
ocultar parte de una base de datos.
Filter Observations: Mientras est abierto el editor de datos, a travs de esta
opcin es posible mantener un filtro sobre la base la base de datos.
Variable Properties:Esta opcin permite renombrar variables, asignar etiquetas a
variables y valores de variables categricas, y ajustar los tipos de variables y los
formatos de las variables.
Variable Manager: Similar a la opcin anterior, adems permite visualizar
simultneamente varias variables y adicionar notas a estas.
2.1.2.2Asistente de Importacin de Excel files
La versin 12 de Stata ha incorporado una nueva herramienta para importar bases de datostipo .xls o .xlsx, para acceder al asistente siga la ruta File Import Excel Spreadsheet(*.xls, *.xlsx) emerger la siguiente ventana:
-
7/22/2019 Manual Stata 12
21/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
21
Figura 8. Asistente Importacin Archivos de Excel
Nota: Para poder importar la base de datos debe tener cerrada la base de datos de lo
contrario el asistente no realizar la importacin.
La estructura del comando es:
import excel [using] filename [, import_excel_options]
En las opciones podr seleccionar:- sheet("sheetname") Nombre de la hoja a importar- cellrange([start][:end]) Rango de celdas a cargar- firstrow Tomar la primera fila como los nombres de las variables- allstring Importar todas las variables como texto- clear Reemplazar los datos en la memoria
Para el ejemplo la instruccin es:
import excel "C:\Users\Brayan\Desktop\base1.xlsx", sheet("base 1") firstrow
2.1.3 Importar otros tipos de archivo
Busque elarchivo
de Excel
Seleccionela hoja aimportar
Active la casilla si ensu hoja la primera filacontiene los nombresde las variables
Seleccioneel rango delos datos
-
7/22/2019 Manual Stata 12
22/161
-
7/22/2019 Manual Stata 12
23/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
23
Lo primero que debe realizar el usuario una vez importa o abre una base de datos esobservar la base, para ello se encuentran diferentes formas de visualizar los datos, entreellas las opciones de edity de browse, las cuales abren una ventana con forma de hoja de
clculo, la otra opcin es por medio del comando list que permite visualizar la o lasvariables en la ventana de resultados, se recomienda usar los comandos edit, browse ylistcon las opciones ifin.
Adicional a esto el usuario puede recibir informacin especfica de cada variable por mediode las opciones del men Data Describe Data. En ste men las opciones de describedata in memory, describe data contents e inspect variables, le da la posibilidad al usuario deobtener informacin correspondiente al nombre, la etiqueta, el tipo y formato de la variable,notas, etiquetas sobre valores, el nmero de valores perdidos, entre otras. A continuacin sepresenta un ejemplo del uso de estos comandos
*cargar una base de datos del programasysuse auto*observar los datosbrowse
Figura 9. Browse
-
7/22/2019 Manual Stata 12
24/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
24
*Describir los datosdescribe make price mpg
Cuando se desea aplicar un comando para todas las variables de la base de datos podr hacerloingresando el comando sin incluir ninguna variable de esta forma Stata tomar la instruccin paratoda la base de datos, otra alternativa es escribir_allposterior al comando por ejemplo:
sysuse autodescribe _all
2.3.1 Creacin de VariablesPor medio del men Data podemos encontrar opciones como crear nuevas variablesData Createor Change Data Create New Variable:
.mpg int %8.0g Mileage (mpg)price int %8.0gc Pricemake str18 %-18s Make and Modelvariable name type format label variable label storage display value
foreign byte %8.0g origin Car type
gear_ratio float %6.2f Gear Ratio
displacement int %8.0g Displacement (cu. in.)
turn int %8.0g Turn Circle (ft.)
length int %8.0g Length (in.)
weight int %8.0gc Weight (lbs.)
trunk int %8.0g Trunk space (cu. ft.)
headroom float %6.1f Headroom (in.)
rep78 int %8.0g Repair Record 1978
mpg int %8.0g Mileage (mpg)
price int %8.0gc Price
make str18 %-18s Make and Model
variable name type format label variable label
storage display value
-
7/22/2019 Manual Stata 12
25/161
-
7/22/2019 Manual Stata 12
26/161
-
7/22/2019 Manual Stata 12
27/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
27
A continuacin listamos algunas funciones matemticas, estadsticas y de fecha importantes en lacreacin de variables
FUNCIN EJEMPLO DESCRIPCINln() g lpib = ln(pib) Logaritmo natural
exp() g epib = exp(pib) Exponencialsqrt() g y = sqrt(epib) Raz cuadradaabs() g x = abs(y) Valor absolutocos() g coseno = cos() Cosenologit() g logit = logit(x) Retorna el logaritmo de los odds ratio de x
runiform() g uniforme = runiform() Genera nmeros aleatorios de una distribucinuniforme [0,1)
rnormal() g normal = rnormal() Genera nmeros aleatorios de una distribucinnormal estndar (0,1)
rnormal(m,s) g normal = rnormal(10,2) Genera nmeros aleatorios de una distribucinnormal con mediamy desviacin estndars
int() g enteros = int(pib) Convierte una variable o dato en enteroinvnormal(p) g inversa = invnormal(prob) Genera una variable como la inversa de la
probabilidad de una distribucin normallength(s) g largo = length(nombre) Presenta el nmero de caracteres de una
variable stringTabla 7. Ejemplos Funciones generate
2.3.2 Extensiones en la creacin de variablesPodemos utilizar algunos comandos adicionales para la creacin de variables con algunascondiciones, tales como el comando egeny la funcin cond()
Ejemplos:
gen dummy = cond(TV>5,1,0)gen dummy = (TV>5)
egen concatenar = concatenate(variable1 variable)
FUNCIN EJEMPLO DESCRIPCINmax() egen maximo = max(ingresos) Presenta el mximo de una variablemin() egen minimo = min(ingresos) Presenta el mnimo de una variable
mean() egen promedio = mean(ingresos) Presenta el promedio de una variablekurt() egen curtosis = kurt(ingresos) Presenta la curtosis de una variable
sd() egen desviacin = sd(ingresos) Presenta la desviacin estndar de una variable
2.3.3 Ordenar variables y bases de datosOrdenar datosData Sort Ascending Sort:
-
7/22/2019 Manual Stata 12
28/161
-
7/22/2019 Manual Stata 12
29/161
-
7/22/2019 Manual Stata 12
30/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
30
sealan en Stata mediante un punto (.). Se considera que un missing value es mayor que cualquiervalor.
2.4 CONSERVAR Y RECARGAR BASES DE DATOSEs importante cuidar la base de datos que se est trabajando, por eso se recomienda salvar la base
de datos, pero adems, Stata ofrece opciones que le permitirn al usuario guardar la base de datosde forma virtual, por medio de los comandos preserveysnapshoty para recuperar la base con elcomando restore
preserverestore
snapshot save, label("nombre del elemento guardado")snapshot restore 1
La diferencia entre elsnapshoty elpreservees que este ltimo solo permite guardar una vez la basede datos, mientras elsnapshotvarias veces.
2.5 FILTROS DE LA BASE DE DATOSEjemplos de filtros
browse if pop > 10000000browse if pop > 10000000 & marriage > 100000browse if pop > 10000000 & marriage > 100000 & popurban > 10000000browse if pop > 10000000 | marriage > 100000 & popurban > 10000000
Uso del in
browse pop in 1/10browse pop in f/10f = FIRST, l = LASTbrowse pop in 10/l hasta el ltimo
Se puede combinar con que realizar el filtro puede usar los comandos browse, edit, keep, drop ylist.
dropelimina observaciones y/o variables.keep conserva observaciones y/o variables.listpresenta variables y/o observaciones en la ventana de resultados.
(5 unique values)1 5 74 . Missing 5 Total 69 69 -
Positive 69 69 - Zero - - - Negative - - - Total Integers Nonintegersrep78: Repair Record 1978 Number of Observations. inspect rep78
-
7/22/2019 Manual Stata 12
31/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
31
edit permite visualizar los datos en una hoja de datos y podr editar y modificar los datos.browserealiza las mismas opciones de editpero no se puede modificar la informacin.
El comando keep y drop tienen la misma estructurakeep/drop variables
keep/drop if expresinkeep/drop in rango
Ejemplos
sysuse censusdrop death divorce * Elimina las variables death y divorcekeep state pop* medage marriage *Conserva las variables indicadasdrop if medage > 30 * Elimina las observaciones donde medage sea mayor a 30
sort popurban
keep in -10/l * Conserva las ltimas 10 observaciones con mayor popurban
2.6 ADMINISTRADOR DE VARIABLESEn la versin 11 de Stata se incluy la ventana del administrador de variables, esteadministrador de variables permite modificar informacin de cada variable, principalmenteel cambio de nombre, etiquetas, tipo de variable, formato, notas y creacin de categoras yetiquetas.
Figura 13. Administrador de variables.
Para la modificacin de la variable, deber ser seleccionada la variable y una vezmodificada la informacin correspondiente debe dar click en Apply.
En la versin 12 Stata ha incluido una nueva ventana que es la ventana de propiedades en lacual se pueden modificar la informacin de cada variable:
-
7/22/2019 Manual Stata 12
32/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
32
Figura 14. Ventana de Propiedades
Entre los cambios del administrador de variables y la ventana de propiedades se encuentranlas siguientes opciones, se describe el comando correspondiente para automatizacin detareas.
2.6.1 RenameEste comando permite cambiar el nombre de una variable. Por ejemplo
rename nombreviejo nombrenuevo
rename price precio
2.6.2 Label VariablePara ponerle nombre o etiqueta al variable
label var nombrevariable etiqueta variable
lable var precio Precio del auto
2.6.3 NotesSe pueden crear dos tipos de notas, una para la base de datos o para la base de datos, acontinuacin un ejemplo para cada caso:
notes divorce: 1 si la persona es divorciada, 0 en otro caso * nota para la variable divorcenotes _dta: Censo 1994 * nota para la base de datos
2.7 CREACIN DE CATEGORASLa forma ms sencilla de crear categoras de variables es por medio del administrador devariables, la variable que seleccionar debe ser discreta, una vez inicie el administrador
-
7/22/2019 Manual Stata 12
33/161
-
7/22/2019 Manual Stata 12
34/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
34
Figura 15. Creacin de Labels
Una vez haya creado la etiqueta deber asignarla a la(s) variable(s) que correspondan, paraello en el administrador de variable a la izquierda de Manage seleccione el nombre de laetiqueta.
Figura 16. Asignacin de etiquetas
Por medio de comandos
label define respuestas 1 si 2 no * Creacin de la etiqueta con sus valoreslabel values pregunta1 respuestas *Se asigna a la variable pregunta1 la etiqueta respuestas
2.8 MODIFICACIN Y TRANSFORMACIN DE VARIABLESEn la seccin anterior se present la forma de creacin de variables por medio de los comandos gen
y egen, de igual forma el comando replace. Pero existen otras formas de modificar variables ya seaen su formato, tipo de variable, codificacin entre otras, a continuacin se presentan las msimportantes.
2.8.1 RecodeEste comando permite recodificar algn valor de una variable
recode x (1=2), gen(nx)
-
7/22/2019 Manual Stata 12
35/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
35
recode x1 (1=2), gen(nx1)
En el ejemplo 1 se recodifica la variable x, cambiando los valores 1 por valores 2, la variabletransformada se guarda como nx.
Figura 17. Recode
En el ejemplo 2 se cambia de 1 a 2 y de 2 a 1, generando la variable nx1.
2.8.2 Divisin de Variables de textoSplit divide una variable texto en nuevas variables por el espacio o un carcter especfico
split var1, parse(,) gen(geog)
2.9 COMBINACIN DE BASES DE DATOSLa combinacin de bases de datos es un problema muy comn para el investigador o el analista deinformacin, Stata le permite realizar diferentes tipos de fusiones de bases de datos, a continuacinpresentaremos los dos formatos ms importantes, la adicin vertical (merge) y horizontal (append).
-
7/22/2019 Manual Stata 12
36/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
36
2.9.1 Combinacin VerticalAppendEste comando agrega filas a la base de datos, las variables deben como regla contener los mismosnombres, el mismo tipo de variable y adems la base de datos sus variables deben estar ordenadasde igual forma. Para combinar conjuntos de datos verticalmente se emplea el comando append.
En nuestro ejemplo, a la base de datos HOMBRES vamos a adicionar los casos correspondientes la
informacin de las mujeres as:
use hombres, clear
append using MUJERES
En la nueva base de datos se ha combinado la informacin hombres y mujeres en una nica base dedatos.
d
EDUCACION.dta
HOMBRES.dta
Adicin casos:append
No es necesaria
variable llave
MUJERES.dta
Adicin de variables:merge
Es necesaria variable llave.
Las bases de datos deben
estar ordenadas.
Revisar la variable _merge
-
7/22/2019 Manual Stata 12
37/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
37
En este punto se deben tener en cuenta dos aspectos.
1. El comando append debe estar acompaado de la palabra using la cual indica que elnombre a continuacin corresponde a la base de datos de datos que ser adicionadaverticalmente.
2. Como la base de datos cargada en la memoria RAM ha cambiado es conveniente que elusuario salve la nueva informacin con otro nombre as.
save PERSONAS, replace
2.9.2 Combinacin HorizontalMergeSe usa cuando se quieren traer nuevas variables de una base llamada usinga una base de datos yaexistente o master, ste comando une dos bases de datos utilizando una variable en comn(generalmente es una ID, llave o cdigo que identifica las observaciones de la base de datos). Lasdos bases de datos deben estar guardadas en formato .dta, y deben estar ordenadas de acuerdo a lavariable que se va a pegar. El objetivo de este comando es agregar variables (columnas).
Para pegar dos bases de datos (A.dta y B.dta), se deben realizar los siguientes pasos:
1. Ordenar (sort) la base de datos B de acuerdo a las variables con las que se har la unin delas bases, es decir de acuerdo al ID, y guardar.
2. Abrir la base A y ordenarla de acuerdo al paso 1.3. Usar el comando merge
4. Guardar la base de datos (save)
Si la base no est ordenada y contiene datos repetidos emerge el siguiente error:
Using data not sortedMaster data not sorted
Para verificar que usted tenga un identificador nico se recomienda que lo verifique por medio delcomando isid.
-
7/22/2019 Manual Stata 12
38/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
38
isid id num
Si emerge error es porque el identificador se repite y si va hacer una fusin tendr inconvenientes.Al momento de realizar el merge se crea una variable denominado _merge, que contiene tres
valores:
_merge = = 1 Las observaciones son originarias del archivo master o base_merge = = 2 Las observaciones son originarias del archivo using_merge = = 3 Las observaciones se encuentran en ambos archivos
Siguiendo con el ejemplo anterior, vamos a agregar a la base de datos PERSONAS.dta, nuevasvariables con la informacin sobre el nivel educativo y los aos de educacin aprobados de laspersonas. Esta informacin se encuentra en la base de datos EDUCACION.dta. Los pasos a seguirpara realizar este tipo de pegue son:
1. Cargar la base using (EDUCACION.dta) de donde queremos traer las nuevas variables, laordenamos de acuerdo con la(s) variable(s) identificadora(s) numero y e01 y salvamos loscambios. El comando para ordenar las observaciones essortas:
use EDUCACIONsort numero e01d
save EDUCACION, replace
En este caso, el comandosaveest acompaado de la opcin replacela cual denota que seest sobrescribiendo en la base EDUCACION original.
2. Cargar la base master (PERSONAS.dta), la ordenamos por el mismo criterio anterior ysalvamos los cambios.
use PERSONAS
sort numero e01d
save PERSONAS, replace
3. Aplicamos el comando mergepara pegar horizontalmente las dos bases as:
La base de datos PERSONAS.dta contiene ahora las variables de la base de datosEDUCACION.dta, creando automticamente la variable _merge.
2.10 CAMBIO EN LA ORGANIZACIN DE LOS DATOS
-
7/22/2019 Manual Stata 12
39/161
-
7/22/2019 Manual Stata 12
40/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
40
La variable edu007 corresponde a los aos de educacin promedio y jefe a la suma de los jefes dehogar, en ambos casos, por localidad y sexo.
2.10.2 ReshapeEn algunas ocasiones dependiendo del estudio muestral y de la construccin de la base de datos,usted encontrar su informacin en dos formatos, ancho (wide) y largo (long), el formato ancho esaquel en el cual usted tiene un conjunto i de individuos y un nmero j de variables, donde j esgeneralmente una variable con informacin para diferentes perodos de tiempo.
Para mostrar un ejemplo, utilizaremos la base de datos reshapeState descrita en el libro [1]:
usehttp://www.stata-press.com/data/imeus/reshapeState,clearlist
En este caso se encuentran seis cdigos de estados de nueva Inglaterra, y aparece la informacin dela poblacin desde 1970 hasta el 2000 calculada cada dcada, a continuacin transformaremos labase de datos de formato wide a long por medio del comando reshape, la estructura de estecomando es:
reshape long variable_j, i(variable_individuos) j(nombre nueva variable)reshape wide variable_j, i(variable_individuos) j(variable_temporal)
6. VT .1086679 .0445188 .5644092 .7219492 .67594875. RI .684176 .2551499 .2110077 .4079702 .05806624. NH .6047949 .8714491 .8414094 .1180158 .89447463. ME .5578017 .5552388 .5219247 .2769154 .42167262. MA .6432207 .0610638 .8983462 .9477426 .46114291. CT .1369841 .6184582 .4241557 .2648021 .871691
state pop1970 pop1980 pop1990 pop2000 area
http://www.stata-press.com/data/imeus/reshapeStatehttp://www.stata-press.com/data/imeus/reshapeStatehttp://www.stata-press.com/data/imeus/reshapeStatehttp://www.stata-press.com/data/imeus/reshapeState -
7/22/2019 Manual Stata 12
41/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
41
con la base de datos actual pasaremos de wide a long
reshape long pop, i(state) j(ao)
list
Si se encuentra usted con una base de datos similar a la generada con el comando reshape, podrpasarla a formato wide, en nuestro caso usaremos la siguiente sintaxis
reshape wide pop, i(state) j(year)
Continuando con el ejemplo de la encuesta de hogares. Se puede hablar de orientacin vertical uhorizontal cuando a cada una de las observaciones ien una base de datos, se las segmenta por algncriterioj(v.g., diferentes periodos de tiempo). En nuestro ejemplo, cada una de las localidades i,
ha sido segmentada por sexo j, mientras que la base de datos en conjunto ha sido desplegada deforma vertical. En este caso sin embargo, puede resultar ms cmodo emplear una base de datosorientada horizontalmente, en particular si se quieren hacer comparaciones para cada una de laslocalidades entre hombres y mujeres. Podemos emplear el comando reshape, acompaado de lasopciones wide(despliegue horizontal) o long(despliegue vertical), para cambiar la orientacin de labase de datos colapsada as:
reshape wide edu007, i(localid) j(e03)
pop1970 pop1980 ... pop2000 -> popxij variables:j variable (4 values) -> aoNumber of variables 6 -> 4Number of obs. 6 -> 24Data wide -> long
24. VT 2000 .7219492 .675948723. VT 1990 .5644092 .675948722. VT 1980 .0445188 .675948721. VT 1970 .1086679 .675948720. RI 2000 .4079702 .058066219. RI 1990 .2110077 .058066218. RI 1980 .2551499 .058066217. RI 1970 .684176 .058066216. NH 2000 .1180158 .894474615. NH 1990 .8414094 .894474614. NH 1980 .8714491 .894474613. NH 1970 .6047949 .894474612. ME 2000 .2769154 .421672611. ME 1990 .5219247 .421672610. ME 1980 .5552388 .42167269. ME 1970 .5578017 .42167268. MA 2000 .9477426 .46114297. MA 1990 .8983462 .46114296. MA 1980 .0610638 .46114295. MA 1970 .6432207 .46114294. CT 2000 .2648021 .8716913. CT 1990 .4241557 .8716912. CT 1980 .6184582 .8716911. CT 1970 .1369841 .871691
state ao pop area
-
7/22/2019 Manual Stata 12
42/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
42
Para volver a la forma vertical
reshape long edu007, i(localid) j(e03)
2.10.3 Xpose
Usted podr modificar la orientacin de una forma completa en su base de datos, es decir, pasar defilas a columnas (similar a realizar un transponer en Excel), debe tener cuidado dado que no podrretornar a la posicin inicial.
sysuse auto , replace
snapshot save, label(base original)
-
7/22/2019 Manual Stata 12
43/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
43
keep mpg foreignxpose , clear
2.10.4 Stack
El comando stackle permitir a usted fusionar variables por ejemplo tiene los meses de cada aoordenados en columnas y quiero formar una sola variable con todos los meses para todos los aos
2.10.5 Extraer una muestra aleatoria de su base
En algunas ocasiones para hacer estudios muestrales requiere que la base de datos sea dividida porun mtodo aleatorio, para ello podr hacer uso del comando simple
sample 80 || tomar el 80% de la muestra
sample 20, count || tomar 20 observaciones a la zar
2.11 PROBLEMAS EN EL MANEJO DE BASES DE DATOSCuando usted trabaja con bases de datos en el da a da se encontrar con diferentes problemas ysituaciones que lo pondrn a prueba en el manejo no solo de Stata sino en el conocimiento de suinformacin, por eso es importante que siempre se pregunte antes de hacer cualquier cambio en subase de datos, qu quiere hacer y cul es el resultado esperado, de esta forma podr pensar msfcilmente que tipo de ejecucin requiere en Stata para llegar a su objetivo, a continuacinpresentaremos un conjunto de comandos que presentan algunos casos tpicos en el manejo de basesde datos.
2.11.1 Replicar informacinDependiendo su anlisis podr requerir replicar algn tipo de informacin de su base de datos, porejemplo un cliente, un usuario, un grupo, una empresa, un pas, aunque no es una alternativa muycomn, Stata le ayudar a realizar la reproduccin de sus datos, expand, es el comando paraduplicar informacin, pero con la caracterstica que lo puede hacer nveces
sysuse auto, clearkeep if price > 12000
list make price
expand 3
5. Peugeot 604 12,990
4. Linc. Versailles 13,466
3. Linc. Mark V 13,594
2. Cad. Seville 15,906
1. Cad. Eldorado 14,500
make price
-
7/22/2019 Manual Stata 12
44/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
44
De acuerdo al comando usado, los datos se encontrarn 3 veces en la base de datos, tal y como sepresenta a continuacin.
sort make price
list make price
2.11.2 Verificacin de datosEl comando assert le permitir verificar la valides de sus datos, este comando le ofrece laposibilidad de incluir en un archivo de programacin una condicin, si la condicin se cumpleparar la ejecucin de la programacin, y de esta forma usted podr chequear si hay algo que no escorrecto en su base de datos, por ejemplo, usted tiene una base de datos con la edad de las personas,podr utilizar assertpara verificar que en sta variable no hayan datos extraos, como una edadmayor a 100 aos o menor a 0. La estructura sera
assert edad < 0 | edad > 100
Y an ms completo recomendaramos incluir evaluar valores perdidos
assert edad < 0 | edad > 100 | edad = =.
2.11.3 Contador y reporte de datos repetidosEl comando count cuantifica el nmero de observaciones con ciertas caractersticas. Lainstruccin por s sola, presenta el nmero total de observaciones, pero es posibledeterminar algunas restricciones
15. Peugeot 604 12,990
14. Peugeot 604 12,990
13. Peugeot 604 12,990
12. Linc. Versailles 13,466
11. Linc. Versailles 13,466
10. Linc. Versailles 13,466
9. Linc. Mark V 13,594
8. Linc. Mark V 13,594
7. Linc. Mark V 13,594
6. Cad. Seville 15,906
5. Cad. Seville 15,906
4. Cad. Seville 15,906
3. Cad. Eldorado 14,500
2. Cad. Eldorado 14,500
1. Cad. Eldorado 14,500
make price
-
7/22/2019 Manual Stata 12
45/161
-
7/22/2019 Manual Stata 12
46/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
46
En la figura 18 puede observar las opciones disponibles para el manejo de datos duplicados, serecomienda seguir cada una de las opciones, Report Duplicatesle ofrece la opcin de seleccionarbajo que variable(s) desea analizar si existen duplicados o no, por ejemplo:
sysuse auto, clear
keep if price > 12000expand 3duplicates report make
Lo que nos genera el siguiente resultado
El resultado indica que hay 15 observaciones en total de las cuales hay 10 en exceso o duplicadas,indica adicionalmente que para cada observacin hay 3 copias.
Para ver el listado total de elementos duplicados
duplicates list make
3 15 10
copies observations surplus
Duplicates in terms of make
-
7/22/2019 Manual Stata 12
47/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
47
Como se puede observar para cada marcar de automvil hay dos valores adicionales, lo que ya noshaba indicado la opcin reportinformando que haban tres observaciones para cada categora.
La siguiente opcin Tags duplicates permite crear una variable que indica el nmero de valoresadicionales en este caso ser 2, si utilizamos el tag y hacemos una lista se apreciar el resultado.
duplicates tag make, generate(duplicado)list make duplicado
5 15 Peugeot 604
5 14 Peugeot 604
5 5 Peugeot 604
4 13 Linc. Versailles
4 12 Linc. Versailles
4 4 Linc. Versailles
3 11 Linc. Mark V
3 10 Linc. Mark V
3 3 Linc. Mark V
2 9 Cad. Seville
2 8 Cad. Seville
2 2 Cad. Seville
1 7 Cad. Eldorado
1 6 Cad. Eldorado
1 1 Cad. Eldorado
group: obs: make
Duplicates in terms of make
-
7/22/2019 Manual Stata 12
48/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
48
Uno de los objetivos es eliminar los valores duplicados
Para ello use la opcin drop duplicates
FIGURA 19. Eliminacin de duplicadosduplicates drop make, forcelist make
15. Peugeot 604 2
14. Peugeot 604 213. Peugeot 604 2
12. Linc. Versailles 2
11. Linc. Versailles 2
10. Linc. Versailles 2
9. Linc. Mark V 2
8. Linc. Mark V 2
7. Linc. Mark V 2
6. Cad. Seville 2
5. Cad. Seville 2
4. Cad. Seville 23. Cad. Eldorado 2
2. Cad. Eldorado 2
1. Cad. Eldorado 2
make duplic~o
-
7/22/2019 Manual Stata 12
49/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
49
2.13 CREACIN DE PROGRAMASEDITOR DE TEXTOEl usuario puede abrir un editor de texto donde puede crear programas (archivos .do y .ado de
Stata) haciendo clic en el icono de la ventana New Do-file Editor como se muestra en la siguienteilustracin o presionando control+8 o haciendo clic en el submen Do-file Editor en el menWindow en la barra de herramientas.
FIGURA 19. Creacin de un archivo .do
El usuario puede ejecutar uno o ms comandos simultneamente, generar (macros) o crear rutinasnuevas para STATA desde un editor de texto al que se accede haciendo clic en el icono New Do-file Editor. A travs de este editor se pueden crear archivos tipo *.do y *.ado. Los archivos *.doson conjuntos de comandos y macros que nicamente se pueden ejecutar cuando el archivo estactivo. En contraste, los archivos *.ado son rutinas que se incorporan a STATA permanentemente ypueden ser ejecutadas desde la el cuadro de comandos o incluso desde otros archivos *.do y *.ado.Se accede a este editor como se muestra en la siguiente ilustracin, presionando control+8 ohaciendo clic en el submen Do-file Editoren el men Windowen la barra de herramientas.(Darw.)
2.14 COMENTARIOS ADICIONALES LOG FILES
COMANDOS USADOS
appendbrowseby
bysortcdclear
5. Peugeot 604
4. Linc. Versailles
3. Linc. Mark V
2. Cad. Seville
1. Cad. Eldorado
make
-
7/22/2019 Manual Stata 12
50/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
50
codebookcompressdbdecodedescribe
destringdrawnormdropduplicateseditencodeegenexitformatgenerategsortinfile
insheetinvnormal()keeplabel
listlogmergemvdecodemvencode
openorderoutfileprefixrecoderenamereplacereshapesavesnapshotsortsysuse
useuniform()varmanagexpose
OTROS COMANDOS RECOMENDADOS
capturecfcountcross
datasignatureexpandfilinformatinfileinspectjoinbylabel languagelanguage
matmorenotessample
seedseparatesplitstacksvytostringtranslateversinoperators
3 { TC "MANEJO FUNDAMENTAL DE STATA 11" }ANLISISESTADSTICO CON Stata
Stata tiene una amplia posibilidad de realizar los procedimientos generalmente es posible encontrarvarios comandos en diferentes mens. Por ejemplo para poder obtener las estadsticas descriptivasde una variable es posible usando inicialmente los comandos o por medio de ventanas de ejecucin.
-
7/22/2019 Manual Stata 12
51/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
51
Algunos comandos despliegan mucha informacin que se va mostrando por secciones, para quesigan apareciendo los resultados es necesario dar clic en el botn GO, o en el mensaje de more-que aparece en la parte inferior de la ventana de resultados.
Pero es posible desactivar la opcin para que emerga todo el resultado inmediatamente por medio
de set more off.
Para el anlisis estadstico el men Statistics permite obtener gran cantidad de opciones para poderdesarrollar los temas del curso. Por ejemplo en Statistics Summary, tables, and test Summaryand descriptive analysis:
pueden realizar varias operaciones
como son clculo del intervalo de confianza, test para medias, varianzas, dos muestras, etc., pruebasparmetricas y no parmetrica
3.1 ESTADSTICAS DESCRIPTIVAS
Para poder realizar este tipo de procedimiento se escribe en la barra de comandos el comando sumque es el prefacio del comando summarize es un comando estndar para generar estadsticosdescriptivos, proporciona informacin acerca del nmero de observaciones, la media, la desviacintpica, el mnimo y el mximo de la variable especificada,
-
7/22/2019 Manual Stata 12
52/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
52
Lo que nos genera:
Si agregamos la opcin detail, se agrega el coeficiente de asimetra, y curtosis y varios percentilesde la(s) variable(s) dadas:
3.2 PONDERADORESWEIGHT-
-
7/22/2019 Manual Stata 12
53/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
53
fweight: frequency weights, indica el nmero de casos que representa realmente cada observacinmuestral. La variable debe contener enteros positivos.
pweight: sampling weights, indica la inversa de la probabilidad de seleccin muestral de cadaobservacin. Han de ser positivos, pero no necesariamente enteros.
aweight: analytic weights, indica los pesos inversamente proporcionales a la varianza de cadaobservacin. Un uso tpico de este tipo de ponderacin es cuando las observaciones son medias y elpeso representa el nmero de elementos que generan la media. Han de ser positivos, pero nonecesariamente enteros.
Iweight(importance weights): estos comandos no tienen definicin estadstica formal, simplementerepresentan de alguna forma la importancia que se atribuye a cada observacin. Cada comando quelos acepta explica cmo los utiliza puede tener cualquier forma.
3.3 CALCULO DE MEDIAS
Medias Statistics Summarize, tables and testArith/Geometric/Armonic means
3.4 INTERVALOS DE CONFIANZAprice 6165.257 342.8719 5481.914 6848.6
Mean Std. Err. [95 Conf. Interval]Mean estimation Number of obs = 74. mean price
-
7/22/2019 Manual Stata 12
54/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
54
Intervalos de confianza Statistics Summarize, tables and test Summary and descriptive
3.5 PRUEBAS DE HIPTESIS3.5.1 MediaCon Stata puede hacer pruebas de hiptesis de diferencia de medias
ttest horas = 15
ttest horas = wporhora
3.5.2 Varianza3.5.3 Proporciones3.6 MANEJO DE Tablas DE DATOS
price 74 6165.257 342.8719 5481.914 6848.6Variable Obs Mean Std. Err. [95% Conf. Interval]
. ci price
-
7/22/2019 Manual Stata 12
55/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
55
Gran variedad de opciones para analizar encuestas como tablas de doble y mltiple entrada, de igualforma permite ver la tabla de frecuencias.
3.6.1 tabstat
Para la generacin de tablas descriptivas y de doble entrada, Stata ofrece diferentes opciones, laopcin tabstat la cual calcula la media de cada variable
-
7/22/2019 Manual Stata 12
56/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
56
3.6.2 Tabulate (tab)Este comando permite construir tablas de frecuencias.
Si se desean que aparezcan los porcentajes, se debe agregar la siguiente opcin
Finalmente puede crear una variable dummy para cada categora, simplemente, agregue la opcingenerate.
tabulate rep78, generate(dummy)
3.7 PRUEBAS PARAMTRICAS3.8 PRUEBAS NO PARAMTRICAS
Total 69 100.005 11 15.94 100.00 4 18 26.09 84.06
3 30 43.48 57.97 2 8 11.59 14.49 1 2 2.90 2.90Record 1978 Freq. Percent Cum. Repair. tabulate rep78
-
7/22/2019 Manual Stata 12
57/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
57
Statistics Summarize, tables and test Nonparametric Test ofhyphotesis
COMANDOS USADOS
anovacicollapsecontractcorrelate
displayestatlevelmeanmisstableonewaypwcorr
quietlyscalarsktestsummarizetable
tabulatetabstattab1tab2testttestxi
OTROS COMANDOS RECOMENDADOS
Combined K-S: 40.4189 0.000 0.000Cumulative: -40.4189 0.000price: -11.0270 0.000Smaller group D P-value Corrected
mp gOne-sample Kolmogorov-Smirnov test against theoretical distribution. ksmirnov price = mpg
-
7/22/2019 Manual Stata 12
58/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
58
compareEreturnktauladder
ReturnSigntestspearman
StemtabiWeightset level 90
outreg2outreg
4 { TC "MANEJO FUNDAMENTAL DE STATA 11" }GRFICAS CONStata
Stata cuenta con una poderosa herramienta grfica, permitiendo obtener grficas de excelentecalidad y con varias opciones de edicin de las mismas, es posible realizar grficas como
histogramas, barras, de torta, series de tiempo, Box plot, dispersin, para datos panel y para otrostipos de anlisis como son de supervivencia, multivariado, control de calidad, etc.
Stata tiene dos formas de generar mltiples grficos, a travs de la ventana de comandos con elcomandographo utilizando la barra de herramientas en Graphics. El comando graph se utiliza conel tipo de grfico a realizar. A continuacin se presenta la lista de posibles grficos
Grficos TWOWAY:
Plottype description---------------------------------------------------------------------scatter scatterplot
line line plotconnected connected-line plotscatteri scatter with immediate argumentsarea line plot with shadingbar bar plotspike spike plotdropline dropline plotdot dot plotrarea range plot with area shadingrbar range plot with barsrspike range plot with spikesrcap range plot with capped spikesrcapsym range plot with spikes capped with symbolsrscatter range plot with markersrline range plot with linesrconnected range plot with lines and markerspcspike paired-coordinate plot with spikespccapsym paired-coordinate plot with spikes capped with symbolspcarrow paired-coordinate plot with arrowspcbarrow paired-coordinate plot with arrows having two headspcscatter paired-coordinate plot with markers
-
7/22/2019 Manual Stata 12
59/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
59
pci pcspike with immediate argumentspcarrowi pcarrow with immediate argumentstsline time-series plottsrline time-series range plotmband median-band line plot
mspline spline line plotlowess LOWESS line plotlfit linear prediction plotqfit quadratic prediction plotfpfit fractional polynomial plotlfitci linear prediction plot with CIsqfitci quadratic prediction plot with CIsfpfitci fractional polynomial plot with CIsfunction line plot of functionhistogram histogram plotkdensity kernel density plotlpoly local polynomial smooth plot
lpolyci local polynomial smooth plot with CIs
Otros tipos de grficos
graph matrix Matrices de grficosgraph bar Grficos de barrasverticalgraph hbar Grficos de barrashorizontalgraph dot Grficos de mediasgraph box Grficos de cajasgraph pie Grficos de tortas
Ejemplos:
graph twoway connected var1 var3graph twoway scatter var3 var1 var4graph box var5 if dummy = =1graph pie var3 var1 in 1/30
Para grabar un grfico, se usa el comando graph savegraph.gphy el nombre del archivo, recuerdeque la extensin de los grficos de Stata es .gph. Si lo queremos llamar de nuevo usamos graph use
graph.gph
Es posible combinar grficos por medio del comando combine graph1 graph2..
A continuacin se presenta una explicacin ms detallada de la creacin de los diferentes tipos degrficos
4.1 HISTOGRAMAS
-
7/22/2019 Manual Stata 12
60/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
60
Histograma: Graphics Histogram
- histogram price, normal(bin=33, start=2006, width=258942.94)
-
7/22/2019 Manual Stata 12
61/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
61
4.2 GRFICO DE TORTAS
Grfica de Tortas : Graphics Pie Chart
0
0 5,000 10,000 15,000Price
-
7/22/2019 Manual Stata 12
62/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
62
GRAFICAS DE TORTAS
70.27%
29.73%
Domestic Foreign
-
7/22/2019 Manual Stata 12
63/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
63
Utilizando la base NLSW.DTA, genere las siguientes grficas:graph pie, over(occ7) legend(on cols(1) position(9))
graph pie, over(occ7) pie(4, explode(large)) legend(on cols(3)) scheme(economist)
graph pie, over(occ7) pie(4, explode(large)) plabel(_all percent, color(black) size(large)format(%9.2f)) legend(on cols(3)) scheme(economist)
Prof
Mgmt
Sales
Cler.
Operat.
Labor
Other
Prof Mgmt Sales
Cler. Operat. Labor
Other
-
7/22/2019 Manual Stata 12
64/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
64
graph pie, over(occ7) pie(4, explode(large)) plabel(_all name, color(black) size(medlarge)format(%9.2f)) legend(on cols(3)) scheme(economist)
14.11%
11.75%
32.32%4.54%
10.95%
12.73%
13.58%
Prof Mgmt Sales
Cler. Operat. Labor
Other
Prof
Mgmt
SalesCler.
Operat.
Labor
Other
Prof Mgmt Sales
Cler. Operat. Labor
Other
-
7/22/2019 Manual Stata 12
65/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
65
graph pie, over(occ7) pie(4, explode(large)) plabel(_all name, color(black) size(medlarge)format(%9.2f)) legend(off) scheme(economist)
graph pie, over(occ7) plabel(_all name, gap(-5)) plabel(_all percent, gap(5)) legend(off)
Prof
Mgmt
SalesCler.
Operat.
Labor
Other
Prof
Mgmt
SalesCler.
Operat.
Labor
Other
14.11%
11.75%
32.32%4.541%
10.95%
12.73%
13.58%
-
7/22/2019 Manual Stata 12
66/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
66
graph pie, over(occ7) scheme(vg_s2c) by(union) pie(2, explode)
4.3 GRFICO DE CAJASBox Plot: Graphics Box Plot
nonunion union
Prof Mgmt
Sales Cler.
Operat. Labor
Other
Graphs by union worker
-
7/22/2019 Manual Stata 12
67/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
67
4.4 GRAFICAS TWOWAY
TWOWAY GRAPH
Todos los comandos para graficas empiezan por graph, pero esto es opcional dependiendo el tipo degrfico solo se pone la opcin TWOWAY
0
,
-
7/22/2019 Manual Stata 12
68/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
68
4.5 EDITOR DE GRFICOS DE Stata
10
20
30
40
2,000 3,000 4,000 5,000Weight (lbs.)
-
7/22/2019 Manual Stata 12
69/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
69
HACIENDO DOBLE CLIC SOBRE EL REA DE LA GRAFICA
Podemos agregar lneas horizontales o verticales indicando el valor del eje Y/o X donde deseamosagregar la lnea
-
7/22/2019 Manual Stata 12
70/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
70
Usando los comandos para hacer esta grfica solo es necesario escribir
Scatter mpg weight
PODEMOS CREAR GRFICOS POR GRUPOS USANDO EL COMANDO BY
twoway scatter mpg weight, by(foreign)
Para acceder por medio de ventanas
10
20
30
40
2,000 3,000 4,000 5,000 2,000 3,000 4,000 5,000
Domestic Foreign
Weight (lbs.)Graphs by Car type
-
7/22/2019 Manual Stata 12
71/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
71
Es posible crear varios tipos de grficas en un solo grfico algo muy usual es el uso de la grficaSCATTER con una recta de regresin ajustada.
Debemos Crear un nuevo grafico sin eliminar el anterior
-
7/22/2019 Manual Stata 12
72/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
72
twoway scatter mpg weight || lfit mpg weight CON UNA NOTACIN DIFERENTE DE
SEPARACIONtwoway (scatter mpg weight) (lfit mpg weight)
ALGUNOS EJEMPLOS:- twoway (qfitci mpg weight, stdf) (scatter mpg weight), by(foreign)
4.6 GRAFICA DE SERIES DE TIEMPO
sysuse uslifeexptwoway line le_wm year || line le_bm year
10
20
30
40
2,000 3,000 4,000 5,000Weight (lbs.)
Mileage (mpg) Fitted values
0
10
20
30
40
2000 3000 4000 5000 2000 3000 4000 5000
Domestic Foreign
95% CI Fitted values
Mileage (mpg)
Weight (lbs.)
Graphs by Car type
-
7/22/2019 Manual Stata 12
73/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
73
Usando la base sp2001ts.dta
40
50
60
70
80
1900 1920 1940 1960 1980 2000Year
Lif e expectancy, males Life expectancy, females
-
7/22/2019 Manual Stata 12
74/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
74
Hacer con los mismos datos usando las opciones de: area, rarea, rconnected, rcap y rbar
4.7 SCATTER GRAPH
9
00
1000
1100
1200
1300
1400
1Jan01 1Apr01 1Jul01 1Oct01 1Jan02Date
-
7/22/2019 Manual Stata 12
75/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
75
graph matrix popgrowth lgnppc safewater lexp
4.8 GRAFICA DE PUNTOSInstallar archivos y esquemas de A visual guide to Stata Graphics
net from http://www.stata-press.com/data/vgsgnet spjanfeb2001.dtatwoway (dropline close tradeday, sort)
Avg.annual
%growth
lgnppc
safewater
Lifeexpectancy
at birth
0
2
4
0 2 4
6
8
10
6 8 10
0
50
100
0 50 100
50
60
70
80
50 60 70 80
-
7/22/2019 Manual Stata 12
76/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
76
Realizar con los mismos datos pero usando los formatos: spike, dot, line y connectedUsando la base allstate3.dta, genere la siguiente grfica
4.9 GRAFICOS DE BARRASUsando la base de datos nlsw.dat
1250
1300
13
50
1400
0 10 20 30 40Trading day number
AL
AR
DE
FL
GA
KY
LAMD
MS
NC
OKSC
TN
TX
VA
WV
65
70
75
30 40 50 60 70 80% born in state of residence
-
7/22/2019 Manual Stata 12
77/161
-
7/22/2019 Manual Stata 12
78/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
78
Genere la misma grfica pero que en el eje Y aparezca el porcentaje.
graph bar (mean) tenure (mean) prev_exp, over(occ5) percentages
graph bar (mean) tenure (mean) prev_exp, over(occ5) stack
0
2
4
6
8
Prof/Mgmt Sales Clerical Labor/Ops Other
mean of tenure mean of prev_exp
0
5
10
15
Prof/Mgmt Sales Clerical Labor/Ops Other
mean of tenure mean of prev_exp
-
7/22/2019 Manual Stata 12
79/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
79
La opcin de STACK produce una grfica donde cada barra sera de dos o ms barras apiladas, porlo que la divisin muestra la relacin de las variables con respecto a total de la suma de lasvariables.
4.10 OPCIONES Y EJEMPLOSGrficas con weightAllstates.dtatwoway scatter ownhome borninstate [aweight = propval100], msymbol(oh)
twoway (scatter propval100 region), xlabel(, valuelabel)
40
50
60
70
80
20 40 60 80% born in state of residence
-
7/22/2019 Manual Stata 12
80/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
80
Generando Funciones:
0
20
40
60
8
0
100
NE N Cntrl South WestCensus region
-
7/22/2019 Manual Stata 12
81/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
81
Genere el logaritmo de X, una distribucin normal, el valor absoluto, x2, x3, seno, coseno ytangente.
Pirmides poblacionales
Por medio de la grfica de barras es posible realizar una pirmide poblacional, para ello se usar labase de datos pop2000mf.dta, primero se calcularn algunas variables por milln de personas:
gen fenmil = femtotal/1000000gen malmil = -maletotal/1000000gen zero = 0
0
1
2
3
4
5
y
0 5 10 15 20x
-
7/22/2019 Manual Stata 12
82/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
82
-
7/22/2019 Manual Stata 12
83/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
83
-10
-5
0
5
10
0 5 10 15 20Age category
malmil fenmil
-
7/22/2019 Manual Stata 12
84/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
84
0
5
10
1
5
20
-10 -5 0 5 10
malmil fenmil
-
7/22/2019 Manual Stata 12
85/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
85
-
7/22/2019 Manual Stata 12
86/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
86
4.11 COMBINANDO GRFICAS
graph combine "C:\Users\USER\Desktop\Graph1.gph" "C:\Users\USER\Desktop\Graph2.gph"
4.12 OTRAS GRFICAS
Under 55 to 910 to 14
15 to 1920 to 24
25 to 2930 to 3435 to 3940 to 4445 to 49
50 to 5455 to 5960 to 6465 to 6970 to 7475 to 7980 to 84
0 5 1010 5
malmil fenmil
Poblacin en Millones
-
7/22/2019 Manual Stata 12
87/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
87
4.12.1 Kdensitysysuse autokdensity length
4.12.2 Qnormqnorm price
0
.005
.01
.015
140 160 180 200 220 240Length (in.)
kernel = epanechnikov, bandwidth = 8.4732
Kernel density estimate
0
,
0 5,000 10,000 15,000Inverse Normal
-
7/22/2019 Manual Stata 12
88/161
-
7/22/2019 Manual Stata 12
89/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
89
Nombres
Apellidos
Documento Documento de identidad
Dependencia Lugar en que labora
Dedicacin Categora bajo la cual fue contratado
fecha_ingreso
estado_civil
Sueldo
Carro Respuesta a pregunta tiene o no carro
Categora Cargo que desempea
Para iniciar el anlisis de los datos deber llevar a cabo las siguientes tareas:
Importar los datos al programa: Las variables no tienen nombre. Usted deber ingresarlosmanteniendo el orden y sintaxis del cuadro anterior, por el mtodo que considere conveniente.
- Pistas: El cuadro de dilogo del comando con el cual importa los datos en formato csv.Los nombres de las variables no deben contener espacios.
- Problema: Datos mal importadosPista: Separador de variables
Crear y asignar etiquetas a variables numricas
El siguiente cuadro le indica las etiquetas que debe crear para cada variable:
Variable Valor Etiqueta
Dependencia 123456789101112131415
AgronomaArtesCienciasCiencias AgropecuariasCiencias EconmicasCiencias HumanasDerechoDivulgacin CulturalEnfermeraEstudios AmbientalesGeneracin 125 aosI.C.T.A.Idiomas ExtranjerosIngenieraInstituto de Biotecnologa
-
7/22/2019 Manual Stata 12
90/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
90
1617181920
Instituto de EstudiosPolticosInstituto de GenticaMedicinaOdontologaVeterinaria y Zootecnia
Estado Civil 12345
CasadoSeparadoSolteroUnin LibreViudo
Carro 12
NoSi
Categora 123
45
Experto DOSInstructor AsistenteInstructor Asociado
Profesor AsistenteProfesor Asociado
Crear etiqueta para variable de texto Dedicacin
- Pista: El contenido de la variable debe ser reconocido como una etiqueta (encode).
Adicionar datos y variables: Resulta que la persona que digit los datos lo hizo de forma
incompleta, omitiendo datos y variables. Los datos adicionales (802) fueron posteriormentealmacenados en el archivo Docentes2.dta y la variable gnero, para el total de los encuestados(2302), fue introducida en el archivo Genero_docentes.dta. Usted deber introducirlos en labase que est trabajando correctamente, es decir, manteniendo la correspondencia entre losdatos.
Una vez incorporada la variable gnero, cree la etiqueta, conforme al formato de la variable.
Filtros (browse , list, edit, keep y drop)NOTA: PRIMERO GUARDE LA BASE DE DATOS EN EL SNAPSHOT
- Filtre por las siguientes condiciones, los docentes hombres que trabajan en la dependencia
Ciencias Econmicas (5), tienen un salario inferior a 1500000 y son viudos (5). Exporteel resultado en un archivo formato csv con el nombre filtro_01,
-Exporte en un archivo formato csv con el nombre filtro_02, los datos correspondientes alas personas mujeres que no tienen carro (1) , viven en unin libre (4) , son profesorasociado o asistente (45) y trabajan en las dependencias de Ciencias, Artes o Ingeniera(2314).
-
7/22/2019 Manual Stata 12
91/161
-
7/22/2019 Manual Stata 12
92/161
-
7/22/2019 Manual Stata 12
93/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
93
______________ LIBROS
P11. Cmo te defines en materia religiosa?-Catlico practicante 1-Catlico no practicante 2
-Creyente de otra religin 3 RELIGION-No creyente 4-Indiferente 5
P12. Cuando se habla de poltica se utilizan normalmente las expresiones izquierda y derecha. Enque casilla te colocaras? ESCALA
IZQUIERDA DERECHA01 02 03 04 05 06 07 08 09 10
P13. Que cantidad aproximadamente de dinero (en miles de pesetas) ingresas al mes por cada unode los conceptos siguientes?
Ingresos personales _________________ INGRESO1Ingresos de tu pareja _________________ INGRESO2Aportaciones familiares _________________ INGRESO3
P14. Actualmente, entre todos los miembros de tu hogar y por todos los conceptos, de cuantosingresos netos (sin descuentos) dispones por trmino medio en tu hogar al mes?
-Menos o igual a 500 Euros. 1-De 501 a 1000 Euros. 2-De 1001 a 1500 Euros. 3
-De 1501 a 2000 Euros. 4-De 2001 a 3000 Euros. 5 INGRESOT-De 3001 a 4000 Euros. 6-De 4001 a 5000 Euros. 7-De 5001 a 7500 Euros. 8-De 7501 a 10 Mil Euros. 9-Ms de 10 Mil Euros. 10
P15. Sexo:-Hombre 1 GNERO-Mujer 2
P16. Cuntos aos cumpliste en tu ltimo cumpleaos?____________aos EDAD
Responda las siguientes preguntas:
Enve un archivo .doc con las respuestas correspondientes.
1. Cree una variable ingreso bruto que va a ser la suma de ingreso1, ingreso2 e ingreso3.
-
7/22/2019 Manual Stata 12
94/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
94
2. Calcule los estadsticos descriptivos de cada una de las variables y analice cules tienenvalores perdidos?
Para los valores perdidos asgneles un valor verdadero de la siguiente forma
VARIABLE VALOR PERDIDO A:OCIO 6
INFANCIA 5HIJOS1 e HIJOS2 0
COLEGIO 1LIBROS Depende la variable INGRESOT, por ejemplo
si INGRESOT = 1, entonces LIBROS = 9,INGRESOT =2LIBROS = 8, etc.
RELIGION El Valor 9 es un valor perdido
3. Realice una prueba de comparacin de medias, donde compare si la media de la variableingreso1 es igual a ingreso2
4. Calcule las correlaciones entre los ingresos, libros y TV, son estadsticamentecorrelacionados?
5. Cuntos hombres y cuntas mujeres tienen novio y les gusta el cine?6. Cree tres grupos para la variable INGRESOT en una sola variable que se llame
situacion_economicaas: personas que ganan hasta 2000 Euros. Personas que ganan hasta5000 Euros. y los dems. Asgneles en una nueva variable el calificativo de POBRES,ACOMODADOS Y RICOS respectivamente. (Recomendacin use: generate y replace orecode)
7. Cuntos POBRES, ACOMODADOS Y RICOS hay por GENERO y por EDAD8. Cuntos individuos ven menos de 18 horas de TV?.9. En promedio, Cuntas horas ven semanalmente la TV segn la situacin econmica?10.Cuntos libros han ledo por SEXO y por COLEGIO las personas que sostienen un
noviazgo formal?11.Cuntos jvenes espaoles respondieron que no suelen hacer nunca al menos uno de los
oficios del hogar?12.Calcule el porcentaje total por fila de la variable religin independientemente del sexo?,
mencione cul es el porcentaje de columna de los que son religin: No creyente y sonmujeres, indique este valor en porcentaje con respecto al total de personas?
13.Grafique las siguientes variables, es bajo su criterio el formato de presentacin:
a. Genero e IngresoT
b. Genero, Religin e Ingresoc. Religin, amor e hijos1d. Ocio, horas y tve. Genero con ingreso1 e ingreso2
-
7/22/2019 Manual Stata 12
95/161
BRAYAN RICARDO ROJAS O.INSTRUCTOR
95
5 { TC "MANEJO FUNDAMENTAL DE STATA 11" }REGRESINLINEAL EN Stata6
Una de las principales fortalezas de Stata tiene que ver con la gran versatilidad, flexibilidad yfacilidad que ofrece para estimar modelos de regresin. Uno de los principales objetivos de losmodelos de regresin es explicar el comportamiento de uno o