lafuente byron

Upload: byron-g-ocampo

Post on 19-Feb-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/23/2019 Lafuente Byron

    1/3

    ANLISIS EXPLORATORIO DE DATOS (A.E.D)

    Nombre: Lafuente Byron

    Fecha: 25/11/2015

    Palabras claves:

    Datos, histograma, contraste de hiptesis, cuantiles, comprobacin, supuestos, test deasimetra y curtosis, homocedasticidad, linealidad, dependientes, independientes,multiariantes, atpicos, ausentes, aleatoriedad, imputacin!

    Resume

    "l #n$lisis "%ploratorio de Datos "D' es un con(unto de t)cnicas estadsticasunimultiariantes cuya finalidad es e%aminar los datos preiamente a la aplicacin decual*uier t)cnica estadstica! De esta forma el analista consigue un entendimiento b$sicode sus datos y de las relaciones e%istentes entre las ariables anali+adas!

    "l primer paso del #!"!D! es hacer accesibles los datos a cual*uier t)cnica estadstica, esdecir, la seleccin del m)todo de entrada y codificacin de los datos! La codificacin se lapuede reali+ar a tra)s de algn pa*uete estadstico, el mismo *ue nos permitir$manipular los datos antes de reali+ar el an$lisis y tambi)n nos permite asociar a la basede datos utili+ada, un libro de cdigos en el *ue se detallen los nombres de las ariablesutili+adas, su tipo y su rango de alores, su significado as como las fuentes de donde sehan sacado los datos!

    -na e+ organi+ados los datos se procede a reali+ar un an$lisis estadstico gr$fico ynum)rico de las ariables de estudio para tener una idea de la informacin contenida enel con(unto de datos y detectar posibles fallas en la codificacin de los mismos! "l tipo de

    an$lisis depender$ de la escala de medida de la ariable anali+ada!

    Las ariables cualitatias aparecen como categora o como atributo, en las cuales puedehaber un orden o no, es decir pueden ser ordinales o nominales!

    Las ariables cuantitatias se e%presan num)ricamente, en ellas tenemos las ariablesdiscretas y continuas!

    "s importante ealuar la normalidad de todas las ariables incluidas en el an$lisis para locual e%isten arios m)todos *ue pueden diidirse en dos grupos. los m)todos gr$ficos ylos contrastes de hiptesis!

    "l m)todo gr$fico uniariante m$s simple para diagnosticar la normalidad es una

    comprobacin isual del histograma *ue compare los alores de los datos obseradoscon una distribucin normal, aun*ue para muestras pe*ueas no sera coneniente ya*ue podra distorsionar la representacin isual de tal forma *ue el an$lisis sea pocofiable!

    ambi)n se puede reali+ar diagramas de cuantiles ya *ue comparan en un sistema decoordenadas cartesianas, los cuantiles muestrales con los cuantiles esperados ba(o lahiptesis normalidad! i la distribucin de partida es normal dichos diagramas tender$n a

  • 7/23/2019 Lafuente Byron

    2/3

    ser rectas *ue pasan por el origen! uanto m$s se desen de una recta menos normalser$n los datos!

    3ara comprobar la normalidad a tra)s de un contraste de hiptesis tenemos el test de4olmogoromirno en donde la hiptesis nula *ue se pone a prueba es *ue los datosproceden de una poblacin con distribucin normal frente a una alternatia de *ue no es

    as! i la distancia calculada es mayor *ue la encontrada en las tablas, fi(ado un niel designificacin, se recha+a el modelo normal!

    "l contraste de hapiro y 6il7s se utili+a para muestras pe*ueas &n890', este test sebasa en calcular el coeficiente de correlacin entre %&i' y i,n y cuanto m$s cerca de 1est), mayor ser$ el grado de normalidad de la distribucin! :tros contrastes muyutili+ados son los test de asimetra y curtosis, si es cierta la hiptesis de normalidadambos se distribuyen asintticamente segn una ;&0,1'!

    e puede alcan+ar la normalidad de una ariable a tra)s de la transformacin de lamisma, en ocasiones la falta de normalidad a ligada a un problema deheterocedasticidad, para lo cual una transformacin til es la transformacin de Bo%o%!

    "l an$lisis estadstico bidimensional consiste en anali+ar la e%istencia de posiblesrelaciones entre las ariables, en donde se puede dar tres situaciones.uando ambas ariables son cualitatias, donde para su an$lisis se utili+a una tabla decontingencia, la cual nos permite estudiar si las ariables son o no independientes, si sonindependientes *uiere decir *ue no e%iste relacin entre ellas!uando ambas ariables son cuantitatias, donde la distribucin con(unta de dos ariablespuede e%presarse gr$ficamente mediante un diagrama de dispersin *ue proporciona unabuena descripcin de la relacin entre las dos ariables!La relacin entre las ariables tambi)n puede e%presarse forma num)rica! -na medida dela relacin entre dos ariables *ue resuma la informacin del gr$fico de dispersin y *ueno dependa de las unidades de medida es el coeficiente de correlacin lineal! uando lasariables est$n relacionadas linealmente de forma e%acta, el coeficiente de correlacin

    lineal ser$ igual a uno en alor absoluto! uando las ariables no est$n relacionadaslinealmente entre s, el coeficiente de correlacin lineal es cero! 3ara interpretar estecoeficiente coniene mirar siempre el diagrama de dispersin de los datos paracomprobar *ue son homog)neos y *ue no e%isten datos atpicos! uando se estudia larelacin entre dos ariables es importante asegurarse de *ue los indiiduos estudiadosson homog)neos respecto a dichas ariables!

    La linealidad es un supuesto implcito de todas las t)cnicas multiariantes basadas enmedidas de correlacin, es una forma indirecta de contrastar la normalidad con(unta dedos ariables dado *ue si dicha hiptesis es cierta la relacin e%istente entre ellas deber$ser lineal! Dado *ue las correlaciones representan solo la asociacin lineal entreariables, los efectos no lineales no estar$n representados en el alor de la correlacin!

    Los diagramas de dispersin matriciales se a(ustan particularmente cuando se aplicant)cnicas multiariantes, ya *ue permiten anali+ar, de forma simult$nea, las relacionese%istentes entre un grupo de ariables cuantitatias! onsiste en representar losdiagramas de dispersin para todas las combinaciones de las ariables anali+adas!

    uando una ariable es cuantitatia y la otra cualitatia, el estudio se enfoca como unproblema de comparacin del comportamiento de la ariable num)rica en las diferentessubpoblaciones *ue define la ariable cualitatia!

  • 7/23/2019 Lafuente Byron

    3/3

    -na forma de reali+ar dicho an$lisis es mediante los diagramas de ca(as y los test dediferencias de medias!

    La homocedasticidad es una hiptesis *ue se refiere a suponer la igualdad de arian+asde las ariables dependientes en diersos grupos formados por los distintos alores de lasariables independientes! 3ara ello se utili+an contrastes de hiptesis cuya finalidad es

    anali+ar la e%istencia de esta igualdad *ue muchas eces no se da!

    #l hablar de datos atpicos se refiere a las obseraciones con caractersticas diferentes alos dem$s, es decir no son representatios! 3or ende se debe ealuar el tipo deinformacin *ue pueden proporcionar! Los casos atpicos pueden darse por un error deentrada de datos o de codificacin, una obseracin *ue ocurre como consecuencia de unacontecimiento e%traordinario, obseraciones cuyos alores caen dentro del rango de lasariables obseradas pero *ue son nicas en la combinacin de los alores de dichasariables y las obseraciones e%traordinarias para las *ue el inestigador no tienee%plicacin! "stos casos atpicos pueden identificarse desde una perspectia uniariante ymultiariante! 3ara la deteccin de casos atpicos multiariantes se utili+a el #n$lisis deomponentes 3rincipales!

    "n el caso de la presencia de datos ausentes el inestigador deber$ determinar lasra+ones *ue subyacen en el dato ausente buscando entender el proceso principal de estaausencia para poder tomar medidas apropiadas!

    "l #"D proporciona m)todos sencillos para organi+ar y preparar los datos, detectar fallosen el diseo y recogida de datos, el tratamiento y ealuacin de datos ausentes, laidentificacin de casos atpicos y comprobacin de los supuestos subyacentes en lamayor parte de las t)cnicas multiariantes &linealidad, normalidad, homocedasticidad'!

    "n esta leccin se han mostrado los pasos a seguir para llearlo a cabo ilustrando suaplicacin mediante e(emplos sacados de problemas reales anali+ados por los autores!

    oniene hacer notar, finalmente, la importancia de estas t)cnicas y la necesidad de