tablas

53
Análisis de variables categóricas Santiago de la Fuente Fernández

Upload: sergio-ramos

Post on 01-Oct-2015

4 views

Category:

Documents


0 download

DESCRIPTION

tablas

TRANSCRIPT

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez1

    VARIABLESCUALITATIVAS

    Lasvariablescualitativassonaquellascuyosvaloressonunconjuntodecualidadesnonumricasalasqueselesuelellamarcategoras,modalidadesonivelesejemplos:sexo(mujer,hombre),filosofapoltica(liberal,moderada,conservadora),estadocivil(soltero,casado,divorciado,viudo),niveldeestudios(ninguno,primario,medio,universitario),etc.

    Unapropiedaddeseabledelascategorasesqueseanexhaustivas(proporcionensuficientesvaloresparaclasificaratodalapoblacin)ymutuamenteexcluyentes(cadaindividuoseclasificaenunaysolounacategora).

    Aprimeravista,laexhaustividadpuedeparecermuyrestrictiva:puedequesedeseesaberqueopinanlosliberalesyconservadoresfrentealalegalizacindelaborto.Enestecaso,lacuestinseresuelveredefiniendolapoblacinmedianteeliminacindelosmoderados.

    CLASIFICACINDEVARIABLESCUALITATIVAS

    Hayvariasformasdeclasificarlasvariablescualitativas:

    1. Variablesdicotmicasypolitmicas(segnelnmerodecategoras)

    Dicotmicas:Solohaydosmodalidades.Ejemplo,padecerunaenfermedad(S,No),Sexo(Hombre,Mujer),Resultadodeunaoposicin(Aprobar,Suspender),engenerallosfenmenosderespuestabinaria.

    Politmicas:Cuandohaymasdedoscategoras.Ejemplo,fenmenosderespuestamltiple,lugardenacimiento,clasesocial,etc.

    2. Escalasnominal,ordinalyporintervalos(segnlaescalademedidadelascategoras)

    Nominal:Nosepuededefinirunordennaturalentresuscategoras,porejemplo,laraza(blanca,negra,otra),lareligin(catlica,juda,protestante,otra),etc.

    Ordinal:Esposibleestablecerrelacionesdeordenentrelascategorasloconduceaestablecerrelacionesdetipomayor,menor,igualopreferenciaentrelosindividuos.Porejemplo,elrangomilitar(soldado,sargento,teniente,otro),laclasesocial(alta,media,baja),etc.Sinembargo,nosepuedenevaluardistanciasabsolutasentrecategoras.As,sepuededecirqueunapersonadeclasealtatienemayorpoderadquisitivoqueunapersonadeclasemedia,peronosepuededecirexactamenteculesladiferenciaenpoderadquisitivoentreambas.

    PorIntervalo:Procedendevariablescuantitativasagrupadasenintervalos.Estasvariablespuedensertratadascomoordinalesperoparaellassepuedencalcular,adems,distanciasnumricasentredosnivelesdelaescalaordinal,ejemplosdeestetiposonelsueldo,laedad,losdasdelmesoelniveldepresinsangunea.

    Existenvariablesquepuedensermedidasenescalanominal,ordinalocuantitativa.Porejemplo,eltipodeeducacin(privado,pblico)esnominal,elniveldeeducacin(primaria,secundaria,universitaria,postgraduado)esordinal,yelnmerodeaosdeeducacin(0,1,2,...)escuantitativa.

    Losmtodosestadsticospropiosparaanalizarvariablesnominalespuedenserusadosparavariablesordinalesperonoalrevs.Lomejoresusarmtodosapropiadosparacadatipodeescala.

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez2

    TABLASDECONTINGENCIA:VARIABLESNOMINALES

    Variablenominalesaquellaqueconllevainformacinsobreunconjuntodevaloresnoordenado.

    Latabladecontingenciarecoge ijn incidenciasentredosvariablesnominales )y,x( ji

    YX 1

    y 2y ....... jy ....... my

    1x11n)e( 11

    12n)e( 12 .......

    j1n)e( j1

    ....... m1n

    )e( m11N

    2x21n)e( 21

    22n)e( 22 .......

    j2n)e( j2

    ....... m2n

    )e( m22N

    MM

    MM

    MM

    MM .......

    MM

    MM

    ix1in)e( 1i

    2in)e( 2i

    ....... ijn)e( ij

    ....... imn

    )e( imiN

    MM

    MM

    MM ....... .......

    MM

    MM

    kx1kn)e( 1k

    2kn)e( 2k

    ....... kjn

    )e( kj....... km

    n)e( km

    kN

    1N 2N jN mN N

    =

    = m1j

    iji nN

    =

    = k1i

    ijj nN

    ==j

    ji

    i NNN

    Seanalizandosvariables(queadmitendistintasmodalidades)medianteunatabladecontingencia,endondeunaocupalasfilasyotralascolumnas.Lainterseccinentreunafilayunacolumnadalugaraunaceldaocasilla,cuyafrecuenciaobservadaes ijn

    Secontrastalahiptesisnulaquepresuponelaindependenciaentreambasvariables,medianteelestadstico 2 dePearson.

    adependenciderelacinunaExiste:H

    ntesindependiesoniablesvarAmbas:H

    1

    0

    Sedefineelestadsticoobservado:

    2 )1m(.)1k(k

    1i

    m

    1j ij

    2ijij

    e

    )en(= =

    =

    quesigueasintticamenteunadistribucin 2 con )1m(.)1k( gradosdelibertadsiesciertalahiptesisnula 0H ,con 5eij > , ki1 , mj1 (encasocontrario,esnecesarioagruparfilasocolumnascontiguas).

    Laregincrticaparaelcontrastedeindependenciasedetermina: [ ] = 02 )1m(.)1k( H/kPAs,pues,paraunniveldesignificacin :

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez3

    Muyfrecuentemente,seutilizaparaversiexisteonorelacinentreloscaracteres(X,Y),esdecir,sisononoindependientes.Entoncesrecibeelnombredecontrastedeindependenciadecaracteres:

    0

    0

    HaceptaSe05,0)(tticasina.Sig

    HrechazaSe05,0)(tticasina.Sig

    value_p

    value_p

    Entablas2x2lasdecisionesconcernientesalusodelaprueba 2 debeguiarseporlasrecomendacionesdeCochran:

    YX 1

    y 2y

    1x 11n 12n 1211 nn +2x 21n 22n 2221 nn +

    2111 nn + 2212 nn + N

    ) Cuando 40N> sedebeutilizarcorregidaporlacontinuidad:

    )nn()nn()nn()nn(

    2N

    n.nn.nN

    2212211122211211

    2

    2112221121 ++++

    =

    ) Cuando 40N20 ,sedebeutilizarsiemprequelasfrecuenciasesperadas )5e( ij > seansuperioresa5.SifuesemspequeaseutilizaralaPruebaexactadeFisher.

    ) Cuando 20N< seutilizasiemprelaPruebaexactadeFisher.PRUEBAEXACTADEFISHER.Esunatcnicavlidatantoparadatosnominalesuordinales,siemprequelamuestraseapequea.

    Lapruebadeterminasilosgruposdifierenenlaproporcincorrespondientealasclasificaciones.

    Secaracterizaporquenoutilizaunaaproximacindeprobabilidadsinoladistribucindeprobabilidadexactadelaconfiguracindelasfrecuenciasobservadas.

    Comoparatotalesmarginalesfijos,ladistribucindeprobabilidaddelasfrecuenciasobservadassigueunaleyhipergeomtrica,enelcasodequelasdosvariablesobservadasseanindependienteslaprobabilidadpdeobtenercualquierdisposicindelas ijn vienedadapor:

    !N!n!n!n!n

    )!nn()!nn()!nn()!nn(p

    22211211

    2212211122211211 ++++=

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez4

    Test Test+ MarginalHombres 10 0 10Mujeres 4 5 9Marginal 14 5 19

    0108,0!19!5!4!0!10

    )!50()!410()!54()!010(p =++++=

    Laprobabilidaddeladistribucindefrecuenciases 0108,0p = .

    Ahorabien,enesteejerciciohasidofcildecalcularporqueenunadelasceldillasexisteunafrecuenciacero.

    Enotroejemplo,dondenoexisteunceroenningunaceldilla:

    (b) Test Test+ MarginalHombres 1 6 7Mujeres 4 1 5Marginal 5 7 12

    04399,0!12!1!4!6!1

    )!16()!41()!14()!61(pb =++++=

    Sinalterarlostotalesmarginales,unaposibilidadmsextremaseralaqueapareceenlatabla:

    (c) Test Test+ MarginalHombres 0 7 7Mujeres 5 0 5Marginal 5 7 12

    00126,0!12!0!5!7!0

    !7!5!5!7pc ==

    Laposibilidaddeocurrenciadelatablaes:

    =

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez5

    31040,0p = eslaprobabilidadencontradaconlapruebaFisher,quesiendomayorqueelniveldesignificacin 05,0= ,conducearechazarlahiptesisnula.LaprobabilidaddeTocherdeterminaantestodosloscasosextremos(b)y(c)sinincluiranelobservado(a),conlocual: 04525,000126,004399,0pp cb =+=+

    Yrecomiendaelclculodelaproporcin:a

    cbT P

    )PP()teaisladamenobservadoscasos(p)extremosrarosmscasos(p

    p+==

    0179,026515,0

    04525,005,0pT ==

    MEDIDASDEASOCIACIN

    Encasoderechazarlaindependenciaentrelosdosfactoresdeunatabladecontingencia,seplantealanecesidaddedefinirndicesquedescribannosololaintensidaddelaasociacin,sinotambinsudireccin.Elestudiodeestosndices,queseconocenconelnombregenricodemedidasdeasociacin.

    Paradetectarlasfuentesdeasociacinexistendiferentesmtodos,unosdirectos,yotrosdeconversinentablas2x2.Entrelosdirectos,elanlisisderesiduos,yentrelossegundos,laparticindelatablaoriginalentablas2x2.

    ANLISISDELOSRESIDUOS

    Losresiduossonlasdiferenciasentrelafrecuenciaobservadaylafrecuenciaesperadaencadacasilla: ijijij enr = .Enelcasodequeelcontrastede 2 hayaresultadosignificativo,estosresiduosindicarnqucasillascontribuyenenmayorgradoalvalordelestadstico.

    Cuantomayorseaelvalordelosresiduosmayoreslaprobabilidaddequeunadeterminadacombinacindevaloresdelasvariables,estoes,unacasilla,seasignificativa.

    Paraqueelanlisisdelosresiduosresulteadecuadoesnecesarioquepreviamentestoshayansidoajustadosyestandarizados,paralocualsesueleaplicarlafrmulapropuestaporHaberman(1978),queconsisteendividirelvalordelresiduoencadacasillaporsuerrortpico.

    Residuostipificadosij

    ijijij e

    enr

    =

    Residuostipificadoscorregidos )1,0(N

    N

    N1

    N

    N1

    e/)en(

    )r(V

    rd

    ji

    ijijij

    ij

    ijij

    ==

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez6

    Ejemplo.Sealatablaadjunta,N

    N.Ne jiij

    = ,()valorSPSS

    OpininSistemaPblicoNivelrenta

    Bueno(1)

    Regular(2)

    Malo(3)

    Total

    Bajo(1)

    75)51e( 11 =

    35)48e( 12 =

    40)51e( 13 =

    150)150(

    Medio(2)

    60)2,61e( 21 =

    70)6,57e( 22 =

    50)2,61e( 23 =

    180)180(

    Alto(3)

    20)6,30e( 31 =

    30)8,28e( 32 =

    40)6,30e( 33 =

    90)90(

    MuyAlto(4)

    15)2,27e( 41 =

    25)6,25e( 42 =

    40)2,27e( 43 =

    80)80(

    Total170

    )170(

    160)160(

    170)170(

    500

    51500170.150

    e11 == 2,61500170.180

    e21 == 6,30500170.90

    e31 == 2,27500170.80

    e41 ==

    ij

    ijijij e

    enr

    = residuostipificados

    =

    N

    N1

    N

    N1)r(V jiij

    3,3607 1,5403 1,8764 0,4620 0,4620 0,71760,1534 1,4316 1,6338 0,4224 0,4224 0,43521,9162 1,6930 0,2236 0,5412 0,5412 0,55762,3392 2,4542 0,1186 0,5544 0,5544 0,5712

    3607,351

    5175r11 == 1534,0

    2,61

    2,6160r21 == 9162,16,30

    6,3020r31 == 3392,22,27

    2,2715e41 ==

    4620,0500170

    1500150

    1NN

    1N

    N1)r(V 1111 =

    =

    = 4224,0

    500170

    1500180

    1NN

    1N

    N1)r(V 1221 =

    =

    =

    )r(V

    rd

    ij

    ijij = residuostipificadoscorregidos4,9444 2,2661 2,71980,2360 2,2028 2,47662,6046 2,3098 0,29953,1416 3,2960 0,1569

    Comparandolosvaloresabsolutosdelosresiduostipificadoscorregidosconelcorrespondientevalortabulardelanormal,paraunniveldesignificacindel5%(>1,96),seobservaquemuchosresiduossonsignificativos.

    Analizandoestosvalores,tantoensusmagnitudescomoensusrangos,resultaelpatrn:.

    Subrayarqueestemtodosuponeunanlisisceldaacelda.Estadiferenciaseencuentraquemientraselcontrasteusualtrabajacon )1m()1k( elementosindependientes,elcontrasteporcadaceldaimplicaquelatotalidaddelosresiduostipificados ijd sonindependientesycadaunode

    ellosseajustaaunadistribucinterica )1,0(N .

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez7

    AnlisisdelosresiduosHaydiferenciassignificativas:

    1.Prescindiendodelsigno,losvalores>1,96

    2.Conlosvalores>1,96,seanalizaelsigno

    ) Signonegativo:frecuenciainferioralaterica,seinfiereunarelacinnegativaentrelosnivelesdelasvariables.

    )Signopositivo:relacinpositiva.

    EnSPSS:EnEditordedatosseintroducelatabladevalores.EnVistadevariablesseobservacomoenlavariable(Opinin_sistema_sanitario)sehanintroducidolosvalores(1=Bueno,2=Regular,3=Malo).Anlogamente,enlavariable(Nivel_renta)sehanintroducidolosvalores(1=Bajo,2=Medio,3=Alto,4=MuyAlto),ambasvariablesnominales;mientrasquelavariable(Frecuencia)lamedidaesescala.

    Enelmen[Analizar/Estadsticosdescriptivos/Tablasdecontingencia]seintroduceenFilas(Nivel_renta)yenColumnas(Opinin_sistema_sanitario).

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez8

    Enelbotn[Casillas]seseleccionanFrecuenciasyResiduos.

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez9

    Advirtasequeconlatabladelasfrecuenciasobservadas )n( ij yesperadas )e( ij secalculael

    estadstico 2 dePearson:N

    N.Ne jiij

    =

    OpininSistemaPblicoNivelrenta

    Bueno(1)

    Regular(2)

    Malo(3)

    Total

    Bajo(1)

    75)51e( 11 =

    35)48e( 12 =

    40)51e( 13 =

    150)150(

    Medio(2)

    60)2,61e( 21 =

    70)6,57e( 22 =

    50)2,61e( 23 =

    180)180(

    Alto(3)

    20)6,30e( 31 =

    30)8,28e( 32 =

    40)6,30e( 33 =

    90)90(

    MuyAlto(4)

    15)2,27e( 41 =

    25)6,25e( 42 =

    40)2,27e( 43 =

    80)80(

    Total170

    )170(

    160)160(

    170)170(

    500

    0492,405000492,540Ne

    n

    e

    )en(

    prcticomtodo

    4

    1i

    3

    1j ji

    2ji4

    1i

    3

    1j ij

    2ijij2

    62

    )13()14( ===== = == =48476

    Pulsandoelbotn[Estadsticos]seseleccionalaopcinChicuadrado.

    EnelVisorderesultadosdeSPSS:

    ChicuadradoElestadsticodecontraste(observado)es40,049,elcual,enladistribucin 2 tiene6gradosdelibertad(gl=6),tieneasociadaunaprobabilidad(Significacinasinttica)de0.

    Puestoqueestaprobabilidad(denominadanivelcrticooniveldesignificacinobservada)espequea(menorque0,05),sedeciderechazarlahiptesisnula,concluyendoqueexisteunarelacindedependenciaentreelnivelderentaylaopininsobrelaaceptacindelsistemapblico.

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez10

    Sealarquelarazndeverosimilitudes(RV)es39,693,tieneasociadaunaprobabilidad(Sig.asinttica)de0,quecomoesmenorque0,05,conducearechazarlahiptesisnula,concluyendoqueexistedependenciaentrelasvariablesanalizadas.

    Losestadsticos )RV,( 2 llevanalamismaconclusin,encasocontrario,seeligeelestadsticoconmenorSig.asinttica.

    RazndeverosimilitudChicuadrado(Fisher,1924;NeymanyPearson,1928):Seobtiene

    mediantelarelacin:

    =

    i j ij

    ijij e

    nlogn2RV

    Setratadeunestadsticoasintticamenteequivalentea 2 (sedistribuyeyseinterpretaigual)yesmuyutilizadoparaestudiarlarelacinentrevariablescategricas,particularmenteenelcontextodelosmodelosloglineales.

    0,05)seaceptalahiptesisnuladeacuerdonulo.SegnLandisyRoch(1977),siendo 20,0082,0

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez26

    ) Frecuencias: Frecuenciasobservadas:valorrealdecadapardevalores. Frecuenciasesperadas:valortericoquetuvieraquetenercadacasillaparaquefueran

    independienteslasvariables.

    ) Porcentajes: Porcentajeporfila:valordecadacasillaentreeltotalmarginaldesufila. Porcentajeporcolumna:valordecadacasillaentreeltotalmarginaldesucolumna. Porcentajetotal:valorquelafrecuenciaobservadadeunacasillarepresentarespectoal

    nmerototaldecasos.

    ) Residuos:Diferenciasentrelasfrecuenciasobservadasyesperadasdecadacasilla.Sontilesparainterpretarlaspautasdeasociacinenunatabla:

    Notipificados:Diferenciaentelafrecuenciaobservadayesperada. Tipificados:Eselresiduonotipificadodivididoporlarazcuadradadesucorrespondiente

    frecuenciaesperada.Elvaloresperadoes0ysudesviacintpicaesmenorque1,loquehacequenosepuedeninterpretarcomopuntuacionesnormalesz.Noobstante,sirvencomoindicadoresdelgradoenquecadacasillacontribuyealvalordelestadstico 2 ,sumandoelcuadradodetodoslosresiduostipificadosseobtieneelvalordechicuadrado.

    TipificadoscorregidosdeHaberman(1973):Residuosquesedistribuyenconpuntuacionesnormales )1,0(N ,seobtienendividiendoelresiduodecadacasillaporsuerrortpico.Al

    distribuirsenormalmente,soninterpretablesconmuchafacilidad,deestemodo,utilizandounniveldeconfianzade0,95,sepuedeafirmarquelosresiduosmayoresde1,96avisandecasillasconmscasosdelosquedeberahaberenesacasillasilasvariablesanalizadasfueranindependientes,mientrasquelosresiduosmenoresde1,96delatancasillasconmenoscasosdelosquedeberahaberenesacasillabajolahiptesisdeindependencia.Entablasdecontingenciaconvaloresnominales,unavezestablecidoqueentredosvariablesexisteunaasociacinsignificativa(conelestadsticochicuadrado),yhabiendocuantificadoestaasociacin(coeficientedecontingencia),losresiduostipificadoscorregidossonunaherramientamuytilparainterpretarelsignificadodelaasociacin.

    Tabladecontingenciaporcategoravascular:AnlisisdelosResiduos.

    Losresiduostipificadosfueradelintervalo [ ]96,1;96,1 ,porejemplo,enhombresymujeresquefumanconproblemasvasculares,existeunaproporcinsignificativamsaltaenlasmujeres(2,5frente1,3);mientrasqueentrelosnofumadoresexistenunaproporcinmsaltaenhombres(1,1frentea2,1).

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 28

    Ejercicio1.Tresmtodosdeempaquetadodetomatesfueronprobadosduranteunperododecuatromeses;sehizounrecuentodelnmerodekilospor1000quellegaronestropeados,obtenindoselatablaadjunta.Conunniveldesignificacinde0,05,tienenlostresmtodoslamismaeficacia?.

    Meses A B C Total1 6 10 10 262 8 12 12 323 8 8 14 304 9 14 16 39

    Total 31 44 52 127

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 29

    Paratomarunadecisinsobresihaydiferenciaentrelosdiferentesmtodosdeempaquetado,secontrastalahiptesisnula,H0:Nohaydiferenciaentrelosdiferentesmtododeempaquetado,medianteuna 2 dePearson.

    Seintroducenlosdatosporfilasycolumnas.

    Mostrarlosgrficosdebarrasagrupadas:Activandolaopcin,elVisorderesultadosmuestraungrficodebarrasconlascategorasdelavariablefila(ejedeabscisas)ylascategorasdelavariablecolumnaanidadasdentrodelascategorasdelavariablefila.

    Enconsecuencia,cadabarrarepresentaunacasilla,ysualturavienedadaporlafrecuenciadelacasilla.

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 30

    Suprimirtablas:Estaopcinpuedeactivarsesinosedeseaningunatabladecontingencia,estadecisintendrasentidosisoloseestuvierainteresadoenobtenerungrficodebarrasoalgunodelosestadsticosomedidasdeasociacindisponiblesenelprocedimientoTablasdecontingencia.

    Paravisualizarfrecuenciasobservadas )n( ij yesperadas )e( ij enSPSS:

    EmpaquetadoMeses A B C iN

    16

    )35,6e( 11 =10

    )01,9e( 12 =10

    )62,10e( 13 =26

    )26(

    28

    )81,7e( 21 =12

    )09,11e( 22 =12

    )10,13e( 23 =32

    )32(

    38

    )32,7e( 31 =8

    )39,10e( 32 =14

    )28,12e( 33 =30

    )30(

    49

    )52,9e( 41 =14

    )51,13e( 42 =16

    )97,15e( 43 =39

    )39(

    jN 31 44 52 127N=

    35,612731.26

    e11 == 81,712731.32

    e21 == 32,712731.30

    e31 == 52,912731.39

    e41 ==

    01,912744.26

    e12 == 09,1112744.32

    e22 == 39,1012744.30

    e32 == 51,1312744.39

    e42 ==

    65,10127

    52.26e13 == 10,13127

    52.32e23 == 28,12127

    52.30e33 == 97,15127

    52.39e43 ==

    Estadsticodecontraste: 24,112724,128ne

    n4

    1i

    3

    1j ji

    2ji2

    62

    )13()14( ==== = =

    (estadsticoobservado)

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 31

    Elestadsticotericooesperado 592,122 6;05,0 =

    Como 592,1224,1 2 6;05,026 =0,05),sedecideaceptarlahiptesisnula,yseconcluyequelostresmtodosdeempaquetadotienenlamismaeficiencia.

    RazndeverosimilitudChicuadrado:Siendo, 2 6;05,04

    1i

    3

    1j ij

    ijij 592,12274,1e

    nlogn2RV =

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 32

    EnelanlisisdeMEDIDASSIMTRICASseencuentranlasmedidasnominales,medidasordinales,coeficientedecorrelacindeSpearmanyelcoeficientedecorrelacindePearson.

    Lasmedidasnominalespermitencontrastarlaindependenciasindecirnadasobrelafuerzadeasociacinentrelasvariables,informannicamentedelgradodeasociacinexistente,nodeladireccinodelanaturalezadetalasociacin.Sonmedidasbasadasenelestadsticochicuadrado:Phi,VdeCrameryelCoeficientedeContingencia.

    Lasmedidasordinalesquerecogenladireccindelaasociacindelasvariables:unarelacinpositivaindicaquelosvaloresaltosdeunavariableseasocianconlosvaloresaltosdelaotravariable,ylosvaloresbajosconlosvaloresbajos;unarelacinnegativaindicaquelosvaloresaltosdeunavariableseasocianconlosvaloresbajosdelaotravariable,ylosvaloresbajosconlosvalorealtos.

    Estasmedidassebasanenelconceptodeconcordancias(oinversin)ydiscordancias(onoinversin).Lasmedidasdeasociacin(Gamma,Taub,Tauc)utilizanenelnumeradorladiferenciaentreelnmerodeconcordanciasoinversionesydiscordanciasonoinversionesresultantesdecompararcadacasoconotro,diferencindoseeneltratamientodadoalosempates.

    Cadamedidadeasociacinapareceacompaadadesucorrespondientenivelcrtico(Sig.aproximada),permitiendodecidirsobrelahiptesisdeigualdaddeeficiencia,puestoqueelnivelcrticodetodaslasmedidaslistadasesgrande(mayorque0,05entodosloscasos)seaceptalahiptesisnuladeigualdaddeeficiencia.

    Alladodelvalordecadacoeficienteseencuentrasuvalorestandarizado(Taproximada:valordelcoeficientedivididoporsuerrortpico),ascomoelerrortpicodelvalordecadacoeficienteobtenidosinsuponerindependencia(Errortpicoasinttico).

    Phi: 099,0127240,1

    N

    2

    ===

    VdeCRAMER: 07,02.127

    240,1)13,14min(.127

    240,1)1m,1kmin(.N

    V2

    Cramer ====

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 33

    CoeficientedeContingencia(gradoderelacinodependencia):

    098,0127240,1

    240,1

    NC 2

    2

    =+=+= } }

    perfectaasociacin

    ciaindependen

    1C0

    Paracalcularloscoeficientesordinales(Taub,TaucyGamma)serequieresaberelnmerodeparesconcordantes(C),discordantes(D)yempates(E).Partiendodelainformacinobtenida:

    Meses A B C1 6 10 102 8 12 123 8 8 144 9 14 16

    Nmerodeparesconcordantes:surgendelproductodelasceldasexternasporelsumandodelasfrecuenciasdelasceldasinternas.

    6 10 10 6 10 10 6 10 108 12 12 8 12 12 8 12 128 8 14 8 8 14 8 8 149 14 16 9 14 16 9 14 16

    456)16141481212(6 =+++++ 420)161412(10 =++ 416)1614148(8 =+++

    6 10 10 6 10 10 6 10 108 12 12 8 12 12 8 12 128 8 14 8 8 14 8 8 149 14 16 9 14 16 9 14 16

    360)1614(12 =+ 240)1614(8 =+ 128)16(8 =

    2020128240360416420456C =+++++= nmerodeparesconcordantesNmerodeparesdiscordantes:razonamientoanlogo,partiendodelaceldaopuesta.

    6 10 10 6 10 10 6 10 108 12 12 8 12 12 8 12 128 8 14 8 8 14 8 8 149 14 16 9 14 16 9 14 16

    590)14988128(10 =+++++ 250)988(10 =++ 468)14988(12 =+++

    6 10 10 6 10 10 6 10 108 12 12 8 12 12 8 12 128 8 14 8 8 14 8 8 149 14 16 9 14 16 9 14 16

    204)98(12 =+ 322)149(14 =+ 72)9(8 =

    190672322204468250590D =+++++= nmerodeparesdiscordantes

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 34

    Comopredominanlasconcordancias(2020),larelacinespositiva,amedidaqueaumentan(odisminuyen)losvaloresdeunadelasvariables,aumentan(odisminuyen)losdelaotra.

    Clculodeparesempatados )E( X enlavariableX:

    68 88 8 89 9 9

    150)988(6 =++ 136)98(8 =+ 72)9(8 =

    1012 128 8 814 14 14

    340)14812(10 =++ 264)148(12 =+ 112)14(8 =

    1012 1214 14 1416 16 16

    420)161412(10 =++ 360)1614(12 =+ 224)16(14 =

    ElnmerodeparesempatadosenlavariableXser:

    207822436042011226434072136150EX =++++++++=

    Clculodeparesempatados )E( Y enlavariableY:

    6 10 108 12 12

    8 8 14

    120)1010(6 =+ 192)1212(8 =+ 176)148(8 =+

    10 1012 12

    8 14

    100)10(10 = 144)12(12 = 112)14(8 =

    9 14 16 14 16

    270)1614(9 =+ 224)16(14 =

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 35

    ElnmerodeparesempatadosenlavariableYser:

    1338224270112144100176192120EY =+++++++=

    Elclculodeparesempatadosenambasvariablesvieneexpresado: =j,i

    ijijXY 2

    )1n(nE

    Meses A B C

    1 6(15)

    10(45)

    10(45)

    2 8(28)

    12(66)

    12(66)

    3 8(28)

    8(28)

    14(91)

    4 9(36)

    14(91)

    16(120)

    = =

    ==4

    1i

    3

    1j

    ijijXY 6592

    )1n(nE

    Calculadoselnmerodeparesdevaloresconcordantes,discordantes,yempates,sepuededeterminarlosdistintoscoeficientesparadeterminarelgradodeasociacinentrelasvariablesordinales.

    Eltotaldeparesdevaloresqueesposibleencontrar(T),sinrepeticiones,siendoNeltotaldecasos,vienedadoporlaexpresin:

    80012126.127

    2)1N(N

    T ===

    Advirtaseque, 80016591338207819062020EEEDCT XYYX =++++=++++=

    Gamma(losempatessonirrelevantes): 029,01906202019062020

    DCDC =+

    =+=

    TauadeKendall:

    0142,08001

    )19062020(T

    )DC(a ===

    TaubdeKendall:

    0203,0)133819062020()207819062020(

    )19062020(

    )EDC()EDC(

    )DC(

    YXb =++++

    =++++=

    TaucdeKendall:

    021,02.127

    )19062020(3.2

    )1m(N

    )DC(m222c ==

    = donde { }columnasn,filasnmnm=

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 36

    EnelanlisisdeMEDIDASDIRECCIONALESseencuentranlasmedidasnominales(lambda,coeficientedeincertidumbre),medidasordinales(ddeSomers),yelnominalporintervalo(eta).

    Elvalordeloscoeficientesapareceacompaadodesucorrespondientenivelcrtico(Sig.aproximada),puestoqueelnivelcrticodetodaslasmedidaslistadasesgrande )05,0(> seaceptalahiptesisnuladeindependencia,concluyendoquelosmesesyelmtododeempaquetadonoestnrelacionados.

    Meses A B C Totalmarginal

    1 6 10 10 26N1 = 10nmx j1 =2 8 12 12 32N2 = 12nmx j2 =3 8 8 14 30N3 = 14nmx j3 =4 9 14 16 39N4 = 16nmx j4 =

    Totalmarginal 31N 1 = 44N 2 = 52N 3 = 127N= 52nmx4

    1iij

    j=

    =

    39nmx3

    1jij

    i=

    =9nmx 1i = 14nmx 2i = 16nmx 3i =

    CoeficienteLambda:

    05239127.252393952

    NmxNmxN2

    NmxNmxnmxnmx

    jj

    ii

    ij

    ji

    ijij

    iij

    j =+=

    +=

    coeficientelambda

    Enconsecuencia,lasvariablesanalizadassonindependientesalser 0=

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 37

    CoeficientedeGoodmanyKruskall(variableXdependiente):

    003,02578,94

    2578,94551,94

    N)NN(N1

    N

    n)nN(N)NN(

    N1

    iii

    i j j

    ijijjii

    ==

    =

    taudeGoodmanyKruskall

    [ ] 551,9439)39127(30)30127(32)32127(26)26127(1271

    N)NN(N1 4

    1ii =+++==

    322,8852

    16)1652(14)1452(12)1252(10)1052(

    4414)1444(8)844(12)1244(10)1044(

    319)931(8)831(8)831(6)631(

    N

    n)nN(

    j j

    ijijj

    =

    ++++

    +

    ++++

    +

    +++=

    CoeficientedeGoodmanyKruskall(variableYdependiente):

    005,0898,82

    456,82898,82

    N)NN(N1

    N

    n)nN(N)NN(

    N1

    jjj

    j i i

    ijijijj

    ==

    =

    [ ] 898,8252)52127(44)44127(31)31127(1271

    N)NN(N1 3

    1jj =++==

    456,8239

    16)1639(14)1439(9)939(30

    14)1430(8)830(8)830(

    3212)1232(12)1232(8)832(

    2610)1026(10)1026(6)626(

    N

    n)nN(

    i i

    ijiji

    =

    +++

    +++

    +

    +++

    ++=

    CoeficientedeIncertidumbre:)Y(I

    )XY(I)Y(I)X(II X/Y

    +=

    iN N/Ni )N/N(Ln i )N/N(Ln)N/N( ii jN N/N j )N/N(Ln j )N/N(Ln)N/N( jj 26 0,2047 1,5861 0,3247 31 31 0,2441 1,410232 0,2520 1,3785 0,3473 44 44 0,3465 1,060030 0,2362 1,4430 0,3409 52 52 0,4094 0,892939 0,3071 1,1806 0,3626 127N= 1,0771127N= 1,3755

    3755,1N

    NLn

    N

    N)X(I i

    i

    i =

    = 0771,1

    N

    NLn

    N

    N)Y(I j

    j

    j =

    =

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 38

    )N/n( ij )N/n(Ln ij )N/n(Ln)N/n( ijij

    0,0472 0,079 0,079 3,0524 2,5416 2,5416 0,1442 0,2001 0,20010,0630 0,094 0,094 2,7647 2,3593 2,3593 0,1742 0,2229 0,22290,0630 0,063 0,110 2,7647 2,7647 2,2051 0,1742 0,1742 0,24310,0709 0,110 0,126 2,6470 2,2051 2,0716 0,1876 0,2431 0,2610

    4475,2)N/n(Ln)N/n(i

    ijj

    ij =

    4475,2N

    nLn

    N

    n)XY(I

    i

    ij

    j

    ij =

    =

    00416,00771,13755,1

    4475,20771,13755,12

    )Y(I)X(I)XY(I)Y(I)X(I

    2I X/Y =++=+

    += (simtrica)

    Paraobtener Y/XI bastaintercambiarlospapelesdeI(X),I(Y).

    ddeSommer(simtrica):

    020,0

    213382078

    19062020

    )19062020(

    2EE

    DC

    )DC(d

    YX=

    +++=

    +++=

    VariableYcomoindependiente: 019,0207819062020)19062020(

    EDC)DC(

    dX

    X =++=++

    =

    VariableXcomoindependiente: 022,0133819062020)19062020(

    EDC)DC(

    dY

    Y =++=++

    =

    Ejercicio2.Sequiereestudiarlarelacinentrelaedaddelasmujeresysuaceptacindeunaleysobreinterrupcindelembarazo.Paraellosehallevadoacabounaencuestasobre400mujerescuyosresultadosseadjuntanenlatabla:

    AceptacinEdad Baja Media Alta

    018 21 34 251835 24 31 253550 30 30 205065 37 30 13>65 40 30 10

    ConelEditordedatosdeSPSS:

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 39

    EnelVisorderesultadosdeSPSS:

    Comparandolosvaloresabsolutosdelosresiduostipificadoscorregidosconelcorrespondientevalortabulardelanormal,paraunniveldesignificacindel5%(>1,96),seobservaquemuchosresiduosnosonsignificativos.

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 40

    Analizandoestosvalores,tantoensusmagnitudescomoensusrangos,resultaelpatrn:.

    Subrayarqueestemtodosuponeunanlisisceldaacelda.Estadiferenciaseencuentraquemientraselcontrasteusualtrabajacon[ 8)13()15( = ]elementosindependientes,elcontrasteporcadaceldaimplicaquelatotalidaddelosresiduostipificados ijd sonindependientesycadaunode

    ellosseajustaaunadistribucinterica )1,0(N .

    Elvalordelestadsticodecontraste(observado)es 283,19 ,elcual,enladistribucin 2 tiene8gradosdelibertad(gl=8),tieneasociadaunaprobabilidad(Significacinasinttica)de 013,0 .

    Puestoqueestaprobabilidad(denominadanivelcrticooniveldesignificacinobservada)espequea(menorque0,05),sedeciderechazarlahiptesisnula,indicandoquehayevidenciadeasociacinentreelgradodeaceptacindelabortoylaedaddelasmujeres.

    Sealarqueelvalordelarazndeverosimilitudes(RV)es19,945,tieneasociadaunaprobabilidad(Sig.asinttica)de 011,0 ,quecomoesmenorque0,05,indicandoquehayevidenciadeasociacinentreelgradodeaceptacindelabortoylaedaddelasmujeres.

    Losestadsticos )RV,( 2 llevanalamismaconclusin,encasocontrario,seeligeelestadsticoconmenorSig.asinttica.

    ElvalordelestadsticoAsociacinlinealporlineal(correccinporcontinuidaddeYates)tieneunvalorde 255,18 conunnivelcrticode )05,00( < ,porloqueserechazalahiptesisnuladeindependencia,llegandoalamismaconclusinqueconlosestadsticosanteriores.

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 41

    Elvalordecadacoeficienteapareceacompaadodesucorrespondientenivelcrtico(Sig.aproximada),quepermitetomarunadecisinsobrelahiptesisnuladeindependencia.Puestoqueestosnivelescrticossonmenoresque0,05,sepuedeafirmarquehayrelacinentrelaaceptacindelabortoylaedaddelasmujeres.

    Porsuparte,losvaloresobtenidosdelCoeficientedecontingenciayVdeCramer(comomedidasnominalescuantificanelgradodeasociacin)indicanunaasociacinbajaentrelaedaddelasmujeresylaaceptacindelaborto.

    Deotraparte,losvaloresobtenidosdelaTaubdeKendall,TaucdeKendall,GammayCorrelacindeSpearman(comomedidasordinalesindicanademseltipodeasociacin)presentanunaasociacinbajanegativa,esdecir,queelgradodeaceptacindelabortodisminuyealaumentarlaedad.

    LosvaloresobtenidosdeLambda,TaudeGoodmanyKruskall,Coeficientedeincertidumbre,yddeSomers(comomedidasnominalescuantificanelgradodeasociacin)indicanunaasociacinbajaentrelaedaddelasmujeresylaaceptacindelaborto.

    Cadamedidaacompaadadeunnivelcrtico(Sig.aproximada),queenloscasosqueesmenorque0,05,conducearechazarlahiptesisnuladeindependenciayconcluirquelasvariables(edaddelasmujeres,aceptacindelaborto)estnasociadas.

    Elvalor0,012delcoeficienteTaudeGoodmanyKruskallcalculadoconsideralavariableAceptacindelabortocomoindependiente,tienelainterpretacin:.

    Seconcluye,existeevidenciadeasociacinentreelgradodeaceptacindelabortoylaedaddelasmujeres,disminuyendoelgradodeaceptacinalaumentarlaedad.

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 42

    Ejercicio3.Paraanalizarsiladistribucindelosmotivosdeconsultaen4centrosdeatencinambulatoriapeditricaeransimilares,seclasificaronlasconsultasen6grupos:(1)Medicinapreventiva;(2)Infeccionesrespiratoriasaltas;(3)Otrasenfermedadesagudas;(4)Enfermedadescrnicas;(5)Traumatismoseintoxicaciones;y(6)Problemassociales.

    GrupomotivodeconsultaCentroMdico

    1 2 3 4 5 6 TotalA 350 87 65 12 23 23 560B 120 43 38 6 10 12 229C 426 67 34 7 45 67 646D 267 49 35 5 18 18 392

    Total 1163 246 172 30 96 120 1827

    ConelEditordeSPSS:

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 43

    Seiniciaelanlisisceldaaceldaconelbotn[Casillas]paracomprobarelusoadecuadodelachicuadrado,ascomoparaobtenerunpatrnenladistribucinobservada.

    Elporcentajedeceldas,conunafrecuenciaesperadamenorque5,estvinculadoalasexigenciasparalautilizacindelapruebaChicuadrado:(a)Menosdeun20%deceldasconfrecuenciaesperadamenorque5.(b)Ningunaceldaconfrecuenciaesperadamenorque1.

    Comparandolosvaloresabsolutosdelosresiduostipificadoscorregidosconelcorrespondientevalortabulardelanormal,paraunniveldesignificacindel5%(>1,96),seobservaquealgunosresiduossonsignificativos.

    Analizandoestosvalores,tantoensusmagnitudescomoensusrangos,resultaelpatrn:.

    Subrayarqueestemtodosuponeunanlisisceldaacelda.Estadiferenciaseencuentraquemientraselcontrasteusualtrabajacon[ 15)16()14( = ]elementosindependientes,elcontrasteporcadaceldaimplicaquelatotalidaddelosresiduostipificados ijd sonindependientesycadauno

    deellosseajustaaunadistribucinterica )1,0(N .

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 44

    Elvalordelestadsticodecontraste(observado)es 944,76 ,elcual,enladistribucin 2 tiene15gradosdelibertad(gl=15),tieneasociadaunaprobabilidad(Significacinasinttica)de 000,0 .

    Puestoqueestaprobabilidad(denominadanivelcrticooniveldesignificacinobservada)espequea(menorque0,05),sedeciderechazarlahiptesisnula,indicandoquehayevidenciadeasociacinentreelcentromdicoyelmotivodelasconsultas.

    Sealarqueelvalordelarazndeverosimilitudes(RV)es75,422,tieneasociadaunaprobabilidad(Sig.asinttica)de 000,0 ,quecomoesmenorque0,05,indicaquehayevidenciadeasociacinentreelgradodeaceptacinentreelcentromdicoyelmotivodelasconsultas.

    Losestadsticos )RV,( 2 llevanalamismaconclusin,encasocontrario,seeligeelestadsticoconmenorSig.asinttica.

    ElvalordelestadsticoAsociacinlinealporlineal(correccinporcontinuidaddeYates,cuandoseaproximaunavariablediscretaaunavariablecontinua,seaplicaalapruebadelachicuadradocuandolafrecuenciaenalgunasobservacionesesmenorque10)tieneunvalorde 021,0 conunnivelcrtico )05,0886,0( > ,porloqueseaceptalahiptesisnuladeindependencia.Noexisteunconsensogeneralizadosobrelautilizacindeestacorreccin.

    Elvalordecadacoeficienteapareceacompaadodesucorrespondientenivelcrtico(Sig.aproximada),quepermitetomarunadecisinsobrelahiptesisnuladeindependencia.Puestoqueestosnivelescrticossonmenoresque0,05,sepuedeafirmarquehayasociacinentreelcentromdicoyelmotivodelasconsultas

    Porsuparte,losvaloresobtenidosdelCoeficientedecontingenciayVdeCramer(comomedidasnominalescuantificanelgradodeasociacin)indicanunaasociacinbajaentreelcentromdicoyelmotivodelaconsulta.

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 45

    Deotraparte,losvaloresobtenidosdelaTaubdeKendall,TaucdeKendall,GammayCorrelacindeSpearman(comomedidasordinalesindicanademseltipodeasociacin)presentanunaasociacinbajanegativa.

    LosvaloresobtenidosdeLambda,TaudeGoodmanyKruskall,Coeficientedeincertidumbre,yddeSomers(comomedidasnominalescuantificanelgradodeasociacin,lacapacidaddehacerpronsticosdeunavariablerespectodelaotra)indicanunaasociacinbajaentreelcentromdicoyelmotivodelaconsulta,esdecir,lacapacidaddehacerpronsticosdeunavariablerespectodelaotraesrealmenteescasa.

    Cadamedidaacompaadadeunnivelcrtico(Sig.aproximada),enloscasosqueesmenorque0,05,conducearechazarlahiptesisnuladeindependenciayconcluirquelasvariables(centromdico,motivodelaconsulta)estnasociadas.

    Elvalor0,016delcoeficienteTaudeGoodmanyKruskallcalculadoconsideralavariableCentromdicocomoindependiente,tienelainterpretacin:.

    Endefinitiva,sepuedeconcluirqueelcentromdicoyelmotivodelasconsultasestnrelacionados,peroenningncasosepodraconsiderarunclarofactordepronsticosobrelasconsultas.

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 46

    (EstudiodeCasosyControles)

    Ejercicio4.Paraanalizarsilalactanciaconstituyeunfactordeproteccinparaelcncerdemama,unestudioincluya755mujeresmenoresde35aosdetodaslascomunidadesespaolas,alasquesediagnsticocncerdemamaduranteelperodo20002005.Loscontrolestenanunadiferenciadeedadconloscasosinferioraseismeses.Cadacasoycontrolfueroncontroladosporelmismoinvestigador.Losresultadosreflejanqueenelgrupodecasos,255mujeresrealizaronunalactanciaplenadealmenos3meses,mientrasqueentreloscontrolesesteantecedenteestabapresenteen487mujeres(delos255controlesdeloscasosquetuvieronunalactanciaplena,160lactarony95no,entantodelos500controlesdeloscasosquenolactaron,327silohabanhechoy173no).Losdatosquedanreflejadosenlasdostablassiguientes:

    CasosyControlesemparejadosCasosyControles Controles

    Casos Controles Total Casos Expuesto Noexpuesto TotalExpuesto 255 487 742 Expuesto 160 95 255

    Noexpuesto 500 268 768 Noexpuesto 327 173 500Total 755 755 1.510 Total 487 268 755

    281,0487.500268.255

    OR == 528,0742.500768.255

    RR == 891,095.327173.160

    OR == 959,0255.327500.160

    RR ==

    ) Enlosdiseoslongitudinaleshaciadelante,conocidoscomodiseosprospectivosodecohortes,lasmujeressonclasificadasendosgruposdependiendodelapresenciaoausenciadelactanciayseleshaceunseguimientoduranteunperododetiempohastadeterminarlaproporcindemujeresdecadagrupoenlosquesedaundeterminadodesenlace(cncerdemama).

    Lamedidadeinterseselriesgorelativo(RR):=121

    211

    N.nN.n

    RR

    Lainterpretacines:.Enestesentido,encasosycontroles,laproporcindecncerdemamademujeresexpuestases0,528msaltaqueentrelasmujeresnoexpuestas.Enelemparejamientodecasosycontroles,laproporcinaumentahasta0,959.

    Unriesgorelativode1indicaquelaprobabilidaddeencontrarcncerdemamaeslamismatantoenelgrupodemujeresexpuestascomoenelgrupodemujeresnoexpuestas.Paravalorarsielriesgoobtenidoessignificativamentedistintode1,secalculaelintervalodeconfianza:

    =

    ++221

    22

    111

    12.2/221

    22

    111

    12.2/ Nnn

    nnz

    Nnn

    nnz

    RR.N..N. e.RR,e.RRIC

    [ ] controlesycasos768.500268

    742.25548796,1

    768.500268

    742.25548796,1

    RR 590,0,472,0e.528,0,e.528,0IC..

    =

    =

    ++

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 47

    [ ] semparejado500.327173

    255.1609596,1

    500.327173

    255.1609596,1

    RR 075,1,856,0e.959,0,e.959,0IC..

    =

    =

    ++

    Sielintervalodeconfianzanocontieneel1,seconcluyequeelriesgodetenercncerdemamanoeslomismoentrelasmujeresexpuestasynoexpuestasalalactancia.

    ) Enlosdiseoslongitudinaleshaciaatrs,llamadosdiseosretrospectivosodecasocontrol,seformangruposdemujeres(lactaronynolactaron)apartirdelapresenciaoausenciadecncerdemamaysehaceunseguimientohaciaatrsintentandoencontrarinformacinsobrelaproporcinenlaqueseencuentrapresenteencadamuestraelcncerdemama.

    Puestoqueeltamaodelosgrupos(lactaronynolactaron)sefijaapartirdelapresenciaoausenciadelcncerdemama,secalculaoddsratio(razndeventajasorazndeproductoscruzadosoenqumedidaquelactaronesunriesgodetenercncerdemama):

    2112

    2211

    n.nn.n

    OR =

    Comoseobserva,eloddsratio(OR)estantomejorestimadordelriesgorelativocuantomspequeasseanlasproporcionesdedesenlaceencadagrupo.

    Unndicede1indicaquelaprobabilidaddeencontrarseconelcncerdemamaenlosgruposestudiadoseslamisma.Paradeterminarsiesteriesgoessignificativamentedistintode1,secalculaelintervalodeconfianza:

    = ++++++ 22211211.2/22211211.2/ n

    1n1

    n1

    n1z

    n1

    n1

    n1

    n1z

    OR e.OR,e.ORIC

    [ ] controlycaso2681

    5001

    4871

    255196,1

    2681

    5001

    4871

    255196,1

    OR 347,0,227,0e.281,0,e.281,0IC.. =

    = ++++++

    [ ] semparejado1731

    3271

    951

    160196,1

    1731

    3271

    951

    160196,1

    OR 219,1,651,0e.891,0,e.891,0IC.. =

    = ++++++

    PreparandodatosdevariablesdicotmicasparaintroducirenSPSS:

    Controles

    Casos Casos Expuesto(1) Noexpuesto(2)

    Expuesto(1) 164 40Expuesto(1)

    Noexpuesto(2) 32 64

    Expuesto(1) 41 10Noexpuesto(2)

    Noexpuesto(2) 48 96NOTA:Enelcasoderegresinlogsticalacodificacinde(2)hubierasido(0)paranoexpuesto

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 48

    Haciendodobleclicksobrelatabla,enelmenPivotar/PanelesdePivotado

    Pulsando,alaizquierda,enCasos,vanapareciendolasdostablasintroducidas.

    ElhechodequelatablanomuestreelvalordelestadsticodeMcNemarsignificaqueelnivelcrticosehacalculadoutilizandoladistribucinbinomial(obteniendolaprobabilidadexactaenlugardeaproximada).

    Cualquieraquesealaformadeobtenerlo,elnivelcrticoindicaelgradodecompatibilidadexistenteentrelosdatosmuestralesylahiptesisnuladeigualdaddeproporcionesantesdespus.

    Enelcasodelosexpuestos,comop_value0,05,seaceptalahiptesisnula,nohabiendoasociacinalgunaconelcncerdemama.

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 49

    Observandolasegundafila,paralacohorteControles=Expuesto,'LaproporcindecncerdemamaentrelasmujeresexpuestasesRR=0,528vecesmsaltaqueentrelasmujeresnoexpuestas'Enelemparejamientodecasosycontroles,laproporcinaumentahasta0,959.

    Paravalorarsielriesgoobtenidoessignificativo,secalculaelintervalodeconfianza.EnCasosyControlessiloes,mientrasqueenelEmparejamientodeCasosControlesnoloes,suintervalodeconfianzacubreel1,indicandoquelaprobabilidaddeencontrarcncerdemamaeslamismaenloscasosexpuestosynoexpuestos.

    Enlaprimerafilaapareceeloddsratio(OR),queestantomejorestimadordelriesgorelativocuantomspequeasseanlasproporcionesdedesenlaceencadagrupo.

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 50

    ElOR(razndeventajasoqumedidaquelactaronesunriesgodetenercncerdemama)deCasosyControleses0,281yessignificativoporquesuintervalodeconfianzanocubreel1;mientrasqueelEmparejamientotieneunORde0,891ynoessignificativoporquesuintervalodeconfianzacubreeluno,indicandoquelaprobabilidaddeencontrarseconelcncerdemamaenlosgruposestudiadoseslamisma.

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 51

    Tablas2X2estratificadas(efectodeconfusin)

    Ejercicio5.Latablaadjuntareflejalaasociacinpositivadeunestudiodecasosycontrolesentreelconsumodecafyelcncerdepncreas:

    Caf Casos ControlesS 196 104No 89 106

    24,2104.89106.196

    OR == 69,01OR

    ORobabilidadPr =+=

    NOTA:Enlatabla(loscasosseranlosenfermosalfinaldelestudioyloscontroleslosnoenfermos).UnOR=2,24seleecomo(2,24:1),esdecir,elcncerdepncreases2,24vecesmsquesinoestuvierapresenteelcaf.

    Considerandoeltabacocomountercerfactor,ydividirlosindividuosdelestudioendosestratos(fumadoresynofumadores):

    NoFumadores FumadoresCaf Casos Controles Caf Casos ControlesS 32 64 S 164 40No 48 96

    164.4896.32

    OR ==No 41 10

    140.4110.164

    OR ==

    CasosControles

    Caf Tabaco Casos(1) Controles(2)

    Fumadores(1) 164 40S(1)

    NoFumadores(0) 32 64

    Fumadores(1) 41 10No(0)

    NoFumadores(0) 48 96

  • Anlisisdevariablescategricas

    SantiagodelaFuenteFernndez 52

    Seconocequelaspersonasquetomancafgeneralmentefuman,entonceseltabaquismopuedeserunfactorconfusor.Paraestimarelefectoconfusor,elanlisisindividualdecadaestratodebesercomplementadoconunanlisisgeneralconsiderandotodoslosvaloresdelosestratos.ElmtododeMantelHaenszelesunodelosmstilesparaestimarelefectodeconfusin.

    Seobservaquehaydostablasdecontingencia(NoFumadores,Fumadores),ambastienenunintervalodeconfianzaquecontienealaunidad,portantoambosORsonnosignificativos.

    ElestadsticodeCochranesmuybajoytieneunnivelcrticoasociadode1>0,05,conloqueseaceptalahiptesisnuladeindependenciacondicional.AlamismaconclusinsellegaconelestadsticodeMantelHaenszel.

    Lapruebadehomogeneidadpermiteexaminarlasdiferenciasentrelosoddsratiodelosestratos.

    Elestadsticoesbajoyelnivelcrticoasociadoaambosestadsticosesmayorque5%(p>0,05),loquehacepensarquenohaydiferenciasapreciablesentrelosORenlosestratosyque,

    enconsecuencia,losresultadosajustadospuedenconsiderarseparaelconjunto,estoes,semantienelahiptesisdehomogeneidad.

    Cmosepuedeasumirqueelriesgoeshomogneoentodoslosestratos,tienesentidounaestimacincomndelriesgo.LasolucinvienedadaporelestadsticodeMantelHaenszel.

    Elvalordelriesgocomn(estimacin)es1,conunintervalodeconfianzadefinidoporloslmites0,640y1,564,comoelintervalodeconfianzacubreel1,sepuedeconcluirqueelORnoessignificativo,esdecir,eltabacoesunfactorconfusor.