apostila estatistica3
TRANSCRIPT
-
8/9/2019 Apostila Estatistica3
1/55
UNIVERSIDADE FEDERAL DE SANTA CATARINA
CENTRO DE CINCIAS DA SADE
DEPARTAMENTO DE SADE PBLICA
ESTATSTICADESCRITIVA
MARIA CRISTINA MARINO CALVO
FLORIANPOLIS
2004
-
8/9/2019 Apostila Estatistica3
2/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 2
SUMRIO
1. NOES DE BIOESTATSTICA ................................................................................... 03
2.AMOSTRAGEM............................................................................................................... 07
3 APURAO E APRESENTAO DOS DADOS: APRESENTAO TABULAR.......... 09
4. APURAO E APRESENTAO DOS DADOS: APRESENTAO GRFICA.......... 13
5. ANLISE DESCRITIVA DE VARIVEIS QUANTITATIVAS:
MEDIDAS DE POSIO OU TENDNCIA CENTRAL .................................................. 18
6. ANLISE DESCRITIVA DE VARIVEIS QUANTITATIVAS:
MEDIDAS DE DISPERSO........................................................................................... 26
7. NOES DE PROBABILIDADE.................................................................................... 30
8. DISTRIBUIO BINOMIAL............................................................................................ 32
9. DISTRIBUIO NORMAL.............................................................................................. 34
10. ESTIMATIVA POPULACIONAL................................................................................... 37
11. CORRELAO LINEAR .............................................................................................. 41
12. REGRESSO LINEAR................................................................................................. 46
BIBLIOGRAFIA................................................................................................................... 41
ANEXOS............................................................................................................................. 42
EXERCCIOS PROPOSTOS.............................................................................................. 44
-
8/9/2019 Apostila Estatistica3
3/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 3
1. NOES DE BIOESTATSTICA
A cincia busca a verdade descrevendo o universo e estabelecendo princpios geraispara explicar os fenmenos do universo. Para tanto deve valer-se do pensamento cientfico,que se estabelece ao nvel de uma linguagem terica de conceitos e hipteses. As hiptesesprecisam ser comprovadas, quando se faz necessria a utilizao de instrumentosoperacionais que explicitaro os procedimentos usados para observao e mensurao dofenmeno. So as hipteses estatsticas.
A passagem da hiptese terica para a hiptese estatstica poderia ser assimexemplificada: Determinado investigador estudar a veracidade da hiptese: "Os indivduosgordos comem mais que os indivduos magros".
Esta hiptese encerra alguns conceitos, como: gordo, magro e comer mais. Qualquerque seja o entendimento destes conceitos tericos, para se operacionalizar a comprovaodesta hiptese o investigador dever estabelecer a maneira de medir gordo, magro e comer
mais. Ou seja, como observar e medir gordo, magro e comer mais?Uma traduo operacional destes conceitos pode ser de que gordo o indivduo que
apresente peso acima da faixa de normalidade no ndice de massa corporal (IMC), e magro oindivduo que apresente peso abaixo dessa faixa. Comer mais seria traduzido como consumirmais calorias do que o definido como necessrio pela tabela de ingesto diria de calorias deacordo com o perfil de atividades do indivduo.
Desta forma, a hiptese cientfica poderia ser enunciada como uma hiptese estatsticada seguinte forma: "Os indivduos que apresentam peso acima da faixa de normalidade doIMC, ingerem mais calorias (medidas pela tabela de ingesto diria), do que os indivduos queapresentam peso abaixo da faixa de normalidade do IMC".
Se esta hiptese referir-se a poucos indivduos basta verificar se verdade para estes
indivduos e a questo estar resolvida. No entanto, para a cincia no ter muita utilidade talobservao.
Em cincia buscam-se hipteses mais gerais, referentes a parmetros populacionais.Para tanto, sero elaborados planos de coleta e anlise de dados que testaro a hiptese. Osdados sero coletados e analisados atravs de tcnicas estatsticas adequadas e, atravs deuma inferncia indutiva, aceita-se a veracidade ou falsidade da hiptese estatstica e,conseqentemente, de sua hiptese cientfica correspondente.
Esquematicamente:
Observa-se determinado fenmeno e elabora-se uma hiptese cientfica que procuraestabelecer a relao entre seres e atributos;
A partir da hiptese cientfica se deduz (inferncia dedutiva) uma hiptese estatstica
que permita explicar o fenmeno observado dentro de uma estrutura universal ecoerente, incorporada ao conjunto de conhecimentos atuais;
Com a hiptese estatstica se deduzem (inferncia dedutiva) as conseqncias lgicasquanto ao que deve ser esperado empiricamente com relao populao;
So estabelecidas as regras de deciso para aceitao ou no aceitao da hiptese;
A hiptese ser verificada quanto a sua veracidade ou falsidade atravs do estudo docomportamento do fenmeno, com coleta de dados e anlise dos resultados atravs detcnicas estatsticas adequadas definidas previamente;
De acordo com o definido como regra de deciso, induz-se (inferncia indutiva), a partirdos resultados e com base na teoria das probabilidades, a veracidade ou falsidade dahiptese estatstica e a veracidade cientfica correspondente.
-
8/9/2019 Apostila Estatistica3
4/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 4
A inferncia indutiva ter tanto mais significado quanto mais rigoroso for odelineamento da coleta de dados e quanto mais apropriada for a anlise estatstica destesdados. As falhas nestas fases podem implicar em que os valores encontrados no reflitamadequadamente os parmetros correspondentes. A inferncia da hiptese estatstica para acientfica ser tanto melhor quanto mais adequada tenha sido a formulao dos conceitos
tericos.Uma concluso indutiva bem confirmada provisoriamente aceita como verdade,
tornando-se um princpio. Ser ajustada com a aquisio de novos conhecimentos, somandoexperincias que a regulem, e permitindo o contnuo ajuste do modelo realidade do universo.
Ao verificar a provvel verdade de uma hiptese, a Estatstica fornece, em basesprobabilsticas, o risco de errar ao aceitar ou rejeitar uma hiptese. Constitui-se em uminstrumento dos mais poderosos para o pesquisador na busca da verdade, e o principalinstrumento para generalizar concluses a partir de experimentos particulares.
OBSERVAO DO FENMENO
HIPTESE CIENTFICA
HIPTESE ESTATSTICA
CONSEQUNCIASLGICAS
(regras para aceitao dahiptese)
PENSAMENTODEDUTIVO
VERIFICAR HIPTESE
HIPTESE
ESTATSTICAVERDADEIRA
HIPTESEESTATSTICA
FALSA
PENSAMENTO INDUTIVO
VERDADE CIENTFICACORRESPONDENTE VERDADE PROVISRIA
1.1 - BREVE HISTRICO
Na antiguidade a estatstica era utilizada com finalidade econmico-administrativa,coletando dados populacionais, registro de colheitas, cheias do Nilo, e outros fatos ligados afenmenos naturais, caracterizando a estatstica como auxiliar da administrao pblica.
O aparecimento do Estado Moderno (sculo XVII) e o estabelecimento de conceitos deestado, governo, nao e povo, trouxeram a idia de que a riqueza de uma nao seu povo,aliada ao dado objetivo de que o poder poltico o poder do exrcito. Torna-se necessriocontar o povo e o exrcito, ou seja, o Estado. A medida utilizada a "estatstica". Eraconsiderada, portanto, uma cincia que descrevia a situao do Estado.
Com a evoluo da Teoria das Probabilidades a estatstica pode evoluir para a situao
de uma cincia independente, com objetivos e mtodos prprios. A constatao da
-
8/9/2019 Apostila Estatistica3
5/55
-
8/9/2019 Apostila Estatistica3
6/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 6
Os elementos da populao sero observados segundo a indagao que tenhamos, ouseja, segundo a caracterstica daquilo que objeto de estudo. Esta caracterstica denominada varivel.
As variveis possuem naturezas diversas, que definem o tipo de descrio e anliseestatstica possveis para cada uma delas. Podem ser:
No-paramtricas: estaremos interessados na distribuio das observaes em cadauma das categorias ou modalidades desta varivel.
Paramtricas: as observaes so mensurveis ou contveis. As variveis quantitativaspodem ser nomeadas, ordenadas e pode-se dizer qual o valor da diferena entre asobservaes.
As variveis no-paramtricas so subdivididas em:
Escala nominal quando cada categoria da varivel recebe um nome e no hhierarquia entre elas. Ex: sexo, cor de olhos, profisso, religio. Para essas variveisno se poder estabelecer operaes matemticas, ou seja, os indivduos do sexomasculino com olhos castanhos no podem ser somados aos indivduos do sexo
masculino com olhos azuis para estabelecer uma mdia de indivduos do sexomasculino com olhos castanho-azulados.
Escala ordinal - quando alm da classificao em uma determinada categoria, pode-se estabelecer uma graduao entre elas. Ex: nvel de escolaridade, nvel scio-econmico. Para essas variveis valem apenas as operaes de maior que e menorque.
As variveis paramtricas so subdivididas em:
Escala intervalar: quando sei qual a exata diferena entre as observaes, mas noexiste um zero real. Ex.: a diferena entre 10oC e 30oC a mesma que entre 70oC e90oC, ou seja, 20oC. Mas no posso dizer que 10oC 1/3 do calor de 30oC.
Escala de razes: quando possvel fixar um zero de forma no arbitrria, poderei
aplicar todas as operaes aritmticas. Ex: Idade dos indivduos. Posso dizer queum indivduo de 60 anos tem o dobro da idade de um indivduo de 30 anos.
A principal diferenciao para variveis em escala de razes quanto a serem:
Contnuas: quando no se obtm um valor exato, mas sim aproximado. Os valorespossveis esto no conjunto dos nmeros reais, podendo haver valores fracionrios.Ex: peso, altura, concentrao de flor na gua. No existe um instrumento demedida preciso o suficiente para determinar o valor exato, sendo mensurveis.
Discretas: quando enumerveis ou contveis. Os valores possveis esto noconjunto de nmeros inteiros. Ex: nmero de filhos, nmero de carros, nmero debitos. possvel definir o nmero exato de ocorrncias, sendo contveis.
Quanto s variveis, convm ainda lembrar que de uma escala de determinado nvelpode-se passar para um nvel anterior, com o risco de se perder a preciso da informao; ocontrrio no possvel. Ex: Quando tenho a renda individual de uma populao estou em umaescala de razo, podendo realizar todas as operaes aritmticas. Posso transformar estainformao em escala ordinal, classificando os indivduos em renda baixa, mdia e alta, quandoj no poderei realizar as mesmas operaes. Se a informao for coletada na escala ordinal(alta, mdia, baixa), no ser possvel definir a renda mdia individual.
-
8/9/2019 Apostila Estatistica3
7/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 7
2 - AMOSTRAGEM
A pesquisa deve tirar concluses abrangentes, mas nem sempre possvel estudar apopulao total de interesse. A amostragem consiste em determinar na populao total quaisos elementos que iremos investigar e que fornecero informao estimada para a totalidadepopulacional.
As vantagens do levantamento por amostragem so: custo menor; menor tempo deestudo; objetivos amplos; e exatido.
Raramente o pesquisador estuda todo o universo de interesse em uma investigao.As pesquisas so conduzidas com um nmero menor de elementos tirados da populao deinteresse (amostra), que permitir chegar a concluses generalizadas para a totalidadepopulacional de onde a amostra foi extrada.
2.1 - DEFINIES
Censo: coleta de dados de todos os elementos que constituem a populao ou universode estudo.
Populao ou universo: conjunto de elementos sobre o qual desejamos pesquisar. Podeser finita (quando o tamanho total conhecido e relativamente pequeno), e infinita(quando o tamanho total desconhecido e grande).
Amostragem: normas e procedimentos utilizados para extrair de uma populao definidauma frao que seja representativa do grupo todo.
Amostra: frao representativa da populao, sobre a qual se pode fazer inferncia para
a totalidade. Elementos: componentes da amostra e da populao.
2.2 - TIPOS DE AMOSTRAGEM
2.2.1 - No Probabilstica
Esse tipo de amostragem pode prejudicar a possibilidade de generalizaes (validadeexterna) de um estudo, fazendo com que no seja representativo em relao populao.Seus resultados so vlidos para aquele estudo determinado, no permitindo generalizaespara outras situaes semelhantes. Tipos:
por voluntrios: os elementos amostrais so voluntrios para a pesquisa. Bastanteempregada em experimentos com medicamentos e tcnicas mdicas.
intencional: o pesquisador escolhe os elementos amostrais. Ex: Entrevistar os ex-secretrios de sade para pesquisa de polticas de sade.
por acesso mais fcil: os elementos so escolhidos por estarem mais prximos ouem melhores condies de acesso. Ex: Aplicar questionrio na populao da zonarural mais prxima do centro.
2.2.2 - Probabilstica
A amostragem probabilstica quando cada elemento na populao tem umaprobabilidade conhecida e diferente de zero de pertencer amostra. usada alguma forma de
sorteio. Permite generalizaes para a totalidade da populao.
-
8/9/2019 Apostila Estatistica3
8/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 8
a) Amostragem casual simples:
Tambm denominada aleatria, consiste em sorteio dos elementos amostrais napopulao, todos com igual probabilidade de pertencer amostra. Sendo N o nmerototal de elementos da populao e n o nmero total de elementos da amostra, aprobabilidade de cada elemento pertencer amostra ser (n/N). a mais simples deser obtida, mas sua aplicao restringe-se investigao de caractersticas distribudashomogeneamente na populao.
b) Amostragem sistemtica:
Para populaes finitas; os elementos so escolhidos por um sistema, utilizando suaordenao natural (pronturios, quarteires, alunos, etc.). Define-se a quantidadek=(N/n) onde k recebe o nome de intervalo de amostragem. A seguir deve sersorteado o incio do sistema, a partir do qual sero definidos os elementos amostrais acada intervalo k. Exemplo: Em 1500 alunos de uma escola sero sorteados 150 paracompor a amostra de um estudo. Estando esses alunos ordenados em listas depresena, ser definido o intervalo de sorteio: 1500 150 = 10. Sorteia-se um nmeroentre 1 e 10 para dar incio composio da amostra, 3, por exemplo. As unidades
amostrais sero: 3 - 13 (3+10) - 23 (3+20) - 33 (3+30) ..... 1493 (3+1490).c) Amostragem estratificada:
Para populaes com caractersticas heterogneas que podem comprometer asconcluses se no forem consideradas na composio da amostra. A populao dividida em grupos homogneos denominados estratos e a amostra ser sorteada emcada um deles. O tamanho da amostra em cada estrato ser definido pela varincia dacaracterstica a ser estudada, ou atravs da definio de um percentual nos estratos.Neste caso, a amostra ter a representao proporcional de todos os estratos, e chamada amostra com partilha proporcional.
-
8/9/2019 Apostila Estatistica3
9/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 9
3 - APURAO E APRESENTAO DOS DADOS:APRESENTAO TABULAR
3.1 - APURAO DOS DADOS
A apurao dos dados tem por finalidade conhecer a freqncia de elementos dapopulao em cada uma das modalidades de cada varivel de interesse.
Aps a coleta de dados, os mesmos so apurados de acordo com os valores de umaou mais variveis, estabelecendo uma distribuio de freqncias. Chama-se, portanto,distribuio de freqncias correspondncia entre categorias ou valores possveis de umavarivel e as freqncias respectivas. Exemplo:
TABELA 1: Nmero de alunos, segundo sexo, no 2ano do Curso de Odontologia da UMES - SoBernardo - 1992.
SEXO(varivel)
No de alunos(freqncia)
masculino 41
feminino 52
TOTAL 93
Fonte: Administrao Geral da UMES, 1992.
Neste exemplo temos uma distribuio unidimensional ou univariada, pois se refere a
apenas uma varivel (sexo).Podemos ter uma distribuio bidimensional ou bivariada, referindo-se a duas
variveis. Exemplo:
TABELA 2: Nmero de escolares examinados,segundo idade e sexo, na Escola Estadual X -Diadema - 1992.
Sexo (varivel)Idade (anos)
(varivel) Masc. Fem.Total
7 50 47 97
8 35 34 699 36 41 77
10 53 53 106
11 33 30 63
12 46 46 92
Total 253 251 504
Fonte: DOPSP/UMESP - 1992.
-
8/9/2019 Apostila Estatistica3
10/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 10
3.2 - DEFINIO DE CLASSES
Existem situaes em que uma varivel apresenta-se naturalmente em classes, comono caso de sexo - masculino ou feminino, estado civil - solteiro, casado, vivo, divorciado,profisso dentista, mdico, enfermeiro, nmero de filhos 1, 2, 3. J as variveis contnuaspodem apresentar inmeras modalidades, por exemplo, peso e altura. Nestes casos pode serinteressante o estabelecimento de distribuio em classes em lugar de estabelecer umadistribuio com todas as modalidades.
Alguns cuidados devem ser tomados ao estabelecer classes, quais sejam:
as classes devem ser mutuamente exclusivas, para que no haja dvida na localizaodos valores da varivel na distribuio;
o elemento deve estar includo em uma nica classe;
todos os elementos devem ter onde ser classificados;
os valores reunidos passam a assumir o valor mdio do intervalo de classe, portanto,quanto maior for o intervalo de classe, maiores sero as possibilidades de distoro.Deve-se procurar uma amplitude pequena nas classes, sem estabelecer um nmeromuito grande de classes;
a amplitude das classes pode variar, desde que mantenham os aspectos relevantes dadistribuio. comum o estabelecimento de classes de diferentes amplitudes no casode idade.
TABELA 3: Nmero de alunos da faculdade X,segundo sexo e altura, So Paulo, 1987.
SexoAltura (metros)
masc. fem.Total
1,45 - 1,55 1 3 4
1,55 - 1,65 1 10 11
1,65 - 1,75 8 5 13
1,75 - 1,85 12 2 14
Total 22 20 42
Fonte: Y
As classes terminam e comeam com o mesmo valor quando a varivel contnua,sendo o smbolo entre os valores o que define at onde cada classe vai. Por exemplo, se abarra vertical est do lado do 1,45 na primeira linha da tabela 3, significa que 1,45 est nestaclasse. J o valor 1,55 est sem a barra vertical na primeira linha e com a barra vertical nasegunda, indicando que o valor 1,55 est na segunda classe e no na primeira.
As variveis discretas tambm podem ser colocadas em intervalos de classe. Nestecaso, a notao pode ser diferente. Como os valores so exatos, as classes podem comear eterminar sem que o valor se repita na classe seguinte. Assim:
-
8/9/2019 Apostila Estatistica3
11/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 11
TABELA 3a: Nmero de alunos da faculdade X,segundo sexo e nmero de irmos, So Paulo, 1987.
SexoNmero deirmos
masc. fem.
Total
0 a 1 1 3 4
2 a 3 1 10 11
4 a 5 8 5 13
5 a 6 12 2 14
Total 22 20 42
Neste exemplo, na primeira classe esto os alunos que tm 0 e 1 irmos, na segundaos alunos que tm 2 e 3 irmos, e assim, sucessivamente.
3.3 - CARACTERSTICAS DE UMA TABELA
Uma tabela deve ser explicativa, sem necessidade de consulta ao texto para entend-la. Para tanto, os componentes essenciais so o ttulo, corpo da tabela, cabealho e colunaindicadora.
O ttulo a indicao anterior a tabela, e deve ser preciso, claro e resumido, indicando oque est sendo tabulado, quais as variveis que esto sendo consideradas, o local e adata em que o fato foi observado.
O corpo da tabela o conjunto de linhas e colunas onde so colocadas as informaes,e cada clula o cruzamento de uma linha com uma coluna, indicando a freqnciacom que a categoria foi observada.
O cabealho onde se define a categoria de cada coluna e a coluna indicadora ondese define a categoria de cada linha.
(TTULO): TABELA 3: Nmero de alunos da faculdade X, segundo sexoe altura, So Paulo, 1987.
sexoAltura (metros)
masc. fem.Total
CABEALHO
1,45 - 1,55 1 3 4
1,55 - 1,65 1 10 11 CORPO
1,65 - 1,75 8 5 13 DA
1,75 - 1,85 12 2 14 TABELA
Total 22 20 42
Fonte: Y
Uma questo de forma que melhora a apresentao dos dados colocar na colunaindicadora a varivel com maior nmero de categorias e usar o cabealho para colocar varivelapenas em tabelas com mais que uma varivel. Nas tabelas unidimensionais a varivel deveser colocada na coluna indicadora.
COLUNA INDICADORA
-
8/9/2019 Apostila Estatistica3
12/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 12
A tabela possui, ainda, alguns elementos complementares, que so a fonte, que ficaabaixo da tabela e indica a entidade responsvel pela organizao dos dados ou fornecedorados dados, e notas, que podem ser colocadas no rodap da tabela para esclarecer questesgerais.
Nenhuma casa da tabela deve ficar em branco, devendo apresentar sempre umnmero ou sinal. Usa-se o hfen (-) para representar valores nulos, reticncia (...) quando nose dispe de dado, interrogao (?) quando se tem dvida quanto ao valor numrico, e zero (0)quando o valor numrico muito pequeno para ser expresso na unidade utilizada. Essadiferenciao para valores nulos (hfen) e muito pequenos (zero) muito importante naconstruo de tabelas.
As casas decimais, quando utilizadas, devem ser uniformes em todas as clulas damesma coluna e as regras matemticas de aproximao devem ser obedecidas. Quandotemos vrias tabelas em uma publicao, elas devem estar numeradas em ordem crescente deacordo com o aparecimento.
As tabelas devem ser fechadas por linhas horizontais no alto e embaixo, no sendofechadas direita e esquerda. Os totais e subtotais devem ser destacados e quando existem
duas variveis devem estar presentes os totais de cada uma delas: um na ltima linha e outrona ltima coluna.
As variveis contnuas devem ter a unidade de medida especificada no ttulo ou nacoluna e cabealho da tabela.
As tabelas podem apresentar, alm das freqncias absolutas, as freqnciasrelativas. Para obter a freqncia relativa de uma categoria, divide-se a freqncia dessacategoria pela soma das freqncias, multiplicando-se o resultado por cem (porcentagem).
TABELA 4: Nmero e porcentagem de alunos, segundo sexo,no Curso de Odontologia da Metodista - So Bernardo - 1992.
SEXO
(varivel)
No de alunos
(freqncia absoluta)
%
(freqncia relativa)
masculino 160 40
feminino 240 60
TOTAL 400 100
Fonte: Administrao Geral da Universidade Metodista de So Paulo, 1992.
3.4 - PLANILHA ELETRNICA PARA CONSTRUIR TABELAS:
Os aplicativos mais utilizados em computadores possuem planilhas eletrnicas que
permitem a incluso dos dados e de pois a construo de tabelas. Usando o Excell comoexemplo, os dados do levantamento devem ser digitados na forma de lista, com os elementosda amostra nas linhas e as variveis nas colunas. Aps completado o banco de dados, tabelaspodem ser construdas utilizando o recurso de tabela dinmica.
Na barra de ferramenta do Excell, na parte superior, no item "dados", selecionar o item"relatrio de tabela dinmica" e seguir as orientaes do programa. Tenha calma e leias todasas instrues que o programa oferece. Se tiver dvidas, o "help" do programa poder auxiliar.
As tabelas construdas com esse recurso so fixas, e vinculadas planilha digitada.Para fazer alteraes nos resultados, mudar a forma ou agrupar categorias, por exemplo, sernecessrio copiar a tabela dinmica e "colar especial" (do item editar) "valores" (sub-item docolar especial).
A prtica trar o aperfeioamento!
-
8/9/2019 Apostila Estatistica3
13/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 13
4 - APURAO E APRESENTAO DOS DADOS:APRESENTAO GRFICA
4.1 - CARACTERSTICAS DE UM GRFICO
Os dados coletados e apurados podem tambm ser apresentados em forma de figuras,em geral grficos ou diagramas. Os grficos devem ser auto-explicativos, de fcilcompreenso, sem comentrios inseridos, de aparncia agradvel, que chame a ateno doleitor e inspirem confiana.
Existem normas nacionais para construo de grficos, devendo apresentar ttulo eescala. Por escala entende-se que os valores apresentados devem obedecer mesma escalaem todo o grfico, sendo que os valores expressos pelas figuras sejam proporcionalmente
iguais aos reais. Por exemplo, se devo apresentar os valores 10, 20 e 40 em um grfico, estesdevem estar expressos de forma que, na figura, 40 seja o dobro de 20 e 20 seja o dobro de 10.
O tamanho do grfico deve ser adequado publicao a que se destina. O grficodeve possuir um ttulo; as escalas devem crescer da esquerda para a direita e de baixo paracima. A escala adotada no deve desfigurar os fatos ou as relaes que se deseja destacar.
Os grficos podem ser cartogramas ou diagramas. Os cartogramas so mapasgeogrficos ou topogrficos, muito utilizados em epidemiologia para observar o aparecimentode certos agravos.
FIGURA 1: Municpios com vigilncia sanitria dos teores deflor no Estado de So Paulo. 1994.
Os diagramas so grficos em que as freqncias so representadas pela mensuraode uma figura geomtrica. Assim, temos:
Diagrama de ordenadas: a medida utilizada o comprimento, e
Diagrama de barras, histograma e setores de crculo: a medida utilizada a rea ousuperfcie da figura.
Na representao de um diagrama deve ser levada em conta a natureza da varivel -paramtica contnua, paramtrica discreta ou no-paramtrica.
-
8/9/2019 Apostila Estatistica3
14/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 14
4.2 - REPRESENTAO GRFICA DE VARIVEL NO-PARAMTRICA E PARAMTRICA DISCRETA
A partir dos dados de uma tabela (TABELA 1), existem vrias possibilidades derepresentao das freqncias.
TABELA 1: Nmero de alunos, segundo sexo, no 6semestre do Curso de Medicina da UFSC - Florianpolis -1996.
Sexo No de alunos
Masculino 40
Feminino 50
Total 90
Fonte: Administrao geral da UFSC, 1996.
a) Diagrama de ordenadas: Sobre uma reta de sustentao, a partir de pontoseqidistantes na mesma, so construdas perpendiculares cujos comprimentos soproporcionais s freqncias observadas. Exemplo: Grfico 1.
GRFICO1:Nmero de alunos, segundosexo, no 6 semestre do Curso de
Medicina da UFSC - Florianpolis - 1996.
0
10
20
30
40
50
60
masc fem
Neste exemplo, coincidentemente, as freqncias de cada categoria masculino efeminino aparecem na escala do grfico, mas isso no obrigatrio. Poderia ocorrer dasfreqncias serem 42 para masculino e 53 para feminino e a escala continuaria com osmesmos valores indicativos; apenas a linha correspondente a cada freqncia seria um poucomaior. O valor exato da freqncia no deve ser acrescentado escala do grfico.
b) Diagrama de barras: A mesma distribuio poderia ser representada por meio de umdiagrama que levasse em conta a rea da figura geomtrica. No diagrama de barrasso construdos retngulos em intervalos apropriados com reas proporcionais sfreqncias das categorias da varivel observada. Lembrando que a rea do retngulo o produto da base pela altura, se fixarmos o mesmo tamanho de base para os vrios
-
8/9/2019 Apostila Estatistica3
15/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 15
retngulos, poderemos constru-los com alturas proporcionais s freqncias. Exemplo:Grfico 1a.
GRFICO1a: Nmero de alunos, segundo
sexo, no 6 semestre do Curso de Medicinada UFSC - Florianpolis - 1996.
010
20
30
40
50
60
masc fem
c) Diagrama de setores de crculo: A rea correspondente a cada categoria da variveldeve obedecer proporo da freqncia observada. Assim, no mesmo exemplo,temos:
360 = 90
x = 50 x = 200 (sexo feminino)360 = 90
x = 40 x = 160 (sexo masculino)
Como pode ser verificado no Grfico 1b.
GRFICO1b: Nmero de alunos, segundosexo, no 6 semestre do Curso de Medicina
da UFSC - Florianpolis - 1996.
femmasc
Fonte: Administrao geral da UFSC, 1996.
-
8/9/2019 Apostila Estatistica3
16/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 16
4.3 - REPRESENTAO GRFICA DE VARIVEL PARAMTRICACONTNUA
Nas distribuies de variveis paramtricas necessrio se distinguir quando ela discreta e quando contnua. Quando a varivel discreta utiliza-se o mesmo tipo de grficoque para as variveis no-paramtricas. Quando contnua, os grficos mais utilizados so opolgono de freqncias e o histograma.
a) Para construir opolgono de freqncias, admite-se que as freqncias das classesesto concentradas no ponto mdio dos intervalos que as definem. Localizados essespontos, eles so unidos entre si por retas, e o primeiro e ltimo pontos so ligados aoeixo das abscissas na metade das classes hipotticas imediatamente anterior aprimeira e posterior ltima, definindo a rea total delimitada, correspondente a 100%da distribuio. As reas parciais sero proporcionais freqncia de cada classe.
b) O histograma um diagrama de barras justapostas. Lembrar que as reas das
barras devem ser proporcionais s freqncias. Na construo de um grfico defreqncias em intervalos de classe, se as classes forem de mesma amplitude, bastaconstruir bases iguais e alturas proporcionais s freqncias.
Exemplo para amplitudes de classe iguais:
TABELA 2: Nmero de casos de linfomas nosexo masculino, segundo idade. Brasil, 1975.
Idade em anos No
0 - 10 90
10 - 20 12020 - 30 90
30 - 40 100
40 - 50 80
50 - 60 90
60 - 70 80
Total 650
Fonte: Ministrio da Sade, Brasil, 1978.
GRFICO 2: Nmero de casos de linfomas,sexo masculino, segundo idade. Brasil,1975. (Polgono de freqncias)
0
20
40
60
80
100
120
140
0 |- 10 10 |- 20 20 |- 30 30 |- 40 40 |- 50 50 |- 60 60 |- 70
idade (anos)
Fonte: Ministrios da Sade, Brasil, 1978.
GRFICO 2a: Nmero de casos de linfomas, sexomasculino, segundo idade. Brasil, 1975. (Histograma)
0
20
40
60
80
100
120
140
0 |- 10 10 |- 20 20 |- 30 30 |- 40 40 |- 50 50 |- 60 60 |- 70
idade (anos)
-
8/9/2019 Apostila Estatistica3
17/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 17
Se as amplitudes das classes forem diferentes, precisamos fazer um ajuste dasfreqncias, caso contrrio a rea no ser proporcional freqncia com que ocorre avarivel. O ajuste feito dividindo-se o nmero de casos de cada classe pela amplitude darespectiva classe, obtendo-se um nmero de casos por intervalo de classe.
Exemplo para amplitudes de classe diferentes:
TABELA 3: Nmero de casos de linfomas, sexofeminino, segundo a idade. Brasil, 1975.
Idade em anos No Amplitude do intervaloCasos/ano
(freqncia ajustada)
0 - 5 15 5 anos 15/5 = 3
5 - 20 60 15 anos 60/15 = 4
20 - 50 150 30 anos 150/30 = 5
50 - 65 75 15 anos 75/15 = 5
65 - 100 70 35 anos 70/35 = 2
Total 370
GRFICO 3: Nmero de casos de linfomas, sexofeminino, segundo a idade. Brasil, 1975.
0
1
2
3
4
5
6
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100idade (anos)
casos/anos
de
idade
4.4 - APLICATIVOS GRFICOS:
Os programas de edio de texto (word) e de planilhas eletrnicas (excell) ofereceminstrumentos para construo digital de grficos. Na barra de ferramentas, no item "inserir", hum sub-item para "grfico", que abre uma janela com vrias opes de figuras.
Cabe alertar que o programa far qualquer grfico solicitado, independentemente desua correta indicao estatstica. Ento, o usurio responsvel pela correta seleo do tipode grfico de acordo com a(s) varivel(is) a serem apresentadas.
Os histogramas no so construdos pelo padro do programa, sendo necessria ainstalao de suplementos para sua elaborao automtica. Os polgonos de frequncia so oschamados "grficos de linha". Observar sempre se os intervalos de classe esto definidos demaneira adequada.
So muitas opes de formas e cores, e preciso exercitar para aproveitar todos osrecursos grficos desses programas.
-
8/9/2019 Apostila Estatistica3
18/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 18
5 - ANLISE DESCRITIVA DE VARIVEIS PARAMTRICAS:MEDIDAS DE POSIO OU TENDNCIA CENTRAL
Aps a coleta de dados, os mesmos so apurados de acordo com os valores de umaou mais variveis, estabelecendo uma distribuio de freqncias, atravs de grfico ou tabela.
Exemplo:
TABELA 1: Nmero de escolares examinadossegundo idade1 e sexo na Escola Estadual PauloFreire - Diadema - 1992.
SexoIdade(anos) masculino feminino
Total
7 50 40 908 30 40 70
9 30 40 7010 50 60 11011 40 30 7012 50 40 90
Total 250 250 500
GRFICO 1: Nmero de escolares examinados segundoidade2 e sexo na Escola Estadual Paulo Freire - Diadema- 1992.
0
10
20
30
40
50
60
n
7 8 9 10 11 12
idade (anos)
masc. fem.
Fonte: IMES/DOPS/1992
1Idade neste exemplo est sendo utilizada como varivel discreta, representando categoriasseparadas, embora a natureza da varivel seja contnua. Essa alterao deve-se natureza doproblema analisado, onde cada ano a mais de idade interfere no valor da varivel.2
Idem nota anterior. Por isso o grfico pode ser barras separadas indicado para variveisdiscretas mas no para variveis contnuas.
-
8/9/2019 Apostila Estatistica3
19/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 19
O problema que se apresenta em conexo com estas distribuies o de analis-laspara descrever as suas caractersticas mais importantes. Assim, embora no possamosconhecer os valores individuais, temos alguma idia a respeito do conjunto estudado.
O mtodo usual de anlise de uma distribuio de freqncias de uma varivelquantitativa X consiste em definir as medidas de tendncia central e as medidas devariabilidade ou disperso.
As medidas de posio ou tendncia central visam determinar o centro da distribuio.So medidas de tendncia central a mdia aritmtica, a mediana, a moda, a mdia geomtricae a mdia harmnica.
Trataremos aqui de trs destas medidas: mediana, moda, e mdia aritmtica. Estaltima de maior interesse para os dados que, mais freqentemente, so trabalhados na rea.
5.1 - MDIA ARITMTICA
Dada uma distribuio de freqncias, chama-se de mdia aritmtica a soma de todosos valores da varivel, dividida pela freqncia total.
Exemplo:
TABELA 2: Funcionrios da receita federal segundovalor de salrio (em nmero de salrios mnimos) -Braslia, 1994.
Valor de salrio (SM) freqncia
2 304 106 510 5
Total 50Fonte: dados hipotticos
A mdia ser calculada atravs da SOMATRIA do produto VALOR DE SALRIO XFREQUNCIA, dividida pela FREQUNCIA TOTAL.
Ou seja:
[(2x30)+(4x10)+(6x5)+(10x5)] 50 = [60+40+30+50] 50 =
180 50 = 3,6 salrios mnimos por funcionrio
Esse valor expressa que o valor mdio de salrio por funcionrio da receita federal emBraslia 3,6 salrios mnimos por funcionrio. Ou: os funcionrios da receita federal deBraslia apresentam uma mdia salarial de 3,6 salrios mnimos por funcionrio.
No mesmo exemplo da Tabela 2, se um dos funcionrios fosse promovido e passassede 10 salrios para 100 salrios, ou seja, se tivssemos um nico valor de salrio igual a 100(cem salrios mnimos):
TABELA 2a:
Valor de salrio (SM) freqncia
2 304 106 510 4100 1
Total 50
-
8/9/2019 Apostila Estatistica3
20/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 20
O clculo da mdia seria:
[(2x30)+(4x10)+(6x5)+(10x4)+(1x100)] 50 = [60+40+30+40+100] 50 =
270 50 = 5,4 salrios mnimos por funcionrio
A introduo de um nico valor muito alto aumentou a mdia em 50%.So caractersticas da mdia:
o valor que as observaes teriam se fossem todas iguais.
da mesma natureza que a varivel considerada, devendo ser acompanhada daunidade de medida da varivel.
Sempre existe, e admite um nico valor.
influenciada, e atrada, por valores aberrantes, como j foi demonstrado no exemplodas tabelas 2 e 2a.
Dessa caracterstica decorre a necessidade de cuidado ao analisar a mdia de umavarivel quando temos valores aberrantes, ou seja, muito altos ou muito baixos quandocomparados aos demais valores da distribuio.
Analisando as seguintes distribuies:
TABELA A: Distribuio de faltas dosalunos do 3 semestre de medicina.
N faltas f0 401 102 -3 104 40Total 100
Mdia = (40x0) + (10x1) + (0x2) + (10x3)+
(40x4) = 200/100 = 2
TABELA B: Distribuio de faltas dosalunos do 3 semestre de medicina.
N faltas f0 301 -2 403 -4 30Total 100
Mdia = (30x0) + (0x1) + (40x2) + (0x3)+(30x4) = 200/100 = 2
TABELA C: Distribuio de faltas dosalunos do 3 semestre de medicina.
N faltas F0 101 202 403 204 10Total 100
Mdia = (10x0) + (20x1) + (40x2) + (20x3)+
(10x4) = 200/100 = 2
TABELA D: Distribuio de faltas dosalunos do 3 semestre de medicina.N faltas F0 501 -2 -3 -4 50Total 100
Mdia = (50x0) + (0x1) + (0x2) + (0x3)+(50x4) = 200/100 = 2
Perceba a distribuio diversificada das faltas verificadas, apesar das mdias iguais: 2faltas por aluno nas quatro situaes.
O conhecimento da mdia de uma varivel no permite identificar como os valoresesto distribudos no grupo de indivduos, ou seja, quanto os valores esto dispersos emrelao mdia. Essa discusso ser complementada no prximo captulo.
-
8/9/2019 Apostila Estatistica3
21/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 21
5.2 - MEDIANA
5.2.1 - Varivel Discreta:
Dada uma distribuio de freqncias em ordem crescente ou decrescente de
magnitude, a mediana definida como sendo igual ao valor que ocupar o posto central nesseconjunto, ou seja, o valor da varivel que deixa 50% das observaes abaixo e 50% dasobservaes acima desse valor.
Exemplo: Os dentes de 7 crianas foram examinados, e foram contados os dentescariados em cada uma delas, com os seguintes resultados: 3, 2, 5, 2, 3, 9, 7. Dispondo osvalores em ordem crescente temos: 2, 2, 3, 3, 5, 7, 9. O posto central o quarto, ocupado pelovalor 3, ento dizemos que a mediana desse conjunto 3.
Quando o nmero de observaes (n) mpar, sempre existe um posto central e noh problema em estabelecer a mediana, que ser igual ao valor que estiver no posto (n + 1)/2.
Se as observaes estiverem dispostas em uma tabela de freqncias, temos:
TABELA 4: Nmero de pacientes segundo nmero de
filhos. UBS Vinicius de Moraes, 1990.No de filhos No de
pacientesfreqnciaacumulada
0 10 101 20 302 33 633 15 784 5 83
Total 83
Fonte: Y
O posto mediano (83 + 1)/2 corresponde a 42. O posto 42 est localizado aps afrequncia acumulada 30, da segunda linha, entre as observaes acumuladas at o total de63, da terceira linha. Ento, a mediana de filhos 2 filhos por paciente.
Quando n par, existem dois valores centrais, sendo estabelecido por conveno quea mediana a mdia dos valores que ocupam os dois postos centrais - n/2 e (n+2)/2.
Corresponde, portanto a:valor do posto n/2 + valor do posto (n+2)/2
2
Exemplo: No conjunto dos valores 21, 25, 26, 30, 32, 33 os valores centrais so 26 e30. A mediana ser (26 + 30)/2, que igual a 28.
Em uma tabela de freqncias temos:
TABELA 5: Nmero de pacientes segundo nmerode filhos. UBS Tom Jobim, 1990.
No defilhos
No depacientes
freqnciaacumulada
0 10 101 12 222 5 273 20 474 7 54
Total 54
-
8/9/2019 Apostila Estatistica3
22/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 22
Os dois postos centrais so 54/2 e 56/2, 27 e 28 respectivamente. O posto 27corresponde a 2 filhos e o 28 corresponde a 3 filhos. Nesse caso a mediana ser (2 + 3)/2, que igual a 2,5 filhos por paciente.
5.2.2. Varivel contnua:
Para variveis contnuas determina-se o valor que divide a freqncia total n em duaspartes iguais, independentemente de n ser par ou mpar. Como normalmente as variveiscontnuas so apresentadas em intervalos de classe, temos:
TABELA 6: Nmero de alunos da classesegundo peso. Classe de 1992.
peso (kg) No alunos freqnciaacumulada
50 - 55 10 10
55 - 60 15 25
60 - 70 13 38
70-75 2 40
Total 40
A mediana estar no posto 40/2, que igual a 20. O posto 20 est includo na classede 55 /- 60 kg. Neste caso imagino que os 15 indivduos desta classe esto distribudos deforma idntica nos 5 kg. ento, tenho 5 kg para 15 indivduos e procuro o valor correspondentea 10 indivduos - j tenho 10 indivduos at o incio desta classe, faltando 10 para chegar aosvinte da mediana. Se 15 indivduos tm 5 kg, 10 indivduos tm 3,33 kg. A mediana ser 55 +3,33, igual a 58,3 kg por aluno.
Se fosse um nmero mpar de elementos, o clculo seria o mesmo:
TABELA 7: Nmero de alunos da classesegundo peso. Classe de 1992.
peso (kg) No alunos freqnciaacumulada
50 - 55 10 10
55 - 60 15 25
60 - 70 13 38
70-75 3 41
Total 41
A mediana estar no posto 41/2, que igual a 20,5. O posto 20,5 est includo naclasse de 55 |- 60 kg. Neste caso imagino que os 15 indivduos desta classe esto distribudosde forma idntica nos 5 kg. Ento, tenho 5 kg para 15 indivduos e procuro o valorcorrespondente a 10,5 indivduos - j tenho 10 indivduos at o incio desta classe, faltando10,5 para chegar aos vinte da mediana. Se 15 indivduos tm 5 kg, 10,5 indivduos tm 3,5 kg.A mediana ser 55 + 3,5, igual a 58,5 kg por aluno.
Indivduos 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Peso adicional 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33
O indivduo 11 comeou com 55 kg e ganhou 0,33 kg (55,33). O indivduo 12 comeoucom 55,33 kg e ganhou mais 0,33 kg (55,66), e assim sucessivamente, at chegar ao indivduo20,5.
-
8/9/2019 Apostila Estatistica3
23/55
-
8/9/2019 Apostila Estatistica3
24/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 24
TABELA 8: Nmero de alunos segundo idade. Classe de 1992.
Idade(anos)
Caso 1
No alunos
Caso 2
No alunos
Caso 3
No alunos
19 15 15 1520 20 20 15
21 30 20 15
22 10 20 15
23 15 15 15
Total 90 90 90
A moda 21anos de idade
Existem trsmodas: 20,
21, e 22anos.
No h moda
So caractersticas da moda:
da mesma natureza que a varivel.
Nem sempre existe e nem sempre nica, existindo distribuies multi-modais - quandoh mais que um valor modal.
Pode ser utilizada para varivel qualitativa.
5.4 - DEFINIO DAS MEDIDAS A PARTIR DE APLICATIVOS:
Atualmente as medidas de posio e de tendncia central podem ser facilmentedetectadas a partir de programas estatsticos ou planilhas eletrnicas.
Utilizando o excell como exemplo, aps a digitao do banco de dados em umaplanilha, obedecendo a adequada incluso dos valores observados - elementos nas linhas evariveis nas colunas - essas medidas podem aferidas usando as funes de clculo daplanilha.
Na barra de ferramentas do excell comum a existncia de um atalho de "funo",representado por "fx". Esse atalho abre uma janela com vrias opes de clculos na planilha.Escolhido o clculo desejado, uma janela de orientao vai indicar os prximos passos.
Como exemplo, para clculo da mdia de altura valores de 100 indivduos, teremos:
- Na planilha devero estar colocados os 100 valores de altura dos indivduos,um valor em cada linha.
- Supondo que a primeira linha das colunas tenha sido usada para indicar avarivel de cada coluna, teremos na A1 "nome", na A2 "altura", e assim pordiante, para todas as variveis.
- Na segunda linha estaro os valores das variveis. Na A2 estar o nome doprimeiro indivduo e na B2 o valor da sua altura. Na A3 estar o nome dosegundo indivduo e na B3 estar sua altura. E assim por diante.
- Para calcular a mdia devemos estar na planilha e teclar na tecla de funo ( fx)e selecionar "estatstica" na janela da esquerda. Entre as funes estatsticasque aparecem, selecionar "mdia".
- A descrio de cada uma das medidas da janela aparece na parte inferior da
mesma. Leia com ateno para saber se a medida que deseja utilizar.
-
8/9/2019 Apostila Estatistica3
25/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 25
- Ao selecionar "mdia", uma outra janela se abre, solicitando que informe dequais dados deseja a mdia. Ento, se a mdia desejada da altura dos 100indivduos, nesse espao dever ser definido o intervalo deles na planilha -B2:B101. A forma de indicar esse intervalo destacar esse espao na planilha.
- Tecle enter para finalizar o procedimento.
- Na clula onde o cursor estava no incio da operao aparecer o valor damdia.
- aconselhvel deixar o cursor no final da planilha, embaixo da coluna sobre aqual se deseja calcular a medida.
-
8/9/2019 Apostila Estatistica3
26/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 26
6 - ANLISE DESCRITIVA DE VARIVEIS PARAMTRICAS:MEDIDAS DE DISPERSO
Se quatro distribuies de faltas possurem a mesma mdia por indivduo, possoconcluir que a situao de absentesmo nesses locais a mesma? Evidentemente que no.Pelos exemplos A, B, C e D podemos verificar que a mdia a mesma, embora na situao A40% dos indivduos estejam com 2 faltas e na situao D 50% dos indivduos estejam com 4faltas.
TABELA A: Distribuio de faltas dos alunosdo 3 semestre de medicina.
N faltas f
0 10
1 202 403 204 10
Total 100
TABELA B: Distribuio de faltas dos alunosdo 3 semestre de medicina.
N faltas f
0 30
1 -2 403 -4 30
Total 100
TABELA C: Distribuio de faltas dosalunos do 3 semestre de medicina.
N faltas f
0 40
1 102 -3 104 40
Total 100
TABELA D: Distribuio de faltas dosalunos do 3 semestre de medicina.
N faltas f
0 50
1 -2 -3 -4 50
Total 100
0
10
20
30
40
50
0 1 2 3 4 esp 0 1 2 3 4 esp 0 1 2 3 4 esp 0 1 2 3 4
Pela figura acima pode-se perceber a distribuio diversificada dos valores, apesar depossurem mdias iguais a 2 faltas por aluno nas quatro situaes.
TABELA A TABELA B TABELA C TABELA D
-
8/9/2019 Apostila Estatistica3
27/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 27
O conhecimento da mdia de uma varivel no permite identificar como os valoresesto distribudos no grupo de indivduos, ou seja, quanto os valores esto dispersos emrelao mdia.
Dessa forma, as medidas de disperso visam, a partir da mdia, descobrir como osvalores esto dispersos ao seu redor.
Partindo do fato de que a mdia aritmtica o valor que todas as observaes teriamse fossem iguais entre si, podemos dizer que o valor que todas as observaes teriam se nohouvesse variabilidade. Da resulta que o desvio (diferena) de cada observao para a mdiaaritmtica representa o quanto as observaes variam com relao mdia.
Definem-se, portanto, medidas de variabilidade baseadas nestes desvios.
6.1 DESVIO EM RELAO MDIA:
a distncia entre cada valor da distribuio e a mdia da mesma distribuio.
Exemplo: Distribuio de notas na primeira avaliao de bioestatstica:0, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10.
Tabela correspondente: Clculo do desvio:Notas freqncia Notas x desvio F
3 3 (3 - 6) (-3 X 3) -94 4 (4 - 6) (-2 X 4) -85 3 (5 - 6) (-1 X 3) -36 2 (6 - 6) (0 X 2) 07 2 (7 - 6) (1 X 2) 28 2 (8 - 6) (2 X 2) 49 2 (9 - 6) (3 X 2) 6
10 2 (10 - 6) (4 X 2) 8
Total 20 SOMA DOS DESVIOS 0
Mdia: (3x3)+(4x4)+(3x5)+(2x6)+(2x7)+(2x8)+(2x9)+(2x10) = 120 = 6,020 20
A soma dos desvios de uma distribuio sempre igual a zero; por isso o desviosimples no usado como medida de disperso de uma distribuio.
6.2 VARINCIA - S2 OU 2:
A soma dos desvios sempre igual a zero. Ento, os valores dos desvios so elevados
ao quadrado, e a soma desses valores dividida pela freqncia total de elementos. Avarincia, portanto, a mdia dos quadrados dos desvios contados a partir da mdiaaritmtica.
= somatria xi= cada valor da varivel
x = mdia aritmtica da distribuio fi= freqncia do valor xi
N = freqncia total s2 ou 2 = varincia
Para dados amostrais:
s2 = (xi-x)2.fi
N-1
Para dados populacionais
2 = (xi-x)2.fi
N
-
8/9/2019 Apostila Estatistica3
28/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 28
O resultado dado ao quadrado.
Tomando os mesmos exemplos A, B, C e D:
TABELA A
faltas fi xi-x (xi-x).fi
0 10 -2 4x10 401 20 -1 1x20 202 40 0 0x40 03 20 1 1x20 204 10 2 4x10 40
Total 100 120
mdia (x) = 2 faltas/aluno
s = 1,2 faltas/aluno
TABELA B:Faltas fi xi-x (xi-x).fi
0 30 -2 4x30 1201 - -1 1x0 02 40 0 0x40 03 - 1 1x0 04 30 2 4x30 120
Total 100 240
mdia (x) = 2 faltas/aluno
s = 2,4 faltas/aluno
TABELA C:
Faltas fi xi-x (xi-x).fi
0 40 -2 4x40 1601 10 -1 1x10 102 - 0 0x0 03 10 1 1x10 104 40 2 4x40 160
Total 100 340
mdia (x) = 2 faltas/ aluno
s = 3,4 faltas/aluno
TABELA D:faltas fi xi-x (xi-x).fi
0 50 -2 4x50 2001 - -1 1x0 02 - 0 0x0 03 - 1 1x0 04 50 2 4x50 200
Total 100 400
mdia (x) = 2 faltas/aluno
s = 4,0 faltas/aluno
O valor expresso ao quadrado dificulta o entendimento da medida, por isso costuma-seusar sua raiz quadrada.
6.3 - DESVIO PADRO:
Raiz quadrada da varincia, ou: raiz quadrada positiva da mdia dos quadrados dosdesvios contados a partir da mdia aritmtica. Segue a mesma indicao que a varincia paraamostra ou populao: s ou , respectivamente
Nos exemplos anteriores temos:
A: s2= 1,2 faltas 2/ aluno B: s2= 2,4 faltas2/aluno
s = 1,09 faltas / aluno s = 1,55 faltas/aluno
C: s2= 3,4 faltas2/aluno D: s2= 4,0 faltas2/ aluno
s = 1,84 faltas/aluno s = 2,0 faltas/ aluno
Esses valores expressam a forma como as observaes esto dispersas em relao mdia 2 faltas/aluno em cada uma das situaes. Ou seja, nas situaes A, B, C e D, osvalores encontrados esto distantes da mdia, em mdia, 1,09 1,55, 1,84, e 2,0 faltas/criana,respectivamente.
Essa informao permite avaliar que a situao mais simtrica de absentesmo a
verificada na distribuio A, onde os valores esto menos dispersos em relao mdia.
-
8/9/2019 Apostila Estatistica3
29/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 29
So caractersticas do desvio padro:
quantidade essencialmente positiva
S nulo se todos os valores da distribuio forem iguais entre si, isto , se no houver
variabilidade da mesma natureza que a varivel X e depende de sua magnitude.
Desta ltima caracterstica resulta que, se se quiser comparar duas distribuies quanto variabilidade, deve-se relativizar o desvio padro.
6.4 - COEFICIENTE DE VARIAO DE PEARSON:
O desvio padro ser tanto maior quanto maior for a disperso dos valores em relao mdia, mas isso depende da magnitude da varivel. Alguns valores de desvio so altosporque cada elemento da distribuio possui valor alto, e no porque a distribuio muito
dispersa. Assim, para afirmar que uma disperso grande necessrio relativizar o valor dodesvio padro pela mdia aritmtica da distribuio.
O coeficiente de variao resultado da diviso do desvio padro pela mdia de umavarivel, dado em porcentagem
CV = desvio padro x 100mdia
Observando duas distribuies distintas, com diferentes magnitudes de varivel:
TABELA X: Distribuio de recm-nascidossegundo peso
Peso (kg) Fi xi-x (xi-x).fi
2,0 10 (2-3) 1 x 10 103,0 10 (3-3) 0 x 10 0
4,0 10 (4-3) 1 x 10 10
Total 30 20x = 3 kg/recm-nascido
s2 = 0,69 kg2/ recm-nascidos = 0,83 kg/ recm-nascidoCV= 27,7%
TABELA Y: Distribuio deadolescentes segundo peso
Peso (kg) Fi xi-x (xi-x).fi
45 10 (45-46) 1 x 10 1046 10 (46-46) 0 x 10 0
47 10 (47-46) 1 x 10 10
Total 30 20x = 46 kg/adolescente
s2 = 0,69 kg2/adolescentes = 0,83 kg/adolescenteCV= 1,8%
O exemplo demonstra uma maior disperso de valores na distribuio de peso derecm-nascidos, embora as duas distribuies possuam a mesma varincia e o mesmo desvio
padro.A comparao de variabilidades de distribuies com valores de mdia ou com
variveis diferentes somente possvel com o coeficiente de variao. O coeficiente devariao no tem valor mximo possvel, podendo exceder 100% nas distribuies onde odesvio padro maior que a mdia.
Coeficientes de variao com valores superiores a 15% indicam distribuies poucosimtricas em relao mdia aritmtica, aconselhando o emprego de outras medidasauxiliares para descrever o conjunto de dados.
-
8/9/2019 Apostila Estatistica3
30/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 30
7 - NOES DE PROBABILIDADE
Aps a apurao, apresentao e descrio dos dados obtidos em investigaes, opesquisador busca estender suas observaes e concluses alm dos elementos estudadosem sua amostra, ou seja, busca fazer inferncia. Para fazer inferncia estatstica usam-setcnicas e conhecimentos de probabilidade.
Probabilidade um afirmao numrica sobre a possibilidade de que algo ocorra,quantifica o grau de incerteza dos eventos, variando de 0 a 1, ou 0% a 100%. Um eventoimpossvel de ocorrer tem probabilidade 0 (zero), e um evento certo de ocorrer temprobabilidade 1 (um).
Se so possveis n eventos mutuamente exclusivos e igualmente provveis, e mdesses eventos tm a caracterstica que me interessa, a probabilidade de que ocorra o eventode meu interesse m/n.
Exemplos:Ao jogar uma moeda, a probabilidade de sair cara , 0,5 ou 50%.
A probabilidade de tirar uma carta de copas do baralho , 0,25 ou 25%.
Dizer que a eficcia de uma vacina 70% equivale a dizer que os indivduos vacinadostem probabilidade 0,7 ou 70% de estarem imunizados.
Em um espao amostral - conjunto de todos os eventos possveis - ser chamadosucesso o resultado que interessa que ocorra, e a probabilidade de ocorrer sucesso ser P.Exemplo:
Qual a probabilidade de tirar uma carta de copas do baralho?
As 52 cartas do baralho: espao amostral
Qualquer carta de copas: sucesso
Todas as cartas de copas - conjunto de interesse
13 (cartas de copas) 52 (todas as cartas) = P (carta de copas)
P (carta de copas) = , 0,25, ou 25%.
7.1 - PROBABILIDADE DE EVENTOS MUTUAMENTE EXCLUSIVOS:ADIO DE PROBABILIDADES
Dois eventos so mutuamente exclusivos quando no podem ocorrer simultaneamente.
A probabilidade de eventos mutuamente exclusivos a soma das probabilidades de cada umdeles. Exemplo: cara ou coroa em lanamento de moeda; carta preta ou vermelha no baralho.
Exemplo: No lanamento de dado, sucesso ser face 2 ou 3: P(2 ou 3) = P(2) + P(3) = 1/6 +1/6 = 1/3
P (A B) = P (A ou B) = P (A) + P (B)
-
8/9/2019 Apostila Estatistica3
31/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 31
7.2 - PROBABILIDADE DE EVENTOS INDEPENDENTES:PRODUTO DE PROBABILIDADES
Dois eventos so independentes quando o resultado de um no interfere no resultadodo outro, e vice-versa. Exemplo: No lanamento de dois dados, sair 2 em um e 3 no outro. Aprobabilidade de eventos independentes o produto das probabilidades de cada um deles.
Exemplo: No lanamento de uma moeda e um dado, a probabilidade de sair cara e face 6ser:
P (cara e face 6) = P (cara) x P (face 6) = 1/2 x 1/6 = 1/12
7.3 - PROBABILIDADE DE EVENTOS INDEPENDENTESE MUTUAMENTE EXCLUSIVOS
Quando o resultado de um no interfere no resultado do outro, e os dois eventos nopodem ocorrer simultaneamente. Exemplos:
a) No lanamento de dois dados, a probabilidade de sair 2 em um dado e 3 no outroser a probabilidade de sair 2 no primeiro e 3 no segundo, ou sair 3 no primeiro e 2no segundo:
P1 dado(2) x P2 dado(3) + P1 dado(3) x P2 dado(2) = (1/6 x 1/6) + (1/6 x 1/6) = 2/36 = 1/18
b) No lanamento de dois dados, a probabilidade de sair 2 ou 3 no primeiro e nosegundo ser:
[ P1 dado(2) + P1 dado(3) ] x [ P2 dado(2) + P2 dado(3) ] = [ 1/6 + 1/6] x [ 1/6 + 1/6 } = 1/3 x1/3 = 1/9
7.4 - PROBABILIDADE CONDICIONAL
a probabilidade de ocorrer determinado evento sob uma dada condio. Exemplo:Quando um dado lanado, a probabilidade de sair 3 1/6. Se o dado j foi lanado esabemos que saiu face mpar, a probabilidade de ter sado 3 1/3. Sob a condio de ter sado
mpar, a probabilidade de sair 3 foi alterada de 1/6 para 1/3. A probabilidade condicional representada por P (A B), que significa probabilidade de A dado B.
P (A B) = P (A e B) = P(A) x P(B)
-
8/9/2019 Apostila Estatistica3
32/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 32
8 - DISTRIBUIO BINOMIAL
8.1 - CONCEITOS
Varivel aleatria: qualquer funo de nmero real definida no espao amostral. Sovariveis influenciadas ao acaso, com variabilidade resultante da soma de fatores nocontrolados.
Varivel aleatria discreta: quando s assume valores associados ao nmeros naturais.Ex.: n de filhos, n de pacientes.
Varivel aleatria binria: s assume um de dois valores possveis. Ex.: ser ou nohipertenso, fator Rh.
A distribuio binomial uma distribuio discreta que resulta da soma de variveisaleatrias binrias.
Exemplo: No lanamento de duas moedas:
Varivel aleatria sendo n de coroas
Possibilidades:
Moeda 2
Cara Coroa
Cara Cara e cara Cara e coroa
Moeda 1 Coroa Coroa e cara Coroa e coroa
A distribuio da ocorrncia de caraser:
x - n de coroas P (x)
0 1/4 = 0,25 = 25%
1 2/4 = 0,50 = 50%
2 1/4 = 0,25 = 25%total 1 = 100%
No lanamento de trs moedas: CARA = K; COROA = C
Possibilidades:
Moeda 1 moeda 2 moeda 3
K K K K e K e K K x K x K [P(K)]3 x x = 1/8
K K C (K e K e C) ou (K e C e K) ou (C e K e K)
K C K (K x K x C) + (K x C x K) + (C x K x K) 3 (K x K x C)C K K 3 [P(K)]2 x P(C) 3( x ) () = 3/8
K C C (K e C e C) ou (C e K e C) ou (C e C e K)
C K C (K x C x C) + (C x K x C) + (C x C x K) 3 (K x C x C)
C C K 3 P(C) x [P(K)]2 x 3 ()( x ) = 3/8
C C C C e C e C C x C x C [P(C)]3 x x = 1/8
-
8/9/2019 Apostila Estatistica3
33/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 33
A distribuio das probabilidades de ocorrncia de cara ser:
x - n de coroas P (x)
0 1/8 = 0,125 = 12,5%
1 3/8 = 0,375 = 37,5%
2 3/8 = 0,375 = 37,5%
3 1/8 = 0,125 = 12,5%
Total 1 = 100%
A probabilidade do sucesso chamada p, e seu complemento (1-p) chamado q.Em n situaes, a probabilidade da varivel aleatria assumir valor x obtida pela frmula:
Onde, a combinao de n, x a x, decorre da anlise combinatria, com a seguintefrmula:
p = probabilidade de sucesso no evento
q = probabilidade de insucesso no evento (1-p)
n = nmero de vezes em que o evento observado
x = valor que se deseja que a varivel assuma
8.2 - MDIA E VARINCIA DE DISTRIBUIO BINOMIAL
A mdia (mi) de uma distribuio binomial dada pela frmula:
= n.p
e a varincia 2 (sigma ao quadrado) dada pela frmula:
2 = n.p.q
Exemplo: Para calcular a mdia e varincia de ocorrncia de cara em 100 lanamentosde uma moeda,
= n.p 100 . = 50 caras
2 = n.p.q 100 . . = 25
!
-
8/9/2019 Apostila Estatistica3
34/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 34
9 - DISTRIBUIO NORMAL
As distribuies de grandes amostras de variveis aleatrias permitem construirgrficos com aparncia tpica - Curva de Gauss - chamada distribuio normal.
A distribuio normal possui as seguintes caractersticas:
a varivel pode assumir qualquer valor real;
o grfico ser uma curva em forma de sino, simtrica em torno da mdia ;
a rea total sob a curva vale 1;
os valores maiores e menores que a mdia ocorrem com igual probabilidade;
a configurao da curva dada pelos parmetros mdia e varincia 2. Mudando amdia, muda a posio da distribuio; mudando a varincia, muda a disperso da
distribuio.
9.1 - DISTRIBUIO NORMAL REDUZIDA
As propriedades da curva normal so conhecidas, e possvel descobrir determinadarea sob a curva a partir dos seus valores de mdia e desvio padro. A probabilidadeassociada ocorrncia de um evento de distribuio normal corresponde rea sob o grfico
da distribuio.Para facilitar os clculos de parte da rea sob a curva de uma dada distribuio usa-se
a distribuio normal reduzida, que a distribuio normal de mdia zero e varincia 1. Asprobabilidades associadas a essa distribuio so obtidas em tabelas padronizadas. Aprobabilidade de ocorrer valor menor que zero 0,5 ou 50%, e de ocorrer valor maior que zerotambm 0,5 ou 50%.
Quando o interesse pela probabilidade de ocorrer valor entre zero e outro valorqualquer, vou aplicar a tabela de valores padronizados da curva z. Exemplo:
A probabilidade de ocorrer valor entre zero e z=1,45 ser a interseco do valor 1,4 naprimeira coluna, com 5 da primeira linha da tabela normal reduzida, ou seja, 42,65%. Observaresse cruzamento na tabela de valores sob a curva normal reduzida.
-
8/9/2019 Apostila Estatistica3
35/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 35
VALORES SOB A CURVA NORMA REDUZIDA CURVA Z
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,00 0,40 0,80 1,20 1,59 1,99 2,39 2,79 3,19 3,590,1 3,98 4,38 4,78 5,17 5,57 5,96 6,36 8,75 7,14 7,53
0,2 7,93 8,32 8,71 9,10 9,48 9,87 10,28 10,64 11,03 11,41
0,3 11,79 12,17 12,55 12,93 13,31 13,68 14,06 14,43 14,80 15,17
0,4 15,54 15,91 16,28 16,64 17,00 17,36 17,72 18,08 18,44 18,78
0,5 19,15 19,50 19,85 20,19 20,54 20,88 21,23 21,57 21,90 22,24
0,6 22,57 22,91 23,24 23,57 23,89 24,22 23,54 24,86 25,18 25,49
0,7 25,80 26,12 26,42 26,73 27,04 27,34 27,64 27,94 28,23 28,52
0,8 28,81 29,10 29,39 29,67 29,95 30,23 30,51 30,78 31,06 31,33
0,9 31,59 31,86 32,12 32,38 32,64 32,89 33,15 33,40 33,65 33,801,0 34,13 34,38 34,61 34,85 35,08 35,31 35,54 35,77 35,99 36,21
1,1 36,43 36,65 36,86 37,08 37,29 37,49 37,70 37,90 38,10 38,30
1,2 38,49 38,69 38,88 39,07 39,25 39,44 39,62 39,80 39,97 40,15
1,3 40,32 40,49 40,66 40,83 40,99 41,15 41,31 41,47 41,62 41,77
1,4 41,92 42,07 42,22 42,36 42,51 42,65 42,70 42,92 43,06 43,19
1,5 43,32 43,45 43,57 43,70 43,82 43,94 44,00 44,10 44,30 44,41
1,6 44,52 44,63 44,74 44,84 44,95 45,05 45,15 45,25 45,35 45,45
1,7 45,54 45,64 45,73 45,82 45,91 45,99 46,08 46,16 46,25 46,33
1,8 46,41 46,49 46,58 46,64 46,71 46,78 46,86 46,93 46,99 47,061,9 47,13 47,19 47,26 47,32 47,38 47,44 47,50 47,56 47,61 47,67
2,0 47,73 47,78 47,83 47,88 47,93 47,98 48,03 48,08 48,12 48,17
2,1 48,21 48,26 48,30 48,34 48,38 48,42 48,46 48,50 48,54 48,57
2,2 48,61 48,65 48,68 48,71 48,75 48,78 48,81 48,84 48,87 48,90
2,3 48,93 48,96 48,98 49,01 49,04 49,06 49,09 49,11 49,13 49,16
2,4 49,18 49,20 49,22 49,25 49,27 49,29 49,31 49,32 49,34 49,36
2,5 49,38 49,40 49,41 49,43 49,45 49,46 49,48 49,49 49,51 49,52
2,6 49,53 49,55 49,56 49,57 49,59 49,60 49,61 49,62 49,63 49,64
2,7 49,65 49,66 49,67 49,68 49,69 49,70 49,71 49,72 49,73 49,742,8 49,74 49,75 49,76 49,77 49,77 49,78 49,79 49,79 49,80 49,81
2,9 49,81 49,82 49,83 49,84 49,84 49,84 49,85 49,85 49,86 49,86
3,0 49,86 49,87 49,87 49,88 49,88 49,88 49,89 49,89 49,89 49,90
3,1 49,90 49,91 49,91 49,91 49,92 49,92 49,92 49,92 49,93 49,93
Se o interesse fosse conhecer a probabilidade de ocorrer valor maior que z=1,45,teramos que subtrair da probabilidade total de valores maiores que zero (50%) a probabilidadedos valores at z=1,45 (42,65%). Ento:
50- 42,65 = 7,35 7,35%
-
8/9/2019 Apostila Estatistica3
36/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 36
Se o interesse fosse conhecer a probabilidade de ocorrer valor menor que z=1,45,teramos que adicionar a probabilidade total de valores menores que zero (0,5) probabilidadedos valores at z=1,45 (0,4265). Ento:
50 + 42,65 = 92,65 92,65%
Se os valores desejados forem negativos, as mesmas propores podem ser utilizadas.Para calcular probabilidades associadas distribuio normal e aplicando as
propriedades da normal reduzida, utiliza-se um artifcio. Uma varivel de distribuio normal,mdia , e desvio padro , ter a probabilidade associada a Z de apresentar valor X dadapela frmula:
Exemplo: A mdia de colesterol em 100 ml de plasma sanguneo de 200 mg, comdesvio padro de 20 mg. A probabilidade de uma pessoa apresentar mais que 225 mg decolesterol em 100 ml de plasma ser:
z =(225 200)/20 = 1,25
Esse valor de z corresponde a 39,44 na tabela de valores sob a curva normal reduzida.
Essa facilidade de clculo para variveis de distribuio normal pode ser utilizada nasdistribuies binomiais. Quando fao um grfico com as probabilidades de eventos emvariveis binomiais, este ter aparncia semelhante ao grfico de uma distribuio normal.
Para o clculo das probabilidades de variveis binomiais tambm existe uma tabelacom vrias situaes e combinaes possveis, mas esta tabela exige certo trabalho de somade probabilidades.
A utilizao da curva normal reduzida para clculo de probabilidades em variveisbinomiais possvel sempre que np> 5 e nq> 5. Primeiro deve-se calcular a mdia e desvio
padro da distribuio:
Com os valores da mdia e desvio padro, aplico a mesma frmula que paradistribuio normal:
O valor de z ser levado a tabela da normal reduzida para o clculo da probabilidade.
As propriedades da curva normal reduzida podem ser aplicadas para clculo deprobabilidades associadas aos eventos sempre que o nmero de elementos observados formaior que 30. Para nmero inferior de observaes so utilizadas as propriedades da curva t.
O clculo do valor de t o mesmo que para o valor de z, mas a tabela utilizada paraverificar a probabilidade associada outra. Veja a tabela com valores de t em anexos.
x
z
=
npq =np =
x
z
=
-
8/9/2019 Apostila Estatistica3
37/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 37
10 ESTIMATIVA POPULACIONAL3
10.1 - PARMETROS E ESTIMATIVAS
Quando utilizamos os dados de todos os elementos de uma populao, aodeterminarmos a mdia aritmtica e o desvio padro, estes so considerados parmetros dapopulao. Em se tratando de amostras, as mesmas medidas obtidas so consideradasestimativas dos parmetros.
10.2 - DETERMINAO DO TAMANHO DA AMOSTRA
muito comum ao pesquisador indagar sobre o nmero de elementos para umaamostra, quando pretende realizar uma pesquisa de campo, laboratrio ou uma simplesinvestigao.
A determinao do tamanho da amostra depende de 3 fatores:
a) Nvel de confiana - comumente so adotados 2 nveis: o de 95% de probabilidadeque emprega uma constante Z = 1,96, ou o de 99% de probabilidade, cuja constante Z =2,58. o nvel de confiana que se deposita da amostra. O pesquisador poder usar aconfiana que deseja.
b) Preciso - em toda experimentao ou pesquisa, a utilizao de amostragem estcondicionada a um erro amostral, que nada mais do que a diferena entre as estimativasamostrais e os parmetros populacionais (mdia ou percentagem). A maior preciso que
desejamos alcanar em nosso trabalho implicar no aumento da amostra selecionada.c) Varincia ou percentagem - em alguns estudos so empregadas caractersticas que
apresentam determinada variabilidade. Em outros casos, observamos a percentagem de certascaractersticas em um conjunto. Dependendo do tipo de investigao, ora usamos a varincia,ora usamos a percentagem.
10.2.1 - Determinao da amostra de dados discretos
Quando dispomos de variveis quantitativas discretas utilizamos as seguintes frmulas:
onde:
no - nmero inicial
Z - nvel de confiana
p - valor obtido de trabalho anteriormente realizado por outro autor
N -tamanho da populao
3 O texto deste captulo foi extrado de RODRIGUES/93
Nn
n
n 00
1+=22
0
).(e
qzn =
Frmula 1 Frmula 2
-
8/9/2019 Apostila Estatistica3
38/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 38
Quando no se dispe de nenhum valor de referncia, usamos p = 50%.
q = 100% - p
e = preciso arbitrada pelo pesquisador
Em populaes finitas, so utilizadas as frmulas 1 e 2. Para populaes infinitas epara as que N apresenta valor elevado, apenas a frmula 1 deve ser utilizada.
Exemplo: com o objetivo de verificar a incidncia de uma virose em uma populao decerta regio, desejamos determinar o tamanho da amostra, sendo N = 40.000.
Para isto, necessitamos utilizar uma frmula apropriada, qual seja:
2
2
0).(
eqpzn =
Z corresponder ao valor de 1,96 ou 2,581 em funo do critrio que o experimentadorescolher; p ser a percentagem de indivduos com virose de acordo com a ltima informao.
(normalmente usamos os dados existentes em literatura recente).q = igual a 100% - p
e = preciso que se deseja alcanar, ou seja, diferena entre o percentual que iremosencontrar e o verdadeiro percentual da populao.
Considerando uma prevalncia de anos anteriores igual a 20% com valor de Z = 1,96 esendo necessria uma preciso de 4%, qual seria o nmero de elementos que a amostradeveria conter?
Z = 1,96
p = 20%
q = 80%
e = 4%
0 nmero de indivduos que deveramos examinar para a determinao da prevalnciada virose de 384.
10.3.2 - Determinao da amostra de dados contnuos
Para variveis quantitativas contnuas, dispomos das seguintes frmulas:
onde:
no - nmero inicial
Z - nvel de confiana
s - desvio padro obtido de trabalho anterior realizado por outro autor. No sendoencontrado, procede-se a uma pr-amostragem, retirando-se 30 observaes dapopulao e calculando-se o desvio padro da caracterstica a estudar.
N - tamanho da populao
e = preciso arbitrada pelo pesquisador
384
16
160084,3
4
802096,12
2
0 ===xxx
n
Nn
nn
0
0
1+=
20
2.
2eszn =
Frmula 1 Frmula 2
-
8/9/2019 Apostila Estatistica3
39/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 39
A utilizao das frmulas 1 e 2 tem procedimento semelhante ao mostrado paravariveis discretas.
Exemplo: numa pesquisa para determinar a taxa mdia do teor de hemoglobina de umatribo de ndios navajo, deparamo-nos com o problema de definir o tamanho da amostra.Sabemos que a populao desta tribo de aproximadamente 18.000 indivduos, o que tornaimpraticvel utilizar todos os elementos. Ento, resolvemos determinar o nmero de elementospara compor a amostra. Selecionamos ao acaso 30 elementos, determinamos o valor do teorde hemoglobina de cada um e calculamos a varincia (medida de disperso), cujo valor foiigual a 9 mg2.
Para tal estudo, a frmula a empregar para a determinao do tamanho da amostra igual a:
20
2.2eszn =
em que Z pode ter valor 1,96 ou 2,58, de acordo com o critrio do investigador;
s2 corresponde varincia da amostra piloto;
(e) equivale diferena entre a mdia da populao e a mdia que ser obtida naamostra. Corresponde preciso que se deseja alcanar.
Prosseguindo, faamos, para o problema que temos, Z = 1,96 e consideremos umapreciso de 0,5 mg.
Substituindo os valores na frmula:
n = 140
Para o presente estudo este ser o nmero ideal de elementos da amostra, dados oscritrios estabelecidos.
10.4 - ERRO AMOSTRAL
Para diferenciar as caractersticas das amostras das populaes, chamaremos de x es a mdia e desvio padro da amostra; e e a mdia e desvio padro da populao.
Mesmo nas amostras casuais podemos esperar diferenas entre os valores obtidos naamostra (estimativas) e os valores reais da populao (parmetros), que ocorremindependentemente da boa elaborao do plano amostral. A diferena observada denominada erro amostral.
Com essa evidncia, como generalizar uma informao amostral para a totalidade dapopulao? Para essa resposta so necessrias algumas consideraes:
Dada uma caracterstica de distribuio normal na populao, se tomarmos infinitasamostras desta populao e calcularmos as mdias destas amostras, essas mdiastero uma distribuio aproximada da curva normal;
A mdia das mdias amostrais ser igual mdia populacional;
O desvio padro da distribuio das mdias amostrais menor que o desvio padro dapopulao.
Esses aspectos constituem parte da teoria de limite central, que permite utilizar ascaractersticas da curva normal para calcular o grupo de valores que se supe conter o
parmetro de interesse, com certo grau de confiana.
2,13825,0
9.84,3
5,0
9.96,12
2
0 ===n
-
8/9/2019 Apostila Estatistica3
40/55
-
8/9/2019 Apostila Estatistica3
41/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 41
11 - CORRELAO:5
11-1 - RELAES ENTRE VARIVEIS:
Em diversas investigaes deseja-se avaliar a relao entre duas medidas quantitativas.Por exemplo, esto as alturas de filhos relacionadas com as alturas dos seus pais? Nveisde colesterol no sangue esto relacionados aos nveis de antioxidantes circulantes? Pesoe altura esto relacionados em crianas de 7 a 9 anos de idade?
IDPESO
(kg)
ALTURA
(cm)
1 72 157
2 65 160
3 65 150
4 62 160
5 61 147
6 59 150
7 59 140
8 59 141
9 59 153
10 57 150
11 56 145
12 55 144
13 55 148
14 55 139
15 55 133
16 54 151
17 54 140
18 54 147
19 54 153
20 53 160
Trs propsitos principais de tais investigaes podem ser:
Para verificar se os valores esto associados. (Os valores de uma medida tendem acrescer (ou decrescer) medida que a outra cresce?).
Para predizer o valor de uma varivel a partir de um valor conhecido da outra.
5
ADAPTAO DE TEXTO TRADUZIDO, PRODUZIDO POR Silvia EmikoShimakura & Paulo Justiniano Ribeiro Junior, Departamento de Estatstica-UFPR
-
8/9/2019 Apostila Estatistica3
42/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 42
Para descrever a relao entre variveis. (Dado um aumento especfico numa varivel,qual o crescimento mdio esperado para a segunda varivel?).
A associao linear entre duas variveis avaliada usando correlao. Para predizer ovalor de uma varivel contnua a partir de uma outra varivel e para descrever a relaoentre duas variveis utiliza-se regresso (veja o prximo captulo).
O primeiro estgio em qualquer um dos casos produzir um grfico de pontos dosdados para obter alguma idia da forma e grau de associao entre duas variveis.
130
135
140
145
150
155
160
165
50 55 60 65 70 75
peso (kg)
altura(cm)
Mesmo tendo somente 20 observaes, podemos ver que parece existir algumaassociao entre peso e altura das crianas de 7 a 9 anos de idade.
11-2 - DEFINIES:
Seja nxxx ,....., 21 o conjunto das medidas de uma das variveis (peso), e seja nyyy ,...., 21
as medidas da outra varivel (altura). Seja yx ssyx ,,, as mdias e desvios padroamostrais dos dois conjuntos de dados.
Para obter uma medida do grau de associao da relao linear entre duas variveis,usamos o coeficiente de correlao, definido como:
Onde
-
8/9/2019 Apostila Estatistica3
43/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 43
Para os dados do exemplo acima, temos n = 20, 2,58=x , 4,148=y , 88,4=xs ,58,7=ys , = 8,291iiyx , a partir dos quais podemos calcular:
36,1519
8,291==xys e 42,058,788,4
36,15=
=r
Assim como para mdias e desvios padro, existe uma letra Grega especial queutilizados para o coeficiente de correlao populacional: . Podemos considerar
rcomo sendo uma estimativa de , exatamente como x uma estimativa da mdia populacional .
11-3 - INTERPRETAO DO COEFICIENTE DE CORRELAO
O valor de r est sempre entre -1 e +1, com r=0 correspondendo no associao.
Usamos o termo correlao positiva quando r>0, e nesse caso medida que xcresce tambm cresce y, e correlao negativa quando r
-
8/9/2019 Apostila Estatistica3
44/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 44
Note que correlaes no dependem da escala de valores de x ou y. (Por exemplo,obteramos o mesmo valor se medssemos altura e peso em metros e quilogramas ou em
ps e libras.).
11-4 - LINEARIDADE E NORMALIDADE:
Somente relaes lineares so detectadas pelo coeficiente de correlao que acabamosde descrever (tambm chamado coeficiente de correlao de Pearson). Nos dadosabaixo, mesmo existindo uma clara relao (no-linear) entre x e y, o coeficiente decorrelao zero. Sempre faa o grfico dos dados de modo que voc possa visualizartais relaes.
Em alguns casos pode ser apropriado transformar x e/ou y.
-
8/9/2019 Apostila Estatistica3
45/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 45
11-5 - COEFICIENTE DE DETERMINAO, R2
O quadrado do coeficiente de correlao de Pearson chamado de coeficiente dedeterminao ou simplesmente R2. uma medida da proporo da variabilidade em
uma varivel que explicada pela variabilidade da outra. pouco comum que tenhamosuma correlao perfeita (R2=1) na prtica, porque existem muitos fatores quedeterminam as relaes entre variveis na vida real. No nosso exemplo, tivemos r=0,42,de modo que R2=0,1764 ou 17,6 %. Ento cerca de 82% da variabilidade da altura no
podem ser descritos (ou explicados) pela variabilidade no peso e vice-versa. Fica,portanto claro que existem outros fatores que poderiam ser importantes, como porexemplo, atividade fsica, tipo de alimentao, hereditariedade, etc.
11-6 - ASSOCIAO NO CAUSALIDADE
Suponha que encontremos uma associao ou correlao entre duas variveis A e B.Podem existir diversas explicaes do porque elas variam conjuntamente, incluindo:
Mudanas em A causam mudanas em B.
Mudanas em B causam mudanas em A.
Mudanas em outras variveis causam mudanas tanto em A quanto em B.
A relao observada somente uma coincidncia.
A terceira explicao freqentemente a mais apropriada. Isto indica que existe algum
processo de conexo atuando. Por exemplo, o nmero de pessoas usando culos-de-sol e aquantidade de sorvete consumido num particular dia so altamente correlacionados. Isto nosignifica que usar culos-de-sol causa a compra de sorvetes ou vice-versa!
extremamente difcil estabelecer relaes causais a partir de dados observacionais.Precisamos realizar experimentos para obter mais evidncias de uma relao causal.
-
8/9/2019 Apostila Estatistica3
46/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 46
12. REGRESSO
12-1 - IDIA BSICA
Em certas situaes podemos estar interessados em descrever a relao entre duasvariveis, e tambm predizer o valor de uma a partir de outra. Por exemplo, se sabemosa altura de um certo estudante, mas no o seu peso, qual seria um bom chute para o pesodeste estudante? O coeficiente de correlao apenas indica a grau de associao comoum nico nmero.
Observe os dados de altura e peso na figura abaixo. As alturas so definidas por
nxxx ,....., 21 e os pesos definidos por nyyy ,...., 21 . (Por enquanto vamos ignorar se elesso do sexo masculino ou feminino). Se estamos interessados em predizer peso a partirde altura ento no temos uma relao simtrica entre as duas variveis. Chamamos
peso a varivel resposta ou dependente, e altura a varivel explanatria, preditora ouindependente. A varivel resposta sempre disposta no eixo vertical y, e a varivelexplanatria sempre disposta no eixo x.
Se a relao entre as duas variveis aproximadamente linear, ento os dados podemser resumidos atravs do ajuste de uma reta passando pelos dados. A equao dessa reta dada por:
y = a + bx
-
8/9/2019 Apostila Estatistica3
47/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 47
onde a conhecida como o intercepto e b a inclinao. Intuitivamente, queremosuma reta que fornea pequenas diferenas entre os verdadeiros pesos e aqueles dados pelareta para as alturas correspondentes.
O mtodo padro para obter a melhor reta ajustada chamado mnimos quadrados o
qual literalmente minimiza a soma dos quadrados das distncias de yi reta ajustada.Em princpio isto requer traar retas possveis, calculando a soma dos quadrados dasdistncias:
e encontrar os valores de a e b (equivalentemente a reta) que fornecem o menor valorde S. possvel mostrar que a melhor reta aquela tal que:
E
Nesse exemplo, a = -51,17 kg e b = 0,68 kg/cm; ento a reta de regresso
Nossa reta ajustada uma estimativa da reta de regresso populacional,xy += . Nossos a e b so estimativas de e . ( comum, denotar-se estas estimativas
por e e ao invs de a e b)
O prximo passo construir intervalos de confiana etc para e e (intercepto einclinao populacional), mas para fazer isto precisamos pensar mais cuidadosamentesobre nossas suposies acerca da populao.
12-2 MODELO DE REGRESSO LINEAR SIMPLES
Este o modelo mais simples para descrever a relao entre uma varivel explanatria
x e uma varivel resposta y. O modelo faz a seguintes suposies, em ordemdecrescente de importncia:
1. o valor mdio da varivel resposta uma funo linear de x,
2. a varincia da varivel resposta constante (ou seja, a mesma para todos os valoresde x),
3. a variao aleatria da varivel resposta para qualquer valor fixo de x segue umadistribuio Normal, e estes termos de erro so independentes.
Em termos algbricos, seja (xi,yi) para i = 1,.........,n os valores observados da varivelexplanatria x e da varivel resposta y para os n sujeitos.
-
8/9/2019 Apostila Estatistica3
48/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 48
O modelo de regresso linear
onde i representa desvios independentes aleatrios da relao linear entre y e x e,para satisfazer nossas trs suposies acima,
Note que e so parmetros da populao, e eles so freqentemente conhecidoscomo coeficientes. Em particular, denominado coeficiente, ou efeito, de x.
Os dados abaixo parecem satisfazer todas as trs suposies:
Um exemplo construdo de dados que no satisfazem nenhuma das suposies mostrado abaixo:
-
8/9/2019 Apostila Estatistica3
49/55
-
8/9/2019 Apostila Estatistica3
50/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 50
reta ajustada quando estes pontos so removidos. Contudo, por enquantoprosseguiremos assumindo que est tudo ok!
Para sermos capazes de calcular erros padro e intervalos de confiana, importante
manter tantas casa decimais quanto possvel: 6846253,0 = . As outras quantidadesso:
77102,88,70791,11,38700,11,37 ==== xyyx sssn
Podemos agora obter 2 :
Ento uma estimativa do desvio padro dos desvios aleatrios,i
,em torno da reta
12-5 - TRANSFORMAES DE DADOS
Uma forma de estender a aplicabilidade do modelo de regresso linear aplicar umatransformao em x ou y, ou ambos, antes de ajustar o modelo. Ou seja, se a relaoentre duas variveis no-linear(uma curva pareceria ajusta melhor do que uma reta),ento freqentemente a relao pode serfeita linear transformando uma ou ambas as
variveis.
Transformaes podem ser muito teis em algumas circunstncias, mas deveria somenteser considerada como um ltimo recurso uma vez que quando uma ou ambas asvariveis so transformadas, os coeficientes deixam de ter interpretaes diretas.
A idia escolher uma transformao que faa a relao aproximadamente linearenquanto ainda permanecendo interpretveis. Freqentemente, relaes biolgicas somultiplicativas e no aditivas e transformaes logartmicas so particularmente teisnestes casos.
12-6 - RESUMO
Regresso permite-nos:
Descreversucintamente o nvel geral de uma varivel que est associada com cadanvel de outra.
Predizeruma varivel de uma outra varivel. importante aqui distinguir entreinterpolao (predio dentro da amplitude dos dados amostrados; no exemplo,predio do peso de uma pessoa de altura 170 cm) e extrapolao (predio fora daamplitude dos dados; no exemplo, predio do peso de algum com altura 70cm como
sendo aproximadamente -3 kg!).
-
8/9/2019 Apostila Estatistica3
51/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 51
SUGESTO DE BIBLIOGRAFIA DE APOIO
BIOESTATSTICA ELZA BERQU EPU SO PAULO INTRODUO BIOESTATSTICA SONIA VIEIRA EDITORA CAMPUS
ESTATSTICA INDUTIVA MAURI JOS GUERRA LIVRARIA CINCIA ETECNOLOGIA EDITORA
BIOESTATSTICA PEDRO CARVALHO RODRIGUES EDUFF
ESTATSTICA APLICADA S CINCIAS HUMANAS JACK LEVIN
ESTATSTICA BSICA WILTON BUSSAB
-
8/9/2019 Apostila Estatistica3
52/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 52
ANEXOS:
TABELA DAS REAS SOB A CURVA NORMAL (z)
Z ,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09
0,0 0000 0040 0080 0120 0159 0199 0239 0279 0319 0359
0,1 0398 0438 0478 0517 0557 0596 0636 0875 0714 0753
0,2 0793 0832 0871 0910 0948 0987 1028 1064 1103 1141
0,3 1179 1217 1255 1293 1331 1368 1406 1443 1480 1517
0,4 1554 1591 1628 1664 1700 1736 1772 1808 1844 1878
0,5 1915 1950 1985 2019 2054 2088 2123 2157 2190 2224
0,6 2257 2291 2324 2357 2389 2422 2354 2486 2518 2549
0,7 2580 2612 2642 2673 2704 2734 2764 2794 2823 2852
0,8 2881 2910 2939 2967 2995 3023 3051 3078 3106 3133
0,9 3159 3186 3212 3238 3264 3289 3315 3340 3365 3380
1,0 3413 3438 3461 3485 3508 3531 3554 3577 3599 3621
1,1 3643 3665 3686 3708 3729 3749 3770 3790 3810 3830
1,2 3849 3869 3888 3907 3925 3944 3962 3980 3997 4015
1,3 4032 4049 4066 4083 4099 4115 4131 4147 4162 4177
1,4 4192 4207 4222 4236 4251 4265 4270 4292 4306 4319
1,5 4332 4345 4357 4370 4382 4394 4400 4410 4430 4441
1,6 4452 4463 4474 4484 4495 4505 4515 4525 4535 4545
1,7 4554 4564 4573 4582 4591 4599 4608 4616 4625 4633
1,8 4641 4649 4658 4664 4671 4678 4686 4693 4699 4706
1,9 4713 4719 4726 4732 4738 4744 4750 4756 4761 4767
2,0 4773 4778 4783 4788 4793 4798 4803 4808 4812 4817
2,1 4821 4826 4830 4834 4838 4842 4846 4850 4854 4857
2,2 4861 4865 4868 4871 4875 4878 4881 4884 4887 4890
2,3 4893 4896 4898 4901 4904 4906 4909 4911 4913 49162,4 4918 4920 4922 4925 4927 4929 4931 4932 4934 4936
2,5 4938 4940 4941 4943 4945 4946 4948 4949 4951 4952
2,6 4953 4955 4956 4957 4959 4960 4961 4962 4963 4964
2,7 4965 4966 4967 4968 4969 4970 4971 4972 4973 4974
2,8 4974 4975 4976 4977 4977 4978 4979 4979 4980 4981
2,9 4981 4982 4983 4984 4984 4984 4985 4985 4986 4986
3,0 4986 4987 4987 4988 4988 4988 4989 4989 4989 4990
3,1 4990 4991 4991 4991 4992 4992 4992 4992 4993 4993
-
8/9/2019 Apostila Estatistica3
53/55
ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 53
VALORES DE t, SEGUNDO OS GRAUS DE LIBERDADE E O VALOR DE
( NVEL DE SIGNIFICNCIA)graus de liberdade
10% 5% 1%1 6,31 12,71 63,66
2 2,92 4,30 9,92
3 2,35 3,18 5,84
4 2,13 2,78 4,60
5 2,02 2,57 4,03
6 1,94 2,45 3