notas de aula de estatistica-neder
DESCRIPTION
Notas de aula do Prof. NederTRANSCRIPT
-
CURSO DE ESTATSTICA APLICADA
Prof. Henrique Dantas Neder Instituto de Economia Universidade Federal de Uberlndia.
-
2
SUMRIO 1. Introduo .................................................................................................... 4 2. Estatstica Descritiva ......................................................................................... 8 2.1 Tipos de Variveis ........................................................................................... 8 2.2 Tabelas e Distribuies de Freqncia ............................................................. 10 2.3 Histogramas .................................................................................................. 12 2.4 Tabulao de Freqncia e Histograma para Variveis Contnuas ....................... 13 2.5 Medidas de Posio e de Disperso ................................................................. 16 2.5.1 Uma Nota sobre Notao Estatstica .......................................................... 17 2.5.2 A Mdia Aritmtica No Ponderada ........................................................... 18 2.5.3 A Mdia Aritmtica Ponderada ................................................................. 19 2.5.4 Propores como Mdias .......................................................................... 20 2.5.5 A Mdia Geomtrica ................................................................................ 21 2.5.6 A Mdia Harmnica ................................................................................. 25 2.5.7 A Mediana .............................................................................................. 25 2.5.8 A Mdia para Dados Agrupados ................................................................ 27 2.5.9 A Mediana para dados Agrupados ............................................................. 28 2.5.10 A Moda para dados Agrupados ................................................................ 30 2.5.11 O Intervalo (ou amplitude) ...................................................................... 37 2.5.13 Varincia e Desvio Padro ...................................................................... 39 2.5.14 Varincia e Desvio Padro para Dados Agrupados ..................................... 42 2.5.15 Interpretando e Aplicando o Desvio Padro .............................................. 43 2.5.16 Coeficiente de Variao .......................................................................... 45
2.6 Medidas de Assimetria ................................................................................... 46 2.7 Curtose: uma medida de achatamento .............................................................. 48
3. Probabilidade .................................................................................................. 50 3.1 Definio Clssica de Probabilidade ............................................................... 51 3.2 Conceito da Freqncia Relativa ..................................................................... 52 3.3 Probabilidade Subjetiva ................................................................................. 53 3.4 Algumas Regras Bsicas de Probabilidade ....................................................... 53 3.5 A Regra do Complemento .............................................................................. 55 3.6 A Regra Geral da Adio ................................................................................ 56 3.7 Regras de Multiplicao ................................................................................ 58 3.8 Probabilidade Condicional .............................................................................. 60 3.9 Diagramas em rvore .................................................................................... 62 3.10 Teorema de Bayes ........................................................................................ 64 Anexo 1 Recordando Definies e Conceitos ...................................................... 65 Anexo 2 - Independncia e Modelos de rvore para Calcular Probabilidades ............ 68 Anexo 3 - Probabilidade Condicional .................................................................... 74 Anexo 4 Revisando os conceitos ........................................................................ 77 Resumo do Clculo de Probabilidades ................................................................... 96 Exerccios de Probabilidade ................................................................................. 97
4. Variveis Aleatrias Discretas ....................................................................... 114
-
3
4.1 O Valor Esperado (mdia) de uma Distribuio de Probabilidade Discreta ....... 118 4.2 A Varincia e o Desvio Padro de uma Distribuio de Probabilidade Discreta .. 119 4.3 A Distribuio de Probabilidade Binomial ..................................................... 121 4.4 A Mdia e Varincia De Uma Distribuio Binomial ...................................... 125 Apndice 1 (Recordao) ................................................................................... 126 Apendice 2 (Recordao) ................................................................................... 127 Apndice 3 (Recordao) ................................................................................... 128 Apndice 4 (Recordao) Valor Esperado e Varincia de uma Varivel Aleatria .... 132 Variveis Aleatrias Independentes..................................................................... 140 Apndice 4 (recordao) .................................................................................... 141
5. Variveis Aleatrias Contnuas e Distribuio Normal ......................................... 144 5.1 Variveis Aleatrias Contnuas ..................................................................... 144 5.2 Mdia e Varincia de uma Varivel Aleatria Contnua ................................... 146 5.3 Varivel Aleatria Normal ............................................................................ 165 5.4 Distribuio Normal Padro.......................................................................... 167 5.5 reas Abaixo da Curva Normal .................................................................... 168
6. Mtodos de Amostragem e Distribuies Amostrais ............................................ 175 6.1 Amostragem Probabilstica ........................................................................... 180 6.2 Teorema do Limite Central ........................................................................... 184 6.3 Estimativa de Ponto ..................................................................................... 186 6.4 Estimativa de Intervalo................................................................................. 186 6.5 Intervalo de Confiana para Uma Proporo Populacional ............................... 188 6.6 Fator de Correo de Populao Finita ........................................................... 189 6.7 Selecionando uma Amostra .......................................................................... 190 6.8 Tamanho Amostral para Estimativa de Propores .......................................... 191
7. Teste de Hipteses Amostras Grandes ..................................................... 192 7.1 Testes de Significncia Unicaudais ................................................................ 194 7.2 Testes de Significncia Bicaudais .................................................................. 194 7.3 P-value de um Teste de Hiptese ................................................................... 196 7.4 Clculo do p-value ....................................................................................... 196 7.5 Teste de Hipteses: Duas Mdias Populacionais ............................................. 198 7.6 Testes Referentes Proporo....................................................................... 201 EXERCCIOS : ................................................................................................ 204
-
4
1. Introduo
A Significncia e a Abrangncia da Estatstica Porque a estatstica importante? Os mtodos estatsticos so usados hoje em quase todos os campos de investigao
cientfica, j que eles capacitam-nos a responder a um vasto nmero de questes, tais
como as listadas abaixo:
1) Como os cientistas avaliam a validade de novas teorias?
2) Como os pesquisadores mdicos testam a eficincia de novas drogas ?
3) Como os demgrafos prevem o tamanho da populao do mundo em qualquer tempo
futuro?
4) Como pode um economista verificar se a mudana atual no ndice de Preos ao
Consumidor a continuao de uma tendncia secular, ou simplesmente um desvio
aleatrio?
5) Como possvel para algum predizer o resultado de uma eleio entrevistando apenas
algumas centenas de eleitores ?
Estes so poucos exemplos nos quais a aplicao da estatstica necessria. Podemos
presumir que a matemtica uma das rainhas das cincias porque ela fornece a estrutura
terica para quase todas as outras cincias. Se voc j fez um curso bsico de fsica, j
est familiarizado com algumas das leis matemticas que governam temas to
diversificados como gravidade, energia, luz, eletricidade, etc. Mas tambm devemos
considerar o fato de que as teorias matemticas esto sendo desenvolvidas todos os dias
em muitas reas por estatsticos tericos - pessoas treinadas em teoria estatstica e
probabilidade. Para citar alguns poucos casos ilustrativos elas so desenvolvidas para
teoria dos vos espaciais em fsica; para teorias do conhecimento do comportamento
animal e humano em psicologia; para teorias da migrao e dos diferenciais de raa em
sociologia; para teorias de epidemias em sade pblica;...
-
5
De fato, a estatstica tornou-se uma ferramenta cotidiana para todos os tipos de
profissionais que entram em contato com dados quantitativos ou tiram concluses a partir
destes.
O que Estatstica? A noo de Estatstica foi originalmente derivada da mesma raiz da palavra Estado,
j que foi a funo tradicional de governos centrais no sentido de armazenar registros da
populao, nascimentos e mortes, produo das lavouras, taxas e muitas outras espcies
de informao e atividades. A contagem e mensurao dessas quantidades gera todos os
tipos de dados numricos que so teis para o desenvolvimento de muitos tipos de
funes governamentais e formulao de polticas pblicas.
Dados numricos so de fato uma parte da Estatstica, mas so apenas a matria-prima,
que precisa ser transformada pelos mtodos estatsticos para posterior anlise. A
Estatstica, como um mtodo cientfico, refere-se ao projeto de experimentos e a
descrio e interpretao de observaes que so feitas. De um ponto de vista moderno, a
Estatstica freqentemente definida como um mtodo de tomada de deciso em face da
aleatoriedade dos fenmenos. Em uma mais vasta perspectiva, o escopo da estatstica
pode ser pensado em termos de trs reas diferentes de estudos: (1) a Estatstica
Descritiva (2) A Estatstica Indutiva e (3) A Teoria da Deciso Estatstica.
Estatstica Descritiva
A estatstica Descritiva refere-se ao corpo de mtodos desenvolvidos para coletar,
organizar, apresentar e descrever dados numricos. Essa rea da Estatstica refere-se s
seguintes tarefas:
1) Encontrar um mtodo apropriado de coletar dados numricos eficientemente e
acuradamente para um dado problema.
2) Determinar um formato eficiente, tal como uma apresentao tabular, para a
organizao dos dados de uma forma sistemtica e ordenada, de maneira que a
-
6
informao fornecida pelos dados possa ser observada com grande facilidade e
preciso.
3) Apresentar dados numricos, seja organizados ou no, de forma que as caractersticas e
o comportamento dos dados so clara e facilmente revelados. Tais apresentaes So
feitas por meio de mtodos grficos.
4) Sumarizar ou descrever cada caracterstica ou propriedade dos dados por um simples
nmero, tal como uma mdia, uma porcentagem ou alguma outra medida apropriada, a
qual calculada a partir dos dados por meio de uma frmula derivada a partir de algum
princpio vlido.
Estatstica Indutiva
A Estatstica Indutiva, que tambm freqentemente chamada de inferncia estatstica ou
estatstica inferencial, em contraste com a estatstica descritiva, essencialmente analtica
em sua natureza. Consiste de um conjunto de princpios ou teoremas que nos permitem
generalizar acerca de alguma caracterstica de uma populao a partir das caractersticas
observadas de uma amostra. Nessa definio, uma populao o conjunto de todos os
itens, objetos, coisas ou pessoas a respeito das quais a informao desejada para a
soluo de um problema. Uma amostra um grupo de itens selecionados por um mtodo
cuidadosamente concebido e projetado a partir de uma populao. Existem diferentes
tipos de amostras, dependendo dos diferentes mtodos de seleo disponveis. Uma
amostra aleatria simples, falando em termos simplificados, aquela que selecionada de
tal forma que cada e todos os itens na populao tm a mesma chance de serem includos
na amostra.
Se uma medida descritiva calculada a partir dos dados da populao ela chamada de
parmetro populacional, ou simplesmente parmetro; se calculada a partir dos dados
da amostra ela chamada de estatstica amostral, ou simplesmente estatstica.
Considerando esses conceitos podemos definir estatstica indutiva como o processo de
generalizar acerca de do valor de um parmetro a partir do valor de uma estatstica.
Existem dois procedimentos de inferncia distintos mas relacionados: estimao e teste
de hipteses. Estimao processo de usar o valor de uma estatstica amostral para
-
7
estimar o valor de um parmetro que desconhecido, mas uma constante. Como um
exemplo, suponhamos que temos uma populao de 100.000 bolas de gude em um saco,
todas as quais so idnticas exceto pela cor, e que no podemos v-las embora saibamos
que uma parte delas so brancas e o restante so pretas. Suponha que desejamos ter uma
idia da proporo de, digamos, bolas brancas nessa populao. Suponha que para
conseguir isso selecionamos 1.000 bolas aleatoriamente do saco e verificamos que 350
so brancas. Isso significa que nossa proporo amostral de bolas brancas 35 %. A partir
disso conclumos que a proporo populacional de bolas brancas tambm 35 %.
Fazendo isso ns realizamos o que chamado de estatstica pontual.
Mas afirmar que a proporo de bolas brancas em toda a populao exatamente
igual a proporo daquela amostra particular como dar um tiro no escuro: o valor da
proporo amostral um resultado aleatrio e depende de cada amostra de 1.000 bolas
escolhida da populao. Pode ser que por uma enorme casualidade o resultado daquela
amostra que escolhemos coincida exatamente com o valor da proporo de bolas brancas
em toda a populao. Mas as chances de que isso no ocorra so muito grandes. Uma
forma de contornarmos esse problema afirmarmos que as chances so de 95 em 100 (ou
de 95 %) de que o intervalo formado pela proporo amostral acrescida e diminuda de 3
pontos percentuais contenha o verdadeiro valor da proporo populacional desconhecido.
Ou seja, construmos um intervalo com limites 35 + 0,03 x 35 = 36,05 e 35 - 0,03 x 35 =
33,95 e afirmamos (com base em algum princpio obtido a partir da teoria estatstica) que
as chances so de 95 em 100 de que o verdadeiro valor da proporo populacional esteja
localizado dentro desse intervalo. Quando uma afirmativa dessa natureza feita estamos
realizando o que se chama de estimativa por intervalo.
Quanto ao segundo procedimento da estatstica inferencial deixaremos para
coment-lo quando for abordado em sua ntegra. E o terceiro campo de estudos da
Estatstica, a Teoria da Deciso Estatstica no ser discutido nessa apresentao.
-
8
2. Estatstica Descritiva
2.1 Tipos de Variveis
Existem diversos tipos de variveis que sero utilizadas em um estudo estatstico.
importante compreender o conceito matemtico de varivel. Varivel uma abstrao que
se refere a um determinado aspecto do fenmeno que est sendo estudado. Podemos
afirmar que a quantidade colhida da safra anual de soja uma varivel. Representemos
essa varivel pela letra X. Essa varivel pode assumir diversos valores especficos,
dependendo do anos de safra, por exemplo, X1986, X1990 e X1992. Esses valores que a
varivel assume em determinados anos no so a prpria varivel , mas valores
assumidos ela para determinados objetos ou pessoas da amostra ou da populao. Se uma
amostra tiver 50 indivduos podemos referimo-nos a X como sendo a varivel nota de
estatstica e a X30 como a nota de um indivduo particular, no caso o trigsimo.
freqente tambm na literatura utilizar-se letras maisculas para a notao de variveis
e as correspondentes letras minsculas para referncia aos valores particulares assumidos
por essa varivel mas nesse resumo procuraremos evitar essa forma de notao.
Variveis quantitativas - referem-se a quantidades e podem ser medidas em uma escala
numrica. Exemplos: idade de pessoas, preo de produtos, peso de recm nascidos.
As variveis quantitativas subdividem-se em dois grupos: variveis quantitativas discretas
e variveis quantitativas contnuas. Variveis discretas so aquelas que assumem apenas
determinados valores tais como 0,1,2,3,4,5,6 dando saltos de descontinuidade entre seus
valores. Normalmente referem-se a contagens. Por exemplo: nmero de vendas dirias
em uma empresa, nmero de pessoas por famlia, quantidade de doentes por hospital.1 As
1 Uma varivel quantitativa discreta no precisa assumir necessariamente apenas valores de contagem, ou seja nmeros inteiros ou nmeros naturais em seqncia. Um exemplo de varivel quantitativa discreta seria, por exemplo, uma que assumisse apenas os seguintes valores : { 1; 3,5 ;
-
9
variveis quantitativas contnuas so aquelas cujos valores assumem uma faixa contnua e
no apresentam saltos de descontinuidade. Exemplos dessas variveis so o peso de
pessoas, a renda familiar, o consumo mensal de energia eltrica, o preo de um produto
agrcola.2 As variveis quantitativas contnuas referem-se ao conjunto dos nmeros reais
ou a um de seus subconjuntos contnuos.
Variveis Qualitativas - referem-se a dados no numricos.3 Exemplos dessas variveis
so o sexo das pessoas, a cor, o grau de instruo.
As variveis qualitativas subdividem-se tambm em dois grupos: as variveis qualitativas
ordinais e as variveis qualitativas nominais. As variveis qualitativas ordinais so
aquelas que definem um ordenamento ou uma hierarquia. Exemplos so o grau de
instruo, a classificao de um estudante no curso de estatstica, as posies das 100
empresas mais lucrativas, etc. As variveis qualitativas nominais por sua vez no definem
qualquer ordenamento ou hierarquia. So exemplos destas a cor , o sexo, o local de
nascimento, etc.4
Dependendo da situao uma varivel qualitativa pode ser representada
(codificada) atravs de emprego de nmeros (por exemplo: em sexo representamos
homens como sendo 0 e mulheres como sendo 1). Mas no tratamento estatstico
5,75 ; 10 }. Apesar dessa varivel abranger valores no inteiros ela apresenta saltos de descontinuidade: nesse exemplo ela no pode assumir nenhum valor intermedirio entre 1 e 3,5 ou entre 5,75 e 10. 2 Seria impossvel obter na prtica uma varivel perfeitamente contnua j que os instrumentos de medida no tem preciso infinita. Por exemplo., o peso de pessoas medido com uma balana com preciso, digamos, de dcimos de gramas. Ento jamais conseguiremos obter um valor para essa varivel que se localize entre 50.000,1 e 50.000,2 gramas, por exemplo, 50.000,15 gramas. Ocorre portanto um salto de descontinuidade entre os dois valores possveis de serem medidos e a varivel, do ponto de vista terico, no pode ser considerada como varivel quantitativa contnua, mas varivel quantitativa discreta. Mas do ponto de vista prtico, acabamos freqentemente por consider-la e trat-la como sendo uma varivel quantitativa contnua, apesar dessa falta de preciso absoluta. O mesmo podemos dizer para o caso da renda ou qualquer outra varivel econmica medida em unidades monetria: no existe uma renda de por exemplo R$ 200,345 j que o centavo a menor diviso do sistema monetrio. Mas de qualquer forma, costuma-se tratar a renda como varivel quantitativa contnua e no discreta. 3 muito comum considerar-se que a estatstica apenas abrange os estudos que utilizam as variveis quantitativas. Nada mais equivocado. Existe um vasto campo de aplicaes estatsticas em que so empregadas as variveis qualitativas, tanto isoladamente como em conjunto com variveis quantitativas. 4 No podemos dizer que a cor X superior a cor Y mas podemos afirmar que o terceiro ano do segundo grau superior hierarquicamente ao primeiro ano do primeiro grau.
-
10
dessa varivel codificada no podemos consider-la como sendo quantitativa. Ela
continua sendo uma varivel qualitativa (pois o em sua essncia e natureza) apesar de
sua codificao numrica que tem como finalidade uma maior finalidade de tabulao de
resultados.
No podemos dizer que para qualquer uma destas categorias qualquer mtodo estatstico
pode ser adequadamente aplicado. As variveis quantitativas contnuas so aquelas que
permitem a utilizao de um conjunto maior e superior de mtodos estatsticos e so, sem
dvida, as variveis mais passveis de um rico tratamento estatstico. Em seguida vm,
nessa ordem, as variveis quantitativas discretas, as variveis qualitativas ordinais e por
ltimo, as variveis qualitativas nominais. Essas ltimas so as que permitem a utilizao
de um menor e menos poderoso arsenal de instrumentos estatsticos de anlise.
2.2 Tabelas e Distribuies de Freqncia
A anlise estatstica se inicia quando um conjunto conjunto de dados torna-se disponvel
de acordo com a definio do problema da pesquisa. Um conjunto de dados, seja de uma
populao ou de uma amostra contem muitas vezes um nmero muito grande de valores.
Alm disso, esses valores, na sua forma bruta, encontram-se muito desorganizados. Eles
variam de um valor para outro sem qualquer ordem ou padro. Os dados precisam ento
ser organizados e apresentados em uma forma sistemtica e seqencial por meio de uma
tabela ou grfico. Quando fazemos isso, as propriedades dos dados tornam-se mais
aparentes e tornamo-nos capazes de determinar os mtodos estatsticos mais apropriados
para serem aplicados no seu estudo.
Suponhamos o seguinte conjunto de dados:
14 12 13 11 12 13
16 14 14 15 17 14
11 13 14 15 13 12
14 13 14 13 15 16
12 12
-
11
Para montarmos uma distribuio de freqncias desses dados verificamos quais so os
valores no repetidos que existem e em uma primeira coluna de uma tabela colocamos
esses valores e na segunda coluna colocamos o nmero de repeties de cada um desses
valores. Para o exemplo acima, a distribuio de freqncias ser:
Varivel freqncia
11 2
12 5
13 6
14 7
15 3
16 2
17 1
A freqncia de uma observao o nmero de repeties dessa observao no conjunto
de observaes. A distribuio de freqncia uma funo formada por pares de valores
sendo que o primeiro o valor da observao (ou valor da varivel) e o segundo o
nmero de repeties desse valor.
Freqncias Relativas e Acumuladas
Para o exemplo acima tambm podemos calcular a freqncia relativa referente a cada
valor observado da varivel. A freqncia relativa o valor da freqncia absoluta
dividido pelo nmero total de observaes.
Varivel freqncia absoluta freqncia relativa 11 2 2/26 = 0,0769
12 5 5/26 = 0,1923
13 6 6/26 = 0,2308
14 7 7/26 = 0,2692
15 3 3/26 = 0,1154
-
12
16 2 2/26 = 0,0769
17 1 1/26 = 0,0385
TOTAL 26 1,0000
Podemos tambm calcular as freqncias acumuladas. Nesse caso existem as freqncias
absolutas acumuladas e as freqncias relativas acumuladas. 5
Varivel freqncia absoluta
freqncia relativa
freqncia absoluta acumulada
freqncia relativa acumulada
11 2 2/26 = 0,0769 2 2/26 = 0,0769
12 5 5/26 = 0,1923 7 7/26 = 0,2692
13 6 6/26 = 0,2308 13 13/26 = 0,5000
14 7 7/26 = 0,2692 20 20/26 = 0,7692
15 3 3/26 = 0,1154 23 23/26 = 0,8846
16 2 2/26 = 0,0769 25 25/26 = 0,9615
17 1 1/26 = 0,0385 26 26/26 = 1,0000
TOTAL 26 1,0000
2.3 Histogramas
Histograma uma representao grfica de uma tabela de distribuio de
freqncias. Desenhamos um par de eixos cartesianos e no eixo horizontal (abscissas)
colocamos os valores da varivel em estudo e no eixo vertical (ordenadas) colocamos os
valores das freqncias. O histograma tanto pode ser representado para as freqncias
absolutas como para as freqncias relativas. No caso do exemplo anterior, o histograma
seria:
5 Observe que os valores da ltima coluna (freqncia relativa acumulada) podem ser calculados de duas maneiras. Na primeira, tal como feito na tabela a seguir, dividimos o valor da freqncia absoluta acumulada pelo total de observaes. Na segunda maneira, acumulamos o valor da freqncia relativa. Este ltimo mtodo pode levar a acmulos de erros, de forma que o ltimo valor de freqncia relativa acumulado se distancie consideravelmente de 1.
-
13
Histograma
0
1
2
3
4
5
6
7
11
12
13
14
15
16
17
Mais
Bloco
Freqncia
Freqncia
histograma de frequncia acumulada (ou ogiva) a representao grfica do
comportamento da frequncia acumulada. Na figura abaixo a ogiva mostrada em
sobreposio ao histograma.
Histograma
0
1
2
3
4
5
6
7
11
12
13
14
15
16
17
Mais
Bloco
Freqncia
,00%
20,00%
40,00%
60,00%
80,00%
100,00%
Freqncia
% cumulativo
2.4 Tabulao de Freqncia e Histograma para Variveis Contnuas
At agora vimos como so calculadas as freqncias (relativas e acumuladas) para
variveis quantitativas discretas. Nesse caso a tabulao dos resultados mais simples.
Mas quando tratamos de variveis quantitativas contnuas os valores observados devem
ser tabulados em intervalos de classes. Para a determinao dessas classes no existe uma
regra pr estabelecida, sendo necessrio um pouco de tentativa e erro para a soluo mais
-
14
adequada. Suponhamos que as safras agrcolas de um determinado produto, em uma
determinada regio, sejam dadas pela tabela a seguir:
Ano Safra (1000 t) Ano Safra (1000 t)
1 280 10 365
2 305 11 280
3 320 12 375
4 330 13 380
5 310 14 400
6 340 15 371
7 310 16 390
8 340 17 400
9 369 18 370
Devem ser seguidos alguns passos para a tabulao de freqncias de dados que se
referem a uma varivel quantitativa contnua, como o caso de nosso exemplo.
1. Definir o nmero de classes. O nmero de classes no deve ser muito baixo nem
muito alto. Um nmero de classes pequeno gera amplitudes de classes grandes o que
pode causar distores na visualizao do histograma. Um nmero de classes grande
gera amplitude de classes muito reduzidas. Foram definidas regras prticas para a
determinao do nmero de classes, sendo que este deve variar entre 5 e 20 (5 para um
nmero muito reduzido de observaes e 20 para um nmero muito elevado). Se n
representa o nmero de observaes (na amostra ou na populao, conforme for o
caso) o nmero aproximado de classes pode ser calculado por Nmero de Classes =
n arredondando os resultados. No caso do exemplo anterior temos n = 18
e 18 4 24= , e podemos adotar um nmero de 5 classes, que ser razovel.
2. Calcular a amplitude das classes. Essa ser obtida conhecendo-se o nmero de
classes e amplitude total dos dados. A amplitude total dos dados o resultado da
subtrao valor mximo - valor mnimo da srie de dados. A amplitude de classe ser:
-
15
classes de
MinimoValor -MaximoValor = classe de Amplitude
nmero
Em geral, o valor do resultado tambm arredondado para um nmero inteiro mais
adequado. No nosso exemplo temos:
Amplitude de Classe = 430 - 280
5= 30
3. Preparar a tabela de seleo com os limites de cada classe. Na tabela abaixo
apresentamos para os dados do nosso exemplo os limites inferior e superior de cada
uma das 5 classes de freqncia.
Classe Limite inferior Limite Superior
1 280 310
2 310 340
3 340 370
4 370 400
5 400 430
Observa-se na tabela acima que o limite superior de cada classe coincide com o limite
inferior da classe seguinte. Prevendo-se que pode ocorrer que o valor de uma observao
seja exatamente igual ao valor do limite de classe deve-se estabelecer um critrio de
incluso. Para evitar esse tipo de dificuldade normalmente se estabelece que o limite
superior de cada classe aberto (e conseqentemente, o limite inferior de cada classe
fechado), ou seja, cada intervalo de classe no inclui o valor de seu limite superior, com
exceo da ltima classe.
4. Tabular os dados por classe de freqncia. A partir da listagem de dados seleciona-
se para cada um deles qual a sua classe de freqncia e acumula-se o total de
freqncia de cada classe. De acordo com nosso exemplo, teremos:
-
16
Classe Freqncia Absoluta Simples
Freqncia Relativa Simples
280 - 310 3 0,12 (12 %)
310 - 340 4 0,16 (16 %)
340 - 370 6 0,24 (24 %)
370 - 400 7 0,28 (28 %)
400 - 430 5 0,20 (20%)
Total 25 1,00 (100 %)
Veremos adiante, quando discutirmos as medidas de posio e de disperso, que quando
agrupamos dados numricos em intervalos de classe ocorre perda de informao o que
leva a resultados no to precisos do que aqueles que seriam obtidos a partir dos dados
originais sem agrupamento.
2.5 Medidas de Posio e de Disperso
Podemos considerar que a Estatstica Descritiva subdivide-se em duas partes. Na
primeira, abordada anteriormente, so estudadas as formas de apresentao dos dados
para que fiquem salientadas as suas caractersticas principais. Na segunda, que
comearemos a tratar agora, abrange as medidas descritivas na forma de simples nmeros
que representam de forma sinttica essas caractersticas da distribuio estatstica dos
dados. Estudaremos, a rigor, quatro tipos de medidas:
1. Medidas de Tendncia Central (ou medidas de posio). Essa propriedade dos dados
refere-se a localizao do centro de uma distribuio. Elas nos indicam qual a
localizao dos dados ( no eixo que representa o conjunto dos nmeros inteiros se
estivermos tratando de uma varivel quantitativa contnua).
2. Medidas de Disperso. Essa propriedade revela o grau de variao dos valores
individuais em torno do ponto central.
-
17
3. Assimetria. a propriedade que indica a tendncia de maior concentrao dos dados
em relao ao ponto central.
4. Curtose. a caracterstica que se refere ao grau de achatamento, ou a taxa na qual a
distribuio cresce ou cai da direita para a esquerda.
2.5.1 Uma Nota sobre Notao Estatstica
Utilizaremos as letras maisculas para representar as variveis, como por exemplo a
varivel X. Os valores individuais que uma varivel pode assumir so representados pelas
correspondentes letras minsculas. Por exemplo, se X usado para designar o peso de
uma amostra de 50 pessoas, ento x o valor numrico do peso de uma dessas 50
pessoas. Diferentes valores de uma varivel so identificados por subscritos. Assim, os
pesos de 50 pessoas em uma amostra podem ser denotados por x1, x2, ..., x50.
nmero total de observaes em uma populao finita designado por N e na
amostra representado por n. A distino entre medidas descritivas para
populaes e amostras muito importante. Denotaremos os parmetros
(medidas referentes a populao) por letras gregas ou letras minsculas em
portugus. As estatsticas amostrais sero representadas por letras maisculas
em portugus e os valores observados de uma estatstica amostral pela
correspondente letra minscula em portugus. Por exemplo, as medidas
descritivas a serem introduzidas nessa seo sero denotadas como segue:
Nome da Medida Parmetro Notao da Estatstica
Valor observado
mdia aritmtica X x
proporo P p
mdia geomtrica ~g G g
mdia harmnica ~h H h
mediana ~.x 5 X.5 x.5
moda ~xm Xm xm
-
18
2.5.2 A Mdia Aritmtica No Ponderada
A mdia definida como a soma das observaes dividida pelo nmero de observaes.
Se tivermos, por exemplo, n valores, temos:
Xx x x
n
x
n
ni
i
n
=+ + +
= =
1 2 1...
Propriedades da mdia aritmtica no ponderada:
1. A mdia um valor tpico, ou seja, ela o centro de gravidade da distribuio, um
ponto de equilbrio. Seu valor pode ser substitudo pelo valor de cada item na srie de
dados sem mudar o total. Simbolicamente temos:
n X x( ) = (6)
2. A soma dos desvios das observaes em relao a mdia igual a zero.
( )x X = 0
3. A soma dos desvios elevados ao quadrado das observaes em relao a mdia
menor que qualquer soma de quadrados de desvios em relao a qualquer outro
nmero. Em outras palavras,
( )x X 2 = um mnimo. A idia bsica de selecionar um nmero tal que a soma dos quadrados dos desvios em
relao a este nmero minimizada tem grande importncia na teoria estatstica. Ela
chega a ter um nome especial: o princpio dos mnimos quadrados. Ela , por exemplo,
a base racional do mtodo dos mnimos quadrados que usado para ajustar a melhor
6 - Utilizaremos muito freqentemente a notao x simplificadamente para representar xii
n
=
1
.
-
19
curva atravs de um conjunto de pontos em um sistema de eixos cartesianos, como
veremos adiante. Esta propriedade tambm a base para o clculo de uma importante
medida de disperso, que veremos logo a seguir.
A validade dessas tr6es propriedades pode ser facilmente demonstrada por um exemplo
numrico simples, mostrado na tabela a seguir. Nesta tabela, a coluna (1) contem o
conjunto de dados cuja soma 9 e cuja mdia 3. A coluna (2) demonstra a primeira
propriedade da mdia, ou seja, se cada uma das observaes individuais dos dados
substituda pela mdia, a soma permanece igual a 9. A coluna (3) verifica que de fato
( )x X = 0 . Finalmente, as colunas (4), (5) e (6) demonstram que ( )x X 2 = 14, que menor que somas quando os desvios individuais so tomados a partir do nmero
2 e do nmero 5, respectivamente.
(1)
x
(2)
x
(3)
(x - x)
(4)
(x - x)2
(5)
(x - 2)2
(6)
(x -5)2
1 3 -2 4 1 16
2 3 -1 1 0 9
6 3 +3 9 16 1
Soma 9 9 0 14 17 26
2.5.3 A Mdia Aritmtica Ponderada
No clculo da mdia aritmtica no ponderada todos os valores observados foram
somados atribuindo-se o mesmo peso a todas as observaes. Agora veremos uma nova
forma de calcular a mdia. Consideremos um exemplo familiar de clculo da mdia de
notas de estudantes, quando o exame final vale duas vezes mais do que as duas provas
comuns realizadas no decorrer do semestre. Se um determinado aluno obtiver as notas 7,
5 e 8 a sua mdia ponderada final ser:
-
20
1 (7) +1 (5) + 2 8
1+1+ 2= 7
Em termos gerais, a frmula para a mdia aritmtica ponderada :
Xw = ==
w x wxi ii
n
1
onde wi o peso da observao i
e n o nmero de observaes.
A soma dos pesos no pode ser igual a zero. Fora disto, no existe restrio para os
valores dos pesos. Se todos os pesos forem iguais a 1, a mdia ponderada recai em seu
caso particular, a mdia aritmtica no ponderada. O mesmo ocorre se todos os pesos
forem iguais a uma constante c. Portanto, a mdia aritmtica no ponderada na realidade
uma mdia aritmtica ponderada com pesos iguais.
2.5.4 Propores como Mdias
Freqentemente encontramos populaes cujas unidades elementares podem ser
classificadas em duas categorias: uma que tem certo atributo e outra que no tem esse
atributo. Nesse caso, estamos interessados na proporo de casos que possuem esse
atributo. Uma proporo comumente pensada como uma frao ou porcentagem, mas
tambm pode ser pensada como um caso especial de mdia.
Suponha que queremos determinar a proporo de votantes entre os cidados brasileiros.
Devemos primeiro designar um valor 1 para cada pessoa qualificada como eleitor e um
valor 0 para cada pessoa no qualificada como eleitor. Ento, a soma dos 1s seria x e a mdia seria a mdia seria obtida pela diviso da soma pelo nmero N total de pessoas
no Brasil.
A mdia da varivel x = x N . No entanto essa mdia tambm uma proporo, a proporo de eleitores na populao brasileira.
-
21
2.5.5 A Mdia Geomtrica
A mdia geomtrica de uma amostra definida como a raiz ensima do produto nos n
valores amostrais.
G = n ( )( )...( )x x xn1 2
Por exemplo, a mdia geomtrica de 5, 9 e 13 :
G = = 8,36 3 ( )( )( )5 9 13
Para a mesma srie de dados a mdia 9. sempre verdade que a mdia aritmtica
maior do que a mdia geomtrica para qualquer srie de valores positivos, com exceo
do caso em que os valores da srie so todos iguais, quando as duas mdias coincidem.
clculo da mdia geomtrica muito simples. Mas a sua interpretao e as sua
propriedades tornam-se mais evidentes quando reduzimos a frmula a sua
forma logartmica. Tomando logaritmos de ambos os lados da equao anterior
teremos:
logG = log(n ( )( )...( ) )log log ... log log
x x xx x x
n
x
nnn
1 21 2=+ + +
=
A concluso que chegamos que o logaritmo da mdia geomtrica igual mdia
aritmtica dos logaritmos dos valores da srie. Verifica-se que a mdia geomtrica
somente tem significado quando todos os valores da srie so todos positivos.
Suponhamos como exemplo de aplicao de clculo da mdia geomtrica os dados da
tabela seguinte que mostram as mudanas de preos de duas mercadorias, A e B, de 1980
a 1985. Durante esse perodo o preo de A subiu 100 % e o preo de B decresceu 50 %.
Qual foi a mudana mdia relativa de preos? Em outras palavras, qual foi o percentual
mdio de mudana de preos?
-
22
Preos das Mercadorias A e B em 1980 e 1985
Preo Relativo de Preos
1980 = 100 1985 = 100
Mercadoria 1980 1985 1980 1985 1980 1985
A R$ 50 R$ 100 100 200 50 100
B R$ 20 R$ 10 100 50 200 100
Mdia Aritmtica 100 125 125 100
Mdia Geomtrica 100 100 100 100
A mdia aritmtica fornece uma resposta incorreta para essa questo. Como indicado
pelos clculos da tabela acima leva a duas concluses opostas. Se 1980 tomado como
base para o relativo de preos, os preos so em mdia 25 % maiores em 1985 do que em
1980. Se 1985 tomado como base, os preos de 1980 so 25 % maiores do que os
preos de 1985. Portanto, a mdia aritmtica dos relativos de preos conduz a resultados
inconsistentes.
No entanto, um resultado consistente obtido quando a mdia geomtrica aplicada:
1. Se 1980 escolhido como a base, os preos de 1985 so 100 % dos preos de 1980, ou
seja:
g = = =200 50 10 000 100.
2. Se 1985 escolhido como a base, os preos de 1980 sero tambm 100 % dos preos
em 1985, ou seja:
g = =50 200 100
A mais importante aplicao da mdia geomtrica refere-se talvez ao clculo de taxas de
crescimento mdias, desde que essas podem ser corretamente medidas somente por esse
mtodo. Para exemplificar, no campo da economia, esse ponto, suponha que a produo
anual de um setor industrial cresceu de 10.000 para 17.280 unidades durante o perodo
1985-1988 como mostrado na tabela a seguir; qual a taxa mdia de crescimento anual?
A taxa mdia anual de crescimento pode ser calculada a partir dos valores em
-
23
porcentagem da produo em relao aos anos anteriores. Se calcularmos a mdia
aritmtica desses valores teramos:
x = + + =( ) /60 96 300 3 152
implicando uma taxa de crescimento mdia de 152 -100 = 52 %. Se a produo cresce 52
% ao ano, comeando da produo de 1985 de 10.000 unidades, ento a produo de
1986 seria de
23.0 + 0,52 (10.000) = 15.200;
a produo de 1987 seria de
15.200+ 0,52(15.200) = 23.104;
a produo de 1988 seria de
23.104 + 0,52(23.104) = 35.118,08
Ano 1985 1986 1987 1988
Produo
Porcentagem
do ano anterior
10.000
6.000
60
5.760
96
17.280
300
Observe-se que este ltimo valor quase 200 % do valor efetivamente observado
em 1988, de 17.200.
A mdia geomtrica, por sua vez, :
g = =( )( )( )60 96 300 1203
implicando uma taxa anual mdia de crescimento de 120 - 100 = 20 %. Verificando,
teremos:
no ano de 1986: 10.000 + 0,20(10.000) = 12.000;
no ano de 1987: 12.000 + 0,20(12.000) = 14.400;
no ano de 1988: 12.000 + 0,20(14.400) = 17.280 que coincide com o valor observado
efetivamente em 1988.
-
24
Se o valor da mdia geomtrica das porcentagens de crescimento for menor do que 100,
implica em uma porcentagem mdia de crescimento negativa, o que indica uma taxa
mdia de declnio ao invs de uma taxa mdia de crescimento.7 Atente tambm para o
fato de que as trs porcentagens a partir das quais a mdia geomtrica calculada so
percentuais do ano anterior ao invs de mudana percentual do ano anterior.8
clculo da taxa mdia de crescimento baseado principalmente na hiptese de
uma taxa constante de crescimento ou de que os valores individuais formam
uma progresso geomtrica. Quando o clculo envolve um nmero
considervel de perodos, utiliza-se com mais freqncia uma frmula que se
relaciona com a mdia geomtrica, que :
Rx
x
f
i
n=
1
onde:
R = taxa de crescimento geomtrica mdia,
n = nmero de perodos de tempo,
xf = valor no perodo final,
xi = valor no perodo inicial.
Para os dados da tabela anterior, teremos:
R =
=
17 280
10 0001 0 203
.
., ou 20 % , como obtido anteriormente.9 Note que R = G -1.
7 Se, por exemplo, ao invs de 60, 96 e 300 %, como anteriormente, tivermos 60, 96 e 78 %, a taxa de
crescimento geomtrica mdia ser de g = =( )( )( ) ,60 96 78 76 593 , o que indica um decrscimo mdio de 76,59 - 100 = - 23,41 %. 8 Essas ltimas porcentagens, referentes ao exemplo da tabela anterior, seriam (6.000 - 10.000)/10.000= - 0,40, ou seja - 40 %; (5.760 - 6.000)/6.000 = -0,04 , ou seja, - 4 %; e (17.280 - 5.760)/5760 = 2, ou seja + 200 %. 9 - interessante notar que pelo clculo anterior empregam-se os valores dos anos intermedirios, ao passo que nesse ltimo, apenas empregam-se os valores do perodo inicial e final, no importando o que ocorreu nos perodos intermedirios.
-
25
2.5.6 A Mdia Harmnica
A mdia harmnica o inverso da mdia aritmtica dos inversos dos valores observados.
Simbolicamente, para uma amostra, temos:
Hx x x
n
x
n
n
x
n=+ + +
= =
11 1 1
1
1
11 2
... ( / )
( / )
Para clculos mais simples, a frmula anterior pode ser reescrita como:
11 1 1
11 2H
x x x
n
x
n
n=+ + +
=... ( / )
A mdia harmnica dos trs valores 4, 10 e 16 :
114
110
116
30 1375
7 27
H
H
=+ +
=
=
,
,
Para os mesmos dados a mdia aritmtica 10 e a mdia geomtrica 8,62. Para
qualquer srie de dados cujos valores no so todos os mesmos e que no incluem o zero,
a mdia harmnica sempre menor que tanto a mdia aritmtica como a mdia
geomtrica.
2.5.7 A Mediana
A mediana o valor do item central da srie quando estes so arranjados em ordem de
magnitude. Para a srie R$ 2, R$ 4, R$ 5, R$ 7 e R$ 8, a mediana o valor do terceiro
-
26
item, R$ 5. No caso do nmero de itens na srie ser par, a mediana a semi-soma dos
dois valores mais centrais. Por exemplo, para a srie 3, 5 ,8 ,10, 15 e 21 kg, a mediana a
media dos valores 8 e 10, ou seja 9.
A mediana pode ser formalmente definida como o valor que divide a srie de tal forma
que no mnimo 50 % dos itens so iguais ou menores do que ela, e no mnimo 50 % dos
itens so iguais ou maiores do que ela. Mais rigorosamente, estabelecemos que:
X.5 = o valor do [(n+1)/2] -simo item
Por exemplo, para uma srie formada pelos valores 3,5,8,10,15 e 21 a mediana
ser o valor do [(6+1)/2] = 3,5 simo item, ou seja, a semi soma do item de posto 3 e do
item de posto 4, que so 8 e 10.
O valor da mediana no influenciado pelos valores nas caudas de uma
distribuio. Por exemplo, se temos a srie de dados 1,2,3,4,5 a mediana 3. Se
substituirmos os valores das caudas dessa distribuio por quaisquer valores uma nova
distribuio formada poderia ser formada pela srie -1000,-100,3,500,5000 e a mediana
permanece sendo 3. Portanto, ela uma medida de posio da distribuio bem adequada
para distribuies assimtricas, tais como a distribuio de renda, j que no sabemos se a
famlia mais rica ganha R$7.000.000 ou R$ 500.000.000. Veremos, mais a frente que ela
possui vantagens em relao a mdia aritmtica, como medida de posio (ou medida de
tendncia central) para dados agrupados em classes de freqncia, quando a ltima classe
tem limite superior indeterminado.
A mediana tambm tem a interessante propriedade de que a soma dos desvios absolutos
das observaes em relao a mediana menor do que a soma dos desvios absolutos a
partir de qualquer outro ponto na distribuio. Simbolicamente:
x X = .5 um mnimo
-
27
2.5.8 A Mdia para Dados Agrupados
Quando estamos tratando de amostras ou populaes muito grandes conveniente
calcular as medidas descritivas a partir das distribuies de freqncia. A mdia no pode
ser determinada exatamente a partir de distribuies de freqncia, mas uma boa
aproximao pode ser obtida pela hiptese do ponto mdio. A aproximao quase
sempre muito satisfatria se a distribuio bem construda.10 A hiptese do ponto mdio
refere-se a considerar-se de que todas as observaes de uma dada classe esto centradas
no ponto mdio daquela classe. Conseqentemente, o valor total da freqncia da classe
da i-sima classe simplesmente o produto fi mi, onde fi a freqncia (absoluta simples)
da classe i e mi ponto mdio da classe i. Sob essa hiptese, a mdia aproximada para
uma distribuio de uma amostra com k classes vem a ser:
Xf m f m f m
f f f
fm
f
k k
k
+ + ++ + +
1 1 2 2
1 2
...
...
= fm
n
importante notar que todos os somatrios na equao acima referem-se s
classes e no s observaes individuais. Consideremos a seguinte tabela de distribuio
de freqncia para dados de gasto com alimentao extrados de uma pesquisa de
oramentos familiares.
Classe f m fm
R$ 120,00 - R$139,99 5 130,0 650,0
140,00 - 159,99 26 150,0 3900,0
160,00 - 179,99 24 170,0 4080,0
180,00 - 199,99 15 190,0 2850,0
200,00 - 219,99 8 210,0 1680,0
10 Isto , principalmente se no agrupamento dos dados originais em uma tabela de distribuio de
freqncia, empregou-se um nmero adequado de classes de freqncia.
-
28
220,00 - 239,99 2 230,0 460,0
Total 80 13620,0
25,170$80
00,13620Rx ==
Ao utilizar essa aproximao estamos considerando a hiptese de que todas as
observaes em cada classe esto uniformemente distribudas nessa classe. Por exemplo,
se tivermos um intervalo de tamanho 100 e com freqncia igual a 6 observaes, a
localizao dessas observaes seria 0,20,40,60,80 e 100, com distncia constante entre
cada par de observaes, de forma que:
0+20+40+60+80+100 = 300 = m x 6 e m = 50, ou seja, o ponto mdio do
intervalo de 0 a 100. Conclui-se que se a distribuio das observaes for uniforme em
cada intervalo, o somatrio dos valores das observaes de cada intervalo igual ao
produto da freqncia no intervalo pelo valor do ponto mdio desse intervalo. Supe-se
que com uma conveniente construo de intervalos de classe os eventuais erros nos
intervalos compensam-se mutuamente.
2.5.9 A Mediana para dados Agrupados
Assim como possvel estabelecer uma aproximao da mdia aritmtica para
dados agrupados, o mesmo pode ser feito para a mediana. O mtodo usado o da
interpolao utilizando-se a distribuio de freqncia acumulada ou ogiva. Inicialmente
determina-se a classe que contem a mediana. Essa ser a classe cuja freqncia
acumulada relativa correspondente a seu limite inferior menor que 0,50 (ou 50 %) e a
freqncia acumulada relativa correspondente a seu limite superior maior que 0,50 (ou
50 %). O prximo passo a determinao do ponto exato onde se localiza a mediana
naquela classe. Para o exemplo anterior de gastos com alimentao de famlias, temos:
-
29
Classe freq. absoluta simples
freq.acumulada freqncia relativa acumulada
R$ 120,00 - R$139,99 5 5 0,0625
140,00 - 159,99 26 31 0,3875
160,00 - 179,99 24 55 0,6875
180,00 - 199,99 15 70 0,8750
200,00 - 219,99 8 78 0,9750
220,00 - 239,99 2 80 1,0000
Total 80
A classe que contm a mediana a terceira classe, pois a freqncia relativa
acumulada da classe anterior (segunda classe) menor que 0,5 e a freqncia relativa
acumulada da terceira classe maior do que 0,5.11 Na figura a seguir, F a freqncia
acumulada (representada no eixo vertical) e X o valor da varivel (representada no eixo
horizontal).
11 - A freqncia relativa acumulada da classe anterior classe corrente a freqncia relativa acumulada
do limite inferior da classe corrente. A freqncia relativa acumulada da classe corrente a freqncia relativa acumulada do limite superior dessa mesma classe.
X.5 160 180 X
55
31
F
1 80 140,5
2 2
n + += =
-
30
Por semelhana de tringulos, verifica-se que:
X
X
.
.
,
,
5
5
160
180 160
40 5 31
55 31
167 92
=
=
Este procedimento o mesmo que a seguinte frmula de interpolao:
X LIn F
fc
a
. ..
( ) /5 5
5
1 2= +
+
onde:
LI.5 = limite de classe inferior da classe da mediana,
Fa = freqncia acumulada da classe imediatamente anterior classe da
mediana,
f.5 = freqncia absoluta simples da classe da mediana,
c = amplitude (tamanho) da classe da mediana.
2.5.10 A Moda para dados Agrupados
A moda de uma distribuio de freqncia pode muitas vezes ser aproximada pelo
ponto mdio da classe modal - a classe com maior densidade de freqncia.12 Ento, para
os dados de gastos com alimentao do exemplo anterior, xm = R$ 150, o ponto mdio da
segunda classe, que possui a maior freqncia. Esse mtodo de localizar a moda
totalmente satisfatrio quando as densidades de freqncia da classe imediatamente
12 Definimos densidade de freqncia de um intervalo de classe como sendo o quociente entre a freqncia
absoluta simples desse intervalo e o seu tamanho (amplitude). Quando os intervalos de classe possuem amplitudes desiguais, existe uma tendncia de os intervalos maiores apresentarem maiores freqncias. Dessa forma a classe modal no a classe de maior freqncia mas a classe de maior densidade de freqncia. Naturalmente, quando todos os intervalos tm a mesma amplitude, como no caso do exemplo anterior e como geralmente so construdos para no distorcer a distribuio, a classe modal a classe de maior densidade de freqncia assim como tambm a classe de maior freqncia. Esse conceito de densidade de freqncia ser muito til, quando definirmos, mais adiante, a funo densidade de probabilidade e para a sua compreenso intuitiva.
-
31
anterior classe modal (a classe premodal) e da classe imediatamente posterior classe
modal (classe posmodal) so aproximadamente iguais. Quando isso no ocorre, como
sugerido pela figura a seguir, resultados mais precisos podem ser obtidos com a seguinte
frmula, para uma amostra:
X L cm m + +( )
1
1 2
onde:
Lm = o verdadeiro13 limite inferior de classe da classe modal
1 = da diferena entre das densidades de freqncia da classe modal e classe
premodal.
2 = da diferena entre das densidades de freqncia da classe modal e classe
posmodal.
C = a verdadeira amplitude de classe da classe modal.
Interpretao geomtrica da interpolao
algbrica para a determinao da moda
13 Para determinar os limites de classe verdadeiros para uma varivel contnua, temos que escrever os
limites de classe com uma casa decimal a mais do que os dados originais. Por exemplo, se o conjunto de dados consiste de medidas de peso arredondadas para um dcimo de grama, os limites nominais de classe (tambm chamados de limites aparentes podem ser 11,0 - 11,2; 11,3 - 11,5;11,6 - 11.8; ... Os limites
Densidade de freqncia
xm X
-
32
No exemplo anterior de gastos com alimentos de 80 famlias, como a amplitude
de todos os intervalos so iguais, podemos utilizar as freqncias absolutas de
classe no lugar das densidades de freqncia, para o clculo do valor aproximado
da mediana.
Lm = 140,00 1 = 26 - 15 = 11
c = 20 2 = 26 - 24 = 2
xm + +=140 00
11
11 220 156 92, ( ) ,
Uma observao aqui necessria. possvel calcular os valores aproximados da
mediana e da moda para dados agrupados quando o ltimo intervalo de classe tem
limite superior indeterminado. No caso da mediana isso imediato e no caso da
moda, o seu clculo somente pode ser feito se a ltima classe no for a classe
modal e preciso primeiramente calcular as densidades de freqncia. Como
exemplo, suponhamos que a distribuio de renda de uma certa regio dada pela
seguinte distribuio de freqncia:
renda (R$)
limites nominais
limites reais freqncia
absoluta
densidade de
freqncia
0 - 120 0 - 120,50 40 40/120,50 = 0,332
121 - 605 120,50 - 605,50 170 170/485 = 0,350
606 - 1200 605,50 - 1200,50 220 220/595 = 0,370
1201 - 2400 1250,50 - 2400,50 15 15/1150 = 0,013
mais de 2400 mais de 2450,50 97 indeterminado
Total 542
verdadeiros de classe (tambm conhecidos como limites reais ou efetivos) seriam 10,95 - 11,25; 11,25 - 11,55; 11,55 - 11,85;...
-
33
A mediana est localizada na terceira classe:14
x. ,
( )
( , , )5 605 50
542 12 210
2201200 50 605 50 772 +
+
=
A classe modal tambm a terceira classe:15
xm = +
+ =605 50
0 370 0 350
0 370 0 350 0 370 0 0131200 50 605 50 637,
( , , )
( , , ) ( , , )( , , )
Infelizmente, para esse exemplo no possvel o clculo da mdia, o que
demonstra que para algumas situaes temos que contar com a mediana como
medida de posio (ou de tendncia central) de uma distribuio estatstica.
Discutiremos agora comparativamente algumas das caractersticas das trs
principais medidas de posio:
A Mdia Aritmtica
1) Ela afetada por todas as observaes e influenciada pelas magnitudes
absolutas dos valores extremos na srie de dados.
2) Ela das trs medidas de posio a que possibilita maiores manipulaes
algbricas, dadas as caractersticas de sua frmula.
3) Em amostragem, a mdia uma estatstica estvel. Isso ser aprofundado
posteriormente.
14 Observe-se que os dados originais esto, de acordo com o sugerido pela tabela acima, com aproximao
igual a unidades de gramas. Os limites verdadeiros (ou reais) de classe) passam, portanto, a ter aproximao de uma casa decimal de grama. O valor final dos clculos da mediana e da moda so aproximados para unidades de grama, j que essa a aproximao dos dados originais (que se refere ao instrumento de medida). 15 J que esta classe a que apresenta maior densidade de freqncia. Como a ltima classe no tem limite
superior definido no foi possvel calcular sua densidade de freqncia, j que no podemos determinar sua amplitude. Dependendo dessa amplitude ela poderia ter uma densidade de freqncia maior que a da
-
34
A Mediana
1) Seu valor afetado pelo nmero de observaes e como elas esto distribudas
mas ela no afetada pelos valores das observaes extremas.
2) Sua frmula no passvel de manipulao algbrica.
3) Seu valor pode ser obtido, como vimos, em distribuies, com limites
superiores indeterminados para a sua ltima classe.
4) A mediana a estatstica mais adequada para descrever observaes que so
ordenadas ao invs de medidas.
A Moda
1) A moda o valor mais tpico e representativo de uma distribuio. Ela
representa o seu valor mais provvel.
2) Como a mediana, a moda tambm no influenciada pelos valores extremos da
distribuio e no permite manipulaes algbricas como a frmula da mdia.
Existem algumas relaes entre as diversas medidas de posio:
1) Para qualquer srie, exceto quando no caso de todas as observaes
coincidirem em um nico valor, a mdia aritmtica sempre maior que a
mdia geomtrica, a qual, por sua vez, maior que a mdia harmnica.
2) Para uma distribuio simtrica e unimodal, mdia = mediana = moda.
3) Para uma distribuio positivamente assimtrica, mdia > mediana > moda.
A distncia entre a mediana e a mdia cerca de um tero da distncia entre
a moda e a mdia.
terceira classe. Mas mesmo nesse caso, a terceira classe ainda seria modal, j que sua densidade de freqncia maior que a das suas classes vizinhas, e a distribuio passaria a ser bimodal.
-
35
4) Para uma distribuio negativamente assimtrica, mdia < mediana < moda.
A distncia entre a mediana e a mdia cerca de um tero da distncia entre
a moda e a mdia.
Essas ltimas caractersticas so apresentadas graficamente, a seguir
POSIES RELATIVAS DA MDIA, MEDIANA E MODA EM FUNO DA ASSIMETRIA DAS DISTRIBUIES
Assimetria positiva
Assimetria negativa
Distribuio simtrica
-
36
Medidas de Disperso, Assimetria e Curtose
Muitas sries estatsticas podem apresentar a mesma mdia, mas no entanto, os dados de
cada uma dessas sries podem distribuir-se de forma distinta em torno de cada uma das
mdias dessas sries. Na anlise descritiva de uma distribuio estatstica fundamental,
alm da determinao de uma medida de tendncia central, conhecer a disperso dos
dados e a forma da distribuio. Duas sries de dados podem possuir a mesma mdia, mas
uma pode apresentar valores mais homogneos (menos dispersos em relao a mdia) do
que a outra. Um pas, por exemplo, com uma distribuio de renda mais equnime, ter
uma disperso de suas rendas menor do que um pas com estrutura de renda mais
diferenciada em diversos estratos ou categorias sociais. Uma mquina que produz
parafusos e que estiver menos ajustada do que outra produzir medidas de parafusos com
distribuio mais dispersa em torno de sua mdia.
A inadequao das mdias A importncia das mdias com freqncia exagerada. Se dizemos que a renda familiar
mdia de um determinado pas de US$ 5.000 por ano no sabemos muita coisa sobre a
distribuio de renda desse pas. Uma mdia, como um simples valor adotado para
representar a tendncia central de uma srie de dados uma medida muito til. Porm, o
uso de um simples e nico valor para descrever uma distribuio abstrai-se de muitos
aspectos importantes.
Em primeiro lugar, nem todas as observaes de uma srie de dados tem o mesmo valor
da mdia. Quase sem exceo, as observaes includas em uma distribuio distanciam-
se do valor central, embora o grau de afastamento varie de uma srie para outra. Muito
pouco pode ser dito a respeito da disperso mesmo quando diversas medidas de tendncia
central so calculadas para a srie. Por exemplo, no podemos dizer qual distribuio tem
maior ou menor grau de disperso da informao dada pela tabela abaixo.
-
37
Distribuio A Distribuio B
Mdia
Mediana
Moda
15
15
15
15
12
6
Uma segunda considerao que as formas de distribuio diferem de um conjunto de
dados para outro. Algumas so simtricas; outras no. Assim, para descrever uma
distribuio precisamos tambm de uma medida do grau de simetria ou assimetria. A
estatstica descritiva para esta caracterstica chamada de medida de assimetria.
Finalmente, existem diferenas no grau de achatamento entre as diferentes distribuies.
Esta propriedade chamada de curtose (em ingls, kurtosis). Medir a curtose de uma
distribuio significa comparar a concentrao de observaes prximas do valor central
com a concentrao de observaes prximas das extremidades da distribuio.
2.5.11 O Intervalo (ou amplitude)
A medida de disperso mais simples a amplitude, a diferena entre o maior e o menor
valor nos dados. Para uma distribuio de freqncia que usa intervalos de classe, a
amplitude pode ser considerada como a diferena entre o maior e o menor limite de classe
ou a diferena entre os pontos mdios dos intervalos de classe extremos. Os preos de
aes e de outros ativos financeiros so freqentemente descritos em termos de sua
amplitude, com a apresentao pelas Bolsas de Valores do maior valor e do menor valor
da ao em um determinado perodo de tempo.
Para algumas distribuies simtricas a mdia pode ser aproximada tomando-se a semi-
soma dos dois valores extremos,16 que freqentemente chamada de semi-amplitude. Por
exemplo, prtica entre os meteorologistas derivar a mdia diria de temperatura
16 Foi o que fizemos ao calcular a mdia para valores agrupados em classes de freqncia. Nesse caso
utilizamos o ponto mdio de cada intervalo de classe como representativo da mdia de cada intervalo. Assim, ao multiplicarmos a freqncia de cada classe pelo valor do ponto mdio, estamos calculando aproximadamente a soma das observaes em cada intervalo, admitindo como hiptese que a distribuio dos dados em todos os intervalos simtrica.
-
38
tomando a mdia somente dos valores mximo e mnimo de temperatura ao invs, de
digamos, a mdia das 24 leituras horrias do dia.
A amplitude tem alguns defeitos srios. Ela pode ser influenciada por um valor atpico na
amostra. Alm disso, o seu valor independe do que ocorre no interior da distribuio, j
que somente depende dos valores extremos. Este defeito ilustrado na figura a seguir:
Na figura acima so mostradas duas distribuies com diferentes variabilidade, mas com
mesma amplitude. A amplitude tende a crescer, embora no proporcionalmente, a medida
que o tamanho da amostra cresce. Por esta razo, no podemos interpretar a amplitude
corretamente sem conhecer o nmero de informaes dos dados.
2.5.12 Percentis, Decis e Quartis
Podemos tentar responder a seguinte pergunta: que proporo dos valores de uma
varivel menor ou igual a um dado valor? Ou maior ou igual a um dado valor? Ou entre
dois valores? Quando construmos uma distribuio de freqncia acumulada, tais
questes somente podem ser respondidas com relao aos limites de classe exatos. Por
exemplo, a partir da distribuio de freqncia relativa acumulada da pgina 28, podemos
dizer que 38,75 % das observaes so menores do que 159,99. Mas no podemos
responder a pergunta: qual o gasto familiar tal que a proporo da amostra tendo este
valor ou menos 35 %?. Mas visvel da tabela que 6,25 % das famlias gastam com
alimentao at R$ 139,99 e 38,75 % das famlias gastam at R$ 159,99. Portanto, como
35 % est entre estes dois valores, o gasto familiar tal que a proporo da amostra tendo
f(X)
X
-
39
este valor ou menos 35 % est situado entre R$ 139,99 e R$ 159,99. Este valor
chamado de percentil 35.
O percentil 40 o valor da varivel que maior do que 40 % das observaes.
Generalizando, o percentil x, o valor da varivel que maior do que x % das
observaes. Em outras palavras, o percentil x o valor da varivel correspondente ao
valor de freqncia relativa acumulada de x %.17 O primeiro decil o valor da varivel
que supera um dcimo (ou 10 %) do total de observaes. Se tivermos 200 observaes, o
segundo decil ser aproximadamente a observao de posto 40.
O primeiro quartil o valor da varivel cuja freqncia relativa acumulada 0,25 (ou 25
%). O terceiro quartil o valor da varivel cuja freqncia relativa acumulada 0,75 (ou
75 %). O primeiro quartil maior do que um quarto dos valores observados e menor do
que trs quartos destes valores. O terceiro quartil maior do que trs quartos dos valores
observados e menor do que um quarto destes valores. O segundo quartil confunde-se com
a mediana.
Uma medida de disperso o chamado desvio interquartlico que a diferena entre o
terceiro e o primeiro quartis.
2.5.13 Varincia e Desvio Padro
A varincia definida como a mdia dos desvios ao quadrado em relao mdia da
distribuio. Para uma amostra,
1
)( 22
=
n
XxS
17 Para o clculo do valor exato do percentil x para dados agrupados utiliza-se o mesmo mtodo para a determinao da mediana, ou seja, a interpolao linear. Como no caso da mediana, podemos empregar uma
frmula de interpolao X LIp n F
fcp p
a
p
= + +
( ) /1 100
onde Xp o percentil p, Lip o limite inferior real da classe que contem o percentil, Fa a freqncia relativa acumulada da classe anterior classe que contem o percentil, fp a freqncia relativa (simples) da classe que contem o percentil, c a amplitude do intervalo de classe que contem o percentil e o nmero de observaes. O mesmo mtodo pode ser empregado tambm para os decis e quartis.
-
40
Para uma populao finita,
N
x =2
2)(
Na penltima equao, n-1 chamado de nmero de graus de liberdade de S2 , um
conceito a ser definido mais tarde. Existe uma restrio para esta equao: n > 1 (no se
pode calcular a varincia para uma amostra de uma observao apenas). O desvio padro
a raiz quadrada da varincia, e denotado S (para amostra) e (para populao).
Existem frmulas que facilitam os clculos para
S2 e 2 :
Sn x x
n n
x
N
x
N
22 2
22
2
1=
=
( )
( )
Com estas duas ltimas frmulas, podemos calcular a varincia somente com a soma dos
valores ( x ) e a soma dos quadrados dos valores ( x2 ); no mais necessrio calcular a mdia, em seguida os desvios em relao s mdias e finalmente os quadrados
destes desvios.
Para ilustrar o processo de clculo da varincia e desvio padro e para mostrar o uso
destas medidas, considere o seguinte exemplo. Dois tipos diferentes de mquina, X e Y
so projetadas para produzir o mesmo produto. Elas tm o mesmo preo de venda. Um
fabricante est tentando decidir qual delas comprar e observou 10 mquinas distintas de
cada tipo em operao por uma hora. A tabela seguinte mostra as produes horrias nas
primeiras duas colunas. As mdias so x = =40310 40 3, unidades por hora e
y = =40810 40 8, unidades por hora. Portanto, com base nestes dados, o tipo Y um
pouco mais rpida. Podemos retirar mais alguma informao a partir destes dados?
-
41
Podemos medir e comparar as disperses das produes horrias dos dois tipos de
mquina. Usando a penltima frmula para os dados da tabela, obtemos:
S
S
S
S
X
X
Y
Y
22
22
10 16 405 403
10 10 118 23
18 23 4 27
10 17 984 408
10 10 113511
13512 11 62
=
=
= =
=
=
= =
( . ) ( )
( ),
, ,
( . ) ( )
( ),
, ,
unidades por hora
unidades por hora
x y x2 y2
35
36
49
44
43
37
38
42
39
40
25
26
55
52
48
24
34
47
50
47
1.225
1.296
2.401
1.936
1.849
1.369
1.444
1.764
1.521
1.600
625
676
3.025
2.704
2.304
576
1.156
2.209
2.500
2.209
Soma 403 408 16.405 17.984
O tipo X tem menor disperso que o tipo Y. Apesar de ter maior preo que o tipo Y, a
mquina X mais precisa.
-
42
2.5.14 Varincia e Desvio Padro para Dados Agrupados
A varincia e o desvio padro (como a mdia, mediana, moda, quartis, percentis, decis)
podem ser calculados para dados agrupados, ou seja, distribuies de freqncia com
intervalos de classe. Entretanto, os resultados podem ser apenas aproximadamente
precisos. Utiliza-se, como no caso da mdia, a hiptese do ponto mdio: a de que toda
observao est localizada no ponto mdio de sua classe. Cada ponto mdio entra nos
clculos quantas vezes so as observaes naquele intervalo de classe. As equaes para
as varincias so:
Sf m X
n
f m
N
22
1=
=
( )
( )
, para a amostra;
, para a populacao.2
Os smbolos utilizados nestas equaes j foram definidos anteriormente. Para facilitar os
clculos podemos utilizar as seguintes frmulas mais convenientes para as varincias:
Sfm fm n
n
fm N
N
22 2
2
1=
( ) /
( ) /
e
=fm
22
para a amostra e populao, respectivamente. Aqui, como antes, assumimos que a
populao finita.
Os somatrios em todas estas equaes so para todas as k classes, no para as
observaes individuais. Estas equaes podem ser aplicadas tanto para intervalos de
classe iguais como para intervalos de classe desiguais. Entretanto, elas no podem ser
empregadas quando existem um ou mais intervalos sem limites. Como para os dados no
-
43
agrupados, a raiz quadrada destas equaes so os desvios padres para a amostra e para a
populao, respectivamente.
Aplicando as ltimas equaes para o exemplo de consumo de alimentos, temos:
Classe (1) m
(2) f
(3) fm
(2)(1)
(4) fm2
(3)(1)
R$ 120,00 - R$139,99 130 5 650 84.500
140,00 - 159,99 150 26 3.900 585.000
160,00 - 179,99 170 24 4.080 693.000
180,00 - 199,99 190 15 2.850 541.500
200,00 - 219,99 210 8 1.680 352.800
220,00 - 239,99 230 2 460 105.800
Total 80 13.620 2.363.200
Sfm fm n
n
S
2
2 2 2
1
2 363200 13620 80
80 1561 96
561 96 23 71
=
=
=
= =
( ) / . . ( . ) /,
, ,
2.5.15 Interpretando e Aplicando o Desvio Padro
O desvio padro mais a mais usada das medidas de variabilidade. Infelizmente,
o desvio padro no tem uma interpretao intuitivamente bvia. Por exemplo, no
exemplo anterior das mquinas, SX = 4,27 unidades por hora, mas no bvio o que isto
quer dizer para a mquina X. Para muitas sries de dados h dois teoremas para a
interpretao do desvio padro que so muito teis. Eles so chamados de Desigualdade
de Chebyshev e a Regra de Gauss, as quais introduzimos a seguir.
Teorema: Desigualdade de Chebyshev. Para qualquer conjunto de dados e qualquer
constante h > 1, no mnimo 1 1 2 / h dos dados estaro situados dentro de um intervalo
formado por h desvios padres abaixo e acima da mdia.
-
44
Por este teorema temos certeza de que no mnimo , ou 75 % dos dados iro situar-se
dentro do intervalo X S 2 . Neste caso h = 2 e 1 1 1 1 2 3 42 2 = =/ / /h . No mnimo
8/9, ou 88,9 % dos dados estaro no intervalo X S 3 ; e no mnimo 15/16, ou cerca de
94 % dos valores de qualquer varivel estaro includos dentro do intervalo X S 4 .
Considere o exemplo anterior das mquinas. Temos X = 40 3, e SX = 4 27, . Que
percentagem das mquinas ter produo entre X SX = 15 40 3 15 4 27, , , , , ou seja,
entre 33,9 e 46,7? Resposta: no mnimo 1 115
0 562 =, , , ou aproximadamente 56 %. Da
tabela anterior encontramos 9 das 10 mquinas tipo X que esto dentro deste intervalo e
claramente 9/10 maior do que 56 %.
A vantagem da Desigualdade de Chebyshev que ela pode ser aplicada variveis com
qualquer padro de distribuio (no importa que sejam simtricas, assimtricas,
mesocrticas, platicrticas, leptocticas, etc.). Entretanto, ela tem a desvantagem de no
ser muito precisa, j que a porcentagem efetiva que caem dentro do intervalo em torno da
mdia quase sempre muito maior do que o mnimo dado por 1 1 2 / h , especialmente
quando as amostras so pequenas, como no nosso exemplo anterior.
Teorema: A Regra de Gauss. Se os dados so amostrais e se so, de forma aproximada,
distribudos normalmente, ou seja, o histograma dos dados aproximadamente simtrico
e tem a forma de um sino, ento:
1. X S1 incluir aproximadamente 68 % dos dados
2. X S 2 incluir aproximadamente 95 % dos dados
3. X S 3 incluir aproximadamente 100 % dos dados
Chamamos isto de Regra de Gauss, porque baseada na distribuio de probabilidade
gaussiana (ou distribuio de probabilidade normal). Esta distribuio ser discutida em
detalhe em um captulo posterior.
-
45
2.5.16 Coeficiente de Variao
Com freqncia, como no caso do exemplo das duas mquinas, queremos comparar a
variabilidade de dois ou mais conjuntos de dados. Podemos fazer isto facilmente usando
as varincias ou os desvios padres quando, primeiro, todas as observaes individuais
tm a mesma unidade de medida e, segundo, as mdias dos conjuntos de dados so
aproximadamente iguais. Quando qualquer uma destas condies no satisfeita, uma
medida relativa de disperso deve ser usada. Uma medida relativa de variabilidade
freqentemente usada chamada de coeficiente de variao, denotada por CV para uma
amostra. Esta medida o valor do desvio padro em relao mdia:
CVS
X=
Suponha que um cientista na ndia obteve os seguintes dados referentes aos pesos de
elefantes e ratos.
Elefantes Ratos
xE = 6 000. kg
s kgE = 300
x kgR = 0 150,
s kgR = 0 04,
Se calcularmos os respectivos coeficientes de variao, teremos:
cv(X ou 5,0 %
cv(X ou 26,7 %
E
R
) ,
),
,,
= = =
= = =
s
x
s
x
E
E
R
R
300
60000 050
0 04
0 1500 266
Portanto, a variabilidade relativa dos pesos dos ratos mais do que 5 vezes maior do que
a variabilidade dos pesos dos elefantes. Para o exemplo anterior das mquinas, teremos:
-
46
cv(X ou 10,60 %
cv(Y ou 28,48 %
),
,,
),
,,
= =
= =
4 27
40 300 1060
11 62
40 800 2848
Assim, a disperso relativa da produo da mquina Y quase trs vezes maior do que a
disperso relativa da mquina X.
2.6 Medidas de Assimetria
Duas distribuies tambm podem diferir uma da outra em termos de assimetria ou
achatamento, ou ambas. Como veremos, assimetria e achatamento (o nome tcnico
utilizado para esta ltima caracterstica de forma da distribuio curtose) tm
importncia devido a consideraes tericas relativas inferncia estatstica que so
freqentemente baseadas na hiptese de populaes distribudas normalmente. Medidas
de assimetria e de curtose so, portanto, teis para se precaver contra erros aos estabelecer
esta hiptese.
Diversas medidas de assimetria so disponveis, mas introduziremos apenas uma, que
oferece simplicidade no conceito assim como no clculo. Esta medida, a medida de
assimetria de Pearson, baseada nas relaes entre a mdia, mediana e moda. Recorde
que estas trs medidas so idnticas em valor para uma distribuio unimodal simtrica,
mas para uma distribuio assimtrica a mdia distancia-se da moda, situando-se a
mediana em uma posio intermediria, a medida que aumenta a assimetria da
distribuio. Conseqentemente, a distncia entre a mdia e a moda poderia ser usada
para medir a assimetria. Precisamente,
Assimetria = mdia - moda
Quanto maior a distncia, seja negativa ou positiva, maior a assimetria da distribuio.
Tal medida, entretanto, tem dois defeitos na aplicao. Primeiro, porque ela uma
medida absoluta, o resultado expresso em termos da unidade original de medida da
distribuio e, portanto, ela muda quando a unidade de medida muda. Segundo, a mesma
grandeza absoluta de assimetria tem diferentes significados para diferentes sries de
dados com diferentes graus de variabilidade. Para eliminar estes defeitos, podemos medir
-
47
uma medida relativa de assimetria. Esta obtida pelo coeficiente de assimetria de
Pearson, denotado por SKP e dado por:
SKX X
SPm=
A aplicao desta expresso envolve outra dificuldade, que surge devido ao fato de que o
valor modal da maioria das distribuies ser somente uma distribuio, enquanto que a
localizao da mediana mais satisfatoriamente precisa. Contudo, em distribuies
moderadamente assimtricas, a expresso
X X X Xm = 3 5( ).
adequada (no envolve impreciso muito grande). A partir disto, vemos que:
X X X X X X X Xm = = [ ( )] ( ). .3 35 5
Com este resultado, podemos rescrever o coeficiente de assimetria de Pearson como:
SKX X
SP=
3 5( ).
Esta medida igual a zero para uma distribuio simtrica, negativa para distribuies
com assimetria para a direita e positiva para distribuies com assimetria para a esquerda.
Ela varia dentro dos limites de 3. Aplicando SKP aos dados agrupados de gastos com
consumo de alimentos das famlias, temos:
SKP =
= +3 170 25 167 92
23 710 295
( , , )
,,
Este resultado revela que a distribuio de gastos com consumo de alimentos tem
assimetria moderadamente positiva (o que significa maior concentrao de famlias nas
classes de menor gasto). muito comum encontrar distribuies positivamente
assimtricas em dados econmicos, particularmente na produo e sries de preos, os
-
48
quais podem ser to pequenos quanto nulos mas podem ser infinitamente grandes.
Distribuies assimetricamente negativas so raras em cincias sociais.
2.7 Curtose: uma medida de achatamento
Apresentaremos agora uma medida de achatamento das distribuies, o coeficiente de
curtose, denotado por K. Esta medida algebricamente tratvel e geometricamente
interpretvel. definida como a relao entre o desvio semi-interquartlico, ou seja, a
metade do valor do desvio interquertlico, e o intervalo entre o decil 9 e o decil 1:
K
Q Q
D D=
1
2 3 1
9 1
( )
Por meio do coeficiente de curtose, classificamos diferentes graus de achatamento em trs
categorias: leptocrtica, platicrtica e mesocrtica (ver figura, a seguir). Uma
distribuio leptocrtica (curva a) tem a maior parte de suas observaes concentrada no
centro. Conseqentemente, a diferena entre as duas distncias, (Q3 - Q1) e (D9 - D1)
tende a ser muito pequena. Para um dado grau de disperso, quanto menor for o
achatamento da distribuio, menor ser diferena entre estas duas distncias. Desde que
(Q3 - Q1) < (D9 - D1) para uma distribuio com forma muito pontiaguda, K aproxima-
se de 0,5 no limite, quando Q3 - Q1 = D9 - D1. Ao contrrio, quanto mais platicrtica a
distribuio (curva b), mais o intervalo entre os decis 9 e 1 tende a exceder o intervalo
interquartlico. Portanto, quando o intervalo de uma varivel tende ao infinito e para uma
curva completamente achatada, K tende a zero. Em vista destas consideraes, parece
razovel estabelecer valores prximos de 0,25 para representar distribuies mesocrticas
(curva c). Esta escolha reforada pelo fato de que para a varivel normal padronizada, k
= 0,2630 (veremos este ponto em captulo posterior).
-
49
Na figura acima se compara a curtose de duas distribuies com a curtose de uma
distribuio mesocrtica (em linha tracejada). Na figura da direita temos uma distribuio
platicrtica (linha cheia) e na figura da esquerda temos uma distribuio leptocrtica
(linha cheia).
Aps o clculo dos quartis e decis a partir dos dados agrupados para a distribuio de
gastos com alimentao, temos que:
K
Q Q
D D=
=
=
1
2 1 2 188 39 154 83
209 78 146 58
0 2655
3 1
9 1
( ) ( / )( . , )
, ,
,
Este resultado indica que a distribuio de gastos com alimentos aproximadamente
mesocrtica, j que muito prximo de 0,25.
-
50
3. Probabilidade
Objetivos do captulo:
Definir o termo probabilidade.
Descrever as abordagens clssica, da freqncia relativa e subjetiva da probabilidade.
Entender os termos experimento, espaos amostral e evento.
Definir os termos probabildade condicional e probabilidade conjunta
Calcular probabilidades aplicando as regras da adio e da multiplicao
Determinar o nmero de possveis permutaes e combinaes
Calcular uma probabilidade usando o Teorema de Bayes
Probabilidade: uma medida de possibilidade de ocorrncia de um determinado
evento; ela pode assumir um valor entre 0 e 1
Evento: Uma coleo de um ou mais resultados de um experimento
Exemplo: Experimento jogar uma moeda duas vezes
Possveis resultados (espao amostral) { KK, KC, CK, CC }
Evento: no mnimo uma cara = {CC, CK, KC}
Como uma probabilidade expressa?
Uma probabilidade expressa como uma nmero decimal, tal como 0,70 ; 0,27 ; ou 0,50.
Entretanto ela pode ser representada como uma percentagem tal com 70 %, 27 % ou 50
%. O valor de uma probabilidade est localizado no intervalo de nmero reais que vai de
0 a 1, inclusive as extremidades deste intervalo.
-
51
Quanto mais uma probabilidade prxima de 0, o evento a ela associado mais
improvvel de ocorrer.
Quanto mais uma probabilidade prxima de 1, o evento a ela associado mais
provvel de ocorrer.
3.1 Definio Clssica de Probabilidade
Probabildade Clssica: baseada na hiptese de que os resultados de um experimento
so igualmente provveis.
Usando o ponto de vista clssico:
resultados possveis de totalnmero
favorveis resultados de nmero evento um de adeProbabilid =
Considere o experimento de jogar duas moedas.
O espao amostral deste experimento S = { CC,CK,KC,KK}
Considere o evento: uma cara
21
4
2
resultados possveis de totalnmero
favorveis resultados de nmero evento um de adeProbabilid ===
Definies
Eventos mutuamente exclusivos: a ocorrncia de qualquer um evento significa que
nenhum dos outros pode ocorrer ao mesmo tempo.
No caso do experimento de jogar duas moedas, os quatro possveis resultados so
mutuamente exclusivos.
-
52
Eventos Coletivamente Exaustivos: no mnimo um dos eventos deve ocorrer quando o
experimento conduzido.
No experimento de jogar 2 moedas, os quatro possveis resultados so coletivamente
exaustivos.
Soma das probabilidades = 1
Desde que cada resultado no experimento de jogar 2 moedas tem probabilidade igual
a , ento a soma das probabilidades dos resultados possveis + + + = 1
3.2 Conceito da Freqncia Relativa
A probabilidade de um evento ocorrer no longo prazo determinada pela
observao de que frao de vezes o evento ocorreu no passado.
A probabilidade pode ser calculada pela frmula:
sobservae de totalnmero
passado noocorreu evento o que em vezesde nmero e