aplicaÇÃo de tÉcnicas utilizando regressÃo classica e ... · a autocorrelação espacial...

7
II Simpósio Brasileiro de Geomática Presidente Prudente - SP, 24-27 de julho de 2007 V Colóquio Brasileiro de Ciências Geodésicas ISSN 1981-6251, p. 719-725 TACHIBANA et al. APLICAÇÃO DE TÉCNICAS UTILIZANDO REGRESSÃO CLASSICA E ESPACIAL NA CIDADE DE PRESIDENTE PRUDENTE – SP VILMA MAYUMI TACHIBANA NILTON NOBUHIRO IMAI REJANE ENNES DANIELA MODESTO VICENTIN Universidade Estadual Paulista - Unesp Faculdade de Ciências e Tecnologia - FCT Departamento de Cartografia, Presidente Prudente - SP {vilma, nnimai}@fct.unesp.br RESUMO – Este artigo apresenta ferramentas que atuam na extração e visualização de informações não diretamente perceptíveis ao analista em ambientes urbanos, quando este utiliza procedimentos comuns de visualização de dados espaciais. As técnicas são baseadas no conceito de autocorrelação espacial. Os dados utilizados são oriundos do mapeamento realizado pelo IBGE da cidade de Presidente Prudente - SP. Os resultados obtidos são apresentados em forma de estatística que medem a associação espacial global e local, gráficos de espalhamento e mapas. ABSTRACT –This article presents tools that act in the extraction and visualization of information not directly perceivable the analyst, when this uses common procedures of visualization of space data. The techniques are based on the of the spatial autocorrelation’s concept. The used data are deriving of the mapping carried through by IBGE of President Prudente city - SP. The results obtained are presented in form of the statistic that measures the global and local association space, the graphical of scattering and the maps. 1 INTRODUÇÃO Estudar as cidades requer um olhar amplo em decorrência dos bilhões de pessoas que nelas vivem em imensas aglomerações urbanas, colocando os teóricos frente ao desafio de elaborar novos modelos teórico- conceituais capazes de traduzir a totalidade das inter- relações presentes nestas estruturas multidimensionais. A utilização de modelos teórico-conceituais é necessária para que se elaborem análises e propostas de intervenção (RAMOS, 2002). Atualmente, verifica-se o aumento do uso de Sistemas de Informação Geográfica (SIG) e do geoprocessamento em empresas e instituições públicas e privadas. Nesses sistemas, as informações com conteúdo geográfico de natureza diversa podem ser armazenadas, manipuladas, visualizadas e principalmente transformadas através de processamentos matemáticos. Esses sistemas permitem, por meio de mapas, a visualização espacial de variáveis como população de indivíduos, índices de qualidade de vida ou vendas de empresas numa região. Para tanto, tendo-se os dados de uma base geográfica o SIG é capaz de apresentar um mapa que permite a visualização do padrão espacial do fenômeno (NEVES et al., 2000). Em paralelo a esses desenvolvimentos, algumas técnicas de estatística foram sendo definidas e adaptadas aos dados espaciais. Essas técnicas, combinadas com funções de visualização, formam, em alguns SIGs atuais, um conjunto de ferramentas que suporta a análise exploratória de dados espaciais. Esse conjunto de ferramentas é definido na literatura como sendo uma coleção de técnicas para descrever e visualizar distribuições espaciais, identificar situações atípicas, descobrir padrões de associação espacial, agrupamento de valores semelhantes (clusters) e sugerir regimes espaciais ou outras formas de heterogeneidade espacial (NEVES et al., 2000). Desta maneira, as ferramentas, aqui utilizadas, são apresentadas e discutidas quanto a sua aplicação e utilização na análise. Elas atuam como forma de extração e visualização de informações não diretamente perceptíveis ao analista, quando este utiliza procedimentos comuns de classificação e visualização de dados espaciais. As técnicas são baseadas no conceito de autocorrelação espacial e são aplicáveis a objetos-área. Este tipo de objeto espacial possui um ou um conjunto de atributos numéricos associados e é representada, espacialmente, por linhas poligonais fechadas, que na análise espacial são denotados dados de área. Como forma de exemplificar as utilidades destas técnicas, elas foram aplicadas a alguns dados sócio-

Upload: others

Post on 17-Mar-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

II Simpósio Brasileiro de Geomática Presidente Prudente - SP, 24-27 de julho de 2007 V Colóquio Brasileiro de Ciências Geodésicas ISSN 1981-6251, p. 719-725

TACHIBANA et al.

APLICAÇÃO DE TÉCNICAS UTILIZANDO REGRESSÃO CLASSICA E ESPACIAL NA CIDADE DE PRESIDENTE PRUDENTE – SP

VILMA MAYUMI TACHIBANA

NILTON NOBUHIRO IMAI REJANE ENNES

DANIELA MODESTO VICENTIN

Universidade Estadual Paulista - Unesp Faculdade de Ciências e Tecnologia - FCT

Departamento de Cartografia, Presidente Prudente - SP {vilma, nnimai}@fct.unesp.br

RESUMO – Este artigo apresenta ferramentas que atuam na extração e visualização de informações não diretamente perceptíveis ao analista em ambientes urbanos, quando este utiliza procedimentos comuns de visualização de dados espaciais. As técnicas são baseadas no conceito de autocorrelação espacial. Os dados utilizados são oriundos do mapeamento realizado pelo IBGE da cidade de Presidente Prudente - SP. Os resultados obtidos são apresentados em forma de estatística que medem a associação espacial global e local, gráficos de espalhamento e mapas. ABSTRACT –This article presents tools that act in the extraction and visualization of information not directly perceivable the analyst, when this uses common procedures of visualization of space data. The techniques are based on the of the spatial autocorrelation’s concept. The used data are deriving of the mapping carried through by IBGE of President Prudente city - SP. The results obtained are presented in form of the statistic that measures the global and local association space, the graphical of scattering and the maps.

1 INTRODUÇÃO

Estudar as cidades requer um olhar amplo em decorrência dos bilhões de pessoas que nelas vivem em imensas aglomerações urbanas, colocando os teóricos frente ao desafio de elaborar novos modelos teórico-conceituais capazes de traduzir a totalidade das inter-relações presentes nestas estruturas multidimensionais. A utilização de modelos teórico-conceituais é necessária para que se elaborem análises e propostas de intervenção (RAMOS, 2002).

Atualmente, verifica-se o aumento do uso de Sistemas de Informação Geográfica (SIG) e do geoprocessamento em empresas e instituições públicas e privadas. Nesses sistemas, as informações com conteúdo geográfico de natureza diversa podem ser armazenadas, manipuladas, visualizadas e principalmente transformadas através de processamentos matemáticos. Esses sistemas permitem, por meio de mapas, a visualização espacial de variáveis como população de indivíduos, índices de qualidade de vida ou vendas de empresas numa região. Para tanto, tendo-se os dados de uma base geográfica o SIG é capaz de apresentar um mapa que permite a visualização do padrão espacial do fenômeno (NEVES et al., 2000).

Em paralelo a esses desenvolvimentos, algumas técnicas de estatística foram sendo definidas e adaptadas aos dados espaciais. Essas técnicas, combinadas com funções de visualização, formam, em alguns SIGs atuais, um conjunto de ferramentas que suporta a análise exploratória de dados espaciais. Esse conjunto de ferramentas é definido na literatura como sendo uma coleção de técnicas para descrever e visualizar distribuições espaciais, identificar situações atípicas, descobrir padrões de associação espacial, agrupamento de valores semelhantes (clusters) e sugerir regimes espaciais ou outras formas de heterogeneidade espacial (NEVES et al., 2000).

Desta maneira, as ferramentas, aqui utilizadas, são apresentadas e discutidas quanto a sua aplicação e utilização na análise. Elas atuam como forma de extração e visualização de informações não diretamente perceptíveis ao analista, quando este utiliza procedimentos comuns de classificação e visualização de dados espaciais. As técnicas são baseadas no conceito de autocorrelação espacial e são aplicáveis a objetos-área. Este tipo de objeto espacial possui um ou um conjunto de atributos numéricos associados e é representada, espacialmente, por linhas poligonais fechadas, que na análise espacial são denotados dados de área.

Como forma de exemplificar as utilidades destas técnicas, elas foram aplicadas a alguns dados sócio-

II Simpósio Brasileiro de Geomática Presidente Prudente - SP, 24-27 de julho de 2007 V Colóquio Brasileiro de Ciências Geodésicas

TACHIBANA et al.

econômicos coletados pelo IBGE. O IBGE disponibiliza os resultados de Censo Demográfico de 2000 com centenas de informações sobre características dos domicílios, dos responsáveis pelos domicílios e as pessoas residentes nos domicílios (no total de mais de 500 variávies) por setor censitário dos municípios, possibilitando uma análise detalhada do município de interesse, cujos resultados podem ser visualizados em mapas utilizando-se de ESTATCART (2002). Esses dados são resultados do questionário básico (a toda população) e do questionário da amostra aplicado a 10% dos domicílios, referentes aos 247 setores censitários de Presidente Prudente, considerando-se apenas aqueles com domicílios particulares. O setor censitário é unidade territorial de coleta das operações censitárias, definido pelo IBGE, como um agrupamento contíguo de aproximadamente 300 domicílios, com limites físicos identificados em áreas contínuas. Assim, as áreas de setores censitários com alta densidade demográfica são bem menores que de setores com baixa concentração de moradores, pois a área do setor censitário é inversamente proporcional à densidade demográfica.

Neste trabalho, realizou-se uma análise de regressão múltipla ajustando um modelo em que a variável resposta (ou dependente) renda é descrita em função das variáveis explicativas (ou independentes) grau de instrução e idade dos responsáveis pelos domicílios. Inicialmente, ajustou-se o modelo de regressão usual (mínimos quadrados ordinários) e posteriormente incorporando a dependência espacial entre os setores censitários. Além do modelo matemático, os resultados obtidos são apresentados em forma de índices que medem a associação espacial (ex: Índice de Moran) global e local, gráficos de espalhamento e mapas. Esses indicadores auxiliaram na identificação de agrupamentos de objetos, de altos e baixos valores, áreas de transição e casos atípicos.

2 REGRESSÃO E AUTOCORRELAÇÃO 2.1 Análise de regressão

O modelo de regressão é uma das ferramentas estatísticas mais conhecidas, no qual se utiliza o relacionamento existente entre duas ou mais variáveis, de modo que uma delas pode ser descrita ou o seu valor estimado a partir das demais. Os modelos de regressão são processos que envolvem, geralmente, uma variável resposta dependente (Y) e uma ou mais variáveis explicativas independentes (X1, X2, ...). Supõe-se que o valor observado Y possa ser explicado por uma função (freqüentemente uma combinação linear simples) de variáveis X:

ε+β++β+β= pp XXY ...110 , (1)

em que p covariáveis ou variáveis explicativas são consideradas no modelo e ε é o erro não observado.

Se o modelo for uma representação realística da relação entre as variáveis Y e X, então os valores de Y em várias localidades estariam muito próximos daqueles preditos pelo modelo. Conforme, Upton e Fingleton (1988), os valores individuais dos erros,

iiiii eYYYEY =−=− ˆ)( , serão pequenos. Na regressão tradicional, em que as posições

geográficas não são consideradas, o procedimento de mínimos quadrados ordinários fornece um modelo de predição que resulta no menor valor da soma do quadrado dos erros. Para obtenção das inferências, é necessário que os erros tenham uma distribuição Normal, com média 0 e variância constante 2σ , e que sejam independentes entre si, ou seja, jiCovN ji ≠=εεσε ,0),( e ),0(~ 2 . Essa

suposição implica que a variável resposta Y também tenha distribuição Normal.

Em notação matricial, tem-se: Y = X β + ε , (2)

com E( ε ) = 0 e E( =ε )T� C.

Ao aplicar o método de mínimos quadrados para ajustar um modelo de regressão linear em dados espaciais, com freqüência, depara-se com o problema de não cumprimento da exigência dos erros independentes (que pode ser verificado por meio de testes de autocorrelação espacial nos erros) e da variância desses erros ser constante. Outro problema surge quando a variável resposta Y não tem distribuição Normal necessitando fazer uma transformação adequada para normalidade, que nem sempre é possível.

Segundo Druck et al. (2004), a inclusão explícita de efeitos espaciais em modelos de regressão pode ser feita de diferentes formas, sendo uma delas considerando-se modelos com efeitos espaciais globais. Tais modelos supõem que é possível capturar a estrutura da correlação espacial em um único parâmetro, que é adicionado ao modelo de regressão tradicional.

Nesse caso, têm-se duas alternativas. Na primeira, a autocorrelação espacial ignorada é atribuída à variável dependente Y e essa abordagem é denominada como modelo espacial auto-regressivo misto (Spatial AutoRegressive – SAR ou Spatial Lag Model):

Y = X β + ρ WY+ ε , (3)

em que W é a matriz de proximidade espacial, cujos elementos são medidas de proximidade entre duas áreas. Nessa matriz, a vizinhança pode ser definida de diferentes maneiras, como distância euclidiana, tempo de viagem ou acessibilidade. Bailey e Gatrell (1995) apresentam vários critérios de medidas de proximidade. Para Câmara et al. (2002) a mais comumente utilizada para geodados zonais define vizinhança a partir da propriedade topológica de contigüidade, assim W é uma matriz com apenas elementos 0 ou 1, em que 1 está associado às zonas com fronteiras em comum e 0 àquelas sem essa propriedade.

II Simpósio Brasileiro de Geomática Presidente Prudente - SP, 24-27 de julho de 2007 V Colóquio Brasileiro de Ciências Geodésicas

TACHIBANA et al.

Se esse modelo não for adequado, uma alternativa seria associar a autocorrelação espacial ao termo erro do modelo, considerando que os efeitos espaciais são ruídos que precisam ser removidos. Essa abordagem é denominada modelo do erro espacial (Spatial Error Model ou Conditional AutoRegressive – CAR):

Y = X β + ε , ε = λ W + u, (4)

em que u é um vetor de erros aleatórios independentes com variância constante. 2.2 Autocorrelação espacial

Upton e Fingleton (1988) definem autocorrelação espacial como uma propriedade que os dados mapeados possuem sempre que estes exibem um padrão organizado ou, como Cliff e Ord (1981)1 apud Upton e Fingleton (1985), sempre que existir uma “variação espacial sistemática” nos valores em um mapa. Neste contexto, o conceito de autocorrelação espacial diz respeito a quanto o valor observado de um atributo em uma região é independente dos valores dessa mesma variável em localidades vizinhas. Assim pode-se afirmar que a autocorrelação espacial mede o nível de interdependência geográfica entre as localidades.

A dependência espacial pode ser medida de diferentes formas. O índice de Moran (I) é uma das medidas mais utilizadas para calcular a autocorrelação espacial. A estatística I de Moran é dada pela seguinte forma:

( )( )

( )��

��

���

����

�−

−−=

���

��

≠=

= =

jiij

n

ii

n

i

n

jjiij

wzz

zzzzwn

I

1

2

1 1 , para i � j (5)

em que:

n é o número de áreas; zi valor do atributo considerado na área i; z é o valor médio do atributo na região de estudo; wij é o elemento na matriz normalizada de

vizinhança para o par i e j. Novamente, tem-se a informação espacial

incorporada no modelo a partir da matriz de vizinhança, W.

O índice de Moran (4) é uma medida global da autocorrelação espacial, ou seja, mede a dependência espacial baseado em observações simultâneas no conjunto de n localizações. Quando não há autocorrelação presente, a esperança de I é -1/(n – 1). Esse índice indica o grau de associação espacial presente no conjunto de dados, porém sintetiza inúmeras possibilidades de padrões de associação local entre as amostras georreferenciadas. São

1 CLIFF, A.D., ORD J.K (1981) Spatial Processes: Models and Applications. London: Pion

nesses padrões locais que em grande parte reside a informação relevante para análises geográficas. Especificamente em análises intra-urbanas é fundamental que se investiguem as configurações locais de associação espacial, pois o foco da análise é justamente a observação da organização territorial interna, ou seja, importa saber como determinadas características geográficas se distribuem espacialmente, se há concentrações ou tendências de determinadas características que possam revelar os elementos territoriais estruturais (RAMOS, 2002).

3 MATERIAIS E PROCEDIMENTO

As informações utilizadas neste trabalho foram adquiridas da base de dados do IBGE da cidade de Presidente Prudente referente ao ano de 2000. Foram consideradas várias variáveis disponibilizadas em planilhas separadas que descrevem características de Pessoas, Domicílios e Responsáveis. As variáveis foram agrupadas criando-se um índice médio por domicílio em cada setor censitário, resumidas ao final em três variáveis. grau de instrução (média de anos de estudo dos responsáveis pelos domicílios, em função da última série concluída com aprovação, no nível ou grau mais elevado que o responsável, na data de referência, estava freqüentando ou havia freqüentado), renda (renda média por domicílio, obtida a partir do rendimento nominal mensal das pessoas responsáveis pelos domicílios particulares, transformando os dados em salários mínimos mensais, utilizando-se o salário mínimo da época de coleta de dados que era R$ 151,00) e Idade (Idade média dos responsáveis pelos domícilios obtida a partir de número de responsáveis pelo domicílio distribuído por oito faixas etárias ponderado pelo total de responsáveis), além de dados geográficos em formato vetorial. Essas variáveis têm grande relevância à compreensão da ocupação da área urbana de uma cidade. Decisões relacionadas com a saúde pública, educação, transporte, infra-estrutura dentre outras podem ser tomadas com menor grau de incerteza quando se conhece melhor o perfil do cidadão e sua distribuição espacial. 4 RESULTADOS E ANÁLISE

Inicialmente, foi feita uma análise exploratória (Índice de Moran Local e Global) a fim de avaliar a hipótese de dependência espacial de cada variável (renda, grau de instrução e idade) separadamente, que mostrou ser significativa.

A variável dependente renda é assimétrica, não tendo a distribuição Normal (Anderson-Darling = 19,87, p-valor < 0,005, Cramer-von Mises = 3,60, p-valor < 0,005 e Ryan-Joiner = 0,834, p-valor < 0,01), necessitando-se de uma transformação para atender essa exigência de modelos de regressão linear. A transformação inverso da raiz quadrada da renda média,

II Simpósio Brasileiro de Geomática Presidente Prudente - SP, 24-27 de julho de 2007 V Colóquio Brasileiro de Ciências Geodésicas

TACHIBANA et al.

denotada por rendatr, tem distribuição Normal (Anderson-Darling = 0,54, p-valor = 0,166, Cramer-von Mises = 0,067, p-valor > 0,25 e Ryan-Joiner = 0,995, p-valor > 0,10) ao nível de significância de 5%. A descrição estatística das variáveis originais e da transformada é apresentada na Tabela 1. A variável grau de instrução será denotada instrução nas análises subseqüentes.

Tabela 1: Estatística resumo das variáveis utilizadas Variável Média Mediana Desvio

Padrão Amplitude

Renda 7,23 5,00 6,46 46,74 Idade 46,94 46,73 4,82 24,20 Instrução 7,45 7,21 2,08 10,77 Rendatr 0,44 0,45 0,14 0,70

As variáveis Idade e Instrução estão

negativamente correlacionadas com rendatr, cujos coeficientes de correlação de Pearson são iguais a -0,516 e -0,892, respectivamente. O coeficiente de correlação entre as variáveis independentes Idade e Instrução é 0,263, indicando baixa associação entre elas.

Com essas variáveis foi realizada a regressão linear clássica, que não leva em consideração a dependência espacial dos dados, supondo a independência espacial dos dados. Considerando como variável resposta renda e como variáveis explicativas Idade e grau de instrução do responsável pelo domicílio, o modelo de regressão linear múltipla usual para esse conjunto de dados pode ser expresso como:

IdadeInstuçãorendatr 0086,0053,0246,1 −−= (6)

O coeficiente de determinação, 2R = 0,881, e o coeficiente de determinação ajustado, 2

ajR = 0,880,

indicam grande parte da variabilidade das rendatr observadas é explicada pelo modelo. Todas as variáveis explicativas foram importantes no modelo, sendo que o p-valor de cada uma delas foi menor que 0,00001.

Foram calculadas duas medidas para testar o impacto da colinearidade, associação entre duas variáveis independentes: valor de tolerância e o fator de inflação da variação (VIF). Segundo Hair et al. (2005), o valor de tolerância é um menos a proporção da variância da variável explicada por outra(s) variável(eis) independente(s). Assim, uma alta tolerância indica pouca colinearidade e, valor de tolerância próximo de zero indica que a variável é praticamente explicada por outra(s) variável(eis). O fator de inflação da variável mede quanto a variância de um coeficiente de regressão estimado aumenta se as variáveis independentes são correlacionadas. Valores de VIF pequenos (próximo de 1) indicam baixa correlação entre as variáveis e valores grandes (acima de 5) que as estimativas dos coeficientes de regressão são ruins. Neste trabalho, o valor de tolerância é 0,931, demonstrando nível muito baixo de colinearidade e VIF é 107, indicando que os coeficientes de regressão não devem ser afetados por colinearidade.

Outras medidas referentes ao modelo ajustado obtidas foram: Log da verossimilhança = 403,968, Critério de Informação de Akaike (AIC) = -801,937 e Critério Bayesiano Schwarz (SBC) = -791,409.

A Figura 1 exibe o comportamento dos resíduos padronizados versus valores estimados da renda média, indicando homocedasticidade dos resíduos.

��������������

������ ������ ���� �

��������������������

Figura 1: Gráfico dos resíduos padronizados versus valores ajustados

Esses resíduos apesar de terem uma distribuição Normal (Anderson-Darling = 0,30, p-valor > 0,25 e Cramer-von Mises, p-valor > 0,25) não estão distribuídos aleatoriamente pela cidade de Presidente Prudente, conforme a Figura 2, que apresenta a distribuição do desvio padrão de valores absolutos dos resíduos. Essa figura foi elaborada com a utilização do software GeoDa, desenvolvido pela equipe de Anselin et al. (2004). Pode-se ver que há uma concentração de maiores erros estarem associados a setores censitários localizados na zona norte e sul da da cidade.

Figura 2 – Mapa do desvio padrão com resíduos do modelo ajustado para rendatr

Essa associação espacial também pode ser

verificada pelo cálculo de um índice que indique a sua existência. O índice utilizado neste trabalho foi o de Moran, com matriz de proximidade espacial W definida segundo o critério de contigüidade da rainha. Neste critério, inicialmente, cada elemento da matriz wij , que representa uma medida de proximidade entre os setores

II Simpósio Brasileiro de Geomática Presidente Prudente - SP, 24-27 de julho de 2007 V Colóquio Brasileiro de Ciências Geodésicas

TACHIBANA et al.

censitários i e j, recebeu valor 1 quando o setor i e o setor j compartilhavam arestas e cantos e wij = 0, caso contrário. Posteriormente, esses valores foram padronizados, de modo que a soma dos pesos wij em cada linha i era igual a 1.

Para estimar a significância do Índice de Moran foi realizado o teste de pseudo-significância, no qual foram geradas 9999 permutações dos valores de atributos associados. Como citam Druck et al. (2004), se o valor do índice medido originalmente corresponder a um extremo da distribuição simulada, então se trata de valor com significância estatística. A esperança do índice de Moran é de -0,0041 e o índice observado para os dados do resíduo foi de 0,148, com p-valor < 0,0002. Verifica-se que existe uma correlação entre os resíduos, (erros não aleatórios), ou seja, um valor da variável numa região depende dos valores nas regiões vizinhas. Assim, deve-se prosseguir a análise considerando o efeito espacial no modelo.

Realizando o diagnóstico de autocorrelação espacial sugerido por Anselin (2005), escolheu-se o modelo modelo espacial auto-regressivo misto (SAR ou Spatial Lag Model), que pode ser expresso como:

rendatrWrendatr _199,0023,1 +=

IdadeInstrução 066,00474,0 −− (7)

O pseudo-coeficiente de determinação, 2R , é igual a 0,891, todas as variáveis explicativas são importantes no modelo, sendo que o p-valor de cada uma delas foi menor que 0,00002 e verifica-se um aumento no Log da verossimilhança, que agora é 413,459. Um ajuste melhor com a adição de uma variável (dependência espacial na variável resposta) pode também ser verificada com a redução de AIC (para -818,918) e SBC (para -804,881).

O coeficiente autoregressivo espacial estimado foi 0,1988, sendo altamente significativo (p-valor = 0,000011). O teste de razão de verosssimilhança, comparando o modelo da hipótese nula (regressão clássica ) com a alternativa (modelo Spatial Lag), resultou no valor 18,98 (p-valor < 0,00002), confirmando novamente que o coeficiente autoregressivo é altamente significativo.

Os resíduos desse modelo Spatial Lag dado pela equação (7) estão espalhados aleatoriamente em torno da sua média e também têm distribuição Normal (Anderson-Darling = 0,55, p-valor = 0,154 e Cramer-von Mises, p-valor > 0,25). A estatística I de Moran para resíduo desse modelo é 0,0519 (o verdadeiro I médio = E(I) = -0,0041, com desvio padrão = 0,0388) , que pode ser considerado igual a zero no nível de significância de 0,05, indicando que a inclusão da variável W_rendatr no modelo tem eliminado a autocorrelação espacial. Portanto, o novo modelo gera resíduos que agora estão distribuídos aleatoriamente pela cidade de Presidente Prudente, conforme a Figura 3, que apresena o mapa dos quintis dos resíduos. Pode-se ver que os maiores resíduos estão espalhados aleatoriamente pelos setores censitários.

Figura 3 – Mapa da distribuição dos resíduos em quintis

Os valores de renda ajustados pelo modelo podem ser verificados na Figura 4. Os setores censitários com maiores rendas estão concentrados na parte central da cidade (em forma semelhante a uma elipse), cercada por setores com menores rendas. Verifica-se também uma predominância de rendas baixíssimas na região norte e sudeste.

Figura 4 – Mapa da distribuição da renda_tr em 6 classes

Figura 5 – Mapa de autocorrelação espacial loca (LISA) para renda_tr

II Simpósio Brasileiro de Geomática Presidente Prudente - SP, 24-27 de julho de 2007 V Colóquio Brasileiro de Ciências Geodésicas

TACHIBANA et al.

Pela Figura 6, que representa a autocorrelação

espacial local, verifica-se que os setores com renda mais baixa estão concentrados na região norte-nordeste e sudeste (representados pela cor vermelha), enquanto que os setores de renda alta também têm vizinhos com renda alta e estão concentrados no núcleo da cidade (representados pela cor azul). São poucos os setores censitários, com renda alta estarem cercados por setores com renda mais baixa ou setores com baixa renda cercados por setores de alta renda.

Essas autocorrelações espaciais locais são altamente significativas, como apresentadas na Figura 6.

Figura 6 – Mapa de significância da autocorrelação espacial local para a renda_tr

CONSIDERAÇÕES FINAIS

Apesar do conhecimento de problemas que surgem ao tratar dados agregados por área, como setores censitários (as áreas são pequenas e muitas vezes são agregados em um mesmo setor, grupos sociais distintos – favelas e áreas nobres) apresentados por Dias et al. (2002), este trabalho foi realizado utilizando-se setores censitários definidos pelo IBGE, pois na cidade de Presidente Prudente não existe essa situação. No estudo realizado por Melazo et al. (2003), os autores se mostram preocupados com a crescente desigualdade inter-setorial e com claras tendências a homogeneização intra-setorial, pois as desigualdades espaciais tendem a criar degraus cada vez maiores entre uma área e outra. Os autores apontam que as classes de maiores rendimentos ocupam os setores centrais da cidade e as de menores rendas assumem um lugar mais preciso e delimitado da cidade, extremo norte.

Conforme Dias et al. (2002), a granularidade da subdivisão territorial interfere nos resultados e que a agregação de indivíduos em áreas tende a aumentar a correlação entre as variáveis e reduzir as flutuações estatísticas. Porém, na maioria das vezes, o pesquisador dispõe apenas dados em forma de setores censitários e a agregação desses setores em áreas maiores ou até mesmo

a divisão de um setor por grupos sociais pode dificultar ou até inviabilizar uma análise.

Objetivando apresentar um modelo de regressão múltipla incorporando a estrutura de dependência espacial, neste trabalho utilizou-se os dados do Censo Demográfico 2000 de Presidente Prudente.

Com a analise exploratória das variáveis renda, grau de instrução e idade dos responsáveis pelos domicílios, pôde-se observar que as variáveis investigadas apresentaram autocorrelação espacial.

Na regressão linear clássica, realizada com o software SAS, os resultados apresentaram-se satisfatórios, ou seja, alto valor de R2 para o modelo que considera duas variáveis independentes (grau de instrução e idade do responsável – R2 = 0,881)

Verificada a presença de correlação espacial nos resíduos do modelo ajustado, houve a necessidade da busca de um outro modelo que incorporasse essa estrutura de dependência espacial entre os setores censitários. O modelo utilizado foi de regressão espacial, cujos resultados: R2 = 0,891 (significativamente igual ao modelo de regressão clássica), decréscimo de AIC (de -801,9 para -818,9) e SBC (de -791,4 para -804,9) foram melhores quando comparados com os da regressão clássica, além de eliminar a dependência espacial dos resíduos; justificando a utilização de um modelo que considere a dependência espacial.

AGRADECIMENTOS

Os autores agradecem às alunas: Lauriana Rubio Sartori, Adriana Castreghini Freitas Pereira, Giovana Angélica Ros e Letícia Andrade Sabo que realizaram importantes contribuições com idéias que promoveram o desenvolvimento posterior deste trabalho.

REFERÊNCIAS

ANSELIN, L., SYABRI, I., KHO, Y. GeoDa: an introduction to spatial data analysis, 2004. Disponível em <http://www.geoda.uiuc.ed/documentation/ publications>. Acesso em: 10 de out. 2006 ANSELIN, L.Exploring spatial data with GeoDaTM: a workbook, 2005. Disponível em <http://www.geoda.uiuc.ed/documentation/manuals>. Acesso em: 10 de out. 2006 BAILEY, T.C., GATRELL, A. C. Interactive Spatial Data Analysis. Essex: Longman Scientific and Technical, 1995. 413p. CÂMARA, G., CARVALHO, M.S., CRUZ, O.G., CORREA, V. Análise Espacial de Áreas. São Jose dos Campos, INPE, 2002. Disponível em :< http://www.dpi.inpe.br/gilberto/livro/analise/cap5-areas.pdf >.Acesso em: 20 de jan. 2007

II Simpósio Brasileiro de Geomática Presidente Prudente - SP, 24-27 de julho de 2007 V Colóquio Brasileiro de Ciências Geodésicas

TACHIBANA et al.

DIAS, T.L., OLIVEIRA, M.P.G., CÂMARA, G., CARVALHO, M.S. Problemas de escala e a relação área-indivíduo em análise espacial de dados censitários. Informática Pública. Belo Horizonte, V. 1, no. 4, p. 89-104, 2002. DRUCK, S.; CARVALHO, M.S.; CÂMARA, G.; MONTEIRO, A.V.M. (eds). Análise Espacial de Dados Geográficos. Brasília: EMBRAPA, 2004. 209p. ESTATCART Base de Informações de Presidente Prudente [CD-ROM], Rio de Janeiro: IBGE, 2002. HAIR Jr., ANDERSON, R.E., TATHAM, R.L., BLACK, W.C. Análise multivariada de dados, trad. Adonai Schlup Sant´Anna e Anselmo Chaves Neto – 5ª. ed. Porto Alegre: Bookman, 2005. 593p. MELAZZO, E., FERREIRA, J.C., MYASAKI, V.K. Renda e desigualdades no espaço intra-urbano de presidente prudente: uma análise empírica dos resultados dos censos 1991 e 2000. Caderno Prudentino de Geografia, Presidente Prudente, v. 25, p. 209-223, 2003 NEVES, M. C. et al. Análise exploratória espacial de dados Sócio-econômicos de São Paulo. INPE. 2000. Disponivel em:< http://www.dpi.inpe.br/gilberto/papers/ marcos_gisbrasil2000.pdf>.Acesso: 20 de jan. 2007

RAMOS, F. R. Análise espacial de estruturas intra-urbanas: o caso de São Paulo. 2002. 142 p. Dissertação (Mestrado em Sensoriamento Remoto) Instituto Nacional de Pesquisas Espaciais – INPE, São José dos Campos. UPTON, G.J.G., FINGLETON, B. Spatial data analysis by example – volume I – point pattern and quantitative data. Chichester: John Wiley & sons, 1985. 410 p.