Acessibilidade / Reportar erro

Influência local em um modelo espacial linear da produtividade da soja utilizando distribuição t-Student

Local influence in a linear model space using soybean productivity with t-Student distribuition

Resumos

O uso das ferramentas da geoestatística, aliadas à agricultura de precisão permitem o acompanhamento das áreas agrícolas produtoras de soja, estabelecendo as relações de dependência espacial entre os pontos amostrados. A modelagem da estrutura de variabilidade espacial possibilita a construção de mapas temáticos dos atributos estudados, utilizando como método de interpolação a krigagem. Porém, a presença de valores atípicos entre os elementos amostrais pode influenciar na construção e interpretação desses mapas. A distribuição de probabilidades t-Student tem sido utilizada na tentativa de diminuir a influência dos valores atípicos durante a estimativa dos parâmetros de dependência espacial, por ter caudas mais pesadas que a distribuição normal. A detecção dos valores influentes na área em estudo, por meio da análise de diagnósticos de influência local, confere maior confiabilidade na utilização dos mapas gerados, corroborando a aplicação de insumos. Deste modo, o objetivo deste trabalho foi aplicar as técnicas de influência local em dados espacialmente referenciados, com os modelos de perturbação aditiva e utilizando a matriz escala, considerando a distribuição t-Student n-variada. Foi utilizado um modelo espacial linear para o estudo de dados da produtividade da soja em função da altura média de plantas e do número médio de vagens por planta. As técnicas de influência local foram eficientes para detectar pontos que influenciam na escolha do modelo geoestatístico, nas estimativas dos parâmetros e na construção do mapa temático.

máxima verossimilhança; variabilidade espacial; diagnósticos


The use of geostatistical tools combined with precision agriculture, allow the monitoring of agricultural soybean producing areas, establishing relationships of spatial dependence between the sampled points. The modeling of spatial variability structure enables the construction of thematic maps of the attributes studied, using the kriging as the interpolation method. However, the presence of outliers among the elements sampling can influence the construction and interpretation of these maps. The distribution of t-Student probability has been used in attempts to reduce the influence of atypical points in the estimation of parameters of spatial dependence, having heavier tails than the normal distribution of probabilities. The detection of influential points in the study area, through the analysis of local influence diagnostics, provides greater reliability in the use of maps, providing an efficient use of inputs. Then, the objective was to apply the techniques of local influence on spatially referenced data with models of disturbance and using the matrix additive scale, considering the distribution t-Student n-variate. It was used a linear spatial model for the study of soybean yield data as a function of average plant height and number of pods per plant. The local influence techniques were effective to detect points that influence in the geostatistical model selection, estimation of parameters and construction of thematic maps.

maximum likelihood; spatial variability; diagnostics


ARTIGOS CIENTÍFICOS

TOPOGRAFIA, FOTOGRAMETRIA E SENSORIAMENTO REMOTO

Influência local em um modelo espacial linear da produtividade da soja utilizando distribuição t-Student

Local influence in a linear model space using soybean productivity with t-Student distribuition

Naimara V. do PradoI; Miguel A. Uribe-OpazoII; Manuel GaleaIII; Rosangela A. B. AssumpçãoIV

IEngenheira Agrícola, Doutoranda em Estatística e Experimentação Agronômica, ESALQ/USP, Piracicaba - SP, naimaraprado@gmail.com

IIEstatístico, Dr. em Estatística, Pesquisador de Produtividade do CNPq, Prof. Associado do PGEAGRI, UNIOESTE, Cascavel- PR, Fone: (0xx45) 3220-3228. miguel.opazo@unioeste.br

IIIEstadístico, Dr. em Estadística, Pontificia Universidad Católica de Chile, Departamento de Estadística, Chile, mgalea@mat.puc.cl

IVMatemática, Doutora em Engenharia Agrícola, Prof. Adjunta, UTFPR, Toledo-PR, rosangelaa@utfpr.edu.br

RESUMO

O uso das ferramentas da geoestatística, aliadas à agricultura de precisão permitem o acompanhamento das áreas agrícolas produtoras de soja, estabelecendo as relações de dependência espacial entre os pontos amostrados. A modelagem da estrutura de variabilidade espacial possibilita a construção de mapas temáticos dos atributos estudados, utilizando como método de interpolação a krigagem. Porém, a presença de valores atípicos entre os elementos amostrais pode influenciar na construção e interpretação desses mapas. A distribuição de probabilidades t-Student tem sido utilizada na tentativa de diminuir a influência dos valores atípicos durante a estimativa dos parâmetros de dependência espacial, por ter caudas mais pesadas que a distribuição normal. A detecção dos valores influentes na área em estudo, por meio da análise de diagnósticos de influência local, confere maior confiabilidade na utilização dos mapas gerados, corroborando a aplicação de insumos. Deste modo, o objetivo deste trabalho foi aplicar as técnicas de influência local em dados espacialmente referenciados, com os modelos de perturbação aditiva e utilizando a matriz escala, considerando a distribuição t-Student n-variada. Foi utilizado um modelo espacial linear para o estudo de dados da produtividade da soja em função da altura média de plantas e do número médio de vagens por planta. As técnicas de influência local foram eficientes para detectar pontos que influenciam na escolha do modelo geoestatístico, nas estimativas dos parâmetros e na construção do mapa temático.

Palavras-chave: máxima verossimilhança; variabilidade espacial; diagnósticos.

ABSTRACT

The use of geostatistical tools combined with precision agriculture, allow the monitoring of agricultural soybean producing areas, establishing relationships of spatial dependence between the sampled points. The modeling of spatial variability structure enables the construction of thematic maps of the attributes studied, using the kriging as the interpolation method. However, the presence of outliers among the elements sampling can influence the construction and interpretation of these maps. The distribution of t-Student probability has been used in attempts to reduce the influence of atypical points in the estimation of parameters of spatial dependence, having heavier tails than the normal distribution of probabilities. The detection of influential points in the study area, through the analysis of local influence diagnostics, provides greater reliability in the use of maps, providing an efficient use of inputs. Then, the objective was to apply the techniques of local influence on spatially referenced data with models of disturbance and using the matrix additive scale, considering the distribution t-Student n-variate. It was used a linear spatial model for the study of soybean yield data as a function of average plant height and number of pods per plant. The local influence techniques were effective to detect points that influence in the geostatistical model selection, estimation of parameters and construction of thematic maps.

Keywords: maximum likelihood; spatial variability; diagnostics.

INTRODUÇÃO

A agricultura de precisão utiliza ferramentas tecnológicas visando a obter maior detalhamento da área cultivada, para aplicação em taxa variada, de acordo com a necessidade de insumos e fertilizantes. A variabilidade espacial dos atributos do solo deve ser considerada quando se deseja o uso racional e equilibrado dos recursos naturais disponíveis. Assim, o gerenciamento da produção agrícola exige tecnologias e procedimentos para que os sistemas de produção sejam otimizados (MOLIN, 2008).

A geração dos mapas temáticos por krigagem não exige que os dados tenham distribuição normal, mas a presença de valores atípicos deve ser levada em consideração. No entanto, é possível encontrar trabalhos que utilizem transformações de variáveis para alcançar a normalidade. A distribuição t-Student faz parte das distribuições simétricas e apresenta como parâmetro adicional o grau de liberdade

, acomodando melhor os pontos atípicos. Porém, ainda é possível que a distribução t-Student sofra o efeito de observações influentes, sendo importante a realização de estudos de sensibilidade sobre ela, por meio de análise de diagnóstico.

Para avaliar a influência dos pontos na estimativa dos parâmetros, a prática de retirada de um ou vários pontos é uma das técnicas mais conhecidas, chamada de Influência Global. Entretanto, um problema que pode ocorrer com a retirada individualizada de observações é a não detecção de pontos conjuntamente influentes. Além disso, quanto maior a quantidade de pontos amostrais, maior é o custo computacional exigido. Para diminuir estes problemas e otimizar o diagnóstico, COOK (1986) apresentou uma proposta, considerada inovadora na área de diagnóstico, na qual propõe avaliar a influência conjunta das observações sob pequenas perturbações no modelo, em vez da avaliação pela retirada individual ou conjunta de pontos, técnica denominada de "influência local".

A metodologia de influência local (COOK, 1986; OSÓRIO et al., 2007) tem-se tornado uma ferramenta popular de diagnóstico para identificação conjunta de observações influentes em modelos de regressão, com a grande vantagem de aplicação a qualquer modelo paramétrico.

Nos últimos anos, diagnósticos de influência local têm sido apresentados por diversos autores. Por exemplo, GALEA et al. (2003) e GALEA et al. (2005) consideram estudos de influência local em modelos de regressão linear e nãolinear para amostras independentes, considerando vários esquemas de perturbação. BORSSOI et al. (2009) usaram técnicas de diagnósticos de influência local em modelos espaciais gaussianos empregados em geoestatística, buscando avaliar a sensibilidade dos estimadores de máxima verossimilhança. ASSUMPÇÃO et al. (2011) estudaram técnicas de influência local para dados com distribuição t-Student, considerando a perturbação aditiva na variável resposta e os graus de liberdade fixos.

BORSSOI et al. (2011b) usaram técnicas de influência local para avaliar pontos influentes em dados agrícolas. URIBE-OPAZO et al. (2012) usam técnicas de diagnósticos de Influência Local para avaliar a sensibilidade das estimativas por máxima verossimilhança e máxima verossimilhança restrita em modelos espaciais lineares gaussianos, quando pequenas perturbações são inseridas no modelo ou nos dados. BORSSOI et al. (2011a) apresentaram técnicas de diagnóstico utilizando o método de influência local quando há perturbação na matriz de variáveis explanatórias do modelo espacial linear com distribuição gaussiana, na análise geoestatistica.

O objetivo deste trabalho foi desenvolver a técnica de diagnóstico de influência local, em processos estocásticos, com distribuição t-Student, e parâmetro de grau de liberdade fixo

, para um modelo espacial linear, utilizando dados da produtividade da soja em função da altura média de planta e do número médio de vagens por planta, em uma área agrícola com fins comerciais, na região oeste do Paraná. Considerando, para isso, dois esquemas de perturbação, a perturbação aditiva e a perturbação de ZHU et al. (2007) que utilizam a matriz escala, para detectar pontos influentes. A aplicação destas técnicas a dados agrícolas foi realizada com intuito de verificar a existência de pontos influentes que interferem no ajuste dos modelos geoestatísticos, nas estimativas dos parâmetros e na construção de mapas temáticos.

MATERIAL E MÉTODOS

Para o estudo da variabilidade espacial, considera-se um processo estocástico {Y(s), s ∈ S}, com S ⊂ R2, sendo R2 espaço euclidiano, bi-dimensional. Suponha-se que os elementos Y (si),..., Y (sn), deste processo, sejam registrados em localizações espaciais conhecidas si (i=1,...,n), e gerados pelo modelo apresentado na Equação (1).

em que: o termo determinístico µ(si) e o termo estocástico e(si) podem depender da localização espacial em que Y(si) foi obtida. Assume-se que o erro estocástico e tem E[e(si)] = 0, e que a variação entre pontos no espaço é determinada por alguma função de covariância C(si,su) = Cov[e(si,e(su] e, em algumas funções conhecidas de s, como x1(s),...,xp(s), µ(si), é definida como um modelo espacial linear:

sendo: β1,...,βp parâmetros desconhecidos a serem estimados. De forma matricial, tem-se o modelo espacial linear :

sendo: E(e) = 0, vetor nulo, n × 1, e a matriz escala c = [(σiu)], n × n, em que σiu = C(si, su). Assume-se que Σ é não singular, que a matriz X, n × p, na Equação (3) tem colunas com posto completo e que Y segue uma distribuição t-Student n-variada com vetor de médias Xβ e a matriz escala Σ, isto é, Y~tn(Xβ, Σ, u),, em que u representa os graus de liberdade que, neste caso, são considerados fixos, u > 0.

A verificação de pontos influentes baseia-se em investigar o comportamento da função de afastamento da verossimilhança em uma vizinhança LD(ω), na qual o logaritmo da função verossimilhança dos parâmetros estimados l(θ) e o logaritmo da função verossimilhança perturbada dos parâmetros estimados l(θ) =l(θ|ω) são iguais. O logaritmo da função verossimilhança com a distribuição t-Student n-variada é definido pela Equação 4:

em que: θ =(βT, φT)T, com β = (β1,...,βp)T, φ = (φ123)T e Σ = Σ(φ) = φ1In + φ2R, sendo φ12 e φ3 são os parâmetros de efeito pepita, contribuição e alcance, respectivamente, que definem a estrutura de dependência espacial. In é a matriz identidade, n × n, e R representa uma matriz, n × n, que é função de φ3 e depende do modelo utilizado, isto é, R = R(φ3) = [(riu)], matriz simétrica com elementos da diagonal rii = 1 para para iu = 1, ..., n.

O logaritmo da função verossimilhança perturbada l(θ|ω) é definido pela Equação 5:

em que: Yω é o vetor de perturbação das respostas, em que ω é um vetor pertencente a um espaço de perturbações Ω. As perturbações utilizadas neste trabalho, para a variável resposta, são: a aditiva Yω = Y + ω com ω = (ω1,...,ωn)T e a perturbação de ZHU et al. (2007), que utilizam a matriz escala, isto é, Yω = Y + Σ1/2-ω com ω = (ω1,...,ωn)T.

Assume-se que existe o vetor ω0 ∈ Ω tal que, nas Equações 4 e 5 l(θ) = l(θ|ω0), para todo θ e que l(θ|ω0) seja duas vezes diferenciável em θ =(βT, φT)T.

A influência da perturbação ω no estimador de máxima verossimilhança do vetor de parâmetros θ pode ser avaliada pelo afastamento da verossimilhança definido por:

em que: é estimador de máxima verossimilhança de θ do modelo postulado e ω é estimador de máxima verossimilhança de θ do modelo perturbado.

COOK (1986) propõe a análise do comportamento local de LD(ω) em torno de ω0, utilizando a curvatura normal Dl de LD(ω) em ω0, na direção de algum vetor unitário l, definido por:

com ||l||= 1 e, Δ : é uma matriz de ordem (p+3)Xn dada por Δ = (ΔβT, ΔφT)T avaliada em θ = e em ω = ω0, cujos elementos são: .

Quando se utiliza o método de máxima verossimilhança (MV) para a estimação dos parâmetros, considerando a perturbação aditiva na variável resposta Yω = Y + ω, ou a perturbação de ZHU et al. (2007), utilizando a matriz escala, Yω = Y + Σ-1/2ω, é possível obter a matriz Δ = (ΔβT, ΔφT)T avaliada em θ = e em ω = ω0, para cada uma das perturbações utilizadas.

Os elementos da matriz Δ, para a perturbação aditiva na variável resposta Yω = Y + ω, são expressos por ASSUMPÇÃO et al. (2011):

e Δφ que tem como elementos Δφj, com j = 1,2,3,

Para a perturbação proposta por ZHU et al. (2007) na variável resposta, utilizando a matriz escala Yω = Y + Σ-1/2ω, a matriz Δ possui como elementos:

e ainda, Δφ que tem como elementos Δφj, com j = 1,2,3,

L: é a matriz de informação observada (henssiana), avaliada em θ = ;

A matriz de informação observada L é definida como:

cujos elementos são:

sendo:

as funções escores.

Considerando:

ε = (Y - Xβ) e δ = (Y - Xβ)T Σ-1 (Y - Xβ) é a distância de Mahalanobis.

Seja

a derivada de Wδ em relação a δ.

Logo, para dados com distribuição t-Student, com v graus de liberdade fixo, têm-se os elementos da matriz de informação observada:

Lββ = 2WδXT Σ-1 X + 4W'δXTΣ-1 εεTΣ-1 X;

Lβφ tem como elementos:

Lφφ tem como elementos:

j= 1, 2 e 3.

Observa-se que as matrizes Δ e L são definidas considerando a perturbação utilizada e a forma paramétrica da matriz escala Σ, respectimente.

Com as matrizes Δ e L, é possível definir a matriz B = ΔT L-1 Δ. Seja |Lmax|o autovetor normalizado, associado ao maior autovalor, em módulo, da matriz B. O gráfico dos elementos |Lmax| versus i (ordem dos dados) pode revelar qual ponto tem a maior influência em LD(ω), na vizinhança de ω0 (COOK, 1986). O gráfico |Lmax2| versus a ordem dos dados utiliza o autovetor normalizado, associado ao segundo maior autovalor, em módulo, da matriz B, que também serve para identificar pontos influentes, considerando Ci = 2|bij|, em que Bij são elementos da diagonal principal da matriz B. Pode-se também utilizar o gráfico Ci versus i (ordem dos dados) como técnica de diagnóstico para identificar a existência de observações influentes.

No ano agrícola de 2006/2007, foram coletados dados da produtividade da soja (Prod) (Mg), altura de plantas (cm) e número de vagens por planta, totalizando 83 observações para cada uma das variáveis.

O principal interesse foi estudar a estrutura de variabilidade espacial da produtividade da soja na área em estudo, considerando como as variáveis explicativas da produtividade a altura média de planta e o número de vagens por planta, coletadas nos mesmos pontos em que foi quantificada a produtividade. Estas grandezas medidas foram utilizadas como covariáveis.

Considerando o uso de covariáveis no estudo, a média da produtividade da soja µ(s) na posição s ∈ S ⊂ R2 é dada por:

em que: β123 são parâmetros desconhecidos a serem estimados, x2 e x3 representam as covariáveis altura média de plantas e número médio de vagens por planta, respectivamente.

Os dados foram obtidos em uma área de 46,6 ha, localizada no município de Cascavel, na região oeste do Paraná, com localização aproximada de 24,83º sul de latitude e 53,60º oeste de longitude, com altitude média de 650 metros. Os dados estão publicados em URIBE-OPAZO et al. (2012). O solo da área é classificado como Latossolo Vermelho distroférrico, com textura argilosa (EMBRAPA, 2009), e o clima da região é temperado superúmido, tipo climático Cfa (Köeppen). Todas as amostras foram georreferenciadas com auxílio de um receptor de dados GPS (Global Positioning System) GEOEXPLORER 3, da marca Trimble, num sistema espacial de coordenadas (UTM), em um grid regular de 75X75 metros. A Figura 1 apresenta o croqui da área em estudo, no ano agrícola de 2006/2007.


A produtividade da soja foi estimada considerando-se a quantidade de grãos de soja colhida de todas as plantas distribuídas em duas fileiras, ao longo de um metro de comprimento, representando a parcela. Após a trilha, foi feita a pesagem de grãos para cada parcela e verificado o teor de água para posterior correção para 13%. O valor foi convertido em Mg ha -1.

A variável altura média de planta (cm), foi coletada no pico vegetativo da cultura de soja, sendo feita a média de 4 plantas medidas, em um metro linear. E para o número médio de vagens por planta, foram contados o número de vagens na época da colheita, foram escolhidas 4 plantas em cada ponto e obtido o número médio de vagens por planta.

Para a análise geoestatística, foram ajustados os modelos exponencial, gaussiano e da família Matérn com parâmetro de forma k = 1; 1,5 e 2. O melhor modelo ajustado foi selecionado com base nos critérios de validação cruzada (MELLO et al., 2005; FARACO et al., 2008; JOHANN et al., 2010), critério de informação de Akaike (AIC) (AKAIKE, 2002), critério de informação Bayesiano (BIC) (SCHWARZ, 1978) e o máximo valor do logaritmo da função de verossimilhança (LFML) (DE BASTIANI et al., 2012).

Para a análise de influência local, foram utilizados os gráficos Ci, |Lmax| e |Lmax2| para identificar os pontos influentes na produtividade da soja. As análises geoestatísticas e de influência local foram realizadas com auxílido do software R (R DEVELOPMENT, 2011) e dos seus modulos: geoR (RIBEIRO JR. & DIGGLE, 2001), mtvnorm (GENZ et al., 2011). A interpolação para locais não amostrados foi realizada por krigagem universal.

RESULTADOS E DISCUSSÃO

Na Tabela 1, são apresentadas as estatísticas descritivas para a variável produtividade (Mg ha -1).

Com os resultados da Tabela 1, verifica-se que a produção média de soja na área foi de 2,98

Mg ha -1. Como CV > 20%, os dados são classificados como heterogêneos (PIMENTEL GOMES, 1970). A área apresentou produtividade mínima de 1,50 Mg ha -1 e máximo de 5,53 Mg ha -1, sendo que 25% da área apresenta produtividade igual ou superior a 3,34 Mg ha -1. Os coeficientes de assimetria e curtose apresentaram valores de 0,54 e 2,04, respectivamente, indicando que os dados da produtividade da soja apresentam alguma simetria e distribuição platicúrtica.

Para a escolha do grau de liberdade (v) da distribuição t-Student, foi calculado o logaritmo da função de verossimilhança com os parâmetros estimados para os modelos que definem a estrutura da matriz escala Σ, sendo eles, exponencial, gaussiano, família Matérn (ASSUMPÇÃO et al., 2011), com parâmetro de forma v = 1; 1,5 e 2. Foram testados os graus de liberdade v = 5,6,...,30, o grau de liberdade que apresentou o valor máximo da função de verossimilhança, foi o escolhido para a análise. As covariáveis (x2 e x3) são conhecidas em todos os pontos de amostragem, sendo chamadas de variáveis controladas. Por simplicidade, quando for citada a variável produtividade da soja, subentende-se que as análises incluem um modelo espacial linear definido na Equação (13), com as covariáveis altura média de planta e número médio de vagens por planta, sendo estas variáveis espacialmente georreferenciadas.

No gráfico boxplot, apresentado na Figura 2, observa-se que existe um ponto atípico, sendo um valor de máximo, que corresponde ao ponto 6 (5,53 Mg ha -1), destacado no gráfico postplot da área experimental, na Figura 2.


Para estimar o vetor de parâmetros θ = (β1β23123)T do modelo espacial linear da Equação (13) e da estrutura de variabilidade espacial com cada modelo, foi utilizado o método de máxima verossimilhança com auxílio do algoritmo BFGS (FRERY & CRIBARI NETO, 2009). Na Tabela 2, apresenta-se o resumo das estimativas obtidas considerando que o grau de liberdade da distribuição t-Student foi definido de acordo com o valor máximo do logaritmo da função de verossimilhança (LFML). O grau de liberdade da distribuição t-Student, que apresentou o maior valor da função de verossimilhança para todos os modelos, foi v = 15.

Para os modelos utilizados na análise espacial, as estimativas dos parâmetros θ = (β1β23123)T apresentaram baixos desvios-padrão. O menor valor de φ3 foi obtido para o modelo da família Matérn com k = 2, cujo valor foi de 74,8758 que corresponde a um alcance prático de aproximadamente 401,33 metros. Para a escolha do melhor modelo ajustado, foram utilizados os critérios de validação cruzada, Critério de Informação de Akaike (AIC) e Critério de Informação Bayesiano (BIC). Na validação cruzada, foi escolhido o modelo que apresentou o erro médio (EM) e erro médio reduzido (ER) mais próximo de zero, o menor valor de SEM e EA e o valor de SER mais próximo de 1. Os valores de AIC e BIC devem ser os menores possíveis.

Na Tabela 3, são apresentados os valores que atendem aos critérios estabelecidos pela validação cruzada, destacados em negrito; o modelo com maior número de critérios em negrito foi o escolhido.

Para a produtividade da soja, o modelo que melhor descreve a estrutura de variabilidade espacial foi o da família Matérn, com parâmetro de forma k = 1, e v = 15 graus de liberdade da distribuição t-Student. Neste modelo, os parâmetros estimados foram 1 = 0,9800, 2 = 0,0215, 3=0,0304, 1= 0,2715 , 2= 0,0836 e 3= 95,8598, com alcance prático de 383,44 metros.

Assim, considerando o uso das covariáveis, x2(s) representa a altura média de plantas e x3(s)o número médio de vagens por planta na posição s, e a média estimada (s) da produtividade da soja pode ser expressa por: (s) = 0,9800 + 0,0215 x2(s) + 0,0304 x3(s).

Como o modelo da família Matérn com parâmetro k= 1, com v= 15 graus de liberdade para a distribuição t-Student, foi o que melhor representa a estrutura de dependência espacial da produtividade da soja na área em estudo, foram construídos os gráficos para análise de diagnóstico de influência local, considerando a perturbação aditiva na variável resposta Yω = Y + ω (Figura 3) e considerando a perturbação de ZHU et al. (2007) na variável resposta, utilizando a matriz escala, Yω = Y + Σ-1/2ω (Figura 4).



As Figuras 3(b) e 3(c) apresentam os gráficos |Lmax| e |Lmax2| versus i, em que i indica a ordem dos dados para a produtividade da soja, considerando a perturbação aditiva na variável resposta, e destacam o ponto 6 (5,53 Mg ha -1) e o ponto 34 (2,41 Mg ha -1), respectivamente, como influentes na variável resposta.

As Figuras 4(a) e 4(b) apresentam os gráficos Ci, |Lmax| versus i, em que: i indica a ordem dos dados. Como o ponto 6 aparece distante dos demais pontos no gráfico, este pode ser considerado influente na variável resposta, mediante o esquema de perturbação proposto por ZHU et al. (2007), que utiliza a matriz escala (Yω = Y + Σ-1/2ω). O ponto 6 pode ter sido considerado influente, por ser um ponto com alta produtividade cercado por vizinhos com valores baixos, conforme mostra a Figura 1.

Como o ponto 6 foi detectado como influente, tanto pela perturbação aditiva Yω = Y + ω como pela perturbação proposta por ZHU et al. (2007) Yω = Y + Σ-1/2ω, o mesmo foi retirado do conjunto de dados da produtividade da soja, sendo o novo conjunto denominado por Prod[6].

URIBE-OPAZO et al. (2012) também detectaram o ponto 6 como influente ao trabalhar com os mesmos dados e a perturbação aditiva em modelos lineares espaciais gaussianos, na área em estudo. Pode-se verificar que, apesar de trabalhar com a distribuição t-Student que engloba pontos atípicos, pois é considerada uma distribuição com cauda mais pesada que o normal, o ponto continua sendo influente.

A estatística descritiva para o conjunto Prod[6] é apresentada na Tabela 4. Com a retirada do ponto 6, houve redução no coeficiente de variação, quando comparados com os valores apresentados na Tabela 1. A produtividade média praticamente não foi alterada com a retirada do ponto de máximo. Os coeficientes de assimetria e curtose apresentaram valores de -0,153 e -0,047, respectivamente, indicando que os dados da produtividade da soja são considerados simétricos e com distribuição platicúrtica.

Para o conjunto Prod[6], foi estimado o vetor de parâmetros θ = (β1β23123)T utilizando o método de máxima verossimilhança, com o auxílio do algoritmo BFGS. Foram ajustados os modelos exponencial, gaussiano, família Matérn com k = 1; 1,5 e 2, para modelar a estrutura de variabilidade espacial dos dados. O melhor modelo ajustado foi escolhido segundo os critérios de validação cruzada, AIC e BIC. De acordo com o máximo valor da função de verossimilhança, o grau de liberdade escolhido para a distribuição t-Student foi v = 30; isso indica que, com a retirada do ponto, o conjunto de dados assume a distribuição t-Student com configuração mais próxima da distribuição normal de probabilidades (grau de liberdade v → ∞).

Para os dados de produtividade da soja com a retirada do ponto 6, o melhor modelo ajustado foi o gaussino, com parâmetros 1= 1,8349, 2= 0,0032, 3=0,0265, 1=0,2316, 2= 0,0341, e 3= 161,2393, com alcance prático de 279,08 metros. O máximo valor da função de verossimilhança foi LFML = - 60,85, com AIC = 129,70 e BIC = 143,73.

A Figura 5 apresenta os mapas temáticos para a produtividade com 83 elementos amostrais e o mapa temático com a retirada do ponto 6 Prod[6], confeccionados por meio da interpolação por krigagem universal, visto que, neste estudo, foram introduzidas covariáveis ou variáveis explicativas. Os mapas foram divididos em classes iguais para facilitar a comparação visual dos mesmos.


Pelas Figuras 5(a) e 5(b), pode-se observar que há variação entre as áreas dos mapas. O mapa obtido para a variável produtividade com o conjunto original, com 83 pontos (Figura 5(a)), apresenta pequenas porções isoladas com produtividade acima de 3,2 Mg ha -1. Na Figura 5(b), onde houve a retirada do ponto influente, verifica-se que houve aumento da região superior do mapa com produtividade superior a 3,2 Mg ha -1. Porém, a região central dos dois mapas apresenta baixa produtividade, com valores inferiores a 2,6 Mg ha -1. Estas constatações indicam que a observação 6 exerce influência na interpolação por krigagem com tendência, que foi o método utilizado por inserir covariáveis no estudo. Logo, provoca alterações nos mapas gerados.

A Tabela 5 apresenta a porcentagem de área em cada classe dos mapas apresentados na Figura (5), bem como a porcentagem de diferença em cada classe dos mapas, considerando que a área em estudo possui 47,951 ha. Pode-se observar que a classe 3,0 a 3,2 Mg ha -1foi a que apresentou maior diferença entre os mapas, seguida da classe de maior produtividade, de 3,2 a 3,4 Mg ha -1. Porém, com a retirada do ponto 6, é que surge uma região de maior produtividade na região norte do mapa apresentado na Figura 6(b).

A aplicação da técnica de diagnóstico de influência local mostrou-se eficiente na identificação dos pontos influentes. A presença de pontos influentes em um conjunto de dados exige maior atenção na construção dos mapas temáticos e, posteriormente, em sua utilização a campo, para que os mesmos representem a realidade da área. Assim, será possível a aplicação correta de insumos à taxa variável e a limitação de zonas de manejo, permitindo que a área seja trabalhada de acordo com suas necessidades específicas.

CONCLUSÃO

Verificou-se que as técnicas de diagnóstico em influência local, quando aplicadas para dados experimentais, foram eficientes para identificar a presença de valores atípicos, que foram considerados influentes na determinação da estrutura de dependência espacial, na escolha do melhor modelo ajustado e na construção dos mapas temáticos.

O uso da distribuição t-Student como alternativa no estudo de dados com valores atípicos pode diminuir a interferência destes pontos. A identificação da influência destes, utilizando as duas perturbações propostas neste trabalho, oferece maior confiabilidade no estudo, pois, mesmo alterando o esquema de perturbação, o ponto continua sendo identificado como influente.

O uso da técnica de diagnóstico de influência local, para avaliar a influência de observações no conjunto de dados e nos resultados das análises, deve fazer parte das análises geoestatísticas, pois, desta forma, garante-se que as informações contidas nos mapas temáticos tenham maior qualidade e possam ser recomendadas ao agricultor.

AGRADECIMENTOS

Os autores agradecem ao CNPq, CAPES e Fundação Araucária, pelo apoio financeiro.

Recebido pelo Conselho Editorial em: 16-3-2012

Aprovado pelo Conselho Editorial em: 23-4-2013

  • AKAIKE, H. Information theory and an extension of the maximum likelihood principle. Journal of the Royal Statistical Society, London, v. 51, p. 469-483, 2002.
  • ASSUMPÇÃO, R. A. B.; URIBE-OPAZO, M. A.; GALEA, M. Local Influence for spatial analysis of soil physical properties and soybean yield Student´s t-distribuition. Revista Brasileira de Ciência do Solo, Viçosa-MG, v.35, n.5, p.1.917-1.926, 2011.
  • BORSSOI, J. A.; URIBE-OPAZO, M. A.; GALEA, M. Diagnostic techniques applied in geoestatistics for agricultural data analysis. Revista Brasileira de Ciência do Solo, Viçosa-MG, v. 33, n.6, p.1.561-1.570, 2009.
  • BORSSOI, J. A.; DE BASTIANI, F.; URIBE-OPAZO, M. A.; GALEA, M. Local influence of explanatory variables in Gaussian spatial linear models. Chilean Journal of Statistics, Santiago, v.2, n.2, p. 29-38. 2011a.
  • BORSSOI, J. A.; URIBE-OPAZO, M.; GALEA, M. Técnicas de diagnóstico de influência local na análise espacial da produtividade da soja. Engenharia Agricola, Jaboticabal, v.31, n.2, p.376-387, mar./abr. 2011b.
  • COOK, R. D. Assessment of Local Influence (with discussion). Journal of the Royal Statistical Society, Series B, London, v.48, n. 2, p. 133-169, 1986.
  • DIGGLE, P. J.; RIBEIRO JR., P. J. Model-based geoestatistics 2007, 230p. Hardcover.
  • DE BASTIANI, F.; URIBE-OPAZO, M. A.; DALPOSSO, G. H. Comparison of maps of spatial variability of soil resistance to penetration constructed with and without covariables using a spatial linear model. Engenharia Agrícola, Jaboticabal, v. 32, n.2, p. 394-404, 2012.
  • EMBRAPA. Empresa Brasileira de Pesquisa Agropecuária. Centro Nacional de Pesquisa de Solos. Sistema brasileiro de classificação de solos. Brasília, 2009. 412p.
  • FARACO, M. A.; URIBE-OPAZO, M. A.; SILVA, E. A. A.; JOHANN, J. A.; BORSSOI, J. A. Seleção de modelos de variabilidade espacial para elaboração de mapas temáticos de atributos físicos do solo e produtividade da soja. Revista Brasileira de Ciência do Solo, Viçosa-MG, v. 32, n.2, p. 463-476, 2008.
  • FRERY, A. C.; CRIBARI-NETO, F. Elementos de estatística computacional usando plataformas de software livre/gratuito: Publicações Matemáticas, Rio de Janeiro: IMPA, 2009, 99p.
  • GALEA, M.; PAULA, G. A.; URIBE-OPAZO, M. A. On influence diagnostic in univariate elliptical linear regression models. Statistical Papers, New York, v. 44, n.1, p.23-45, 2003.
  • GALEA, M.; PAULA, G. A.; CYSNEIROS, F. J. A. On diagnostics in symmetrical nonlinear models. Statistics e Probability Letters v. 73, n.4, p. 459-467, 2005.
  • GENZ, A. et al. mvtnorm: Multivariate Normal and t Distributions. R package version 0.9-9991. Disponível em: <http://CRAN.R-project.org/package=mvtnorm>. Acesso em: 5 abr. 2011.
  • JOHANN, J. A.; SILVA, M. C. A.; URIBE-OPAZO, M. A.; DALPOSSO, G. Variabilidade da rentabilidade, perdas na colheira e produtividade do feijoeiro. Engenharia Agricola, Jaboticabal.v. 30, n.4, p. 700-714, jul./ago. 2010.
  • MELLO, J. M.; BATISTA, J. L. F.; RIBEIRO JR, P. J.; OLIVEIRA, M. S. Ajuste e seleção de modelos espaciais de semivariograma visando à estimativa volumétrica de Eucalyptus grandis Scientia Florestalis, Piracicaba, v.1, n. 69, p. 25-37, 2005.
  • MOLIN, J. P. Agricultura de precisão: o gerenciamento da variabilidade. 3. ed. Piracicaba: Escola Superior de Agricultura Luiz de Queiroz, USP, 2008. 83p.
  • OSORIO, F.; PAULA, G. A.; GALEA, M. Assessment of local influence in elliptical linear models with longitudinal structure. Computacional Statistics & Data Analisys Journal, Amsterdam, v. 51, n.9, p. 4.354-4.368, 2007.
  • PIMENTEL, G. Curso de estatística experimental Piracicaba: Escola Superior de Agricultura Luiz de Queiroz, USP, 1970. 208p.
  • R DEVELOPMENT CORE TEAM. R: A language and enviroment for statistical computing. R Foundation for Statistical Computing. Vienna. Disponível em: <http:www.R-project.org>. Acesso em: 1 set. 2011.
  • RIBEIRO JR., P. J.; DIGGLE, P. J. geoR: a package for geostatistical analysis R-NEWS, New York, v.1, n.2, p.15-18, 2001.
  • SCHWARZ, G. Estimating the dimension of a model. Annals of Statistics, Hayward, v.6, n.2, p.461-464, 1978.
  • URIBE-OPAZO, M.; BORSSOI, J. A.; GALEA, M. Influence diagnostics in gaussian spatial linear models. Journal of Applied Statistics, Abingdon, v.39, n.3, p.615-630, 2012.
  • ZHU, H.; IBRAHIM, J. G.; LEE, S.; ZHANG, H. Perturbation selection and influence measures in local influence analysis. Annals of Statistics, Hayward, v. 35, n. 6, p.2.565-2.588, 2007.

Datas de Publicação

  • Publicação nesta coleção
    21 Nov 2013
  • Data do Fascículo
    Out 2013

Histórico

  • Recebido
    16 Mar 2012
  • Aceito
    23 Abr 2013
Associação Brasileira de Engenharia Agrícola SBEA - Associação Brasileira de Engenharia Agrícola, Departamento de Engenharia e Ciências Exatas FCAV/UNESP, Prof. Paulo Donato Castellane, km 5, 14884.900 | Jaboticabal - SP, Tel./Fax: +55 16 3209 7619 - Jaboticabal - SP - Brazil
E-mail: revistasbea@sbea.org.br