A Precisão da Estimativa do Erro da Krigagem pela Validação Cruzada

Lundgren, Wellington Jorge Cavalcanti; Silva, José Antônio Aleixo da; Ferreira, Rinaldo Luiz Caraciolo

doi:10.1590/2179-8087.124114

RESUMO

A Validação Cruzada (VC) é utilizada para verificação de erros de estimativas em krigagem. Para quantificar o erro cometido pela VC, um plantio de 1875 árvores de eucaliptos foi cubado rigorosamente. Um mapa do volume/árvore foi construído por krigagem e gerou 8736 pontos. Amostras de tamanhos 100, 150, 200, 250, 300 e 350 foram retiradas dos 8736 pontos por amostragem sistemática e aleatória e mapas foram construídos por krigagem. Uma reta foi ajustada ao gráfico Estimados x Observados. O R², o intercepto e o coeficiente angular foram os parâmetros de erros. A VC não forneceu resultados confiáveis para o R² na amostragem sistemática com 100, 150, 200 e 250 amostras e confiáveis para o R² em todas as amostragens aleatórias. A amostragem sistemática apresentou bons resultados verdadeiros, o R² > 0,70 com 200 amostras, e a amostragem aleatória só apresentou R² > 0,70 com 250 amostras.

Palavras-chaves:
eucaliptos; semiárido; geoestatística; interpolação; volume de madeira

ABSTRACT

Cross-validation (CV) is used for error checking in kriging estimates. To quantify the error of a CV, 1875 eucalyptus trees were rigorously planted. A volume/tree map was constructed by kriging, generating 8736 points. Samples with different sizes (100, 150, 200, 250, 300 and 350) were taken from the 8736 points through systematic and random sampling and volume maps were constructed by kriging. A straight line was fitted to Estimated x Observed graph. The R², the intercept and the slope were the errors parameters. The CV did not provide reliable results for the R² in the systematic sampling with 100, 150, 200 and 250 samples, but it was reliable for the R² in all randomized trials. The systematic sampling had good real results, R² > 0.70 with 200 samples, while random sampling showed R² > 0.70 only with 250 samples.

Keywords:
eucalyptus; semiarid; geostatistics; interpolation; volume of wood

1. INTRODUÇÃO

A geoestatística é uma ciência que teve seu início na segunda metade do século XX e é utilizada cada vez com maior frequência em diversas ciências. As estimativas realizadas pela geoestatística possuem pelo menos duas vantagens sobre a técnica de regressão: a geoestatística necessita de menos amostras que a estatística clássica (Carvalho et al., 2002Carvalho JR, Silveira PM, Vieira SR. Geoestatística na determinação da variabilidade espacial de características químicas do solo sob diferentes preparos. Revista Pesquisas Agropecuárias Brasileiras 2002; 37(8): 1151-1159. http://dx.doi.org/10.1590/S0100-204X2002000800013.
http://dx.doi.org/10.1590/S0100-204X2002... ; Mello, 2004Mello JM. Geoestatística aplicada ao inventário florestal [tese]. Piracicaba: Escola Superior de Agricultura Luiz de Queiroz, Universidade de São Paulo; 2004.) e fornece a localização geográfica da estimativa realizada. Em Ciências Florestais, a previsão do volume de madeira a ser cortado é informação substancial para previsão de custos de corte e de lucratividade do plantio. Nesse sentido, a diminuição dos custos de corte decorre da amostragem, que deve ser a menor possível, sem contudo perder a precisão. Na estatística clássica existem processos matemáticos já consagrados que calculam o número ótimo de amostras a serem utilizadas.

Em geoestatística existe um processo proposto por Mcbratney & Webster (1983)Mcbratney AB, Webster R. How many observations are needed for regional estimation of soil properties? Soil Science 1983; 135(3): 177-183. http://dx.doi.org/10.1097/00010694-198303000-00007.
http://dx.doi.org/10.1097/00010694-19830... para definição do número de amostras necessárias para uma boa estimativa, e que se baseia no parâmetro alcance do semivariograma teórico escolhido.

Após a escolha da quantidade de amostras a ser utilizada, é efetuado todo o processo geoestatístico, que envolve a análise prévia dos dados coletados, análise de anisotropia, análise de tendência, construção do semivariograma amostral, determinação do semivariograma teórico e krigagem. Com a krigagem é possível a construção de mapas do atributo em estudo. Aqui começa um questionamento importante: Será que as estimativas realizadas correspondem à realidade?

Um dos processos utilizados na conferência da qualidade das estimativas em geoestatística é a VC. Segundo Andriotti (2002)Andriotti JLS. Notas de geoestatística. Acta Geologica Leopodensia 2002; 24(55): 3-14., ela consiste em retirar um ponto do conjunto de dados e estimá-lo pela krigagem como se ele não existisse. Repetir o procedimento com cada um dos pontos amostrais e comparar os pontos conhecidos com os estimados. Será que a qualidade dessas estimativas depende do número de amostras ou de como as amostras são retiradas?

Neste artigo verificamos se a VC fornece valores confiáveis de erros para previsões de krigagem. Foi construído um mapa fictício de volume de madeira de eucalipto, com 8736 pontos, em uma área de 24.012 m². E dele foram retiradas sucessivas amostras aumentadas em 50 pontos de uma para outra, começando com 100 e terminando com 350. Dois tipos de amostragem foram comparados: Inteiramente aleatório e Sistemático em grade.

Os objetivos da pesquisa foram verificar e quantificar a estimativa do erro cometido pela VC na krigagem, usando amostragem sistemática e aleatória em diferentes intensidades amostrais.

2. MATERIAL E MÉTODOS

A pesquisa foi realizada na cidade de Araripina – PE, na Estação Experimental do Instituto de Pesquisa de Pernambuco (IPA), localizado na Serra do Araripe, com o seguinte Sistema de Coordenadas geodésicas: 07°27’37” S e 40°24’36” W.

Um plantio de eucaliptos com 6,5 anos de idade, em uma área de 2,4 hectares (138 x 174 metros), com espaçamento 2 x 3 metros e com 1875 árvores. Denominado neste estudo de dados originais, teve sua população cubada rigorosamente pelo método de Smallian. A cubagem total da população servirá para comparar erros de estimativas da krigagem do volume de madeira.

As árvores tiveram suas posições dentro do plantio demarcadas num plano cartesiano (X,Y), onde o X e o Y representam a distância em metros da projeção dos pontos nos eixos para a árvore origem. A árvore origem foi escolhida para ser a primeira do vértice esquerdo e abaixo no polígono. Após a medição dos 1875 volumes dos eucaliptos do plantio, os dados obtidos foram introduzidos no software GS+ versão 9.0 da GAMMA Design (Gamma Design Software, 2000Gamma Design Software. GS+ Geostatistical for environmental science. Versão 5.0. Michigan: Gamma Design Software; 2000.), em que foram calculadas as estatísticas, média, mediana, variância, desvio-padrão, coeficiente de variação, máximo, mínimo, teste de normalidade de Kolmogorov-Smirnov, assimetria e curtose.

Segundo Yamamoto & Landim (2013)Yamamoto JK, Landim PMB. Geoestatística: conceitos e aplicações. São Paulo: Editora Oficina de Letras; 2013., se os dados apresentarem assimetria positiva, deve-se usar alguma transformação de dados para que eles assumam uma distribuição normal. Cressie (1991)Cressie N. Statistics for spatial data. New York: John Wiley; 1991. afirma que a normalidade não é uma exigência para a geoestatística, mas apenas uma característica desejável. A homocedasticidade não é exigência para que se efetue a krigagem. Segundo Yamamoto & Landim (2013)Yamamoto JK, Landim PMB. Geoestatística: conceitos e aplicações. São Paulo: Editora Oficina de Letras; 2013., a homocedasticidade é uma característica das estimativas de krigagem.

Com os dados volumétricos foi construído um semivariograma amostral. Matheron (1962)Matheron G. Traité de geostatistique appliquée. Fontainebleau: Editora Centre Geoestatistique; 1962. afirma que o semivariograma é a principal ferramenta da geoestatística. A semivariância amostral é calculada pela Fórmula 1:

Y (h) = 1 / [2. N (h)] . {[Z (x_{i}) - Z (x_{i} + h)]}^{2}

(1)

Em que:

Y(h) = semivariância amostral que depende de h,

h = distância entre dois pontos demarcados no plano ou no espaço,

N(h) = número de pontos que estão distanciados no máximo pela distância h,

Z(x_i) = valor do atributo medido no ponto x_i,

x_i = local (ponto),

x_i + h = ponto distanciado do ponto x_i por uma distância h.

Após o cálculo das semivariâncias amostrais é construído um gráfico chamado de semivariograma amostral, que correlaciona h x Y(h) e que tipicamente assume a forma da Figura 1.

Figura 1
Esquema de um semivariograma típico.
Figure 1
Scheme of a typical semivariogram.

Um semivariograma teórico é ajustado ao amostral e possui três importantes parâmetros: efeito pepita, que fornece os erros cometidos, devido a microvariações; o patamar, que é o valor da semivariância em que os dados começam a perder sua estrutura espacial; e o alcance, que é a distância máxima, na qual a dependência espacial é detectada.

Foi realizada uma análise de tendência pelo processo descrito por Camargo et al. (2004)Camargo ECG, Fucks SD, Câmara G. Análise espacial de superfícies. 3. ed. Brasília: Editora Embrapa; 2004., em que os valores dos atributos são colocados em um gráfico, correlacionando o eixo X x Volume e o eixo Y x Volume, e uma equação de regressão é criada para os gráficos de dispersão pelo processo dos mínimos quadrados. Para a realização da regressão, segundo Larson (1982)Larson HJ. Introduction to probability theory and statistical inference. New York: John Wiley & Sons; 1982., dois pressupostos são assumidos, a variância da variável resposta independe da variável explicativa. O outro pressuposto são que os erros das estimativas têm distribuição Normal com média zero e variância desconhecida. Se o coeficiente de determinação (R²) ultrapassar 0,30, considera-se que existe tendência dos dados e, caso o fato ocorra, a tendência é retirada usando a equação de regressão, e um novo semivariograma é construído.

Para verificar a existência de anisotropia nos dados foram construídos quatro semivariogramas direcionais com 0°, 45°, 90° e 135° e verificou-se o comportamento do semivariograma teórico. Caso os parâmetros efeito pepita, patamar e alcance não apresentarem comportamentos distintos entre as quatro direções, a existência de anisotropia é descartada, e, em caso contrário, serão utilizados os processos descritos por Yamamoto & Landim (2013)Yamamoto JK, Landim PMB. Geoestatística: conceitos e aplicações. São Paulo: Editora Oficina de Letras; 2013.: ajuste de um único semivariograma às características apresentadas pelos semivariogramas teóricos direcionais.

A dependência espacial do atributo em estudo pode ser fraca, moderada ou forte. Segundo Seidel & Oliveira (2014)Seidel EJ, Oliveira MS. Definição de áreas de dependência espacial em semivariogramas. In: Anais da LIX Reunião Anual da Região Brasileira da Sociedade Internacional de Biometria – RBRAS; 2014; Ouro Preto. Ouro Preto: Universidade Federal de Ouro Preto; 2014. p. 348-352., o índice de dependência espacial pode ser medido por: IDE = (Patamar – Efeito pepita)/Patamar; se o valor for menor que 0,30, a dependência espacial é fraca; se 0,30 ≤ IDE < 0,70, a dependência espacial é moderada; e se IDE ≥ 0,70, a dependência espacial é forte.

Após a escolha do modelo que melhor ajusta à semivariância amostral, é possível realizar a krigagem descrita por Landim (2006)Landim PMB. Sobre geoestatística e mapas. Terrae Didatica 2006; 2(1): 19-33. como sendo a Equação 2:

Z^{*}_{K} = \sum_{i = 1}^{N} λ_{i} Z (x_{i})

(2)

Em que:

Z*_K = valor do atributo estimado na posição x_K,

λ_i = peso da interpolação do atributo

Z (x_i) = valor do atributo na posição x_i.

A krigagem foi efetuada e gerou um mapa volumétrico com 8736 pontos geográficos, que será denominado mapa de dados verdadeiros para os fins deste estudo.

O mapa verdadeiro cobriu uma área de exata de 24.012 m², com um gradeamento de 8736 pontos. Tendo cada pequeno quadrado área de 2,75 m² (1,76 x 1,76 m), para efeito prático, é possível considerar o mapa como uma informação contínua e não discreta. Foram retirados dois tipos de amostras: sistemáticas em grade e inteiramente aleatórias de tamanhos 100, 150, 200, 250, 300 e 350 cada.

Mapas de krigagem para cada uma das amostras foram construídos. O erro foi calculado por dois processos diferentes: a VC e o gráfico dos valores Estimados x Observados verdadeiros. Foram comparados o R², o coeficiente de inclinação e o intercepto nos dois processos.

3. RESULTADOS E DISCUSSÃO

As posições das árvores do plantio original, o semivariograma construído com a transformação logarítmica (pois os dados apresentaram assimetria positiva) e o mapa da krigagem com 8736 árvores fictícias, que de agora em diante será chamado de verdadeira população, podem ser visualizados na Figura 2.

Figura 2
Localização das árvores no plantio, semivariograma para as 1875 árvores e mapa da krigagem (mapa verdadeiro com 8736 pontos).
Figure 2
Location of trees in planting 1875 trees for semivariogram and kriging map (true map with 8736 points).

As amostras de 100, 150, 200, 250, 300 e 350 foram retiradas entre os 8736 pontos da população verdadeira, e as estatísticas clássicas estão descritas na Tabela 1.

Thumbnail

Tabela 1
Estatísticas clássicas da população e amostras. Pop = População, Sist = Amostra sistemática, Alea = Amostra aleatória, Máx. = Máximo, Mín. = Mínimo, Ass. = Assimetria, Cur. = Curtose.
Table 1
Classical statistics and population samples. Pop = Population, Sist = systematic sample, Alea = Random Sample, Max. = Maximum, Min. = Minimum, Ass = Skewness, Cur. = Kurtosis.

Todas as estatísticas amostrais foram bem próximas dos valores populacionais, sem aparente influência, nem do número de amostras nem do tipo de amostragem utilizados.

Todas as assimetrias foram positivas, o que, segundo Yamamoto & Landim (2013)Yamamoto JK, Landim PMB. Geoestatística: conceitos e aplicações. São Paulo: Editora Oficina de Letras; 2013., torna necessária a transformação dos dados para se conseguir a normalidade. A transformação foi realizada, pois, quanto mais simétricos os dados forem em torno da média, melhores serão as estimativas dos erros. A população e as amostras não apresentaram distribuição normal e a normalidade foi conseguida após a transformação logarítmica para as amostras 150, 200, 250 e 300, e não conseguidas para 100, 350 e para a população 8736.

A existência de dependência espacial já era esperada, a dependência espacial para atributos dendrométricos foi encontrada por alguns pesquisadores. Mello (2004)Mello JM. Geoestatística aplicada ao inventário florestal [tese]. Piracicaba: Escola Superior de Agricultura Luiz de Queiroz, Universidade de São Paulo; 2004. encontrou dependência espacial para o volume de madeira de eucalipto por hectare, e Amaral et al. (2013)Amaral LP, Ferreira RA, Lisboa GS, Longhi SJ, Watzlawick LF. Variabilidade espacial do Índice de Diversidade de Shannon-Wiener em Floresta Ombrófila Mista. Revista Scientia Forestalis 2013; 41(97): 83-93. encontraram para o número de espécies e para o índice de diversidade de Shannon-Winner.

Todas as amostras, sem exceção, conseguiram gerar semivariogramas teóricos, em que é visível a existência de dependência espacial. Os semivariogramas teóricos foram modelados. Os mapas construídos por krigagem representaram de forma satisfatória a localização dos aglomerados de árvores grandes e pequenas. Para exemplificar a afirmação, no plantio original as árvores plantadas dentro do polígono definido por X = 135 até X = 174 e Y = 0 até Y = 138 (conforme a Figura 2) foram as que apresentaram maiores volumes, além das árvores que estavam nas bordas de Y = 0, pois no plantio original o campo à frente da linha X = 0 até X = 174 e Y = 0 para todos os Xs era totalmente limpo de vegetação, o que permitia um forte efeito de borda. Já as outras bordas do plantio possuíam mata natural (Caatinga na borda X = 0 para todos os Ys entre Y = 0 e Y = 138), e outros plantios de eucaliptos em idade avançada, nas outras duas bordas, claramente detectados em todos os mapas.

As Figuras 3 e 4 apresentam a localização dos pontos da população verdadeira (8736 pontos), além dos pontos amostrais com 100, 150, 200, 250, 300 e 350 das amostragens sistemática e aleatória, os semivariogramas amostrais e teóricos e os respectivos mapas da krigagem, para cada número de amostra.

Figura 3
Localização dos pontos amostrais no povoamento, semivariogramas e mapas de krigagem das amostras aleatórias e sistemáticas para 100, 150 e 200.
Figure 3
Location of sampling points in the stand, semivariograms and kriging maps of random samples and systemic for 100, 150, 200.

Figura 4
Localização dos pontos amostrais no povoamento, semivariogramas e mapas de krigagem das amostras aleatórias e sistemáticas para 250, 300 e 350.
Figure 4
Location of sampling points in the stand, semivariograms and kriging maps of random samples and systemic for 250, 300, 350.

A amostragem aleatória e a estratificada com 100 amostras forneceram os piores resultados para o IDE. O resultado da amostragem aleatória com 100 foi o único com dependência espacial moderada, e o da sistemática com 100 encontrou forte dependência espacial, porém foi menor que todos os outros.

Os modelos teóricos foram escolhidos pelo software GS+, que utiliza o método dos mínimos quadrados. Interessante perceber que a escolha dos modelos foi fortemente influenciada pelo tipo de amostragem e não pelo número de amostras. Com exceção da amostra com 350 unidades, na qual o modelo foi o esférico, todas as outras foram do modelo exponencial, e na amostragem aleatória os modelos se alternaram entre Gaussiano, Esférico e Exponencial.

Mello et al. (2009a)Mello JM, Diniz FS, Oliveira AD, Mello CR, Scolforo JRS, Acerbi FW Jr. Continuidade espacial para características dendrométricas (número de fustes e volume) em plantios de Eucalyptus grandis. Revista Árvore 2009a; 33(1): 185-194. http://dx.doi.org/10.1590/S0100-67622009000100020.
http://dx.doi.org/10.1590/S0100-67622009... compararam parcelas circulares de 25 m de raio com parcelas em linhas duplas de plantio de eucalipto de 120 m de comprimento. Quanto ao volume de madeira de eucalipto entre as intensidades (1:4), (1:7) e (1:10) parcela/ha, eles conseguiram dependência espacial de 100% para as intensidades de 1:4 e 1:7 e 0% para 1:10 nos dois tipos de amostragens.

Os parâmetros usados nos semivariogramas teóricos da presente pesquisa estão apresentados na Tabela 2.

Thumbnail

Tabela 2
Parâmetros dos modelos teóricos dos semivariogramas teóricos. Sist = amostragem sistemática, Alea = amostragem aleatória, IDE = Índice de dependência espacial, Exp = Exponencial, Gau = Gaussiano, Esf = Esférico.
Table 2
Parameters of the theoretical models of theoretical semivariogram. Sist = systematic sampling, Alea = random sampling, IDE = index of spatial dependence, Exp = exponential, Gau = Gaussian, Esf = Spherical.

Eles também conseguiram alcance menor para a menor intensidade (1:10) 59 metros para parcelas circulares e 85 metros para parcelas em linhas, e alcances maiores para as maiores intensidades (1:4 e 1:7) 117 metros para parcelas circulares e 121 metros para parcelas em linha. O modelo teórico foi o exponencial em todos os casos.

Os alcances não sofreram influência da intensidade amostral. O menor alcance foi de 17,0 metros para a amostragem aleatória com 150 unidades; o maior foi de 81,6 metros para a amostragem sistemática com 100 unidades amostrais.

As Figuras 5 e 6 apresentam os gráficos de dispersão para a amostragem sistemática e aleatória, respectivamente.

Figura 5
Gráficos de dispersão para a amostragem sistemática com 100, 150, 200, 250, 300 e 350 amostras para a VC e para os valores estimados x verdadeiros da população. Est = Estimados, Obs = Observados, Sist = Sistemática, Val Cruz = Validação cruzada.
Figure 5
Scatter plots for the systematic sampling with 100, 150, 200, 250, 300 and 350 samples for the VC and the estimated x true values of the population. Est = Estimated, Obs = Mensured, Sist = Systematic, Val Cruz = Cross validation.

Figura 6
Gráficos de dispersão para a amostragem aleatória com 100, 150, 200, 250, 300 e 350 amostras para a VC e para os valores estimados x verdadeiros da população. Est = Estimados, Obs = Observados, Aleat = Aleatória, Val Cruz = Validação cruzada.
Figure 6
Scatter plots for the random sampling with 100, 150, 200, 250, 300 and 350 samples for the VC and the estimated x true values of the population. Est = Estimated, Obs = Mensured, Aleat = Random, Val Cruz = Cross validation.

Para a amostragem sistemática, conforme pode ser observado na Figura 5, o aumento das amostras evidencia que os resultados da krigagem melhoraram significativamente, pois as nuvens de pontos para os dados da população concentram-se com maior intensidade em torno da reta 1:1. Idêntica observação serve para os dados da VC, exceto a amostra de tamanho 100, que visualmente parecem estar bem mais próximos da reta da regressão, Estimados x Observados do que com os tamanhos 150, 200 e 250.

A VC foi usada por Nanos & Montero (2002)Nanos N, Montero G. Spatial prediction of diameter distribution models. Forest Ecology and Management 2002; 161(1): 147-158. http://dx.doi.org/10.1016/S0378-1127(01)00498-4.
http://dx.doi.org/10.1016/S0378-1127(01)... , que utilizaram 176 pontos amostrais sistemáticos para comparar a estimativa dos parâmetros da função densidade de probabilidade dos diâmetros do Pinus pinaster, estimados por máxima probabilidade e por krigagem. Eles usaram a técnica krigagem para confirmar a existência de dependência espacial dos parâmetros da função densidade de probabilidade e chegaram à conclusão de que a máxima probabilidade gerou resultados mais confiáveis.

Para a amostragem aleatória, conforme pode ser observado na Figura 6, visualmente nota-se que com o aumento do número de amostras, os pontos da VC e da krigagem para a população se aglomeraram mais intensamente acompanhando a reta da regressão, Estimados x Observados.

Mello et al. (2009b)Mello JM, Diniz FS, Oliveira AD, Scolforo JRS, Acerbi FW Jr, Thiersch CR. Métodos de amostragem e geoestatística para estimativa do número de fustes e volume em plantios de Eucalyptus grandis. Revista Floresta 2009b; 39(1): 157-166., em uma plantação de eucaliptos, compararam dois tipos de amostragens com três diferentes intensidades amostrais para os atributos volume de madeira por parcela e número de fustes utilizando krigagem. Eles concluíram que, para o número de fustes, nas três intensidades usadas, os resultados diferiram estatisticamente dos resultados do censo. Para o volume, os resultados foram estatisticamente iguais ao censo nas duas maiores intensidades amostrais.

A Figura 7 fornece os valores de R², o coeficiente de inclinação e o intercepto da reta de regressão para os gráficos de dispersão, Estimados x Observados para a VC e estimativa da krigagem para os dois tipos de amostragem em todas as intensidades amostrais.

Figura 7
Gráficos de linha para o número de amostras (NA) x R², NA x coeficiente angular e NA x intercepto para as amostragens sistemática e aleatória para a VC e população.
Figure 7
Line graphs for the number of samples (NA) x R², NA x slope and NA x intercept for the systematic and random sampling for VC and population.

a
Análise do R² para a amostragem sistemática

Na amostragem sistemática, que é o tipo de amostragem mais utilizado em processos geoestatísticos, quando foram usadas 100 amostras, o valor do R² foi próximo a 0,7, o que indica uma estimativa confiável pela VC; no entanto, as estimativas reais para toda a população mostram que o R², na verdade, estava próximo de 0,25, o que forneceria valores bem distantes de uma estimativa confiável. Neste caso, o pesquisador, que em regra nunca conhece o verdadeiro comportamento da população, seria induzido a acreditar que sua amostra, de tamanho 100, fornecia resultados confiáveis.

A VC foi utilizada por Palmer et al. (2009)Palmer DJ, Höck BK, Kimberley MO, Watt MS, Lowe DJ, Payn TW. Comparison of spatial prediction techniques for developing Pinus radata productivity surfaces across New Zealand. Forest Ecology and Management 2009; 258(10): 2046-2055. http://dx.doi.org/10.1016/j.foreco.2009.07.057.
http://dx.doi.org/10.1016/j.foreco.2009.... na Nova Zelândia para comparar a melhor técnica de estimação do incremento anual para o volume de madeira de pinus, entre regressão, krigagem e inverso da distância. Eles utilizaram 300 pontos amostrais e concluíram que a krigagem forneceu os melhores resultados, com menores erros e maior coeficiente de determinação (R²).

Analisando o R² na amostragem sistemática com 150 amostras, a VC induz o pesquisador a acreditar que a amostragem não fornece resultados confiáveis R² = 0,48, quando na verdade os resultados, apesar de não serem confiáveis, não são desprezíveis, pois um R² = 0,60 é um resultado de moderada confiança. Assim, o pesquisador, baseando-se no R² da VC, seria induzido talvez a aumentar o número de amostras para conseguir resultado mais consistente.

No aumento para 200 amostras, na amostragem sistemática, a VC fornece R² = 0,40, valor que indica baixa confiabilidade nas estimativas. Novamente o pesquisador seria induzido a acreditar que seus dados não fornecem resultados confiáveis, porém, na verdade, seus resultados são bem consistentes, e o verdadeiro R² = 0,77 comprova o bom resultado.

O aumento para 250 amostras, na amostragem sistemática, eleva o R² = 0,52 da VC, o que indica que as estimativas ainda não são confiáveis, e novamente o pesquisador é induzido a acreditar que necessita aumentar o número de amostras, quando na verdade as estimativas fornecem resultados aceitáveis e o aumento de amostras é desnecessário, pois o verdadeiro R² = 0,80 demonstra que as estimativas são bem confiáveis.

Os aumentos amostrais para 300 e 350 eleva o valor do R² na VC em ambos os casos, para resultados próximos de 0,70. Com esses valores, o pesquisador teria a confiança de que suas estimativas fornecem resultados bastante confiáveis, e, na verdade, o R² = 0,80 para a população nas amostras de 300 e 350 demonstra que essa conclusão é correta.

b
Análise do R² para a amostragem aleatória

Na análise da amostragem aleatória para 100 amostras, a VC superestimou o erro fornecendo R² = 0,22, o que demonstra que as estimativas não são confiáveis e a conclusão é correta, pois o R² = 0,48 mostra que as estimativas não conseguem representar bem o comportamento populacional.

O aumento para 150 amostras eleva o R² = 0,30 para a VC, o que induz o pesquisador a acreditar corretamente que necessita aumentar o número de amostras para encontrar resultados mais consistentes, e, nesse caso, essa decisão está correta, pois o R² = 0,45 fornecido pelos dados populacionais indica que as estimativas não são confiáveis.

O aumento para 200 amostras aproxima os valores do R² da VC e populacionais para valores muito próximos 0,60 e 0,65, respectivamente, o que indica que as estimativas conseguiram resultados moderadamente próximos aos valores reais.

Os aumentos para 250, 300 e 350 amostras estabilizam o R² da VC e da população em valores bem próximos, e com resultados confiáveis os dois R² estão acima de 0,7.

O coeficiente angular (CA) deve ser o mais próximo possível da unidade, e a informação é um complemento associado ao valor do R², que também deve ser o mais próximo possível da unidade.

c
Análise do CA para a amostragem sistemática

Na amostragem sistemática com 100 amostras, a VC forneceu excelente valor para o CA, muito próximo a um, quando na verdade os dados verdadeiros mostram que a estimativa está em torno de 0,81.

Para as demais estimativas, com o aumento das amostras, a VC coincidiu aproximadamente com a os valores verdadeiros, porém, somente após 250 amostras o CA começou a ser aproximar da unidade, em ambos os casos VC e erros verdadeiros.

d
Análise do CA para a amostragem aleatória

Na amostragem aleatória com 100 amostras, a VC indicou um excelente resultado para o CA, próximo a 1, quando na verdade os erros da krigagem estavam com o CA acima de 1,2, porém, com o aumento para 150 amostras, a VC forneceu o CA bem próximo ao verdadeiro, (1,38 e 1,39, respectivamente). Para as amostras de 200, 250 e 300, os valores do CA praticamente coincidiram para a VC e para os valores verdadeiros do CA, e ambos se mantiveram próximos à unidade. Quando a amostra foi aumentada para 350, estranhamente ambos os valores voltaram a se afastar da unidade, sendo que a VC apontou um erro maior CA = 1,2 do que o verdadeiro CA = 1,10.

e
Análise do intercepto para a amostragem sistemática e aleatória

Na análise do intercepto, pode-se afirmar que em todos os dois tipos de amostragem e para todos os tamanhos de amostra os valores do intercepto foram baixos e próximos a zero. A maior diferença entre os valores dos interceptos da VC e da krigagem ocorreu para a amostra de tamanho 100, nos dois tipos de amostragem sistemática e aleatória. Para todos os outros tamanhos de amostras e tipo de amostragem, os valores foram próximos um dos outros.

O intercepto mais distante da nulidade ocorreu na amostragem sistemática, onde a VC praticamente coincidiu com o verdadeiro intercepto para a amostra de tamanho 150 em que o intercepto foi aproximadamente -0,032, o que não é um erro que desqualifique as estimativas, considerando-se que está bem próximo a zero.

4. CONCLUSÕES

A VC fornece resultados satisfatórios das estimativas de erros, quando é garantido que o número de amostras utilizadas é suficiente para representar a população do atributo de interesse.

A amostragem sistemática necessitou de maior número de amostras para que o R² da validação cruzada se aproximasse do R² da krigagem, e para 100 amostras forneceu resultado completamente equivocado para o R².

A amostragem aleatória forneceu estimativas de erros da VC, consistente com os erros verdadeiros em todas as quantidades de amostras utilizadas.

Nesta pesquisa, foi possível usar a VC como determinante do número ideal de amostras, particularmente quando apresentou R² ≥ 0,70.

AGRADECIMENTOS

Os autores agradecem ao IPA - Instituto Agronômico de Pernambuco.

REFERÊNCIAS

Amaral LP, Ferreira RA, Lisboa GS, Longhi SJ, Watzlawick LF. Variabilidade espacial do Índice de Diversidade de Shannon-Wiener em Floresta Ombrófila Mista. Revista Scientia Forestalis 2013; 41(97): 83-93.
Andriotti JLS. Notas de geoestatística. Acta Geologica Leopodensia 2002; 24(55): 3-14.
Camargo ECG, Fucks SD, Câmara G. Análise espacial de superfícies 3. ed. Brasília: Editora Embrapa; 2004.
Carvalho JR, Silveira PM, Vieira SR. Geoestatística na determinação da variabilidade espacial de características químicas do solo sob diferentes preparos. Revista Pesquisas Agropecuárias Brasileiras 2002; 37(8): 1151-1159. http://dx.doi.org/10.1590/S0100-204X2002000800013
» http://dx.doi.org/10.1590/S0100-204X2002000800013
Cressie N. Statistics for spatial data New York: John Wiley; 1991.
Gamma Design Software. GS+ Geostatistical for environmental science. Versão 5.0 Michigan: Gamma Design Software; 2000.
Landim PMB. Sobre geoestatística e mapas. Terrae Didatica 2006; 2(1): 19-33.
Larson HJ. Introduction to probability theory and statistical inference New York: John Wiley & Sons; 1982.
Matheron G. Traité de geostatistique appliquée Fontainebleau: Editora Centre Geoestatistique; 1962.
Mcbratney AB, Webster R. How many observations are needed for regional estimation of soil properties? Soil Science 1983; 135(3): 177-183. http://dx.doi.org/10.1097/00010694-198303000-00007
» http://dx.doi.org/10.1097/00010694-198303000-00007
Mello JM, Diniz FS, Oliveira AD, Mello CR, Scolforo JRS, Acerbi FW Jr. Continuidade espacial para características dendrométricas (número de fustes e volume) em plantios de Eucalyptus grandis. Revista Árvore 2009a; 33(1): 185-194. http://dx.doi.org/10.1590/S0100-67622009000100020
» http://dx.doi.org/10.1590/S0100-67622009000100020
Mello JM, Diniz FS, Oliveira AD, Scolforo JRS, Acerbi FW Jr, Thiersch CR. Métodos de amostragem e geoestatística para estimativa do número de fustes e volume em plantios de Eucalyptus grandis. Revista Floresta 2009b; 39(1): 157-166.
Mello JM. Geoestatística aplicada ao inventário florestal [tese]. Piracicaba: Escola Superior de Agricultura Luiz de Queiroz, Universidade de São Paulo; 2004.
Nanos N, Montero G. Spatial prediction of diameter distribution models. Forest Ecology and Management 2002; 161(1): 147-158. http://dx.doi.org/10.1016/S0378-1127(01)00498-4
» http://dx.doi.org/10.1016/S0378-1127(01)00498-4
Palmer DJ, Höck BK, Kimberley MO, Watt MS, Lowe DJ, Payn TW. Comparison of spatial prediction techniques for developing Pinus radata productivity surfaces across New Zealand. Forest Ecology and Management 2009; 258(10): 2046-2055. http://dx.doi.org/10.1016/j.foreco.2009.07.057
» http://dx.doi.org/10.1016/j.foreco.2009.07.057
Seidel EJ, Oliveira MS. Definição de áreas de dependência espacial em semivariogramas. In: Anais da LIX Reunião Anual da Região Brasileira da Sociedade Internacional de Biometria – RBRAS; 2014; Ouro Preto. Ouro Preto: Universidade Federal de Ouro Preto; 2014. p. 348-352.
Yamamoto JK, Landim PMB. Geoestatística: conceitos e aplicações São Paulo: Editora Oficina de Letras; 2013.

Datas de Publicação

Publicação nesta coleção
2017

Histórico

Recebido
02 Dez 2014
Aceito
26 Jun 2016

Este é um artigo publicado em acesso aberto (Open Access) sob a licença Creative Commons Attribution, que permite uso, distribuição e reprodução em qualquer meio, sem restrições desde que o trabalho original seja corretamente citado.

[1] Amaral LP, Ferreira RA, Lisboa GS, Longhi SJ, Watzlawick LF. Variabilidade espacial do Índice de Diversidade de Shannon-Wiener em Floresta Ombrófila Mista. Revista Scientia Forestalis 2013; 41(97): 83-93.

[2] Andriotti JLS. Notas de geoestatística. Acta Geologica Leopodensia 2002; 24(55): 3-14.

[3] Camargo ECG, Fucks SD, Câmara G. Análise espacial de superfícies 3. ed. Brasília: Editora Embrapa; 2004.

[4] Carvalho JR, Silveira PM, Vieira SR. Geoestatística na determinação da variabilidade espacial de características químicas do solo sob diferentes preparos. Revista Pesquisas Agropecuárias Brasileiras 2002; 37(8): 1151-1159. http://dx.doi.org/10.1590/S0100-204X2002000800013
» http://dx.doi.org/10.1590/S0100-204X2002000800013

[5] Cressie N. Statistics for spatial data New York: John Wiley; 1991.

[6] Gamma Design Software. GS+ Geostatistical for environmental science. Versão 5.0 Michigan: Gamma Design Software; 2000.

[7] Landim PMB. Sobre geoestatística e mapas. Terrae Didatica 2006; 2(1): 19-33.

[8] Larson HJ. Introduction to probability theory and statistical inference New York: John Wiley & Sons; 1982.

[9] Matheron G. Traité de geostatistique appliquée Fontainebleau: Editora Centre Geoestatistique; 1962.

[10] Mcbratney AB, Webster R. How many observations are needed for regional estimation of soil properties? Soil Science 1983; 135(3): 177-183. http://dx.doi.org/10.1097/00010694-198303000-00007
» http://dx.doi.org/10.1097/00010694-198303000-00007

[11] Mello JM, Diniz FS, Oliveira AD, Mello CR, Scolforo JRS, Acerbi FW Jr. Continuidade espacial para características dendrométricas (número de fustes e volume) em plantios de Eucalyptus grandis. Revista Árvore 2009a; 33(1): 185-194. http://dx.doi.org/10.1590/S0100-67622009000100020
» http://dx.doi.org/10.1590/S0100-67622009000100020

[12] Mello JM, Diniz FS, Oliveira AD, Scolforo JRS, Acerbi FW Jr, Thiersch CR. Métodos de amostragem e geoestatística para estimativa do número de fustes e volume em plantios de Eucalyptus grandis. Revista Floresta 2009b; 39(1): 157-166.

[13] Mello JM. Geoestatística aplicada ao inventário florestal [tese]. Piracicaba: Escola Superior de Agricultura Luiz de Queiroz, Universidade de São Paulo; 2004.

[14] Nanos N, Montero G. Spatial prediction of diameter distribution models. Forest Ecology and Management 2002; 161(1): 147-158. http://dx.doi.org/10.1016/S0378-1127(01)00498-4
» http://dx.doi.org/10.1016/S0378-1127(01)00498-4

[15] Palmer DJ, Höck BK, Kimberley MO, Watt MS, Lowe DJ, Payn TW. Comparison of spatial prediction techniques for developing Pinus radata productivity surfaces across New Zealand. Forest Ecology and Management 2009; 258(10): 2046-2055. http://dx.doi.org/10.1016/j.foreco.2009.07.057
» http://dx.doi.org/10.1016/j.foreco.2009.07.057

[16] Seidel EJ, Oliveira MS. Definição de áreas de dependência espacial em semivariogramas. In: Anais da LIX Reunião Anual da Região Brasileira da Sociedade Internacional de Biometria – RBRAS; 2014; Ouro Preto. Ouro Preto: Universidade Federal de Ouro Preto; 2014. p. 348-352.

[17] Yamamoto JK, Landim PMB. Geoestatística: conceitos e aplicações São Paulo: Editora Oficina de Letras; 2013.

Nº de dados	Tipo de dados	Estatísticas
Nº de dados	Tipo de dados	Média (m³)	Desvio (m³)	CV	Máx. (m³)	Mín. (m³)	Ass.	Cur.
8736	Pop.	0,0966	0,0379	0,39	0,2939	0,024	0,95	0,90
100	Sist	0,0971	0,0335	0,35	0,1867	0,028	0,15	- 0,64
100	Alea	0,0983	0,0383	0,39	0,2268	0,037	0,86	0,79
150	Sist	0,0959	0,0387	0,40	0,2183	0,041	1,09	1,07
150	Alea	0,0940	0,0360	0,38	0,2160	0,037	1,03	0,76
200	Sist	0,0991	0,0397	0,40	0,2259	0,028	0,78	0,18
200	Alea	0,0957	0,0414	0,43	0,2615	0,036	1,19	1,61
250	Sist	0,1010	0,0430	0,43	0,2615	0,027	1,08	1,21
250	Alea	0,0955	0,0355	0,37	0,2160	0,036	0,58	- 0,25
300	Sist	0,0979	0,0400	0,41	0,2573	0,028	0,96	1,04
300	Alea	0,0943	0,0359	0,38	0,2411	0,036	0,89	0,92
350	Sist	0,0961	0,0383	0,40	0,2555	0,034	0,91	0,80
350	Alea	0,0991	0,0409	0,41	0,2823	0,024	1,14	1,66

Número	Tipo	Modelo	Efeito pepita	Patamar	Alcance (m)	R²	IDE
100	Sist	Exp	0,00011	0,0012	81,6	0,88	0,91
100	Alea	Gau	0,0520	0,1550	38,6	0,856	0,66
150	Sist	Exp	0,0001	0,1362	35,4	0,828	1,00
150	Alea	Gau	0,0001	0,1312	17,0	0,893	1,00
200	Sist	Exp	0,0001	0,1572	48,3	0,964	1,00
200	Alea	Esf	0,0042	0,1634	45,6	0,953	0,97
250	Sist	Exp	0,0059	0,1708	46,2	0,984	0,96
250	Alea	Esf	0,0006	0,1402	36,9	0,948	0,99
300	Sist	Exp	0,0001	0,1602	42,0	0,972	1,00
300	Alea	Esf	0,0011	0,1452	36,3	0,964	0,99
350	Sist	Esf	0,0121	0,1542	38,1	0,975	0,92
350	Alea	Exp	0,0001	0,1672	47,1	0,942	1,00

Brasil