Acessibilidade / Reportar erro

Teoria de confiabilidade generalizada para múltiplos outliers: apresentação, discussão e comparação com a teoria convencional

Theory of reliability generalised to multiple outliers: presentation, discussion and comparison with the conventional theory of reliability

Resumos

Após o ajustamento de observações pelo método dos mínimos quadrados (MMQ) ter sido realizado, é possível a detecção e a identificação de erros não aleatórios nas observações, por meio de testes estatísticos. A teoria da confiabilidade faz uso de medidas adequadas para quantificar o menor erro detectável em uma observação, e a sua influência sobre os parâmetros ajustados, quando não detectado. A teoria de confiabilidade convencional foi desenvolvida para os procedimentos de teste convencionais, como o data snooping, que pressupõem que apenas uma observação está contaminada por erros grosseiros por vez. Recentemente foram desenvolvidas medidas de confiabilidade generalizadas, relativas a testes estatísticos que pressupõem a existência, simultânea, de múltiplas observações com erros (outliers). O objetivo deste trabalho é apresentar, aplicar e discutir a teoria de confiabilidade generalizada para múltiplos outliers. Além da formulação teórica, este artigo também apresenta experimentos realizados em uma rede GPS (Global Positioning System), onde erros propositais foram inseridos em algumas observações e medidas de confiabilidade e testes estatísticos foram calculados utilizando a abordagem para múltiplos outliers. Comparações com a teoria de confiabilidade convencional também são realizadas. Por fim, apresentam-se as discussões e conclusões obtidas com estes experimentos.

Localização de Erros; Medidas de Confiabilidade; Múltiplos Outliers


After the adjustment of observations by the Least Squares Method (LSM), using statistical tests, it is possible to detect and identify non-random errors in the observations. The reliability theory makes use of appropriate measures to quantify the minimal detectable bias (error) in an observation, and its influence on the adjusted parameters, if not detected. The conventional reliability theory has been developed aiming at conventional testing procedures such as data snooping, which assumes that only one observation is contaminated by errors at a time. Recently, generalized measures of reliability were developed, relating to statistical tests that assumes the existence, simultaneous by, of multiple observations with errors (outliers). The goal of this paper is to present, discuss and apply the theory of reliability generalized for multiple outliers. Besides the theoretical formulation, this paper also presents experiments performed on a GPS network (Global Positioning System), where proposital errors were inserted in some observations and measures of reliability and statistical tests were calculated using the approach for multiple outliers. Comparisons with the conventional theory of reliability were also made. Finally, results were presented and discussed.

Blunders Localization; Measures of Reliability; Multiple Outliers


ARTIGOS

Teoria de confiabilidade generalizada para múltiplos outliers: apresentação, discussão e comparação com a teoria convencional

Theory of reliability generalised to multiple outliers: presentation, discussion and comparison with the conventional theory of reliability

Ivandro Klein; Marcelo Tomio Matsuoka; Sergio Florêncio De Souza

Laboratório de Pesquisas em Geodésia (LAGEO)/Departamento de Geodésia/Instituto de Geociências – UFRGS Av. Bento Gonçalves, 9500, CEP 91501-970, Cx. Postal 15001, Porto Alegre, RS, Brasil ivandroklein@gmail.com; tomiomatsuoka@gmail.com; sergioflorenciodesouza@gmail.com

RESUMO

Após o ajustamento de observações pelo método dos mínimos quadrados (MMQ) ter sido realizado, é possível a detecção e a identificação de erros não aleatórios nas observações, por meio de testes estatísticos. A teoria da confiabilidade faz uso de medidas adequadas para quantificar o menor erro detectável em uma observação, e a sua influência sobre os parâmetros ajustados, quando não detectado. A teoria de confiabilidade convencional foi desenvolvida para os procedimentos de teste convencionais, como o data snooping, que pressupõem que apenas uma observação está contaminada por erros grosseiros por vez. Recentemente foram desenvolvidas medidas de confiabilidade generalizadas, relativas a testes estatísticos que pressupõem a existência, simultânea, de múltiplas observações com erros (outliers). O objetivo deste trabalho é apresentar, aplicar e discutir a teoria de confiabilidade generalizada para múltiplos outliers. Além da formulação teórica, este artigo também apresenta experimentos realizados em uma rede GPS (Global Positioning System), onde erros propositais foram inseridos em algumas observações e medidas de confiabilidade e testes estatísticos foram calculados utilizando a abordagem para múltiplos outliers. Comparações com a teoria de confiabilidade convencional também são realizadas. Por fim, apresentam-se as discussões e conclusões obtidas com estes experimentos.

Palavras-chave: Localização de Erros; Medidas de Confiabilidade; Múltiplos Outliers.

ABSTRACT

After the adjustment of observations by the Least Squares Method (LSM), using statistical tests, it is possible to detect and identify non-random errors in the observations. The reliability theory makes use of appropriate measures to quantify the minimal detectable bias (error) in an observation, and its influence on the adjusted parameters, if not detected. The conventional reliability theory has been developed aiming at conventional testing procedures such as data snooping, which assumes that only one observation is contaminated by errors at a time. Recently, generalized measures of reliability were developed, relating to statistical tests that assumes the existence, simultaneous by, of multiple observations with errors (outliers). The goal of this paper is to present, discuss and apply the theory of reliability generalized for multiple outliers. Besides the theoretical formulation, this paper also presents experiments performed on a GPS network (Global Positioning System), where proposital errors were inserted in some observations and measures of reliability and statistical tests were calculated using the approach for multiple outliers. Comparisons with the conventional theory of reliability were also made. Finally, results were presented and discussed.

Keywords: Blunders Localization; Measures of Reliability; Multiple Outliers.

1. INTRODUÇÃO

O método dos mínimos quadrados (MMQ) é o critério mais utilizado para o ajustamento de observações geodésicas (Ghilani e Wolf, 2006). Este método adota como solução única para sistemas de equações redundantes e inconsistentes, aquela que minimiza a soma do quadrado dos resíduos, ponderada pelos respectivos pesos das observações (DALMOLIN, 2002).

Entretanto, o método dos mínimos quadrados pressupõe que apenas erros aleatórios contaminam as observações (KAVOURAS, 1982).

Ao longo dos anos foram desenvolvidas diversas técnicas para detecção e identificação de erros não aleatórios nas observações, tanto antes quanto após o ajustamento ter sido realizado. Uma das técnicas para a detecção e a identificação de erros (outliers) nas observações, após o ajustamento pelo MMQ, é o chamado β-Method, proposto por Baarda (1968).

Neste trabalho, Baarda propõe o uso do chamado Teste Global do Ajustamento para a detecção de erros nas observações e/ou no modelo, e o procedimento de teste data snooping para a localização destes erros, ou seja, para a identificação das observações suspeitas de estarem contaminadas.

Entretanto, por ser uma estratégia que se utiliza de testes estatísticos, ou seja, que possui níveis de probabilidade associados, erros não aleatórios de pequena magnitude podem não ser não identificados pelo procedimento data snooping.

Isto levou ao desenvolvimento da teoria de confiabilidade, que se utiliza de medidas adequadas para quantificar o menor erro detectável em uma observação, com certo nível de probabilidade, e a sua influência nos resultados do ajustamento (parâmetros estimados), quando não detectado. Uma série de trabalhos foram publicados sobre a teoria de confiabilidade, como por exemplo, Baarda (1968), Kavouras (1982), Förstner (1987), Wang e Chen (1994), Schaffrin (1997), Teixeira e Ferreira (2003), Teunisen (2006) e Oliveira e Dalmolin (2008).

O procedimento de teste data snooping pressupõe que apenas uma observação está contaminada por erros por vez, e necessita, portanto, realizar repetições do teste para a localização de todas as observações suspeitas. Desta forma, as medidas de confiabilidade desenvolvidas também se baseiam no pressuposto de apenas uma observação contaminada por erros por vez.

Entretanto, trabalhos apresentando medidas de confiabilidade considerando a existência, simultânea, de mais de uma observação contaminadas por erros (outliers) também foram publicados, como por exemplo, Ober (1996), Knight et al. (2010), e Almagbile et al. (2011). Para uma discussão detalhada sobre as diversas medidas de confiabilidade que foram propostas para múltiplos outliers, ver Knight et al. (2010).

O pressuposto da existência, simultânea, de observações contaminadas por erros, também requer o uso de testes estatísticos generalizados para estes casos, que são mais passíveis de ocorrerem na prática (ver, por exemplo, TEUNISSEN, 2006).

É importante mencionar que muitos dos trabalhos publicados sobre a teoria de confiabilidade (tanto para o caso convencional quanto para o caso generalizado), apresentam um caráter mais teórico, e os exemplos práticos apresentados nestes estudos são relativamente simples, muitas vezes envolvendo redes geodésicas simuladas, com poucas observações e parâmetros.

Com estas considerações, o objetivo deste trabalho é apresentar a extensão da teoria de confiabilidade, generalizada para múltiplos outliers. Além da formulação teórica, este artigo também apresenta experimentos realizados em uma rede GPS (Global Positioning System), onde erros foram inseridos em algumas observações e medidas de confiabilidade e testes estatísticos foram aplicados utilizando a abordagem para múltiplos outliers. Comparações com a teoria de confiabilidade convencional também são realizadas. Por fim, os resultados são apresentados e discutidos.

2. TESTES PARA A IDENTIFICAÇÃO DE ERROS NAS OBSERVAÇÕES

Classicamente, após o ajustamento pelo MMQ ter sido realizado, dois dos testes estatísticos mais utilizados para a detecção e a identificação de erros (não aleatórios) nas observações, são, respectivamente, o Teste Global do Ajustamento e o procedimento de teste data snooping, ambos propostos por Baarda (1968).

Estes dois testes estatísticos são casos particulares de uma única família de testes, formulada com base na razão de verossimilhança (Teunissen, 2006).

Como o presente trabalho trata apenas da identificação (localização) de erros nas observações, somente o segundo teste será considerado. O Teste global do ajustamento é aplicado para a detecção de erros no conjunto de observações e/ou no modelo matemático, e maiores detalhes sobre o mesmo podem ser obtidos em Baarda (1968), Kavouras (1982), Gemael (1994) e TEUNISSEN (2006).

No procedimento de teste data snooping, para cada observação li do vetor das observações Lnx1 (i = 1, 2, 3, ... , n), testam-se as seguintes hipóteses (Teunissen, 2006):

Onde Xux1 é o vetor dos u parâmetros incógnitos que se deseja estimar, Anxu é a matriz design (ou matriz jacobiana), que relaciona linearmente as observações com os parâmetros, cli é um vetor unitário contendo a unidade na linha da i-ésima observação li e zero nas demais, ou seja, , e ∇i corresponde, em módulo, a um possível erro grosseiro (outlier), diferente de zero, na observação li.

Desta forma, na hipótese nula do teste (H0), assume-se que nenhuma observação está contaminada por erros grosseiros, e na hipótese alternativa (HA), assume-se que um erro grosseiro ∇i contamina a observação li.

O critério de teste do procedimento data snooping é dado por:

Onde para cada observação li, a estatística de teste wi é dada por (Baarda, 1968):

e Zα 2 é o valor tabelado para a distribuição normal padronizada (da forma bi-lateral), com o nível de significância α que foi assumido para o teste.

Na expressão (3), ΣL é à matriz de covariância do vetor das observações Lnx1, V é o vetor dos resíduos, obtido na solução por MMQ, e ΣV é a matriz de covariância do vetor dos resíduos, obtida pela lei de propagação de variâncias e covariâncias (para maiores detalhes, ver, por exemplo, GHILANI e WOLF, 2006).

No procedimento de teste data snooping, calcula-se a estatistica de teste wi para todas as observações li (i = 1, 2, 3, ... , n), porém, como o data snooping identifica apenas uma observação por vez, a observação li suspeita de estar contaminada por um erro grosseiro ∇i será aquela que (BAARDA, 1968):

Ressalva-se que a magnitude e o sinal do erro são desconhecidos, sendo que o teste é apenas um indicador se o valor (desconhecido) de ∇i é significativamente diferente de zero, ou não, segundo o nível de significância α que foi assumido.

Identificada a observação suspeita de estar contaminada por erro grosseiro, retira-se a mesma do modelo e repete-se o ajustamento e o procedimento de teste, repetindo até que todas as observações suspeitas sejam devidametne identificadas e retiradas, num processo iterativo de identificação (localização) e remoção de observações com erros (BAARDA, 1968).

O procedimento data snooping, descrito acima, é muito difundido na comunidade geodésica, sendo um caso particular de um teste geral para identificação de erros, que será apresentado na sequência.

O teste geral para a identificação de erros, assumindo que mais do que uma observação, simultaneamente, esteja contaminada por erros grosseiros (outliers), testa as seguintes hipóteses (TEUNISSEN, 2006):

Onde CL nxq é uma matriz de dimensão n por q, contendo q vetores cl i , cada um referente a uma observação li assumida, a priori, ser passível de estar contaminada por erros grosseiros, e ∇qx1 é o vetor dos q erros grosseiros correspondentes (cada um relativo a uma das observações li suspeitas).

Desta forma, o termo CL nxqqx1 define o modelo de erro adotado, e expressa a diferença entre a esperança do vetor das observações Lnx1 sob a hipótese nula e sob a hipótese alternativa. O critério de teste então se torna (TEUNISSEN, 2006):

Onde a estatística de teste Tq é dada por (Teunissen, 2006):

E Kα é o valor tabelado para a distribuição qui quadrado, com q graus de liberdade e o nível de significância α que foi assumido para o teste.

Sob a hipótese nula em (5), a variável aleatória Tq segue distribuição qui-quadrado central com q graus de liberdade (onde 1 < q < n u ), e na hipótese alternativa, a variável aleatória Tq segue distribuição qui-quadrado com q graus de liberdade e com um parâmetro de não centralidade , ou seja (Teunissen, 2006; ver também a Figura 1):


No exemplo ilustrado na Figura 1, calcula-se a estatistica de teste Tq, por meio da expressão (7). Caso o seu valor numérico exceda o valor crítico tabelado na distribuição qui quadrado, para q = 4 graus de liberdade e nível de significância α=0,05 (Kα = 9,5), rejeita-se a hipótese nula em questão.

Desta forma, a estatística Tq possibilita aplicar testes estatisticos para a identificação simultânea de q observações suspeitas de erros (q = 1, 2, 3, ... , n – u), sendo o data snooping um caso particular deste caso geral, quando q = 1, e o Teste Global do Ajustamento, por exemplo, um outro caso particular, quando q = n – u (ou seja, quando q é igual ao número de graus de liberdade do ajustamento).

Para o caso q = 1 (data snooping), pode-se utilizar a estatística wi, que segue distribuição normal padronizada (teste bilateral), ou então a estatística Tq, que neste caso, segue distribuição qui-quadrado com 1 grau de liberdade (teste unilateral), sendo a relação entre estas dada por Tq=1 = (maiores detalhes em Teunissen, 2006).

Como na prática, o verdadeiro número de outliers que contaminam o vetor das observações é sempre desconhecido, segundo Knight et al. (2010), o procedimento é aplicar a estatística de teste em (7) para q = 1 e determinar a observação suspeita mais provável, com base no pressuposto de apenas um outlier. Em seguida, a estatística de teste em (7) é aplicada para q = 2, e o par de observações suspeitas que apresentar o valor máximo para esta será o mais provável, com base no pressuposto de dois outliers simultâneos. Este processo é, então, realizado até q ser igual ao número máximo de outliers razoavelmente considerados (lembrando que 1 < q < n u ). Assim, as observações suspeitas identificadas, com base na variação do número de outliers q considerado, são então usadas como ponto de partida para novas investigações.

Entretanto, segundo Kavouras (1982), por serem estratégias formuladas com base em hipóteses estatísticas, ou seja, com níveis de probabilidade associados, estes testes possuem uma capacidade finita para a detecção e a identificação de erros grosseiros de pequena magnitude, e, desta forma, poderão ocorrer erros não detectáveis pelo procedimento de teste utilizado.

Ainda segundo Kavouras (1982), a sensibilidade dos testes em detectar e identificar erros, bem como a possível influência de erros não detectados sobre o vetor dos parâmetros estimados X, diz respeito à teoria de confiabilidade.

A teoria de confiabilidade avalia se um determinado erro (não aleatório) em uma observação é detectável pelo procedimento de teste utilizado, e avalia também a influência deste erro nos resultados do ajustamento, quando não detectado, segundo os níveis de probabilidade que foram estipulados para o teste (Teixeira e Ferreira, 2003).

Na próxima seção, será apresentada a Teoria de Confiabilidade Convencional, inicialmente desenvolvida por Baarda (1968) para o procedimento de teste data snooping (onde q = 1), e posteriormente, a extensão da teoria de confiabilidade para múltiplos outliers (onde 1 < q < n u ), obtida em Ober (1996), Knight et al. (2010) e Almagbile et al. (2011).

3. TEORIA DE CONFIABILIDADE CONVENCIONAL

A teoria de confiabilidade convencional, inicialmente desenvolvida por Baarda (1968), faz uso de diversas medidas que quantificam a sensibilidade do procedimento de teste data snooping em identificar (localizar) erros nas observações, e diversos são os trabalhos publicados sobre o assunto, como por exemplo, Kavouras (1982), Förstner (1987), Wang e Chen (1994), Schaffrin (1997), Teixeira e Ferreria (2003), Teunissen (2006) e Oliveira e Dalmolin (2008).

Dentre as diversas medidas de confiabilidade que foram desenvolvidas, neste trabalho serão considerados os números de redundância local, os números de absorção local, os números de confiabilidade, a confiabilidade interna e a confiabilidade externa. Para uma discussão mais detalhada sobre estas medidas de confiabilidade, ver, por exemplo, Förstner (1987) e Schaffrin (1997).

3.1 Números de redundância local, de absorção local e de confiabilidade

Os números de redundância local (ou números de redundância) ri são obtidos pelos elementos da diagonal principal da matriz Rnxn, dada por (KAVOURAS, 1982):

Onde ΣV é a matriz de covariância do vetor dos resíduos ajustados V , P é a matriz peso das observações, e é o fator de variância a priori, também arbitrário (para maiores detalhes, ver, por exemplo, GEMAEL, 1994).

Desta forma, para cada observação li de Lnx1, seu número de redundância local ri é dado pelo respectivo elemento r(i,i) da diagonal principal da matriz Rnxn.

A matriz Rnxn também pode ser definida por (GUO et al., 2007):

Sendo Inxn a matriz identidade nxn e Anxu a matriz design. Das propriedades da matriz idempotente Rnxn, sabe-se que (OLIVEIRA e DALMOLIN, 2008):

Ou seja, o traço da matriz Rnxn é igual ao número de graus de liberdade (n – u) do sistema de equações, sendo o traço de uma matriz a soma dos elementos de sua diagonal principal (Ghilani e Wolf, 2006).

Designando os elementos da diagonal principal da matriz Rnxn por ri (para i = 1, 2, 3, ..., n), e o número de graus de liberdade do sistema de equações por r = n – u, considerando a expressão (11), pode-se escrever (SCHAFFRIN, 1997):

Desta forma, pode-se interpretar os números de redundância local ri de cada observação li como a contribuição de cada observação a redundância total (r = n – u) do sistema de equações (KAVOURAS, 1982).

Além disso, o número de redundância local ri de uma observação li indica a fração de um possível erro grosseiro na observação li que é diretamente refletida no respectivo resíduo vi desta observação, obtido com o ajustamento pelo MMQ.

Analisando a expressão (10), pode-se definir ainda a matriz Unxn = Inxn – Rnxn, como sendo dada por:

Como a matriz Unxn também é uma matriz idempotente, decorre que:

Designando os elementos da diagonal principal da matriz Unxn por ui ( parai = 1, 2, 3, ..., n), considerando a expressão (14), pode-se escrever (FÖRSTNER, 1987):

Analogamente aos números de redundância local, para cada observação li de Lnx1, o seu número de absorção local (ou número de absorção) ui é dado pelo respectivo elemento u(i,i) da diagonal principal da matriz Unxn.

Como o número de absorção local ui de uma observação li é o complemento de seu número de redundância local ri (pois Inxn = Rnxn + Unxn), este indica a fração de um possível erro grosseiro na observação li que é absorvida na estimação dos parâmetros incógnitos do modelo, não sendo refletida no respectivo resíduo vi desta observação (KAVOURAS, 1982).

Portanto, para a identificação de um erro (não aleatório) em uma observação li, é desejável um alto valor para ri e, consequentemente, um baixo valor para ui, pois os testes para a identificação de erros apresentados dependem da magnitude dos resíduos ajustados, conforme mostram as expressões (3), (7) e (8). Em Oliveira e Dalmolin (2008) são encontrados intervalos de classificação para a controlabilidade das observações mediante os valores de seus números de redundância parciais.

Quando a matriz peso das observações é uma matriz diagonal (matriz cujos elementos fora da diagonal principal são nulos), para cada observação li, a seguinte condição é satisfeita (KAVOURAS, 1982):

E, além disso, os números de redundância e absorção local estão restritos aos seguintes intervalos fechados (Förstner, 1987):

Entretanto, quando a matriz peso das observações não é diagonal, Wang e Chen (1994) demonstram que os números de redundância local podem apresentar valores maiores do que a unidade, ou até mesmo negativos (menores do que zero), fugindo deste intervalo fechado definido pela equação (17).

Considerando estes casos, para cada observação li, Wang e Chen (1994) propõem o uso de uma medida de confiabilidade alternativa, denominada número de confiabilidade (reliability number) , e obtida por:

O número de confiabilidade de uma observação li está restrito ao seguinte intervalo:

Ou seja, os números de confiabilidade , ao contrário dos números de redundância local ri, podem ser maiores do que a unidade.

Quando as observações possuem covariâncias nulas (ou seja, são estatisticamente independentes), os números de confiabilidade são equivalentes aos números de redundância local ri (SCHAFFRIN, 1997). Nestes casos, para uma observação li, o seu número de confiabilidade torna-se:

3.2 Confiabilidade Interna e Confiabilidade Externa

Na teoria convencional de confiabilidade, que assume que apenas uma observação está contaminada por erros por vez, a confiabilidade interna de uma observação li se refere ao módulo do menor erro detectável (minimal detectable bias – MDB) desta observação li, segundo os níveis de probabilidade que foram assumidos para o teste estatístico de identificação de erros (data snooping).

Desta forma, para cada observação li, o módulo do seu menor erro detectável (MDB) será dado por (Teunissen, 2006):

Onde λ0 é o parâmetro de não centralidade do modelo, que expressa a separação entre a hipótese nula (ausência de erros grosseiros na observação li) e a hipótese alternativa considerada (presença de erros grosseiros na observação li), ver as expressões (5) e (8) e a Figura 1.

Como a magnitude dos erros que contaminam as observações é desconhecida na prática, o verdadeiro valor para o parâmetro de não centralidade do modelo λ0 não pode ser determinado, mas pode ser obtido em função dos níveis de probabilidade assumidos e do número de graus de liberdade do teste estatístico em questão (TEUNISSEN, 2006).

Por exemplo, para o procedimento data snooping, onde q = 1, fixando o nível de significância do teste em α0 = 0,001 (0,1%), e o poder do teste em γ0 = 0,80 (80%), valores estes recomendados por Baarda (1968), o parâmetro de não centralidade do modelo é dado por λ0 = 17,075.

Ressalva-se que, caso seja utilizado o β-Method, o poder do Teste Global e do data snooping deve ser mantido o mesmo (γ0). Entretanto, como os graus de liberdade destes dois testes são diferentes, o nível de significância do Teste Global deve ser obtido em função do nível de significância que foi arbitrado para o data snooping. Uma discussão mais detalhada do tema pode ser obtida em Baarda (1968), Kavouras (1982) e Teunissen (2006). Em Baarda (1968), também são apresentados monogramas para encontrar o valor do parâmetro de não centralidade do modelo, para diferentes valores de α, γ e q.

A confiabilidade externa, por sua vez, expressa a influência de um possível erro não detectado na observação li, nos resultados finais do ajustamento, ou seja, no vetor dos parâmetros ajustados X (Oliveira e Dalmolin, 2008).

Para cada observação li, a confiabilidade externa pode ser obtida substituindo o vetor das observações Lnx1 pelo modelo de erro cli |∇li| no estimador por mínimos quadrados de X, resultando em (TEUNISSEN, 2006):

Onde ∇Xi é um vetor de dimensão ux1 que quantifica a influência do MDB da observação li em cada um dos u parâmetros estimados de X.

Como para cada observação li, tem-se um modelo de erro associado (pois q=1), para cada observação li, tem-se uma confiabilidade externa ∇Xi associada.

4. CONFIABILIDADE GENERALIZADA PARA MÚLTIPLOS OUTLIERS

As medidas de confiabilidade apresentadas na seção anterior, bem como o valor de referência para o parâmetro de não centralidade do modelo, são determinadas com base no pressuposto de que apenas uma observação está contaminada por erros (ou seja, q = 1).

Entretanto, na prática, pode haver a existência de múltiplos outliers no vetor das observações, ou seja, mais de uma observação pode estar contaminada por erros grosseiros (q > 1). Ressalva-se que isto não inviabiliza a utilização do data snooping, porém, o mesmo deve ser aplicado em um processo iterativo, até que todas as observações suspeitas sejam devidamente identificadas, o que, na ocorrência de múltiplos outliers, pode resultar em um alto custo computacional.

Desta forma, para os testes estatísticos que consideram a existência simultânea de múltiplos outliers no vetor das observações Lnx1, outras expressões para as medidas de confiabilidade devem ser utilizadas.

Infelizmente, um problema de estender a teoria convencional de confiabilidade (q = 1) para o caso generalizado (q > 1), é que as expressões para a confiabilidade interna e externa, nestes casos, não admitem solução única, ao contrário do caso convencional. Uma discussão mais detalhada do tema pode ser obtida em Teunissen (2006) e também em Knight et al. (2010).

Neste sentido, alguns trabalhos propondo medidas de confiabilidade generalizadas para múltiplos outliers foram desenvolvidos, e algumas destas medidas propostas serão apresentadas a seguir.

4.1 Confiabilidade Interna para múltiplos outliers

Utilizando o chamado Teorema de Rayleigh-Ritz (ver, por exemplo, Ober, 1996), a confiabilidade interna de uma observação li, considerando a existência de múltiplos outliers (q > 1) no vetor das observações Lnx1, é dada por (KNIGHT et al., 2010):

Onde ∇li é o MDB em li no procedimento data snooping (q = 1), dado por (21), e é o denominado i-ésimo coeficiente de correlação múltipla, dado por:

Como o i-ésimo coeficiente de correlação múltipla esta contido no intervalo:

O MDB na i-ésima observação li para q outliers em Lnx1, é sempre maior ou igual ao correspondente MDB para um outlier (q = 1 no procedimento data snooping).

A matriz Cj em (24), de dimensão n por q – 1, determina o complemento do modelo de erro adotado, ou em outras palavras, quais são as outras q – 1 observações de Lnx1, além de li, que também estão suspeitas de estarem contaminadas por erros.

Por exemplo, quando o vetor Lnx1 possui n = 6 observações, e suspeita-se que q = 3 observações estão contaminadas por outliers, no caso em que se deseja determinar o MDB na segunda observação l2 de L6x1, assumindo que as outras observações que também estão contaminadas por erros são a terceira e a quinta observação (ou seja, l3 e l5), o vetor cli se torna, cli = cl2 = , e a matriz Cj se torna Cj = .

Como para cada valor de q, tem-se combinações da matriz Cj, uma para cada modelo de erro possível, para cada valor de q, tem-se MDB associados a uma observação li, considerando a existência de q outliers.

Por exemplo, para q = 2 (existência de dois outliers em Lnx1), tem-se = n − 1 possíveis vetores cj, e, portanto, n – 1 diferentes MDB para cada observação li (um MDB para cada uma das n – 1 observações restantes, pois q = 2).

Knight et al. (2010) propõem esta medida de confiabilidade interna para múltiplos outliers, derivada do Teorema de Rayleigh-Ritz, pelo fato da mesma fornecer a confiabilidade interna máxima em uma observação li, dado o modelo de erro considerado, ou seja, o MDB máximo em li, considerando as q – 1 observações restantes em Cj (lembrando que, para q > 1, a expressão para o MDB de uma observação li não admite solução única).

4.2 Números de redundância e de confiabilidade para múltiplos outliers

A generalização do número de confiabilidade de li, para q outliers em Lnx1 (q > 1), é dada por (ALMAGBILE et al., 2011):

E o número de confiabilidade de li, para q outliers, está restrito ao seguinte intervalo:

Analisando as expressões (19), (26) e (27), nota-se que o número de confiabilidade de uma observação li, para q > 1 outliers, é sempre menor ou igual ao seu número de confiabilidade , quando se assume que apenas esta observação li está contaminada por erros (ou seja, q = 1).

Se as observações são consideradas com covariâncias nulas (ou seja, estatisticamente independentes), os números de confiabilidade para q outliers são equivalentes aos números de redundância riq para q outliers. Tal equivalência é demonstrada em Knight et al. (2010). Neste caso, para uma observação li, o seu número de confiabilidade (ou de redundância) torna-se (KNIGHT et al., 2010):

Sendo que os números de redundância riq para q outliers estão restritos ao seguinte intervalo:

E a sua soma resulta em = (n u) − q +1 (ver, por exemplo, Förstner, 1987). Analisando as expressões (29) e (20), nota-se que os números de redundância riq para q outliers são sempre menores ou iguais aos números de redundância ri para q = 1.

Além disso, para cada observação li, tem-se números de confiabilidade (ou de redundância) associados, um para cada modelo de erro possível, estipulado o número de outliers q considerado.

4.3 Confiabilidade Externa para Múltiplos Outliers

Quando se deseja obter o efeito máximo de possíveis q outliers em Lnx1, sobre um parâmetro especifico xk de Xux1 (k = 1, 2, 3, ... , u), pode ser utilizado o teorema de Rayleigh-Ritz, de maneira similar ao MDB máximo de uma observação especifica li de Lnx1.

Modificando as condições do teorema de Rayleigh-Ritz para maximizar o efeito de possíveis q outliers em Lnx1 sobre um parâmetro especifico xk deXux1, a confiabilidade externa deste parâmetro estimado xk torna-se (Ober, 1996):

Sendo que λmáx corresponde ao autovalor máximo do seguinte problema generalizado de autovalores e autovetores (Knight et al., 2010):

Onde , semelhante ao vetor cli, é um vetor unitário dado por , onde k corresponde à linha do k-ésimo parâmetro xk cuja confiabilidade externa deseja ser maximizada.

Como as condições do teorema de Rayleigh-Ritz devem ser modificadas para a confiabilidade interna e a confiabilidade externa, geralmente estas medidas são tratadas separadamente quando q > 1 (ver, por exemplo, Ober, 1996).

Além disso, para cada parâmetro xk , tem-se confiabilidades externas associadas, uma para cada combinação possível da matriz CL (estipulado o número de outliers q consirado).

É importante salientar que nenhuma das medidas de confiabilidade apresentadas depende do valor numérico do vetor das observações Lnx1, estando estas medidas relacionadas com a geometria do problema (dada pela matriz design A), a precisão das observações (dada pela matriz peso P), bem como o modelo de erro e o número de outliers q considerado, além dos níveis de probabilidade α e γ assumidos para o teste.

5. EXPERIMENTOS

Visando demonstrar na prática a teoria de confiabilidade estendida para múltiplos outliers, bem como fazer um estudo comparativo com a teoria de confiabilidade convencional, alguns experimentos foram realizados em uma rede geodésica. A rede geodésica utilizada foi uma rede tridimensional GPS (Global Positioning System), retirada de Ghilani e Wolf (2006, pg. 313), conforme ilustra a Figura 2.


Analisando a Figura 2, nota-se que a rede constitui-se de seis vértices (pontos com coordenadas cartesianas geocêntricas – X Y Z), e onze linhas-base (distâncias relativas entre os vértices – ΔX ΔY ΔZ), sendo os vértices A e B pontos de controle (com coordenadas conhecidas, materializando o referencial). O número de observações é 11 x 3 = 33 (componentes ΔX ΔY ΔZ das onze linhas base), o número de incógnitas é 4 x 3 = 12 (coordenadas XYZ dos vértices desconhecidos C, D, E, F) e o número de injunções é 2 x 3 = 6 (coordenadas XYZ dos pontos de controle A e B).

Valores numéricos para as observações, as coordenadas dos pontos de controle, e a matriz de covariânica das observações, bem como os procedimentos para o ajustamento de redes GPS, são obtidos em Ghilani e Wolf (2006).

Realizado o ajustamento por mínimos quadrados da rede GPS, a Tabela 1 apresenta o desvio padrão σi de cada observação li (obtido pela matriz de covariância destas), o resíduo ajustado vi de cada observação, obtido pelo MMQ, bem como as medidas de confiabilidade convencional (número de redundância ri, número de absorção ui, número de confiabilidade e confiabilidade interna - MDB).

Analisando a Tabela 1, nota-se que a magnitude dos resíduos é compatível com a precisão das observações (os resíduos são menores que os respectivos desvios padrões das observações originais), e, além disso, as onze linhas-base possuem precisões semelhantes em suas componentes, a exceção da linha base AC, que possui precisão ligeiramente inferior as demais.

Quanto aos números de redundância local e de absorção, de fato o somatório resulta em r = n – u = 21 (ou seja, ao número de graus de liberdade do ajustamento), e o somatório resulta em u = 12 (ou seja, ao número de parâmetros incógnitos do sistema).

Além disso, a igualdade ri + ui = 1 é sempre satisfeita. Este fato, bem como o fato que os números de confiabilidade são praticamente idênticos aos números de redundância para todas as observações (ver a Tabela 1), é devido ao fato que as covariâncias entre componentes de diferentes linhas-base são assumidas serem nulas, e, além disso, as covariâncias entre componentes de uma mesma linha-base são cerca de cem vezes menores que as variâncias das componentes desta mesma linha-base (ver a matriz de covariância em Ghilani e Wolf, 2006, página 323).

Ainda sobre os números de redundância local, pode-se notar que linhas-base compostas por dois pontos desconhecidos, em geral, apresentam menores valores para os seus números de redundância local do que as linhas-base compostas por um ponto de controle e um ponto desconhecido. A linha-base AC apresentou os maiores números de redundância local, provavelmente devido à menor precisão de suas observações, resultando em menor peso no ajustamento e, portanto, deixando suas observações 'mais livres' para variar no processo de estimação.

Sobre o menor erro detectável (MDB - confiabilidade interna), todas as observações apresentaram um MDB pelo procedimento de teste data snooping de ordem centimétrica, relativamente maior do que a precisão (σi) destas (a exceção das componentes da linha-base AC, onde o MDB é de ordem decimétrica).

Em geral, quanto menos precisa é a observação, maior o seu MDB, e, além disso, linhas-base compostas por um ponto desconhecido e um ponto de controle apresentaram valores relativamente baixos para o MDB de suas componentes em relação a linhas-base compostas por dois pontos desconhecidos.

As linhas-base envolvendo o vértice F, de alta redundância na rede (ver Figura 2), em geral também apresentaram valores baixos para o MDB de suas componentes. A linha-base AC, que apresentou os maiores valores para os números de redundância local, também apresentou a menor confiabilidade interna (maiores valores para o MDB), ou seja, embora um erro grosseiro em alguma componente desta linha-base seja altamente refletido no respectivo resíduo, devido ao fato de sua baixa precisão, o menor erro detectável pelo procedimento data snooping (que faz uso dos resíduos ajustados), também é relativamente maior do que para as componentes de outras linhas-base, e, portanto, é importante que estas medidas de confiabilidade sejam analisadas conjuntamente.

A confiabilidade externa reflete a influência do MDB de uma observação li nos resultados do ajustamento (no vetor dos parâmetros ajustados X). Desta forma, em termos gerais, quanto maior o valor para o MDB de li, maior a influência deste erro não detectável da observação li sobre os parâmetros. Como a rede geodésica em estudo possui n = 33 observações, pela teoria de confiabilidade convencional, tem-se 33 confiabilidades externas associadas (uma para cada observação li).

A Tabela 2 apresenta apenas três destas, relativas à observação com menor MDB (ΔZFB), maior MDB (ΔXAC), e um MDB intermediário (ΔYAE).

Analisando a Tabela 2, nota-se que a influência do menor erro detectável em uma observação afeta apenas as coordenadas referentes ao eixo cartesiano sobre o qual foi tomada aquela observação (o menor erro detectável da observação ΔXAC afeta apenas as coordenadas Xj da rede, e o mesmo para as observações ΔYAE e ΔZFB). Também nota-se que a influência do MDB de uma observação é maior para os parâmetros diretamente ligados aquela observação (como por exemplo, a coordenada YE para a observação ΔYAE).

Um fato interessante é que o menor erro detectável em ΔXAC, de acordo com a Tabela 1, é ∇li = 13,5 cm, mas a sua influência na coordenada XC, quando não detectado, é de apenas 1,1 cm, o que faz sentido, considerando também o número de redundância local desta observação: ri = 92,17% (ou seja, mais de 90% do erro é refletido no resíduo desta observação, e menos de 10% é absorvido na estimação dos parâmetros incógnitos). Novamente, verifica-se a importância de analisar as medidas de confiabilidade de maneira conjunta.

Realizado o cálculo das medidas de confiabilidade convencionais, calcularam-se as medidas de confiabilidade generalizadas para dois outliers (ou seja, q = 2).

Primeiramente, foram calculados os coeficientes de correlação múltipla para q = 2, e alguns destes são mostrados na Tabela 3.

Analisando a Tabela 3, nota-se que os coeficientes de correlação múltipla são maiores para componentes de linhas base diferentes, referentes ao mesmo eixo cartesiano (por exemplo, ΔXAC e ΔXBC), do que para componentes de uma mesma linha base, e, portanto, com eixos cartesianos distintos (por exemplo, ΔXAC e ΔYAC).

Este fato é interessante, pois as covariâncias entre componentes de linhas-base distintas são consideradas nulas, e entre componentes de uma mesma linha-base são baixas, porém não nulas, estando este fato relacionado com a geometria da rede.

Além disso, o coeficiente de correlação múltipla entre uma observação e ela mesma é igual a 1, e entre componentes de uma mesma linha-base, é cerca de cem vezes menor do que a unidade, coerente com a relação de grandeza entre as variâncias e covariâncias das componentes de cada linha-base.

Com os coeficientes de correlação múltipla, foram calculadas a confiabilidade interna (MDB), o número de confiabilidade e o número de redundância para q = 2 outliers, e alguns destes são mostrados nas Tabelas 4, 5 e 6, respectivamente.

Nas Tabelas 4, 5, e 6, as linhas correspondem as i-ésimas observações, e as colunas correspondem as j-ésimas observações (com q = 2). Por exemplo, o elemento da linha 4 e coluna 7 da Tabela 4 corresponde ao MDB da observação ΔzDE, considerando que, além dela, a outra observação contendo outlier é a ΔZFE.

Analisando as Tabelas 1 e 4, nota-se que o MDB para q = 2 é sempre maior ou igual ao MDB com q = 1 (data snooping). Na maior parte dos casos, os MDB para q = 2 e q = 1 são praticamente iguais, com diferença máxima de 1.9 cm no MDB de ΔXDE, considerando que a outra observação com erro é ΔXFE. Naturalmente, as maiores diferenças ocorrem para os pares de observações que apresentam valores mais altos para os coeficientes de correlação múltipla (ver a expressão 23).

Analisando as Tabelas 1, 5 e 6, nota-se que os números de confiabilidade e de redundância para q = 2 são sempre menores ou iguais aos números de confiabilidade e redundância com q = 1, respectivamente. Novamente, para a maior parte dos casos, os números de confiabilidade e de redundância para q = 2 e q = 1 (data snooping) são praticamente iguais, além de também não diferirem muito entre si para q = 2, tal como para q = 1. Este fato está relacionado com a estrutura bloco diagonal da matriz de covariância da rede GPS em estudo (pouca influência das covariâncias das observações nas medidas de confiabilidade).

É importante destacar que, embora na maior parte dos casos as medidas de confiabilidade do caso convencional para o caso generalizado com q = 2 não tenham seus valores numéricos muito alterados, a maior diferença diz respeito no modelo de erro adotado: No caso clássico, apenas uma observação é suspeita de conter outlier por vez, e no caso generalizado, considera-se a existência simultânea de múltiplos outliers nas observações (neste exemplo, dois outliers simultâneos por vez).

Além disso, salienta-se que esta rede GPS possui alta redundância e precisão, com valores relativamente altos para as medidas de confiabilidade de praticamente todas as observações (são onze linhas-base para quatro pontos desconhecidos).

Calculadas as medidas de confiabilidade que dependem dos coeficientes de correlação múltipla, a Tabela 7 apresenta a confiabilidade externa sobre os parâmetros XE, YE e ZE em alguns cenários com q = 2 outliers, lembrando que no caso generalizado, a confiabilidade interna e a confiabilidade externa são tratadas separadamente (ver as expressões (23), (24) e (31)).

Na Tabela 7, a segunda coluna corresponde à confiabilidade externa máxima sobre o parâmetro XE, a terceira coluna corresponde à confiabilidade externa máxima sobre o parâmetro YE, e a quarta coluna corresponde à confiabilidade externa máxima sobre o parâmetro ZE. Desta forma, as linhas correspondem às observações consideradas como contendo outliers para o modelo de erro com q = 2.

Por exemplo, o elemento da linha 6 e coluna 3 da Tabela 7 refere-se à confiabilidade externa máxima sobre o parâmetro (coordenada) YE, considerando que as observações ΔYAE e ΔYDE das linhas-base AE e DE contêm, simultaneamente, outliers.

Analisando a Tabela 7, nota-se que os valores para a confiabilidade externa de um parâmetro específico podem variar bastante, de acordo com o modelo de erro considerado (quais são as observações suspeitas), e, além disso, são sempre maiores (ou iguais) que os valores para a confiabilidade externa do caso convencional, onde alguns destes foram apresentados na Tabela 2.

Um exemplo de aplicação da teoria de confiabilidade generalizada para múltiplos outliers é o planejamento de uma rede geodésica para que esta seja resistente a q outliers, pois, como visto, em geral a confiabilidade das observações diminui aumentando a dimensão q do modelo de erro considerado.

Por exemplo, a confiabilidade externa máxima sobre um parâmetro, obtida resolvendo o problema de autovalores em (31), depende da matriz design A (ou seja, da geometria da rede), da matriz peso e da matriz de covariância das observações (ou seja, da precisão das observações), do parâmetro de não centralidade do modelo (ou seja, da dimensão do modelo de erro e dos níveis de probabilidade assumidos para os testes), além, é claro, do próprio modelo de erro estipulado (ou seja, quais são as q observações suspeitas consideradas).

Desta forma, pode-se estipular a priori uma geometria para a rede, a precisão das observações, os níveis de probabilidade assumidos e o número q de outliers simultâneos considerado, e então calcular a confiabilidade externa máxima sobre os parâmetros de interesse. Caso os valores obtidos sejam muito elevados, segundo algum critério de tolerência estipulado pelo geodesista, pode-se melhorar a geometria da rede (como o número de observações), e a precisão das observações (por meio da seleção de equipamentos e técnicas mais adequadas).

Por fim, em mais alguns experimentos, foram inseridos erros propositais em algumas observações da rede, para verificar se de fato, na prática, existem diferenças entre os testes para a identificação (localização) de erros considerando múltiplos outliers (simultâneos) na hipótese alternativa e o procedimento de teste convencional data snooping (onde apenas uma observação é suspeita por vez).

Primeiramente, foram inseridos erros propositais em duas observações, e foi aplicado o teste para identificação de erros para múltiplos outliers (expressões (6) e (7)), bem como o procedimento de teste convencional data snooping, trabalhando com a estatística Tqpara ambos os casos (com q = 2 e q = 1, respectivamente).

Como o parâmetro de não centralidade do modelo foi mantido o mesmo (λ0=17,075) para o cálculo das medidas de confiabilidade para q = 1 e q = 2 nas Tabelas 1, 2, 4 e 7, mas os graus de liberdade dos dois testes são diferentes, foi encontrado em Baarda (1968) um valor aproximado para o nível de significância do teste para q = 2, considerando que para o procedimento de teste data snooping o nível de significância arbitrado foi α0 = 0,001.

Desta forma, o valor encontrado para o nível de significância do teste com q=2 foi α≅ 0,003 . Seguindo esta metodologia, os valores críticos tabelados para os testes, para q = 1 e α0 = 0,001, e q = 2 e α = 0,003, são, respectivamente, dados por K = 10,83 e K = 11,62 (de acordo com a distribuição qui quadrado).

A Tabela 8 apresenta um resumo dos resultados obtidos com os experimentos.

Analisando a Tabela 8, nota-se que foram realizados quatro experimentos: No primeiro, inserção de um erro grosseiro de +20 cm em ΔXFE e +10 cm em ΔXFD, no segundo, inserção de um erro grosseiro de +20 cm em ΔXFE e -10 cm em ΔXFD, no terceiro, inserção de um erro grosseiro de +20 cm em ΔXFE e +10 cm em ΔXBC, e no quarto, inserção de um erro grosseiro de +20 cm em ΔXFE e -10 cm em ΔXBC.

Nota-se que os erros inseridos foram relativamente maiores do que os MDBs das observações para q = 1 (ver a Tabela 1). Foram escolhidos os pares de observações ΔXFE / ΔXFD e ΔXFE / ΔXBC para a inserção de erros propositais porque o primeiro par apresenta um valor relativamente alto para o seu coeficiente de correlação múltipla (ρqij = 0,38), enquanto o segundo par apresenta um valor relativamente baixo para o seu coeficiente de correlação múltipla (ρqij = 0,02).

Analisando o resultado resumido dos testes para q = 1, nota-se que nos quatro cenários a observação ΔXFE foi devidamente identificada, pois a sua estatística de teste Tq foi muito superior ao valor crítico tabelado (K = 10,83), além de ter sido a maior estatística dentre todas as observações.

A próxima etapa neste procedimento de teste (q = 1, data snooping) seria excluir a observação ΔXFE do modelo, repetir o ajustamento da rede, e repetir os testes, para verificar se a outra observação também seria identificada.

Por exemplo, no primeiro cenário, excluindo a observação ΔXFE e repetindo o ajustamento e o teste data snooping, a observação ΔXFD foi identificada, pois sua estatística de teste apresentou valor numérico Tq = 61,10, além de ter sido a maior estatística dentre todas as observações restantes. Excluída a observação ΔXFD do modelo, repete-se novamente o ajustamento e o teste data snooping, e nesta etapa, nenhuma observação foi identificada, ou seja, o data snooping identificou e localizou corretamente as duas observações contaminadas por erros, num processo iterativo. Para os outros três cenários apresentados, o data snooping também identificou corretamente somente as duas observações contaminadas.

Sobre os resultados do teste para q = 2, nota-se que nos quatro cenários, as duas observações consideradas foram identificadas simultaneamente, pois a estatística de teste Tq foi muito superior ao valor crítico tabelado (K = 11,62) em todos estes.

Após esta análise para q = 2 outliers, foram inseridos erros propositais em três observações, e novamente aplicados os testes para identificação de erros para múltiplos outliers, bem como o procedimento de teste convencional data snooping, trabalhando com a estatística Tq em ambos os casos.

Mantendo o mesmo poder do teste para q = 1 e q = 3, em Baarda (1968) foi encontrado um valor aproximado para o nível de significância do teste para múltiplos outliers, considerando que para o procedimento de teste data snooping o nível de significância arbitrado foi α0 = 0,001. Desta forma, o valor encontrado para o nível de significância do teste com q = 3 foi α≅ 0,006 . Seguindo esta metodologia, os valores críticos tabelados para os testes, para q = 1 e α0 = 0,001, e q = 3 e α = 0,006, são, respectivamente, dados por K = 10,83 e K = 12,45.

A Tabela 9 apresenta um resumo dos resultados obtidos com os experimentos.

Analisando o resultado resumido dos testes para q = 1 (data snooping) na Tabela 9, nota-se que nos quatro cenários a observação ΔXFE foi devidamente identificada, pois a sua estatística de teste Tq foi muito superior ao valor crítico tabelado (K = 10,83), além de ter sido a maior estatística dentre todas as observações.

Sobre os resultados do teste para q = 3, nota-se que nos quatro cenários, as três observações consideradas foram identificadas simultaneamente, pois a estatística de teste Tq foi muito superior ao valor critico tabelado (K = 12,45) em todos estes.

É importante destacar que apenas um modelo de erro dos possíveis foi testado nos experimentos para múltiplos outliers, sendo este o modelo de erro correto em cada caso. Na prática, o procedimento correto dos testes para múltiplos outliers, seria estipular o número de outliers q considerado (com 1 < q < n – u), e calcular a estatística de teste de todos os modelos de erro possíveis para este número de outliers q estipulado. De maneira semelhante ao procedimento data snooping, as q observações suspeitas identificadas, simultaneamente, seriam aquelas que apresentarem uma estatística de teste maior que o valor crítico tabelado, além de ser a maior estatística de teste dentro todos os modelos de erro CL possíveis para q.

Apenas para título de demonstração, no último cenário (inserção de um erro grosseiro de +20 cm em ΔXFE, +10 cm em ΔXAC e –10 cm em ΔXBC), alterando as observações consideradas suspeitas de ΔXFE, ΔXAC e ΔXBC para ΔYFE, ΔYAC e ΔYBC (mantendo q = 3), a estatística de teste deste novo modelo de erro resulta em Tq = 2,06, ou seja, apresenta valor inferior ao valor crítico tabelado (K = 12,45), e, desta forma, este novo trio de observações testado (ΔYFE, ΔYAC e ΔYBC) não pode ser considerado contaminado por outliers (simultaneamente), segundo o nível de significância estipulado (mantido em α = 0,006).

Ainda neste último cenário, alterando as q observações consideradas suspeitas para ΔXFE, ΔXAC e ΔXFC, a estatística de teste deste novo modelo de erro resulta em Tq = 235,32. Embora este novo trio de observações testado apresente uma estatística de teste bem superior ao valor crítico tabelado (K= 12,45), para q = 3, o trio de observações que pode ser considerado contaminado por outliers simultaneamente ainda é ΔXFE, ΔXAC e ΔXBC, pois este é o trio de observações que apresenta a maior estatística de teste (Tq = 259,37).

Por fim, em um último cenário, foram inseridos erros propositais de +10 cm em ΔXDC, -10 cm em ΔXFD e -10 cm em ΔXBD, visando realçar uma das possíveis 'armadilhas' que pode ocorrer no procedimento de teste data snooping. Neste cenário, para q = 1, a observação identificada foi a observação ΔXDE, apresentando a maior estatística de teste dentre todas as observações, com Tq = 26,38, ou seja, embora tenham três observações contaminadas por erros (ΔXDC, ΔXFD e ΔXBD), e estes sejam maiores que os respectivos MDB na Tabela 1, o procedimento data snooping identificou uma quarta observação (ΔXDE) erroneamente.

Entretanto, para q = 3 outliers, com o modelo de erro definido adequadamente (ΔXDC, ΔXFD e ΔXBD), a estatística de teste apresenta o valor Tq = 26,57, ou seja, as três observações contaminadas são identificadas corretamente.

Finalmente, após a identificação das q observações suspeitas de estarem contaminadas por outliers (segundo o nível de significância α estipulado), os mesmos podem ser devidamente parametrizados no modelo matemático e ter a sua influência minimizada nos resultados do ajustamento (no vetor dos parâmetros X).

Para isto, rejeita-se a hipótese nula H0 em (5), ou seja, aceita-se a hipótese alternativa HA, e, primeiramente, estima-se a magnitude e o sinal dos q outliers por mínimos quadrados, por meio da seguinte expressão (Guo et al., 2007):

Sendo a matriz R obtida por meio da expressão (9). A Tabela 10 apresenta os resultados obtidos aplicando a expressão (32) neste último experimento (com q = 3).

Analisando a Tabela 10, nota-se que os erros estimados por MMQ se aproximaram dos erros proprositalmente inseridos. Esta é uma metodologia que pode ser utilizada no controle de qualidade do ajustamento, pois as q observações identificadas não precisam ser removidas do modelo, diminuindo a redundância do sistema, mas podem ter os seus erros (não aleatórios) estimados por MMQ, diminuindo, desta forma, a influência destes no vetor dos parametros ajustados X (maiores detalhes em TEUNISSEN, 2006 e também em GUO et al., 2007).

6. DISCUSSÕES E CONCLUSÃO

Este artigo apresentou, aplicou e discutiu a teoria de confiabilidade generalizada para múltiplos outliers, que considera a existência, simultânea, de duas ou mais observações contaminadas por erros (outliers), bem como o teste estatístico para a identificação (localização) de erros, relativo a esta abordagem.

Visando analisar a teoria de confiabilidade generalizada para múltiplos outliers, experimentos foram realizados em uma rede GPS, e comparações com a teoria de confiabilidade convencional (relativa ao data snooping) também foram feitas.

Em geral, as medidas de confiabilidade generalizadas para dois outliers e as medidas de confiabilidade convencionais não apresentaram grandes diferenças no estudo realizado, sendo importante destacar que as medidas de confiabilidade, no caso convencional, devem ser analisadas conjuntamente.

Os números de redundância e de confiabilidade, por exemplo, não apresentaram grandes diferenças na teoria generalizada e na teoria convencional devido à estrutura bloco diagonal da matriz de covariância da rede GPS em estudo.

Entretanto, a confiabilidade externa apresentou resultados diferentes considerando a existência de dois outliers nas observações em relação ao caso convencional (apenas um outlier por vez), e, desta forma, é importante que redes geodésicas sejam projetadas de forma a serem resistentes a q outliers.

No caso, estipula-se uma geometria a priori para a rede, a precisão esperada para as observações, e o número de outliers q considerado, e calcula-se as medidas de confiabilidade para q outliers (que independem do valor numérico das observações, ou seja, podem ser estimadas antes da etapa de campo). Caso os valores obtidos excedam algum critério de tolerência estipulado pelo geodesista, pode-se melhorar a geometria da rede (como o número de observações), e a precisão das observações (por meio da seleção de equipamentos e técnicas mais adequadas).

A principal limitação desta abordagem de controle de qualidade é definir corretamente o número de outliers q considerado, entretanto, é importante salientar que, na prática, é provável a ocorrência de mais de uma observação contaminada por erros, principalmente em problemas envolvendo um grande número de observações (como em Fotogrametria, Posicionamento por GNSS etc.).

Desta forma, as medidas de confiabilidade generalizadas são importantes, pois permitem definir estratégias de planejamento considerando a existência, simultânea, de múltiplos outliers nas observações, segundo os níveis de probabilidade assumidos, embora o número verdadeiro de outliers seja sempre desconhecido.

Sobre os testes para a identificação de erros, em geral o procedimento data snooping apresenta desempenho satisfatório, localizando corretamente as observações contaminadas por erros, entretanto, seu custo computacional é relativamente grande, pois requer um processo iterativo de ajustamento e testes estatísticos cada vez que uma observação é identificada. Além disso, na ocorrência de múltiplos outliers nas observações, o data snooping pode ser suscetível a algumas armadilhas, como, por exemplo, identificar uma observação erroneamente.

O teste para identificação de múltiplos outliers também apresentou desempenho satisfatório, localizando, simultaneamente, as observações contaminadas por erros, entretanto, também tem um custo computacional relativamente grande, pois requer o cálculo de testes estatísticos, um para cada modelo de erro possível, estipulado o número q de outliers. Porém, ao contrário do procedimento data snooping, a abordagem para múltiplos outliers não requer um processo iterativo de ajustamento e testes, pois permite que as q observações suspeitas sejam identificadas de maneira simultânea.

Por fim, após a identificação das q observações suspeitas de estarem contaminadas por erros (outliers), os mesmos podem ser estimados por mínimos quadrados e ter a sua influência minimizada no vetor dos parâmetros ajustados.

Como as medidas de confiabilidade dependem da geometria do problema (dada pela matriz design A), e da precisão das observações (dada pela matriz peso P), recomendam-se estudos sobre como estas questões podem influenciar nas medidas de confiabilidade (tanto na abordagem convencional quanto na generalizada), alterando, por exemplo, o número de parâmetros e observações, ou os elementos da matriz de covariância das observações.

AGRADECIMENTOS

Os autores agradecem à CAPES pelo fornecimento da bolsa de Mestrado do primeiro autor, e ao CNPq pela Bolsa de Produtividade em Pesquisa (Proc.n. 307472/2009-4) do segundo autor.

(Recebido em agosto de 2011. Aceito em novembro de 2011)

  • ALMAGBILE, A., WANG, J., DING, W., & KNIGHT, N. Sensitivity analysis of multiple fault test and reliability measures in integrated GPS/INS systems. 7th Int. Symp. on Mobile Mapping Technology, Cracow, Poland, 13-16 June, 2011.
  • BAARDA, W. A Testing Procedure for Use in Geodetic Networks, New Series, vol. 2, n. 5, Delft, 1968.
  • DALMOLIN, Q. Ajustamento por mínimos quadrados Edição Revisada. Curitiba:Imprensa da UFPR, 2002.
  • FÖRSTNER, W. Reliability analysis of parameter estimation in linear models withapplications to mensuration problems in computer vision. Computer Vision, Graphics and Image Processing 40:273310, 1987.
  • GEMAEL, C. Introdução ao ajustamento de observações: aplicações geodésicas1.ed. Curitiba: UFPR, 1994. 319 p.
  • GHILANI, C. D.; WOLF, P. R. Adjustment Computations: Spatial Data Analysis. 4ş Ed. Editora: John Wiley & Sons, 2006.
  • GUO, J.; OU, J.; WANG, H. Quasi-accurate detection of outliers for correlated observations. Journal of Sureying Engineering, 133:3, 129133, 2007.
  • KAVOURAS, M. On the Detection of Outliers and the Determination of Reliability in Geodetic Networks Canadá: Fredericton. University of New Brunswick, Department of Surveying Engineering. Technical Repot, n. 87, 1982.
  • KNIGHT, N. L.; WANG, J.; RIZOS, C. Generalised Measures Of Reliability For Multiple Outliers. Journal of Geodesy, V.84, p.625-635, 2010.
  • OBER, P.B. New, generally applicable metrics for RAIM/AAIM integrity monitoring. In: 9th international technical meeting of The Satellite Division of The Institute of Navigation, IONGPS-96, 1720 September, Kansas City, Missouri, pp 16771686, 1996.
  • OLIVEIRA, R.; DALMOLIN, Q. A Influência da Redundância da Observação sobre a Precisão dos Parâmetros. Boletim de Ciências Geodésicas, V.14, No.3, 2008.
  • SCHAFFRIN, B. Reliability measures for correlated observations. Journal of Surveying Engineering 123(3):126137, 1997.
  • TEIXEIRA, N. N.; FERREIRA, L. D. D. Análise da Confiabilidade de Redes Geodésicas. Boletim de Ciências Geodésicas, V.9, nş 2, p.199-216, 2003.
  • TEUNISSEN, P.J.G. Testing theory, an introduction VSSD, Delft, 2006.
  • WANG, J.; CHEN, Y. On the reliability measure of observations. Acta Geodaetica et Canographica Sinica, English Edition, 42-51, 1994.

Datas de Publicação

  • Publicação nesta coleção
    13 Jan 2012
  • Data do Fascículo
    Dez 2011

Histórico

  • Aceito
    Nov 2011
  • Recebido
    Ago 2011
Universidade Federal do Paraná Centro Politécnico, Jardim das Américas, 81531-990 Curitiba - Paraná - Brasil, Tel./Fax: (55 41) 3361-3637 - Curitiba - PR - Brazil
E-mail: bcg_editor@ufpr.br