Acessibilidade / Reportar erro

Utilização da Análise de Componentes Principais na compressão de imagens digitais

Resumos

OBJETIVO: Descrever a utilização de uma ferramenta estatística (Análise de Componentes Principais ou Principal Component Analysis – PCA) para reconhecimento de padrões e compressão, aplicando esses conceitos em imagens digitais utilizadas na medicina. MÉTODOS: A descrição da Análise de Componentes Principais é realizada por meio da explanação de autovalores e autovetores de uma matriz. Esse conceito é apresentado em uma imagem digital coletada na rotina clínica de um hospital, a partir dos aspectos funcionais de uma matriz. Foi feita a análise de potencial para recuperação da imagem original em termos de taxa de compressão obtida. RESULTADOS: As imagens médicas comprimidas mantêm as características principais até aproximadamente um quarto de seu volume original, destacando o emprego da Análise de Componentes Principais como ferramenta de compressão da imagem. Secundariamente, o parâmetro obtido pode refletir a complexidade e, potencialmente, a textura da imagem original. CONCLUSÃO: A quantidade de componentes principais utilizada na compressão influencia a recuperação da imagem original a partir da imagem final (compactada).

Análise de componentes principais; Autovalores; Autovetores; Compressão de imagens; Padrões; Redução de dimensão


OBJECTIVE: To describe the use of a statistical tool (Principal Component Analysis – PCA) for the recognition of patterns and compression, applying these concepts to digital images used in Medicine. METHODS: The description of Principal Component Analysis is made by means of the explanation of eigenvalues and eigenvectors of a matrix. This concept is presented on a digital image collected in the clinical routine of a hospital, based on the functional aspects of a matrix. The analysis of potential for recovery of the original image was made in terms of the rate of compression obtained. RESULTS: The compressed medical images maintain the principal characteristics until approximately one-fourth of their original size, highlighting the use of Principal Component Analysis as a tool for image compression. Secondarily, the parameter obtained may reflect the complexity and potentially, the texture of the original image. CONCLUSION: The quantity of principal components used in the compression influences the recovery of the original image from the final (compacted) image.

Principal component analysis; Eigenvalues; Eigenvectors; Image compressing; Patters; Dimensionality reduction


ARTIGO ORIGINAL


Utilização da Análise de Componentes Principais na compressão de imagens digitais

Rafael do Espírito Santo

Instituto do Cérebro – InCe, Hospital Israelita Albert Einstein – HIAE, São Paulo (SP), Brasil

Autor correspondente

RESUMO

OBJETIVO: Descrever a utilização de uma ferramenta estatística (Análise de Componentes Principais ou Principal Component Analysis – PCA) para reconhecimento de padrões e compressão, aplicando esses conceitos em imagens digitais utilizadas na medicina.

MÉTODOS: A descrição da Análise de Componentes Principais é realizada por meio da explanação de autovalores e autovetores de uma matriz. Esse conceito é apresentado em uma imagem digital coletada na rotina clínica de um hospital, a partir dos aspectos funcionais de uma matriz. Foi feita a análise de potencial para recuperação da imagem original em termos de taxa de compressão obtida.

RESULTADOS: As imagens médicas comprimidas mantêm as características principais até aproximadamente um quarto de seu volume original, destacando o emprego da Análise de Componentes Principais como ferramenta de compressão da imagem. Secundariamente, o parâmetro obtido pode refletir a complexidade e, potencialmente, a textura da imagem original.

CONCLUSÃO: A quantidade de componentes principais utilizada na compressão influencia a recuperação da imagem original a partir da imagem final (compactada).

Descritores: Análise de componentes principais; Autovalores; Autovetores; Compressão de imagens; Padrões; Redução de dimensão

INTRODUÇÃO

A Análise de Componentes Principais ou Principal Component Analysis (PCA)(1) é uma formulação matemática usada na redução da dimensão de dados(2). Assim, a técnica PCA permite identificar padrões nos dados e expressá-los de uma maneira tal que suas semelhanças e diferenças sejam destacadas. Uma vez encontrados padrões nos dados, é possível comprimi-los, ou seja, reduzir suas dimensões, sem muita perda de informação. Resumidamente, a formulação da PCA pode ser empregada como um algoritmo de compressão de imagens digitais de baixas perdas.

Na abordagem PCA, a informação contida em um conjunto de dados é armazenada em uma estrutura computacional de dimensão reduzida a partir da projeção integral do conjunto de dados em um subespaço gerado por um sistema de eixos ortogonais(3). O sistema ótimo de eixos pode ser obtido usando o método Singular Values Decomposition (SVD)(4). A estrutura computacional de dimensões reduzidas é selecionada de tal modo que características relevantes dos dados sejam identificadas com poucas perdas de informação(3). Tal redução é vantajosa em várias instâncias: para compressão de imagens, representação dos dados, redução do cálculo necessário em processamentos subsequentes etc.

O uso da técnica PCA na redução da dimensão de dados é justificado pela fácil representação de dados multidimensionais, utilizando a informação contida na matriz de covariância dos dados, princípios da álgebra linear(3) e estatística básica. Os estudos feitos por Mashal et al.(5) adotam a formulação PCA na seleção de imagens de uma base de dados multimídia. De acordo com Smith(6), PCA é um autêntico algoritmo de compressão de imagens de baixas perdas.

A relevância deste trabalho está na avaliação do desempenho da formulação PCA em comprimir imagens digitais a partir da medição da taxa de compressão e do grau de perda de informação que o PCA introduz nas imagens comprimidas ao descartar alguns componentes principais.

OBJETIVO

Este artigo teve por finalidade a descrição da PCA de uma população de dados e a possibilidade de aplicá-la na compressão de imagens digitais. A aplicação da técnica em reconhecimento de padrões também é ressaltada.

MÉTODOS

Imagens digitais

Admitindo um processamento digital, um dado contínuo (analógico) é convertido em uma matriz de elementos simples (pixels) que assumem valores discretos (níveis de cinza ou gray levels), ou seja:

Em que os valores de x e y em (x, y) são as coordenadas dos pixels na imagem e f(x, y) é o correspondente nível de cinza(7)

Covariância de uma imagem

A matriz de covariância de uma imagem é dada por:

PCA

Uma PCA pode ser caracterizada a partir de dados de p variáveis para n indivíduos, conforme indicado na tabela 1.

Por definição(1), o primeiro componente principal é a combinação linear das variáveis X1X2;...;Xp, ou seja,

O segundo componente principal

O terceiro componente principal,

e, assim, sucessivamente. Se existem p variáveis, então existem no máximo p componentes principais, sempre calculadas conforme expressões similares à expressões (3) ou (4) ou (5).

Os resultados de uma PCA, isto é, as componentes principais Zp são obtidos a partir de uma análise que consiste em encontrar os autovalores(3-6) de uma matriz de covariâncias amostral(8). A matriz de covariâncias é simétrica e tem a forma:

em que os elementos cjj, posicionados na diagonal principal, são as variâncias de Xi (var(Xi)) e os cij's da diagonal secundária representam covariância entre as variáveis Xi Xj (cov (Xi, Xj)).

Os autovalores da matriz C são as variâncias dos componentes principais. Existem p autovalores. São sempre números maiores ou iguais a zero, representado pelo símbolo λ. λ's negativos não são permitidos em uma matriz de covariância(6). Assumindo que os autovalores estão ordenados como λ12>...λp> 0, então λ1 corresponde ao primeiro componente principal (expressão 1), e λi ao i-ésimo componente principal, ou seja:

Conforme mencionado, var(Zi) = λi e as constantes ai1, ai2,..., aip são os elementos do correspondente autovetor, escalonado tal que(6)

O fato de cii ser a variância de Xi e λi ser a variância de Zi implica que a soma das variâncias dos componentes principais é igual á soma das variâncias das variáveis originais(6). Logo, os componentes principais, de certa forma, contêm toda variação dos dados originais(5,6).

Os passos normalmente seguidos na PCA de uma imagem digital agora podem ser estabelecidos:

Passo 1: No modelo computacional de uma imagem digital, na expressão 1, as variáveis X1, X2,...,Xp são as colunas da imagem. Inicia-se a PCA codificando (corrigindo) a imagem de tal maneira que suas colunas tenham médias zero e variâncias unitárias. Isto é usual a fim de evitar que uma ou duas colunas tenham influência indevida nos componentes principais(6):

Passo 2: Calcula-se a matriz de covariâncias C utilizando a expressão 6, implementada computacionalmente, ou seja:

Passo 3: Calculam-se os autovalores λ12,...,λp e os correspondentes autovetores a1, a2,..., ap.

Passo 4: Obtém-se o vetor de características, uma matriz de vetores contendo a lista dos autovetores (colunas da matriz) da matriz de covariância(6).

Passo 5: Obtêm-se os dados finais, isto é, uma matriz com todos autovetores (componentes) da matriz de covariância.

Passo 6: Obtém-se a imagem original a partir de dados finais sem compressão usando a expressão

Passo 7: Descartam-se quaisquer componentes que explicam somente uma pequena proporção da variação nos dados para efeito de compressão da imagem. Os descartes têm o efeito de reduzir a quantidade de autovetores do vetor de características e produzir dados finais com uma dimensão menor. A utilização da expressão 13 nessas condições permite a recuperação da imagem original com compressão.

Taxa de compressão

Conforme Castro(9,10), a compressão de baixa perda proporcionada pelo presente método pode ser expressa em termos do fator de compressão (ρ) e do erro médio quadrático (MSE) cometido na aproximação de A (imagem original) por à (imagem obtida a partir do descarte de alguns componentes). O fator de compressão é definido por:

e o MSE cometido na aproximação de A porà é:

RESULTADOS

Esta seção mostra exemplos de compressão de imagens digitalizada usando a formulação PCA. São apresentadas várias situações como exemplos.

Exemplo 1: Recuperando uma imagem TIFF de 512x512 pixels com todos os componentes (512) da matriz de covariância da imagem (sem compressão, ou seja, passos 1 a 6).

Exemplo 2: Recuperando uma imagem TIFF de 512x512 pixels com 112 componentes principais da matriz de covariância da imagem (com compressão, ou seja, passos de 1 a 5 e 7).

Exemplo 3: Recuperando uma imagem com 32 componentes principais da matriz de covariância da imagem (com compressão).

Exemplo 4: Recuperando uma imagem com 12 componentes principais da matriz de covariância da imagem (com compressão).

DISCUSSÃO

Os exemplos de 1 a 4 mostram os efeitos da redução do número de componentes principais (elevação da taxa de compressão da imagem) no aumento da perda de informação. Essa aplicação pode trazer grande economia no armazenamento de imagens médicas. Entretanto, o nível de informação mantida depende de parâmetros (taxa de compressão), devendo ser modulada pelo interesse do usuário. Quanto maior for a taxa de compressão (quanto menos componentes principais forem empregados no vetor de características) mais degradada será a qualidade da imagem recuperada (exemplos 3 e 4).

Em determinadas aplicações, como imagens de função cerebral, o princípio central é a variação do sinal de ressonância ao longo do tempo. Nessas condições, a informação espacial pode ser mantida em um arquivo de referência, sendo possível que outras imagens subsequentes sejam comprimidas sem prejuízo. Por outro lado, é ainda necessário avaliar a pertinência da aplicação de altas taxas de compressão quando é necessária a avaliação de estruturas de dimensões reduzidas em relação ao tamanho dos voxels.

Ainda, a observação dos resultados decorrentes da aplicação de técnica de PCA em imagens médicas pode ser considerada uma medida de complexidade. Ou seja, imagens com padrões densos de textura tendem a produzir resultados diferentes com a utilização da técnica descrita. Entretanto, essa hipótese não foi testada neste trabalho; é apenas apontada a linha de investigação, cujos resultados poderão certificar e quantificar essa possibilidade.

Novas aplicações secundárias (a partir dos resultados aqui descritos) podem abarcar várias condições na rotina médica. Essas aplicações se beneficiam dos procedimentos aqui descritos. Dessa maneira, a compreensão dos princípios aqui apresentados é importante para o aproveitamento de aplicações médicas baseadas nesses fundamentos.

CONCLUSÃO

A quantidade de componentes principais utilizada na compressão influencia a recuperação da imagem original a partir da imagem compactada. Essa ferramenta permite grande economia de espaço, que pode ser crítico em aplicações clínicas e para processamento de grande volume de dados. Como uma propriedade secundária, esses componentes também têm potencial de refletir a complexidade da imagem, sendo possível a relação destes com a textura da imagem.

REFERÊNCIAS

  • 1. Haykin S. Neural networks: a comprehensive foundation. New York: Prentice Hall; 1999.
  • 2. Jolliffe IT. Principal component analysis. New York: Springer-Verlag; 1986.
  • 3. Ye J, Janardan R, Li Q. GPCA: an efficient dimension reduction scheme for image compression and retrieval [Internet]. In: Conference on Knowledge Discovery in Data Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. Seattle (WA); 2004. [cited 2012 Apr 12]. Available in: http://www.public.asu.edu/~jye02/Publications/Papers/gpca-kdd04.pdf
  • 4. Golub GH, Van Loan CF. Matrix computations. 3rd ed. Baltimore (MD): The Johns Hopkins University Press; 1996.
  • 5. Mashal N, Faust M. Hendler T. The role of the right hemisphere in processing nonsalient metaphorical meanings: application of principal components analysis to fMRI data. Neuropsychologia. 2005;43(14):2084-100.
  • 6. Smith LI. A tutorial on principal components analysis [Internet]. 2002 [cited 2011 May 22]. Available in: http://www.sccg.sk/~haladova/principal_components.pdf
  • 7. Gonzalez RC, Woods RE. Digital imaging processing. Massachusetts: Addison-Wesley; 1992.
  • 8. Boldrini JL, Costa CR, Figueirado VL, Wetzler HG. Álgebra linear. 3a ed. São Paulo: Harbra; 1984.
  • 9. Castro MC. Algoritmo herbiano generalizado para extração dos componentes principais de um conjunto de dados no domínio complexo [dissertação]. Porto Alegre: Pontifícia Universidade Católica do Rio Grande do Sul; 1996.
  • 10. Castro MC, Castro FC. Codificação de sinais. 2008. Disponível em: http://www.ee.pucrs.br/~decastro/download.html 2008.
  • Corresponding author:

    Rafael do Espírito Santo
    Avenida Morumbi, 627/701 – Morumbi
    Zip code: 05651-901 – São Paulo (SP), Brazil
    Phone: (55 11) 2151-1366
    Fax: (55 11) 2151-0273
    E-mail:
  • Datas de Publicação

    • Publicação nesta coleção
      20 Set 2012
    • Data do Fascículo
      Jun 2012

    Histórico

    • Recebido
      05 Set 2011
    • Aceito
      13 Jun 2012
    Instituto Israelita de Ensino e Pesquisa Albert Einstein Avenida Albert Einstein, 627/701 , 05651-901 São Paulo - SP, Tel.: (55 11) 2151 0904 - São Paulo - SP - Brazil
    E-mail: revista@einstein.br