Aplicação do modelo Tucker-3 para a análise da biodegradação de diesel

Application of the Tucker-3 model to the study of diesel biodegradation

Tucker-3 model offers several advantages for analysis of environmental data but its interpretation is still challenging. A Tucker-3 model was applied to a biodegradation experiment involving a large number of overlapped chromatographic peaks and a temporal variation. The Tucker-3 model allowed the data to be decomposed in two processes: evaporation and biodegradation. The results suggest that linear hydrocarbons were those biodegraded first and demonstrate that the data analysis can be simplified by interpreting the elements of the core array. The approach discussed in this work can be applied in similar problems involving multi-way data in other areas of chemistry.

multi-way analysis; Tucker-3 models; biodegradation process


multi-way analysis; Tucker-3 models; biodegradation process

ARTIGO

Aplicação do modelo Tucker-3 para a análise da biodegradação de diesel

Application of the Tucker-3 model to the study of diesel biodegradation

Marlon M. ReisI,* * e-mail: marlon.dosreis@agresearch.co.nz ; Mariza G. ReisI; Cleber C. LuzII; Wanderley R. BastosIII; Miyuki YamashitaIII

IAgResearch Limited, East Street, Private Bag 3123, Hamilton, New Zealand

IIDepartamento de Química, Faculdade de Ciências Humanas, Exatas e Letras de Rondônia, Instituto João Neórico, 78900-000 Porto Velho – RO, Brasil

IIIUniversidade Federal de Rondônia, BR 364, km 9,5, 78900-000 Porto Velho – RO, Brasil

ABSTRACT

Tucker-3 model offers several advantages for analysis of environmental data but its interpretation is still challenging. A Tucker-3 model was applied to a biodegradation experiment involving a large number of overlapped chromatographic peaks and a temporal variation. The Tucker-3 model allowed the data to be decomposed in two processes: evaporation and biodegradation. The results suggest that linear hydrocarbons were those biodegraded first and demonstrate that the data analysis can be simplified by interpreting the elements of the core array. The approach discussed in this work can be applied in similar problems involving multi-way data in other areas of chemistry.

Keywords: multi-way analysis; Tucker-3 models; biodegradation process.

INTRODUÇÃO

O uso de métodos cromatográficos para o monitoramento da biodegradação de substratos complexos, tais como derivados de petróleo, apresenta como maior desafio a sobreposição de picos cromatográficos. Esta sobreposição é resultado da mistura de um grande número de compostos, incluindo aqueles produzidos pela biodegradação e os originais da fonte de carbono sob degradação.

O objetivo do monitoramento, em geral, é identificar quais compostos, ou classes de compostos, estão sendo degradados e como este processo varia com o tempo. Estas informações são empregadas para avaliar a eficiência de agentes biológicos (e.g. consórcio de micro-organismos) no processo de biodegradação. Entretanto, o monitoramento de cada composto degradado e/ou produzido no processo pode se tornar não factível. Mesmo que a identificação dos compostos seja possível, a análise de suas variações no tempo e suas interrelações é de grande complexidade. Nestes casos, o emprego de análise de dados em multimodos permite a identificação dos principais fatores relacionados à biodegradação. Este tipo de análise tem sido empregado em várias áreas da química ambiental,1-7 nas quais modelos em multimodos vêm se mostrando úteis na identificação de aspectos não aparentes do conjunto de dados.8 Neste trabalho é descrito o monitoramento de um processo de biodegradação por meio de análise de dados em multimodos, onde são identificadas a variação temporal associada ao processo de biodegradação e a provável classe de compostos mais rapidamente biodegradados.

Introdução teórica

O experimento avaliado aqui envolve o monitoramento de dois conjuntos de amostras (controle e amostras inoculadas com consórcio de micro-organismos) ao longo de 21 dias, período em que 4 amostragens foram efetuadas para avaliação da composição de voláteis produzidos durante o processo de biodegradação.

O conjunto de dados resultante apresenta uma estrutura em multimodos caracterizada por: perfis cromatográficos, período de biodegradação e amostras. O primeiro modo representa a variação na composição de compostos voláteis resultantes da perda por evaporação e/ou da biodegradação. O segundo modo reflete como a fração de voláteis variou ao longo do período de monitoramento. Por sua vez, o terceiro modo indica as diferenças entre amostras referentes aos ensaios inoculados (experimento) e não inoculados (controle).

A análise deste tipo de dados pode ser efetudada por meio da decomposição das informações em três classes: composição; variação temporal e discriminação entre controle/experimento. Os modelos Tucker, introduzidos por L. Tucker9 durante a década de 60 para a interpretação de estudos psicológicos, podem ser usados para a decomposição do conjunto de dados em multimodos. Estes modelos têm sido aplicados na análise exploratória de dados ambientais ou químicos, na identificação de compostos, calibração de ordem superior e outros.10-12 O modelo Tucker-3 aplica-se a dados com estrutra em 3-modos e permite a decomposição das informações nas três classes desejadas (i.e. A "composição", B "variação temporal" e C "discriminação entre controle/experimento") sendo descrito pela Equação 1,

onde aip, bjq e ckr descrevem os elementos das matrizes componentes A (para o modo A), B (para o modo B) e C (para o modo C) de ordem I×P, J×Q e K×R, respectivamente; gpqr é o elemento (p,q,r) do núcleo G de dimensão P×Q×R; eijk descreve o erro para o elemento xijk , quando decomposto pelo modelo Tucker-3. Sendo um elemento do arranjo E de dimensão I×J×K, este arranjo representa a parte do conjunto de dados que não pode ser descrita pela estrutura em 3-modos.

Outro modelo de decomposição de dados com estrutura em multimodos amplamente usado em Quimiometria é o PARAFAC (Parallel Factor Analysis) introduzido por Harshman, em 1970, também para estudos em psicometria. Vale notar que Carrol e Chang indroduziram independentemente o modelo CANDECOMP (Canonical Decomposition) que apresenta grande similaridade ao PARAFAC.11 O PARAFAC pode ser interpretado como um caso especial do modelo Tucker-3 (a mesma afirmação é válida para um número de modos maior que 3), onde os elementos gpqr são restritos aos valores '1' para g111, g222, g333,..., gp=q=r e '0' para os outros elementos de gpqr. A outra restrição é que as matrizes A, B e C possuam o mesmo número de fatores (i.e. P=Q=R). Estas restrições fazem do PARAFAC um modelo menos complexo que o Tucker-3, pois os elementos gpqr não precisam ser interpretados. No entanto, estas restrições também limitam a análise de dados mais complexos como, por exemplo, em situações onde há interações entre fatores, ou que cada modo apresente complexidade variada. Por exemplo, nos dados descritos neste trabalho, o modo referente à composição apresenta uma complexidade maior que o modo variação temporal, pois há um grande número de compostos sendo biodegrados, mas são esperados apenas dois tipos de variação temporal: biodegradação e perda por evaporação. Por sua vez, o modo das amostras apresenta dois grupos: controle e experimento, ou seja, dois tipos de variação. Isto reflete nas matrizes A, B e C que devem possuir números diferentes de fatores (i.e. P ≠ Q = R) o que justifica o emprego do modelo Tucker-3 neste trabalho.

Modelos Tucker-3 apresentam vantagens em relação a outros modelos de análise multivariada e em multimodos, pois permitem a decomposição de informações com alta complexidade. Isso possibilita sua aplicação em diversas áreas da Quimiometria, entretanto, a análise dos parâmetros resultantes desta decomposição é complexa, restringindo seu amplo emprego na interpretação de dados químicos.7,8 Este trabalho é uma contribuição para o uso de modelos Tucker-3 como ferramenta Quimiométrica para análise de dados em multimodos encontrados em várias áreas da Química, em especial química ambiental, sendo as interpretações do modelo aqui discutidas extrapoláveis para outros problemas envolvendo estruturas em multimodos.

A formulação matricial do modelo Tucker-3 é dada pela Equação 2 ou por meio da decomposição do modelo Tucker-3 em R blocos como demonstrado pela Equação 3. O conceito de blocos facilita a interpretação dos resultados aqui apresentados.

sendo X = (X1|X2| ...|X0) e G = (G1|G2| ...GR) representações matriciais de arranjos em 3 modos (N×M×O) e (P×Q×R). Nestes casos, X corresponde a uma matriz resultante da justaposição de O matrizes Xi (N×M). corresponde à parte de X descrita pelo modelo Tucker-3. O mesmo é válido para G. O arranjo E, de dimensão I×J×K, representa a parte do conjunto de dados que não pode ser descrita pela estrutura em 3-modos definida pelo modelo Tucker-3. (BT) = (c1iBTc2iBT ... cOiBT) representa o produto tensorial de Kronecker entre o vetor linha cTi e a matriz BT.

Os modelos Tucker são, em geral, ajustados aos dados experimentais por meio de um algoritmo de Quadrados Mínimos Alternantes - QMA (Alternating Least Squares)13 onde a função "perda" dada na Equação 4 é minimizada.

sendo || . ||2 empregado para descrever a soma dos quadros dos elementos em questão.

O processo de otimização do QMA, em princípio, faz a busca pelo mínimo da função perda fixando todas as direções, exceto uma. Assim, o QMA para a otimização da função dada na Equação 4 tem como primeiro passo a determinação da matriz A, onde a "direção"( o termo direção refere-se à direção de otimização), o modo, a ser fixado, é dada pela Equação 5 (se for a primeira interação do QMA, as matrizes B, C e G devem ser iniciadas seja com valores aleatórios ou por algum outro critério) e a solução é dada pela Equação 6.

No passo seguinte, a matriz B é calculada e para tal, a matriz X é remodelada, como mostrado na Equação 7, e a matriz a ser mantida fixa é dada pela Equação 9. A solução deste passo é dada pela Equação 10.

onde

Para o cálculo da matriz C, a matriz X também é remodelada, como mostrado na Equação 11, e a matriz a ser mantida fixa é dada pela Equação 12. A solução deste passo é dada pela Equação 13.

sendo vec X = (vecX1| vecX2| ... | vecX0 ) e vec G = (vecG1| vecG2| ... | vecGR ) onde vec representa o operador de vectorização, a partir do qual a matriz X, I×J, é transformada em um vetor coluna IJ com seus vetores coluna sendo justapostos na direção coluna.

No último passo, para o cálculo da matriz G, a equação usada para C é empregada, como mostrado na Equação 11. As matrizes C e aquela dada pela Equação 14 são mantidas fixas. A solução deste passo é dada pela Equação 15.

Após o cálculo de todas as matrizes, A, B, C eG, o valor da função dada na Equação 4 é avaliado. Caso a diferença entre o valor atual da função perda e o de um passo anterior seja menor que determinado critério, o algoritmo converge, caso contrário, ele é reiniciado com os valores atuais das matrizes A, B, C, e G. O algoritmo apresentado pelas Equações 5 a 15 é uma forma genérica; na prática, existem formas alternativas de implementação com maior eficiência computacional.14 Também é possível aplicar restrições no ajuste das matrizes representando cada modo, bem como o núcleo.15,16 Estas restrições são, em geral, baseadas em propriedades do conjunto de dados como, por exemplo, unimodalidade e não negatividade para cromatogramas, não negatividade para espectros, etc.

Os modelos Tucker podem ser avaliados por meio da "Função de Inércia", Equação 16, que é baseada na função, minimizada pelo algoritmo QMA, usada no cálculo dos modelos Tucker. A Função inércia mostra a porção dos dados descrita pelo modelo. A função inércia também pode ser empregada em cada bloco da Equação 3, o que facilita a identificação dos blocos mais importantes para descrever o conjunto de dados.

O emprego do modelo Tucker-3 tem como etapa crítica a determinação do número de fatores das matrizes componentes. Em geral, esta determinação é efetuada para identificar aquela combinação de números de fatores que descreva a maior variação possível dos dados, ou seja, àquela que obtenha o maior valor de f na Equação 16. Vale notar que para modelos em multimodos nem sempre é possível atingir um ajuste de 100% como, por exemplo, na análise de componentes principais. Esta é uma vantagem, pois só aquela parte do conjunto de dados que apresente uma estrutura em multimodos é descrita pelo modelo. A determinação do número de fatores das matrizes componentes pode ser efetuada de forma sistemática,6 ou seja, testando todas as possibilidades de número de fatores e selecionando aquela com maior valor de f na Equação 16. Naqueles casos onde vários ajustes apresentem valores de f que não sejam significativamente diferentes (e.g. f=97%, f=95%, f=98%, f=96%) deve-se optar pela solução com o menor número de fatores possível.

A análise em multimodos tem recebido atenção significante em Quimiometria, resultando em uma série de recursos desde pacotes computacionais a cursos on-line. O pacote computacional empregado neste trabalho é o PTAk17,18(Principal Tensor Analysis on k modes) desenvolvido para o programa R que, dentre várias outros atributos, é uma versão na licença GNU (uso livre). Outros pacotes de interesses têm sido desenvolvidos para o programa computacional MATLAB, com destaque para os desenvolvidos pelos grupos de Bro,19 Smilde20 e Kiers.21 Além disto, textos introdutórios e monografias descrevendo aplicações em Química de análise em multimodos oferecem variados exemplos que facilitam a compreensão destes métodos.22-26

PARTE EXPERIMENTAL

Ensaios de biodegradação

Para a investigação da biodegradação do diesel foram conduzidos ensaios inoculados (na presença de um consórcio de micro-organismos) acompanhados de controles químicos (não inoculados). Os experimentos foram realizados em frascos de 50 mL contendo 20 mL de diesel e 20 mL de meio mineral inorgânico contendo em g L-1 de água destilada: 1, 36 de KH2PO4, 1,40 de Na2H PO4, 0,30 de (NH4)2SO4, 0,05 de MgSO4.7H2O; e em mg L-1 de água destilada: 5,8 de CaCl2.H2O, 2,75 de FeSO4.7H2O, 1,7 de ZnSO4.7H2O, 0,325 de CoCl2 , 0,235 de CuSO4.5H2O e 0,17 de Na2MoO4.2 H2O.

Os micro-organismos foram obtidos a partir de amostra de água residuária coletada nas proximidades de uma distribuidora de combustíveis situada no bairro Nacional, zona norte da cidade de Porto Velho-RO. Para os ensaios inoculados, foram empregados 1 mL de um consórcio de micro-organismos enriquecido, utilizando diesel como única fonte de carbono após 7 transferências sucessivas.

Os frascos foram esterilizados em autoclave (30 min, 120 ºC) e incubados 28 ºC sem agitação. O monitoramento foi efetuado ao longo de 21 dias e todos os ensaios foram realizados em triplicata.

Amostragem

Amostragens do headspace estático foram realizadas no 3º, 7º, 14º e 21º dias de experimento, por microextração em fase sólida (SPME) utilizando uma fibra de polidimetilsiloxane/divinil benzeno (65 µm). Brevemente, os experimentos foram transferidos para um banho-maria a 40 ºC e mantidos por 5 min; em seguida, a fibra de SPME foi conectada e mantida por 5 min. Este procedimento foi repetido para todas as amostra e todos os ensaios realizados em triplicata. Os compostos absorvidos e adsorvidos pela fibra de SPME foram desorvidos no injetor do CG a 230 ºC.

Cromatografia em fase gasosa com detecção por ionização em chama

As análises foram realizadas em um cromatógrafo CG17A (Shimadzu) equipado com uma coluna capilar DB5 (5% fenilmetilsiloxano, 30 m x 0,25 mm x 0,25 µm). O programa de temperatura foi iniciado a 50 ºC. A temperatura foi elevada 6 ºC/min até 200 ºC e, então, elevada em 30º C/min até 290 ºC. O hélio foi usado como fase móvel com fluxo de 1,0 mL/min. O injetor foi usado no modo splitless por 1 min com temperatura de 230 ºC, e o detector a 250º C.

Análise de dados

O modelo usado foi ajustado por meio da função 'Principal Component Analysis on n modes' do pacote PTAk do programa R.27 O roteiro empregado na aplicação desta função é apresentado brevemente no Apêndice e o conjunto dados pode ser obtido a partir do autor correspondente. O modelo Tucker-3 foi aplicado nos dados originais sem o emprego de pré-tratamentos.

RESULTADOS E DISCUSSÃO

Cada ensaio discutido é descrito por uma matriz com 1101 tempos de retenção e 4 amostragens referentes a um período de 21 dias de monitoramento. O modo representado pela matriz A descreve os perfis cromatográficos referentes àqueles compostos presentes originalmente na fonte de carbono (i.e. diesel) e àqueles resultantes do processo de biodegradação deste substrato. O modo representado pela matriz B corresponde às 4 amostragens descrevendo a variação temporal. A matriz C representa o modo amostras e indica a diferença entre amostras na ausência (controle) e presença do consórcio de micro-organismos (experimento).

O modelo Tucker-3 ajustado considera o posto da matriz B, i.e., número de fatores, igual a 2, ou seja, um fator para degradação e outro para perda por evaporação. Alternativamente, o número de fatores da matriz B poderia ser maior, implicando em assumir mais de um fator para descrever o processo de evaporação ou degradação (por exemplo, fatores descrevendo o desaparecimento de produtos e outros mostrando a formação de produtos da degradação). Estas possibilidades foram testadas, mas não resultaram em variação significativa no ajuste do modelo (91,17; 92,25 e 92,82% para número de fatores iguais a 2, 3 e 4, respectivamente) e os fatores adicionais, 3 e/ou 4, não apresentam significado químico como mostrado na Figura 2S, material suplementar. Neste caso, a formação de produtos da degradação e o aparecimento dos produtos desta degradação devem ser descritos por um fator na variação temporal. A matriz C também foi ajustada com 2 fatores para diferenciação entre amostras controle e experimento. Finalmente, o posto da matriz A foi ajustado para que o modelo Tucker-3 descreva a maior variação possível dos dados.

As matrizes A, B e C foram consideradas como semi-ortogonais, isto é, ATA=I, BTB=I e CTC=I, sendo I a matriz identidade de dimensão adequada. A restrição de semi-ortogonalidade oferece uma solução mais geral para o modelo Tucker-3, sem que suposições, além daquela que exista uma estrutura em multimodos, sejam feitas em relação ao conjunto de dados.

A análise por meio do modelo Tucker-3 é efetuada visando a decomposição do conjunto de dados em três fontes de informação: composição; variação temporal e controle/experimento. A Equação 17 representa a decomposição dos dados de biodegradação discutidos aqui, onde A descreve os perfis cromatográficos, B representa o tempo de degradação e c1 e c2 os vetores colunas descrevendo o modo correspondente às amostras. Neste caso, pode ser dito que o conjunto de dados é decomposto em dois blocos: um relacionado ao processo de perda por evaporação, i.e., AG1( BT); e o outro ao processo de biodegradação, i.e., AG2( BT). Esta interpretação facilita a compreensão dos resultados do modelo Tucker-3, como discutido a seguir.

O arranjo original de dados contendo medições em 1101 tempos de retenção, 4 amostragens, em um período de 21 dias, para 6 diferentes amostras foi decomposto em 8 fatores que descrevem o modo dos tempos de retenção e 2 fatores para cada um dos outros dois modos (Figura 1S, material suplementar).

O processo de biodegradação resulta no desaparecimento e na produção de um conjunto de compostos cuja concentração não varia linearmente com o tempo. O desaparecimento de compostos também está confundido com a perda por evaporação, o que dificulta a avaliação direta da biodegradação apenas pela avaliação direta do decaimento da intensidade dos cromatogramas. A análise dos dados com modelo Tucker-3 possibilita a decomposição destes efeitos, i.e., biodegradação vs. perda por evaporação. A Figura 1a apresenta os dois fatores de B relacionados à variação temporal. A variação descrita pelos fatores de B indica que há dois processos temporais independentes, caso contrário um ou mais fatores desta matriz componente não estaria correlacionado com o tempo. O primeiro destes fatores está diretamente associado a um processo de decaimento e o segundo também contínuo, mas apresentando um crescimento seguido por decaimento. O primeiro fator deve estar ligado diretamente ao processo de perda por evaporação, enquanto o segundo deve indicar o processo de biodegração. Neste caso, o crescimento inicial observado no segundo fator estaria ligado a um rápido processo de biodegradação associado com a presença de compostos facilmente biodegradáveis (n-alcanos) e o decaimento associado à diminuição do processo de biodegradação devido à maior concentração de compostos de difícil biodegradação. Vale notar que b1>0 ocorreu como uma solução natural para o Tucker-3 sem a aplicação de restrições de não negatividade, enquanto o elemento negativo de b2 é resultado da restrição de semiortogonalidade. A decomposição por meio do modelo Tucker-3 foi efetuada para obtenção de B semiortogonal, i.e. BTB=I, (i.e., para que B seja ortogonal é necessário que BTB=I e BBT=I) sendo I a matriz identidade de dimensão apropriada. Isto implica que b1Tb1= 1,= 1 e = b2Tb1= 0 , sendo b1 e b2 os vetores colunas de B. Os elementos de b1 são maiores que zero, impedindo que o segundo componente, b2, possua apenas valores positivos, pois = (i.e., para que a igualdade seja verdadeira é necessário que b2=0 ou pelo menos um termo desta soma seja menor que 0, como b2 ≠ 0, um ou mais elemento deste vetor deve ser menor que zero).

Os fatores c1 e c2, Equação 17, informam como os fatores de A, B e Gi estão relacionados ao controle e ao experimento de biodegradação. O primeiro fator c1 pode ser associado ao processo de evaporação, pois todas as amostras apresentam valores muito similares. O segundo fator representa o processo de biodegradação onde as amostras controle e experimento apresentam valores opostos neste fator, como mostrado na Figura 1b.

O primeiro termo da soma apresentada na Equação 17 está associado à perda por evaporação e o segundo diferencia as amostras inoculadas daquelas usadas como controle. Assim, Gi informa quais os fatores de A e B estão ligados à perda por evaporação e à biodegradação.

A Tabela 1 apresenta os elementos das matrizes G1 e G2, sendo cada elemento das colunas destas matrizes correspondente a um fator de A. Os elementos mais importantes para descrever o processo de perda por evaporação descrita por G1 são: elemento 1 da coluna g11 correspondente ao fator 1 de A; os elementos 2 e 3 da coluna g21 correspondentes aos fatores 2 e 3, respectivamente. O produto AG1 (Equação 17) resulta em uma matriz com dois fatores associados aos fatores 1 e 2 de B, respectivamente. O elemento 1 da coluna g11 é cinquenta vezes maior (em magnitude) que o segundo maior elemento da coluna g11 e três vezes maior que o maior elemento de g21. Isto mostra que o primeiro termo da Equação 17 é largamente dominado pelo fator 1 de A e B, ou seja, a perda por evaporação deve ser descrita, principalmente, pelo decaimento temporal dos compostos representados pelo fator 1 de A. Enquanto para descrever o processo de biodegradação, G2, um número maior de fatores é necessário. Neste caso, os elementos 1, 3, 4 e 6 da coluna g12 e elementos 1-4 e 6 da coluna g22, correspondentes aos fatores 1-4 e 6 de A.

A análise por cromatografia gasosa com detecção por ionização de chama não permite a identificação direta de compostos como, por exemplo, no caso de detecção por espectrometria de massas, mas em estudos de derivados de petróleo há padrões cromatográficos característicos, como a série homóloga de hidrocarbonetos lineares. Neste caso, o emprego de fatores para descrever o modo dos perfis cromatográficos é útil para a identificação da variação destes padrões. Embora não seja possível identificar os produtos da degradação, a interpretação destes fatores mostra onde estes compostos aparecem na análise cromatográfica. A Figura 2 mostra os fatores de A, sendo o fator 1 dominado por uma série homóloga de hidrocarbonetos. Os fatores 2, 3, 4, e 6 mostram padrões diferentes de composição da série homóloga e um número maior de compostos significantes, onde também é observado um deslocamento da linha base, que representa um maior número de compostos sobrepostos conhecidos como mistura complexa não resolvida, que inclui alcanos ramificados e cíclicos e subprodutos das transformações dos hidrocabonetos. Como G2 está associada à biodegradação, estes fatores representam a variação, em concentração e em tipo, dos compostos produzidos durante a biodegradação. A comparação entre os fatores 1, 2, 3, 4, e 6 mostra que a série homóloga de hidrocarbonetos apresenta diferentes padrões em sua composição e deve compreender aqueles compostos mais impactados pelo processo de biodegradação.

CONCLUSÃO

A interpretação do experimento de biodegradação discutida neste trabalho apresenta como maior desafio a presença de pelo menos duas variações temporais associadas a um conjunto de compostos detectados sobre intensa sobreposição cromatográfica.

O Modelo Tucker-3 possibilitou a decomposição das informações associadas ao processo de perda por evaporação versus biodegradação e permitiu identificar, ou pelo menos sugerir, a classe de compostos mais rapidamente biodegradada, i.e., a série homóloga de hidrocarbonetos. A metodologia aplicada pode também ser empregada para comparação entre consórcios de micro-organismos e/ou condições de biodegradação permitindo, assim, a identificação das melhores condições de biodegradação para um dado substrato. Embora a análise dos resultados da decomposição pelo modelo Tucker-3 não seja direta como, por exemplo, na análise de componentes principais (PCA), a interpretação aqui discutida empregando o conceito de blocos representa uma forma prática de identificação das informações mais importantes do conjunto de dados. Esta interpretação é importante por ser extrapolável a outros tipos de dados em multimodo, pois não foram feitas suposições particulares para este conjunto de dados.

MATERIAL SUPLEMENTAR

O material suplementar, disponível em http://quimicanova.sbq.org.br, na forma de arquivo .PDF com acesso livre, apresenta a representação esquemática de um arranjo em três modos e uma solução para o modelo Tucker-3 com quatro fatores para o modo B.

AGRADECIMENTOS

Ao CNPq pelo apoio financeiro através dos processos 476232/2004-0 e 553269/05-4, FINEP CT-Proinfra (# 0105056700) e à polícia civil de Rondônia pelo convênio que possibilitou o uso do equipamento de CG-DIC.

Recebido em 12/9/09; aceito em 5/4/10; publicado na web em 20/7/10

APÊNDICE

Rotação livre

O modelo Tucker-3 (e para maiores dimensões) quando ajustado sem restrições aplicadas ao núcleo e às matrizes componentes, ou usando a restrição de seminormalidade para estas matrizes (i.e., ATA=I, BTB=I, CTC=I), permite a aplicação de rotações a estas matrizes. Esta característica também é conhecida como rotação livre (rotational ambiguity). Esta rotação é resultado da transformação linear descrita nas Equações 18 e 19.

sendo à = AW–1, = BT–1, = CU–1, = WG(UT TT), W–1W = I, T–1T = I, U–1U = I, (UT TT)([U–1]TCT [T–1]TBT) = (UT[U–1]TCT TT[T–1]TBT) = ([U–1U]TCT [T–1T]TBT), e I representando a matriz identidade de dimensão apropriada. Os termos, '-1' e 'T', em sobrescrito indicam as operações de inversão e transposição, respectivamente. A transformação das matrizes componentes (i.e., A → Ã, B → , C → ) não afeta o ajuste do modelo e representa um rotação dos vetores colunas destas matrizes, ou seja, cada vetor coluna da nova matriz é resultado de combinação linear dos vetores colunas das matrizes originais correspondentes. As Equações 20 e 21 exemplificam esta transformação para a matriz componente A.

ãZ corresponde ao vetor coluna z da matriz transformada Ã, VZ é o vetor coluna z da matriz W-1, vpz é o elemento p do vetor coluna VZ.

A transformação da matriz componente A pode ser ortogonal ou não ortogonal desde que a matriz inversa W-1 exista.

A matriz transformada descreve o mesmo espaço coluna da matriz original, por ser resultado de uma combinação linear dos vetores da coluna da matriz original, o que significa que o mesmo conjunto de informações descrito pela matriz original é descrito pela matriz transformada, como ilustrado na Figura 2S, material complementar. Desta forma, a rotação das matrizes componentes pode facilitar ou dificultar a interpretação das informações descritas pelas matrizes componentes, mas esta interpretação deve sempre levar ao mesmo conjunto de conclusões, uma vez que estas matrizes descrevem o mesmo conjunto de informações. Neste caso, a interpretação dos elementos do arranjo núcleo é importante, pois indica a importância de cada fator (i.e., vetor coluna nas matrizes componentes) e como eles se interrelacionam. Desta forma, a interpretação em conjunto das matrizes componentes e núcleo evita que a rotação livre do modelo Tucker-3 afete a interpretação do conjunto de dados.

Função Principal Component Analysis on n modes

A seguir, é apresentado um roteiro para uso da função 'PCAn' do pacote 'PTAk' do programa computacional R. O caracter '#' é usado para introdução de comentários, ou seja, o texto após '#' não é interpretado. Aos leitores pouco familares com o R é sugerida uma consulta a textos descrevendo a instalação28 e introdução à programação R. 29-31

# Mudar para o diretório contendo os conjuntos de dadossetwd("C:/.../Dados")

# Ler as tabela de dados usando a função 'read.table'

Controle<-read.table("dieselControle.dat",header=TRUE,dec=',') Biod<-read.table("dieselTeste.dat",header=TRUE,dec=',')

library(PTAk) # Carrega biblioteca PTAk para análise em multimodos.

# Criar um bloco de dados IxKxJ

# I: 1101 tempos de retenção

# K: 4 dias de monitoramento

# J: 6 conjuntos de amostras, 3 controles e 3 experimentos de biodegradação

.X.par<-array(NA,c(1101,4,6)) # Cria o bloco

# Preencher o bloco com as matrizes de dados

X.par[,,1]<-as.matrix(Controle[,seq(2,13,3)])

X.par[,,2]<-as.matrix(Controle[,seq(3,13,3)])

X.par[,,3]<-as.matrix(Controle[,seq(4,13,3)])

X.par[,,4]<-as.matrix(Biod[,seq(2,13,3)])

X.par[,,5]<-as.matrix(Biod[,seq(3,13,3)])

X.par[,,6]<-as.matrix(Biod[,seq(4,13,3)])

# A função 'seq(i,j,k)' cria um vetor de i a j com intervalos de k,

# e.g. seq(2,13,3) gera 2,5,8,11

# As tabelas de dados 'Controle' e 'Biod' possuem em cada coluna um cromatograma.

# A coluna 1 destas matrizes possui os tempos de retenção. As triplicatas estão dispostas

# em sequência, desta forma, as colunas 2, 5, 8, 11 correspondem aos 4 dias de

# monitoramento.

# Efetuar a análise Tucker-3 decompondo os dados em 8 fatores para

# o modo cromatográfico e dois fatores para os outros modos

X.cand<-PCAn(X.par,dim=c(8,2,2))

summary(X.cand) # Resumo do cálculo

# O bloco núcleo é dado por:

X.cand[[3]]$coremat

Nucleo.1<-X.cand[[3]]$coremat[,,1]

Nucleo.2<-X.cand[[3]]$coremat[,,2]

# Estimar a importância dos termos do núcleo

Nucleo.1perc<-100*Nucleo.1%*%diag(1/apply(abs(Nucleo.1),2,sum))

Nucleo.2perc<-100*Nucleo.2%*%diag(1/apply(abs(Nucleo.2),2,sum))

# "%*%" : Multiplicação de matrizes

# "diag()" : Cria uma matriz diagonal

# "apply(X,2,sum): Aplica a operação soma nas nos vetores colunas de X.

MATERIAL SUPLEMENTAR

Representação esquemática do arranjo em multimodos

A Figura 1S-a mostra a representação esquemática do arranjo de dados e sua decomposição. Já o arranjo e sua decomposição em forma matricial são apresentados pela Figura 1S-b, sendo o produto tensorial de Kronecker representado pela Figura 1S-c. A Figura 1S-d apresenta a decomposição dos dados referentes à amostra 1, X1, onde a Equação 17 pode ser melhor entendida.

Solução adicional para o modelo Tucker-3

O modelo Tucker-3 admite soluções de um a quatro fatores para a matriz B, como discutido no texto principal. Estas possibilidades foram testadas, mas não resultaram em variação significativa no ajuste do modelo (91,17; 92,25 e 92,82% para número de fatores iguais a 2, 3 e 4, respectivamente). A Figura 2S apresenta os fatores da matriz B para um ajuste com quatro fatores, onde os dois fatores adicionais além de descreverem uma pequena fração da variância descrita pelo modelo também não apresentam significado químico, isto é, não apresentam variação contínua com o tempo.

  • 1. Stanimirova, I.; Kita, A.; Malkowski, E.; John, E.; Walczak, B.; Chemom. Intell. Lab. Syst. 2009, 96, 203.
  • 2. Cocchi, M.; Durante, C.; Grandi, M.; Manzini, D.; Marchetti, A.; Talanta 2008, 74, 547.
  • 3. Pardo, R.; Vega, M.; Debán, L.; Cazurro, C.; Carretero, C.; Anal. Chim. Acta 2008, 606, 26.
  • 4. Smoliński, A.; Falkowska, L.; Pryputniewicz, D.; Oceanol. Hydrobiol. Stud. 2008, 37, 49.
  • 5. Astel, A.; Małek, S.; J. Chemom. 2008, 22, 738.
  • 6. Stanimirova, I.; Simeonov, V.; Chemom. Intell. Lab. Syst. 2005, 77, 115.
  • 7. Flåten, G. R.; Grung, B.; Kvalheim, O. M.; Chemom. Intell. Lab. Syst. 2005, 77, 104.
  • 8. Stanimirova, I.; Zehl, K.; Massart, D. L.; Vander Heyden, Y.; Einax, J. W.; Anal. Bioanal. Chem. 2006, 385, 771.
  • 9. Tucker, L. R.; Psychometrika 1966, 31, 279.
  • 10. Smilde, A. K.; Chemom. Intell. Lab. Syst. 1992, 15, 143.
  • 11. Bro, R.; Crit. Rev. Anal. Chem. 2006, 36, 279.
  • 12. Escandar, G. M.; Olivieri, A. C.; Faber, N. M.; Goicoechea, H. C.; Poppi, R. J.; Trend Anal. Chem. 2007, 26, 752.
  • 13. Kroonenberg, P. M.; de Leeuw, J.; Psychometrika 1980, 45, 69.
  • 14. Kiers, H. A. L.; Kroonenberg, P. M.; Ten Berge, J. M. F.; Psychometrika 1992, 57, 415.
  • 15. Smilde, A. K.; Tauler, R.; Saurina, J.; Bro, R.; Anal. Chim. Acta 1999, 398, 237.
  • 16. Kiers, H. A. L.; Smilde, A. K.; J. Chemom. 1998, 12, 125.
  • 17
    http://cran.r-project.org/web/views/ChemPhys.html, acessada em Janeiro 2010 e Julho 2010.
    » link
  • 18
    http://cran.r-project.org/web/packages/PTAk/index.html, acessada em Janeiro 2010 e Julho 2010.
    » link
  • 19
    http://www.models.kvl.dk/source/nwaytoolbox/index.asp, acessada em Janeiro 2010 e Julho 2010.
    » link
  • 20
    http://www.bdagroup.nl/content/Downloads/software/, acessada em Janeiro 2010 e Julho 2010.
    » link
  • 21
    http://www.ppsw.rug.nl/~kiers/Threeway%20m-files.zip, acessada em Janeiro 2010 e Julho 2010.
    » link
  • 22
    http://www.bdagroup.nl/content/Publications/presentations/multiway_data_analysis.pdf, acessada em Janeiro 2010 e Julho 2010.
    » link
  • 23
    http://www.models.kvl.dk/users/rasmus, acessada em Janeiro 2010 e Julho 2010.
    » link
  • 24
    http://www.ppsw.rug.nl/~kiers/, acessada em Janeiro 2010.
    » link
  • 25. Sena, M. M.; Tese de Doutorado, Universidade Estadual de Campinas, Brasil, 2004.
  • 26. Reis, M. M.; Tese de Doutorado, Universidade Estadual de Campinas, Brasil, 2002.
  • 27. R Development Core Team (2007). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org, acessada em Janeiro 2010.
  • 28
    http://cran.r-project.org/doc/contrib/Itano-installation.pdf, acessada em Janeiro 2010.
    » link
  • 29
    http://cran.r-project.org/doc/contrib/Torgo-ProgrammingIntro.pdf, acessada em Janeiro 2010.
    » link
  • 30
    http://cran.r-project.org/doc/contrib/Beasley-BioestatisticaUsandoR.pdf, acessada em Janeiro 2010.
    » link
  • 31
    http://cran.r-project.org/doc/contrib/biometria.pdf, acessada em Janeiro 2010.
    » link

Datas de Publicação

  • Publicação nesta coleção
    27 Set 2010
  • Data do Fascículo
    2010

Histórico

  • Aceito
    05 Abr 2010
  • Recebido
    12 Set 2009
Sociedade Brasileira de Química Secretaria Executiva, Av. Prof. Lineu Prestes, 748 - bloco 3 - Superior, 05508-000 São Paulo SP - Brazil, C.P. 26.037 - 05599-970, Tel.: +55 11 3032.2299, Fax: +55 11 3814.3602 - São Paulo - SP - Brazil
E-mail: quimicanova@sbq.org.br