Acessibilidade / Reportar erro

Resolução multivariada de curvas com mínimos quadrados alternantes: descrição, funcionamento e aplicações

Multivariate curve resolution with alternating least squares: description, operation and aplications

Resumo

Multivariate Curve Resolution with Alternating Least Squares (MCR-ALS) is a resolution method that has been efficiently applied in many different fields, such as process analysis, environmental data and, more recently, hyperspectral image analysis. When applied to second order data (or to three-way data) arrays, recovery of the underlying basis vectors in both measurement orders (i.e. signal and concentration orders) from the data matrix can be achieved without ambiguities if the trilinear model constraint is considered during the ALS optimization. This work summarizes different protocols of MCR-ALS application, presenting a case study: near-infrared image spectroscopy.

chemometrics; resolution methods; signal separation


chemometrics; resolution methods; signal separation

REVISÃO

Resolução multivariada de curvas com mínimos quadrados alternantes: descrição, funcionamento e aplicações

Multivariate curve resolution with alternating least squares: description, operation and aplications

Paulo Henrique MarçoI,* * e-mail: paulohmarco@utfpr.edu.br ; Patrícia ValderramaI; Guilherme Lionello AlexandrinoII; Ronei Jesus PoppiII; Romà TaulerIII

IUniversidade Tecnológica Federal do Paraná, CP 271, 87301-899 Campo Mourão – PR, Brasil

IIInstituto de Química, Universidade Estadual de Campinas, CP 6154, 13083-970 Campinas – SP, Brasil

IIIDepartment of Environmental Chemistry, Institute of Environmental Diagnostics and Water Studies IDAEA-CSIC Jordi Girona, 16, 08034, Barcelona, Spain

ABSTRACT

Multivariate Curve Resolution with Alternating Least Squares (MCR-ALS) is a resolution method that has been efficiently applied in many different fields, such as process analysis, environmental data and, more recently, hyperspectral image analysis. When applied to second order data (or to three-way data) arrays, recovery of the underlying basis vectors in both measurement orders (i.e. signal and concentration orders) from the data matrix can be achieved without ambiguities if the trilinear model constraint is considered during the ALS optimization. This work summarizes different protocols of MCR-ALS application, presenting a case study: near-infrared image spectroscopy.

Keywords: chemometrics; resolution methods; signal separation.

INTRODUÇÃO

A química analítica oferece um vasto número de exemplos de sistemas multicomponentes com amostras que se apresentam cada vez mais complexas. Frequentemente, as amostras contêm muitas espécies a serem analisadas simultaneamente (como é o caso de áreas como genômica, proteômica, etc.) ou poucos analitos na presença de muitos interferentes (por exemplo, amostras ambientais). A necessidade de uma instrumentação mais complexa para fazer face a estes sistemas de forma eficiente exige, da mesma forma, ferramentas computacionais para manipular e interpretar as informações obtidas. 1,2

A denominação “Análise Multivariada” corresponde a um grande número de métodos que utilizam simultaneamente todas as variáveis na interpretação do conjunto de dados. Essas variáveis podem ser as concentrações de elementos mais importantes, altura de picos em perfis cromatográficos, comprimentos de onda em perfis espectroscópicos ou até mesmo imagens. 3-5

Os métodos quimiométricos de análise multivariada podem ser classificados em diferentes categorias com distintas aplicações, conforme o objetivo do estudo, como por exemplo a otimização de processos, a classificação de dados, as determinações quantitativas e qualitativas, podendo assim ser subdivididos em diversas frentes de pesquisas e aplicações, tais como planejamento e otimização de experimentos, processamento de sinais analíticos, reconhecimento de padrões e classificação de dados, calibração multivariada, métodos de inteligência artificial, dentre outros. 5,6

Os métodos de Resolução Multivariada de Curvas (MCR, do inglês Multivariate Curve Resolution) são métodos de processamento de sinais analíticos que têm o intuito de resolver misturas de sinais. 3,5 Esses métodos recuperam valores de concentração relativa e os espectros puros dos componentes relacionados a tais concentrações dentro da amostra, a partir de uma matriz de dados que contém os valores para as variáveis analisadas. A análise de dados por MCR pode ser realizada sobre uma única matriz de dados (dados de primeira ordem) ou sobre matrizes de dados para cada amostra (dados de segunda ordem), simultaneamente. 3,5

O modelo geral do MCR pode ser verificado em uma equação de forma:4,5

em que D é a matriz de resposta instrumental, C é a matriz de concentração relativa e S é uma matriz de espectros puros.

O método de Resolução Multivariada de Curvas com Mínimos Quadrados Alternantes (MCR-ALS, do inglês Multivariate Curve Resolution with Alternating Least-Squares) é um tipo de MCR no qual a resolução iterativa da equação 1 é realizada por ALS. Para que o MCR consiga obter resultados mais condizentes com as informações químicas, aproximações de resolução iterativa são consideradas mais populares devido à sua flexibilidade para lidar com vários tipos de arranjos de dados e problemas químicos, além da habilidade para acomodar informações externas no processo de resolução. Todas elas dividem um passo comum na otimização (das matrizes C e/ou ST) que se inicia com as estimativas iniciais de C e ST, adaptadas de acordo com as informações químicas ou matemáticas incluídas no processo de otimização sob a forma de restrições. A análise de fatores de alvo iterativo (ITTFA, do inglês Iterative Target Factor Analysis)7 e o MCR-ALS4,5,8 foram as primeiras aproximações iterativas a serem executadas, embora outras metodologias com diferentes princípios, como a Análise de resolução de fatores (RFA, do inglês Resolving Factor Analysis),9 tenham aparecido posteriormente.

Este trabalho tem como objetivo descrever e apresentar o funcionamento do método MCR-ALS trazendo algumas aplicações a fim de facilitar a utilização do método e possibilitar um maior entendimento para as possíveis aplicações.

RESOLUÇÃO MULTIVARIADA DE CURVAS (MCR)

A Resolução Multivariada de Curvas é um método quimiométrico incluído na família de técnicas de análise de fatores (FA, do inglês Factor Analysis). 10,11 Seus principais objetivos são o isolamento, resolução12 – para informações qualitativas13,14 – e a quantificação das fontes de variação em um determinado conjunto de dados. 15 Em outras palavras, o MCR recupera informações misturadas não seletivas provenientes de um instrumento (D) em contribuições reais dos componentes puros no sistema (representados pelos perfis de concentração em C e perfis espectrais em ST). Para este método nenhuma hipótese a priori sobre a contribuição dos diferentes fatores na resposta global é necessária. Este recurso pode ser de grande importância no estudo de problemas químicos complexos16 e a maneira de fazer isso com eficiência e confiabilidade tem sido o alvo das pesquisas do MCR-ALS nos últimos anos. 5

Para que o método MCR-ALS possa ser aplicado, duas condições fundamentais devem ser anteriormente verificadas. A primeira delas é se o sinal analítico obedece a uma relação semelhante à lei de Beer-Lambert, ou seja, se os dados têm uma relação linear com a concentração. A segunda é a análise do posto (do inglês, rank) da matriz. 17

O posto da matriz deve ser igual ao número de espécies que produzem sinal analítico presentes nas misturas. Este número corresponde ao número de linhas ou colunas linearmente independentes, ou seja, o número de vetores que não podem ser escritos como uma combinação linear dos outros. Por exemplo, o posto de uma matriz de dados dentro de um estudo espectrofotométrico da cinética de uma reação vai ser igual ao número de espécies espectrometricamente ativas. Já o posto de uma matriz bidimensional de espectros de massas será igual ao número de espectros diferentes gerados a partir dos fragmentos iniciais. Se uma espécie produz 10 espectros diferentes o posto será igual a 10. No entanto, quando é analisado um conjunto de amostras de composição complexa, o posto pode ser igual ou menor ao número de espécies químicas presentes no sistema3,4 e, para estes casos, métodos que permitam uma estimativa do posto são requeridos.

Estimativa do posto de uma matriz em MCR

A estimativa do posto de uma matriz de dados pode ser realizada por meio de ferramentas de análise exploratória não supervisionada. Para dados primeira ordem (nos quais se tem um vetor de resposta instrumental por amostra organizados no formato de uma matriz) a estimativa do posto pode ser realizada por meio da percentagem de variância explicada por Decomposição em Valores Singulares (SVD, do inglês Singular Values Decomposition)18,19 ou Análise de Componentes Principais (PCA, do inglês Principal Components Analysis). 20 Em dados de segunda ordem (uma matriz de resposta instrumental para cada amostra organizadas no formato de um tensor de dados) o posto pode ser estimado a partir da Análise de Componentes Principais Multi-Modo (MPCA, do inglês Multi-way Principal Components Analysis)13 e utilizando Durbin-Watson. 21

Alternativamente, o gráfico que se refere à importância das variáveis, chamado de gráfico dos loadings do PCA ou MPCA também pode ser suficientemente informativo: se o gráfico de uma componente principal (PC, do inglês Principal Component) em função das variáveis (comprimento de onda, por exemplo) não mostrarem apenas ruído, aquela PC pode ser considerada relevante para o posto da matriz em questão. 21

Os espectros muitas vezes podem ser dados ruidosos, o que dificulta a determinação do posto de uma matriz composta por este tipo de informação (espectral). Como resultado, a estimativa do posto a partir da decomposição em valores singulares (SVD)18,19 é bastante dificultada. Efetivamente, é necessário distinguir entre as componentes significativas, ou seja, os auto vetores com grande variância, e aqueles correspondentes ao ruído. Na prática, uma matriz de dados é considerada de posto completo se o posto estimado for igual ao número de espécies químicas presentes, considerando-se este número conhecido. Além disso, existem diversas situações experimentais em que a matriz pode ter deficiência de posto. Isso significa que este posto estimado é diferente do número de espécies químicas presentes. Este seria o caso de um processo onde vários compostos têm sinais colineares ou perfis de concentração idênticos, como é o caso, por exemplo, de espécies em coeluição, que dificilmente podem ser diferenciadas, e em equilíbrios químicos nos quais as espécies se interconvertem. Há mais dificuldades sutis; por exemplo, a deficiência de posto pode ser causada por problemas de linha de base quando os dados são centrados na média.

MCR-ALS

MCR é, por definição, um modelo-flexível (soft-modeling) cujo foco está na descrição da evolução das medidas experimentais multicomponentes a partir das contribuições dos seus componentes puros. Estes modelos têm como base uma família de métodos computacionais e estatísticos para o isolamento de fontes de variação em conjuntos de dados experimentais. 5,22 Assim, desde que seja possível estimar previamente os perfis de concentração e/ou o sinal analítico (como descrito no tópico seguinte), apenas a matriz D das medidas é necessária para executar a análise. Esta informação prévia pode servir de orientação no processo de resolução e melhorar significativamente os resultados finais obtidos.

O cálculo realizado pelo MCR-ALS utiliza mínimos quadrados alternados (ALS) para buscar o resultado que apresenta o melhor ajuste. Esse processo, chamado de “otimização”, permite recuperar perfis de concentrações individuais e sinais (espectros, imagens) de espécies que melhor explicam a variância dos dados observados. Tal como nos métodos de análise de fatores, esta recuperação é baseada na premissa de que a matriz de dados é bilinear, ou seja, que ela pode ser decomposta no produto de duas matrizes. 4

Um exemplo ilustrativo seria um sistema cromatográfico constituído por dois componentes com detecção espectrofotométrica por sistema de arranjo de diodos. Os sistemas de Cromatografia Líquida de Alta Eficiência com Sistema de Arranjo de Diodos (HPLC-DAD, do inglês High Performance Liquid Chromatography with Diode Array Detector) fornecem conjuntos de dados bidimensionais, chamados de segunda ordem (uma matriz D) com duas respostas: uma relacionada aos perfis de eluição (DA) e a outra aos espectros (DB). Neste exemplo, as linhas e as colunas da matriz de dados representam espectros e perfis de eluição, respectivamente. A Figura 1 e Equações de 1 a 3 descrevem em detalhes as medidas e os modelos subjacentes das contribuições de espécies puras:3







Assim, o sinal obtido pode ser decomposto em sinais relacionados a DA e DB puros (Figura 1a e Equação 2). Cada um desses sinais, Di, é o produto de dois perfis Di = cisiT, sendo siT uma unidade de perfil de espectro puro e ci um perfil de concentração variando com o tempo (perfil de eluição em HPLC) que representa a abundância de um composto particular ao longo da direção da linha no conjunto de dados (Figura 1b e Equação 3). Finalmente, o modelo somatório na Equação 3 pode ser expresso de uma forma mais compacta, agrupando todos os perfis de concentração e todos os espectros nas matrizes C e ST, respectivamente (Figura 1c e Equação 1). Esta última expressão é a forma mais comum para expressar a lei de Beer-Lambert em forma de matriz e, por extensão, o modelo MCR bilinear. 3

Estimativas iniciais

Para que o processo de otimização seja realizado é necessário o conhecimento dos sinais (por exemplo, os espectros) ou das concentrações dos componentes puros presentes na matriz de dados. Como essas informações nem sempre estão disponíveis pode-se estimar tais perfis por métodos como a Análise de Fatores Evolucionários (EFA, do inglês Evolving Factor Analysis)23 e métodos baseados na aproximação da variável pura (PURE). 24,25 O PURE seleciona as colunas com as variáveis mais puras de acordo com o número de fatores que se acredita existirem na amostra, e tem como base o método SIMPLISMA (do inglês, SIMPLe-to-use InteractiveS Mixture Analysis). 25 Tanto o EFA quanto o PURE são aproximações iterativas cujos processos são realizados por ALS, nos quais primeiro se realizam as estimativas iniciais em uma das duas ordens (por exemplo, tempo ou perfil espectral) e em seguida calcula-se a combinação dos perfis em duas ordens que melhor descrevam a variância dos dados.

Alguns desses procedimentos trabalham no espaço abstrato das componentes principais, enquanto outros usam o espaço das medidas reais. Os últimos são mais comumente utilizados e, entre eles, o SIMPLISMA ainda é o mais popular. Modificações recentes do SIMPLISMA implicam no uso combinado dos dados brutos e da segunda derivada, para uma melhor seleção de variáveis, e o uso do ângulo máximo entre os perfis como critério de seleção em metodologias derivadas, como o cálculo do ângulo máximo gradual (SMAC, do inglês Stepwise Maximum Angle Calculations). Métodos de seleção de variáveis puras desempenham um papel importante em conjuntos de dados nos quais a direção de um processo sequencial é perdida, uma vez que o desempenho dessas aproximações não é afetado pela falta de ordenação na direção das linhas ou colunas. Este fato explica porque o SIMPLISMA encontra uma aplicação extensiva em dados de imagens espectroscópicas ou ambientais. 26-28

Recentemente, o emprego de estimativas iniciais baseadas nos loadings da PCA29 e nos scores ou sinais da Análise de Componentes Independentes (ICA, do inglês Independent Component Analysis)30 foram propostas e sugerem promover resultados satisfatórios, podendo, em alguns casos, serem superiores aos obtidos por SIMPLISMA.

Naturalmente, a estimativa do posto só faz sentido se houver uma ordem inerente aos dados do sistema, normalmente uma ordem na aquisição dos espectros que compõem a matriz. A partir da estimativa confiável do número de contribuições e os perfis da concentração inicial, MCR-ALS realiza uma otimização por mínimos quadrados alternados das matrizes de concentração e espectros sob restrições, ligando fatores abstratos com fontes de variações químicas.

Otimização iterativa com ALS

Uma vez que a estimativa inicial é gerada, a etapa de otimização iterativa é iniciada. Em cada ciclo iterativo as matrizes C e ST são calculadas, sob restrições, em duas etapas, por mínimos quadrados:31

No processo, uma matriz D* reconstruída a partir do produto das matrizes CST, na qual C ou ST advém da estimativa inicial, é calculada e comparada com a matriz D original. A otimização iterativa continua até que o critério de convergência seja cumprido. O critério de convergência é alcançado quando a variação de resultados entre iterações consecutivas apresentar valor abaixo de um valor limite predefinido, ou quando um certo número de iterações for excedido.

A qualidade do resultado final do MCR pode ser avaliada comparando a matriz reconstituída D* com a matriz D original. Indicadores dessa qualidade são a percentagem de falta de ajuste (% LOF, do inglês “Lack of Fit”) e percentagem de variância explicada (R2), determinados pelas equações 6 e 7, respectivamente. 31 Além de indicadores de qualidade, um dos critérios padronizados no método para o término das iterações é a não variação destes parâmetros após 10 iterações. 31

na qual eij é igual a (dij é um elemento da matriz D e é o mesmo elemento na matriz reconstituída D*). Desta forma, baixos valores de LOF são requeridos, bem como valores de R2 o mais próximo possível de 1. 31

AMBIGUIDADES NO MCR

Com relação à estimativa inicial, necessária para iniciar o processo iterativo no MCR-ALS, esta também pode ser considerada uma análise exploratória. Isso porque diferentes algoritmos para estimativa inicial podem conduzir a aproximações iterativas com maior ou menor eficiência e, portanto, levando a resultados finais diferentes. Este problema é verificado pela possibilidade de mais de uma resposta possível para combinações lineares, ou seja, existem problemas relacionados à ambiguidade rotacional exibida por métodos de resolução bilineares. 4,32

Embora o MCR possa apresentar resultados muito satisfatórios, em medidas experimentais brutas os perfis recuperados podem ser afetados pelas intensidades das ambiguidades e ou das rotações.

Podemos reescrever a equação 5 na forma da equação 8:

na qual T é uma matriz de transformação, fornecendo a equação 9:

na qual C = CT e ST' = T-1ST

Esta é a formulação matemática da ambiguidade rotacional, a qual significa que podemos obter a mesma solução otimizada na descrição do conjunto de dados D usando os conjuntos de perfis (C e S) com formas diferentes dos verdadeiros (C e S). Mesmo na ausência de ambiguidade rotacional, a Equação 1 pode ser reescrita como na forma da equação 10:

Isso significa que a díade de perfis resolvidos (ci, si) para cada componente puro pode apresentar perfis como os procurados, porém ki vezes menores, (1/ki)ci, ou maiores, kisiT. A extensão da ambiguidade pode ser significantemente diminuída ou até suprimida pelo uso de restrições. Quanto mais restrito é um sistema, menos possibilidades de combinações de perfis podem preencher as condições de forma e intensidade requeridas, ajustando de forma otimizada o conjunto de dados D.

A ambiguidade tem sido um dos maiores problemas do MCR. Somente recentemente tem havido tentativas sólidas para avaliar a extensão desse fenômeno nos perfis resolvidos de MCR. 33-35 Recentemente foi criada por Jaumot e Tauler uma ferramenta utilizada para avaliar e quantificar a ambiguidade rotacional, chamada de MCR-BANDS. 33 De um modo geral, a ambiguidade é dependente dos componentes e dos perfis e, dentro do mesmo conjunto de dados, é possível encontrar componentes ou perfis com falta de ambiguidade e outros que a possuam em uma grande extensão. Algumas das últimas tendências optam por determinar cada componente separadamente com os limites máximo e mínimo das bandas de soluções mais adequadas para a díade de perfis resolvidos. 36 A ideia geral é encontrar os limites das díades dos perfis que fornecem as contribuições máximas e mínimas dos componentes do sinal global medido. Os limites máximo e mínimo devem corresponder aos perfis que respeitam as restrições e devem ser parte do conjunto global de perfis incluindo todos os componentes e reproduzindo o conjunto de dados com o melhor ajuste. 36

Outras metodologias questionam o quanto os limites mínimos e máximos realmente aproximam todos os perfis viáveis possíveis e, se definidos como máximo e mínimo da contribuição do sinal, se eles realmente representam as melhores soluções. No entanto, independente da ambiguidade nas soluções, uma fonte comum de incerteza nos resultados vem do erro nas medidas experimentais.

Uso de restrições

As diversas formas de aplicação dos métodos de resolução de curvas mostram que a ambiguidade, inerente à decomposição na análise de fatores de uma matriz de dados bilineares, pode ser apenas parcialmente superada pelo uso de restrições. Lawton e Sylvestre37 foram os primeiros autores a demonstrar que, sob restrições como a não negatividade, um pequeno número de soluções é possível. O método foi testado para uma mistura de 2 componentes e mais tarde o teste foi feito para 3 componentes por Borgen e Kowalski,38 mostrando-se bastante eficiente quanto ao número de respostas possíveis.

Desde os primeiros estudos em resolução de curvas, a seletividade tem sido um dos aspectos mais relevantes a serem considerados na recuperação de soluções verdadeiras. Um ponto importante no uso de seletividade está no fato de que a matriz original pode ser subdividida em duas matrizes menores, reduzindo assim a complexidade da mistura. Nas regiões onde o posto da matriz está perto da unidade, a ambiguidade relacionada à decomposição na análise de fatores é completamente resolvida. Dessa forma, a detecção dessas regiões e o uso da seletividade são de grande importância para a resolução de problemas em MCR. 16,17

Além da não negatividade para concentração e sinal, outras restrições gerais como uni-modalidade, fechamento (closure) e inclusão de modelos pré-definidos (hard-modeling) são propostas. 3 A utilização das informações de seletividade e das restrições diminui consideravelmente o conjunto de soluções possíveis na decomposição dos dados. Contudo, não há garantias de que as soluções verdadeiras são obtidas para um caso geral. Em particular, quando não há seletividade nas duas ordens (C e ST) de nenhum dos componentes da mistura, não há garantia de que as soluções corretas serão recuperadas. 3,13

Em adição às restrições clássicas de não-negatividade, unimodalidade, fechamento (closure) e restrições de igualdade ligadas à seletividade ou ao uso de perfis conhecidos, a contribuição mais notável tem sido a introdução de modelos pré-definidos (hard-modeling). A Figura 2 apresenta de forma resumida o funcionamento de algumas das restrições mais utilizadas. 3


Os sistemas podem ser definidos como de modelagem não flexíveis (hard-modeling) ou de modelagem flexível (soft-modeling). 3 Os modelos não flexíveis ajustam dados químicos de acordo com modelos pré-definidos construídos a partir de expressões matemáticas que descrevem um comportamento físico-químico ou, num sentido geral, a forma de um sinal ou um perfil. Para fazer isso, toda a variação do conjunto de dados deve ser descrita por aquele modelo particular. O principal benefício é que esses modelos podem ser utilizados para descrever apenas uma parte da variação do conjunto de dados (por exemplo, a evolução de alguns componentes) enquanto o resto do sistema (os componentes remanescentes) pode ser modelado por modelos flexíveis. Estas restrições permitem a modelagem não flexível dos processos na presença de interferentes (modelados por modelos flexíveis) além do cálculo de parâmetros físico-químicos como resultados adicionais do MCR. Devido à eficácia desse tipo de restrição, a ambiguidade nos perfis resolvidos é suprimida ou significativamente minimizada. Assim, as chances para resolver perfis de concentração muito sobrepostos são substancialmente aumentadas. Exemplos de restrições de modelos não flexíveis já aplicados com sucesso incluem a incorporação de modelos cinéticos,39 modelos enzimáticos40 ou equilíbrios41 nos perfis de concentração, e inclusão de modelos de formas de sinais, como funções em forma de picos para medidas voltamétricas42 ou decaimentos de curvas exponenciais em dados de Ressonância Magnética Nuclear – (RMN-DOSY). 43 Além destes, Bianchini e Kaufman utilizaram uma mistura de hard e soft-modeling para estudar a cinética de degradação de uma droga sob influência da radiação UV. 44

Como mostra a Figura 2, os perfis têm sua forma modificada pela ação das restrições. Quanto mais difícil é a modificação, mais o perfil se distancia da forma que ele tem na realidade. Quando as correções por restrições são muito abruptas, podem aparecer diferenças no processo de otimização e o efeito da restrição pode não ser tão positivo quanto se espera. A implementação das restrições deve incorporar uma forma harmoniosa para modificar a forma do perfil e permitir certa flexibilidade no preenchimento das condições para levar em consideração o ruído experimental ou para efeitos instrumentais nas medidas. Um bom ajuste tem sido alcançado pela implementação de diferentes níveis de tolerância e aplicação de funções de penalidade. No entanto, aproximações clássicas de substituição que também permitem níveis variáveis de tolerância são interessantes pela sua tendência em permitir maior flexibilidade na combinação das restrições aplicadas e na escolha dos perfis ou direções a serem consideradas. Além disso, sua aplicação em sistemas que obedecem naturalmente as restrições impostas também leva a um melhor ajuste quando a convergência é alcançada. 3 Atualmente, existem variedades nas aplicações das restrições como, por exemplo, restrições de correlação34 e restrições para dados quadrilineares. 45,46

MATRIZES AUMENTADAS E FUSÃO DE DADOS

Um grande avanço em Resoluções Multivariadas foi a extensão desses métodos para além dos conjuntos de dados bidimensionais. Problemas clássicos de ambiguidades em MCR são reduzidos significativamente com a possibilidade de analisar estruturas mais ricas em informações, tais como os dados de segunda ordem por meio das matrizes de dados aumentadas pelas linhas e/ou colunas, como mostra a Figura 3. 13,47


Matrizes aumentadas podem ser definidas como uma forma de junção entre duas ou mais matrizes de dados bilineares de sistemas diferentes, que partilham de alguns ou de todos os seus compostos em uma terceira direção, que representa a diferença qualitativa ou quantitativa entre as amostras. Analisar simultaneamente diferentes misturas dos mesmos compostos, em diferentes condições físicas ou químicas, como pH ou tempo, é uma maneira inteligente e confiável para extrair informações sobre as individualidades dos sistemas. 13 Espectros puros relacionados com a ordem comum do conjunto de dados aumentados pelas colunas são considerados invariantes e a matriz desdobrada, C, permite aos perfis de cada composto na direção da concentração serem diferentes para cada matriz (Figura 3). Como o posto pode ser diretamente estimado por SVD em matrizes aumentadas, a comparação dos resultados obtidos em diferentes matrizes permite eventualmente detectar a deficiência de posto. Além disso, escolher a matriz a ser acrescentada à matriz de interesse, como por exemplo, a fusão desta última com padrões fornece uma maneira de quebrar a deficiência de posto, permitindo a detecção de qualquer contribuição química no conjunto de dados aumentados. Esta aproximação deve ser coerente com outras informações prévias sobre o sistema, em especial a correspondência entre as espécies em cada matriz unitária. A fusão dos dados ou análises multiconjuntos são nomes recentemente formulados para medidas de conjuntos provenientes de um ou mais experimentos monitorados por diferentes técnicas, porém, bem antes desses nomes serem apresentados, o MCR já havia sido aplicado a estes e a outros tipos de arranjos de dados fundidos. 3 A fusão de dados facilita frequentemente a interpretação de dados de natureza hifenada ou multi modo dos instrumentos atualmente disponíveis (acoplamento de vários sistemas de detecção ou a aquisição de várias respostas em um tempo). Além desses dados, outros tipos de arranjos aumentados de dados, como multi batelas ou conjuntos de dados multi processados, podem ser agrupados produzindo resultados igualmente interessantes.

QUANTIFICAÇÕES COM MCR

A quantificação por MCR apresenta vantagens em relação à calibração multivariada convencional. A primeira, e talvez a mais importante de todas, é que com MCR não é necessário nem o conhecimento nem a inclusão de interferentes no modelo de calibração. Isso possibilita alcançar vantagem de segunda ordem48 (possibilidade de quantificar o analito na presença de interferentes mesmo que esses interferentes não estejam presentes na etapa de calibração) em dados de primeira ordem. 49,50 Outra vantagem bastante significativa é a possibilidade de se utilizar uma quantidade reduzida de amostras de calibração. Além disso, como a regressão é feita a partir do perfil de concentração relativa (referente ao analito de interesse) recuperado pelo MCR em função dos valores de concentração conhecidos, o modelo assume uma forma matemática mais simples e é considerado pseudo univariado. Com isso o método proporciona outra vantagem para a quantificação, já que as figuras de mérito podem ser calculadas como na calibração univariada e, portanto, de forma muito mais simples do que na calibração multivariada convencional, dispensando o cálculo do sinal analítico líquido (NAS, do inglês Net Analyte Signal). 51,52

APLICAÇÕES E AVANÇOS RECENTES

Em geral observa-se que o MCR é uma ferramenta que pode auxiliar no tratamento e interpretação de dados provenientes de análises mais simples, tais como fotodegradações monitoradas por espectrofotometria na região UV-Vis,13 como análises de dados mais complexos (provenientes de equipamentos hifenados). 5,53,54

O MCR foi inicialmente utilizado para análises de processos55,56 ou, usando uma expressão mais geral, para sistemas evolutivos multicomponentes. Exemplos típicos de MCR variam desde o monitoramento de reação em escala de laboratório57 ou em escala industrial55,58 com muitos tipos de equipamentos hifenados56,59, como análises por cromatografia5,53 e análises por injeção em fluxo. 60-62 Estas aplicações ainda constituem os campos mais comuns de uso de MCR. Com o progresso em instrumentação analítica os processos tendem a ser monitorados por estratégias multitécnicas2,5 (vindo de instrumentos multi respostas ou de medidas separadas) obtendo-se assim conjuntos de dados provenientes de multi batelas ou de muitos experimentos. Estas estratégias têm melhorado grandemente o entendimento de processos complexos, como aqueles envolvendo biomoléculas. 63,64

A espectroscopia de imagem36,65 tem emergido na última década como uma medida experimental muito poderosa devido à obtenção de informação sobre o perfil da composição de uma amostra sólida ao longo de sua superfície. Nesta técnica, a região de interesse da superfície de uma amostra é dividida em sub-regiões regulares denominadas pixels, cujas posições são definidas no plano xy, que conterão suas respectivas medidas espectroscópicas (e.g. espectros de infravermelho próximo, raman, massas, etc). Compostos que se encontram na superfície podem ser monitorados por meio dos espectros provenientes do cubo espectral (x x y x variável espectral), e a meta da análise dos dados é fornecer mapas confiáveis de distribuição e caracterização dos compostos puros na amostra. Esse tipo de problema pode ser resolvido com grande êxito com a aplicação de MCR, desde que a variação dos dados da imagem responda ao modelo bilinear que descreve qualquer espectro em um pixel na imagem como combinação linear da contribuição do sinal de seus componentes. Utilizar um cubo de dados de imagem para análise por MCR requer somente o desdobramento do mesmo em uma matriz que contenha todos os espectros dos pixels. Depois da análise de resolução, os espectros puros dos constituintes são recuperados bem como seus mapas de distribuição puros relacionados, uma vez que os perfis em C são dobrados de volta para recuperar a estrutura espacial da imagem original (Figura 4). A resolução de imagem por MCR tem ganhado relevância durante os últimos anos36,65,66 e os esforços estão agora focados no uso da informação espacial, vinda de métodos exploratórios baseados na análise de posto local das áreas da imagem ou da aplicação de ferramentas de classificação de pixels, sob a forma de restrições específicas para imagem. Atualmente a área farmacêutica concentra grande parte das aplicações de espectroscopia de imagem para a caracterização química da distribuição de fármacos e excipientes em diversas formulações sólidas de medicamentos. Neste contexto, a utilização de MCR-ALS já se consolida como uma estratégia de destaque para a resolução dos mapas de concentração dos constituintes em amostras farmacêuticas, uma vez que estimativas iniciais dos espectros puros podem ser obtidas diretamente dos dados (através de loadings de PCA, SIMPLISMA, e outros)29,67 ou, no caso em que os espectros puros de todos os constituintes da amostra serem previamente conhecidos, a otimização de C e ST geralmente resulta em mapas de concentração de maior confiabilidade analítica. 68,69


Os perfis de concentração relativa da forma polimórfica III do fármaco Carbamazepina (CBZ) e dos principais excipientes (Celulose microscristalina, Copovidona e Croscarmelose sódica) em uma formulação de comprimido foi resolvido por meio de medidas de espectroscopia de imagem no infravermelho próximo (NIR, do inglês Near InfraRed) seguido do tratamento dos dados por MCR-ALS. 70 Os espectros puros de cada uma das espécies químicas da formulação foram utilizados como estivas iniciais de ST e as restrições empregadas no processo de otimização foram não negatividades em C e ST além do closure (uma vez que o número total de espécies químicas na amostra era previamente conhecido). Os mapas de concentração dos compostos resolvidos pelo MCR-ALS no comprimido, assim como os espectros puros recuperados, estão ilustrados na Figura 5. 70


A caracterização de formas farmacêuticas por imagem química e MCR-ALS a partir de dados de espectroscopia Raman também é explorada na literatura,71,72 sendo inclusive utilizada a espectroscopia Raman amplificada por superfície (do inglês SERS) para os casos em que a concentração do fármaco em certas formulações é muito pequena. 73

Dados biológicos também fazem parte de um campo relevante de aplicação de MCR. Esse método tem sido aplicado para a análise e interpretação de processos biológicos, tais como o desdobramento de proteínas63,74 ou interações de drogas com o DNA. 64 Para sistemas biológicos nos quais nenhum modelo físico-químico geral está disponível, o MCR encontra uma nova área de desafio no tratamento de dados ômicos (genômica, proteômica, metabolômica e afins).

Desde 2010, muitos avanços significativos nos modos de resolução do MCR-ALS foram implementados. Dentre os avanços recentes, merecem destaque os métodos utilizados para medida das incertezas, o chamado MLMCR (Maximum Likelihood Multivariate Curve Resolution)75 e o MCR-WALS (Multivariate Curve Resolution Weighted Alternating Least Squares),74 que faz a medida da incerteza para cada resposta oferecida após a execução de uma operação de mínimos quadrados. Merecem destaque ainda o método MCR-BANDS,33 que calcula a extensão da ambiguidade rotacional, e o emprego do MCR-ALS para quantificação. 51 O avanço mais recente de destaque notável é a possibilidade de aplicação do MCR-ALS em conjuntos de dados nos quais existem informações faltantes. 76 Tal método permite inclusive a comparação de conjuntos de dados obtidos em diferentes equipamentos pelo ajuste das variáveis faltantes.

De um modo geral, o método de Resolução Multivariada de Curvas com Mínimos Quadrados Alternantes é uma ferramenta que vem apresentando excelentes resultados em diversas aplicações. Assim como a complexidade dos dados obtidos por diferentes equipamentos vem aumentando, métodos como o MCR-ALS igualmente vêm evoluindo de forma a auxiliar na interpretação das respostas químicas e, consequentemente, colaborando com o avanço da ciência.

CONCLUSÃO

O MCR-ALS é um método quimiométrico de resolução de curvas bastante versátil, podendo ser aplicado em diferentes tipos de dados provenientes de diferentes instrumentos analíticos. O seu funcionamento tem base em um modelo matricial bilinear. Os passos importantes para um bom resultado consistem na estimativa do posto da matriz de dados e no uso de estimativas iniciais apropriadas. A partir disso uma otimização iterativa é realizada por meio de mínimos quadrados alternantes, nas quais restrições podem ser aplicadas visando reduzir ambiguidades rotacionais. A Figura 6 sumariza passo a passo as etapas para a utilização do MCR-ALS.


Na Figura 6(a) a matriz D é formada por dados de primeira ordem (que geram um vetor de resposta instrumental por amostra) e podem ser: espectros UV-Vis, espectros infravermelho médio ou próximo, espectros Raman, espectros de emissão de fluorescência em um comprimento de onda fixo, cromatogramas obtidos a partir de cromatografia gasosa ou líquida de alta eficiência, dados provenientes de dicroísmo circular, voltamogramas, fluorescência de raio-X, etc. Para o tensor D da Figura 6(b) uma matriz de resposta instrumental é obtida para cada amostra (dados de segunda ordem), podendo ser: fluorescência em diferentes comprimentos de onda de excitação e emissão, cromatografia gasosa com detecção por espectrometria de massas, cromatografia líquida com detecção por espectrometria de massas ou UV-DAD, cromatografia gasosa bidimensional com detector de ionização em chama, etc. Por fim, o arranjo da Figura 6 (c) é obtido a partir de espectroscopia de imagens no infravermelho próximo ou Raman, etc.

Desta forma, a partir das variedades de aplicações observadas, conclui-se também que se trata de um método que, além de versátil, é bastante eficaz para diversas aplicações.

Recebido em 05/02/2014

aceito em 27/05/2014

publicado na web em 22/07/2014

  • 1. Scarminio, I. S.; Ishikawa, D. N.; Barreto, W. J.; Paczkowski, E. L.; Arruda, I. C.; Quim. Nova 1998, 21, 590.
  • 2. Malik, A.; Tauler, R.; Anal. Chim. Acta 2013, 794, 20.
  • 3. de Juan, A.; Tauler, R.; Crit. Rev. Anal. Chem. 2006, 36, 163.
  • 4. Tauler, R.; Chemom. Intell. Lab. Syst. 1995, 30, 133.
  • 5. Parastar, H.; Tauler, R.; Anal. Chem. 2014, 86, 286.
  • 6. Otto, M.; Chemometrics,Wiley:Weinheim, 1999.
  • 7. Vandeginste, B. G. M.; Derks, W.; Kateman, G.; Anal. Chim. Acta 1985, 173, 253.
  • 8. Jaumot, J.; Gargallo, R.; de Juan, A.; Tauler, R.; Chemom. Intell. Lab. Syst. 2005, 76, 101.
  • 9. Manne, R.; Grande, B. V.; Chemom. Intell. Lab. Syst. 2000, 50, 35.
  • 10. Malinowski, E. R.; Factor Analysis in Chemistry, 3rd ed., Wiley: New York, 2002.
  • 11. Xu, C.J.; Gourvénec, S.; Liang, Y. Z.; Massart, D.L.; Anal. Chim. Acta 2006, 575, 1.
  • 12. Mendieta, J.; Díaz-Cruz, M. S.; Esteban, M.; Tauler, R.; Biophys. J. 1998, 74, 2876.
  • 13. Março, P. H.; Poppi, R. J.; Scarminio, I. S.; Tauler, R.; Food Chem 2011, 125, 1020.
  • 14. Tauler, R.; Smilde, A.; Kowalski, B.; J. Chemom. 1995, 9, 31.
  • 15. Boeris, V.; Arancibia, J. A.; Olivieri, A. C.; Anal. Chim. Acta 2014, 814, 23.
  • 16. de Juan, A.; Navea, S.; Diewok, J.; Tauler, R.; Chemom. Intell. Lab. Syst. 2004, 70, 11.
  • 17. Xia, A-L.; Wu, H. L.; Zhang, Y; Zhu, S. H.; Han, Q. J.; Yu, R. Q.; Anal. Chim. Acta 2007, 598, 1.
  • 18. Linder, M.; Sundberg, R.; Chemom. Intell. Lab. Syst. 1998, 42, 159.
  • 19. Milford, D.; Sandell, M.; Signal Process 2014, 102, 163.
  • 20. Wold, S.; Esbensen, K.; Geladi, P.; Chemom. Intell. Lab. Syst. 1987, 2, 37.
  • 21. Valderrama, P.; Março, P. H.; Locquet, N.; Ammari, F.; Rutledge, D.N.; Chemom. Intell. Lab. Syst. 2011, 106, 166.
  • 22. Esteban, M.; Ariño, C.; Díaz-Cruz, J. M.; Díaz-Cruz, M. S.; Tauler, R.; TrAC, Trends Anal. Chem. 2000, 19, 49.
  • 23. Gampp, H.; Maeder, M.; Meyer, C. J.; Zuberbühler, A. D.; Talanta 1986, 33, 943.
  • 24. Windig, W.; Gallagher, N. B.; Shaver, J. M.; Wise, B. M.; Chemom. Intell. Lab. Syst. 2005, 77, 85.
  • 25. Cao, L.; Harrington, P. B.; Liu, J.; Anal. Chem. 2005, 77, 2575.
  • 26. Gallagher, N. B.; Shaver, J. M.; Martin, E. B.; Morris, J.; Wise, B. M.; Windig, W.; Chemom. Intell. Lab. Syst. 2004, 73, 105.
  • 27. Windig, W.; Gallagher, N. B.; Shaver, J. M.; Wise, B. M.; Chemom. Intell. Lab. Syst. 2005, 77, 85.
  • 28. Windig, W.; Two-Way Data Analysis: Detection of Purest Variables: Reference Module in Chemistry, Molecular Sciences and Chemical Engineering, from Comprehensive Chemometrics, p 275, Elsevier: 2009, cap 2.17.
  • 29. Sabin, G. P.; Lozano, V. A.; Rocha, W. F. C.; Romão, W.; Ortiz, R. S.; Poppi, R. J.; J. Pharm. Biomed. Anal. 2013, 85, 207.
  • 30. Gonçalves, R. P.; Valderrama, L.; Rutledge, D. N.; Março, P. H.; Valderrama, P.; Resumos do Chimiométrie 2013, Brest, France, 2013.
  • 31. Jayaraman, A.; Mas, S.; Tauler, R.; de Juan, A.; J. Chromatogr. B 2012, 910, 138.
  • 32. Abdollahi, H.; Tauler, R.; Chemom. Intell. Lab. Syst. 2011, 108, 100.
  • 33. Jaumot, J.; Tauler, R.; Chemom. Intell. Lab. Syst 2010, 103, 96.
  • 34. Oliveira, R. R.; Lima, K. M. G; Tauler, R.; de Juan, A.; Talanta 2014, 125, 233.
  • 35. Leger, M. N.; Wentzell, P. D.; Chemom. Intell. Lab. Syst. 2002, 62, 171.
  • 36. Zhang, X.; Tauler, R.; Anal. Chim. Acta 2013, 762, 25.
  • 37. Lawton, W. H.; Sylvestr E. A.; Technometrics 1971, 13, 617.
  • 38. Borgen, O. S.; Kowalski, B. R.; Anal. Chim. Acta 1985, 174, 1.
  • 39. Carvalho, A. R.; Wattoom, J.; Zhu, L. F.; Brereton, R. G.; Analyst 2006, 131, 90.
  • 40. Amigo, J. M.; de Juan, A.; Coello, J.; Maspoch, S.; Anal. Chim. Acta 2006, 567, 236.
  • 41. Díaz-Cruz, J. M.; Agulló, J.; Díaz-Cruz, M. S.; Ariño, C.; Esteban, M.; Tauler, R.; Analyst 2001, 126, 371.
  • 42. López, M. J.; Ariño, C.; Díaz-Cruz, S.; Díaz-Cruz, J. M.; Tauler, R.; Esteban, M.; Environ. Sci. Technol. 2003, 37, 5609.
  • 43. Huo, R.; Wehrens, R.; Buydens, L. M. C.; J. Magn. Reson. 2004, 169, 257.
  • 44. Bianchini, R. M.; Kaufman, T. S.; Int. J. Chem. Kinet 2013, 11, 734.
  • 45. Fu, H. -Y.; Wu, H. -L.; Yu, Y. -J.; Yu, Li-Li; Zhang, S. -R.; Nie, J. -F.; Li, S. -F.; Yu, R. -Q.; J. Chemom. 2011, 25, 408.
  • 46. Malik, A.; Tauler, R.; Chemom. Intell. Lab. Syst. 2014, In Press
  • 47. Ruckebusch, C.; de Juan, A.; Duponchel, L.; Huvenne, J. P.; Chemom. Intell. Lab. Syst. 2006, 80, 209.
  • 48. Booksh, K. S.; Kowalski, B. R.; Anal. Chem. 1994, 66, 782A.
  • 49. López, M. B. M.; Tese de Doutorado, Universidade Estadual de Campinas, Brasil, 2013.
  • 50. Mohseni, N.; Bahram, M.; Olivieri, A. C.; Spectrochim Acta A 2014, 122, 721.
  • 51. Goicoechea, H. C.; Olivieri, A. C.; Tauler, R.; Analyst 2010, 135, 636.
  • 52. Rodríguez-Cuesta, M. J.; Boqué, R.; Rius, F. X.; Martínez Vidal, J. L.; Garrido Frenich, G.; Chemom. Intell. Lab. Syst. 2005, 77, 251.
  • 53. Vosough, M.; Esfahani, H. M.; Talanta 2013, 113, 68.
  • 54. Schiozer, A. L.; Março, P. H.; Barata, L. E. S.; Poppi, R. J.; Anal. Lett. 2008, 41, 1592.
  • 55. Tauler, R.; Kowalski, B.; Fleming, S.; Anal. Chem. 1993, 65, 2040.
  • 56. Tauler, R.; Barceló, D.; TrAC, Trends Anal. Chem. 1993, 12, 319.
  • 57. Garrido, M.; Lázaro, I.; Larrechi, M. S.; Rius, F. X.; Anal. Chim. Acta 2004, 515, 65.
  • 58. Van Sprang, E. N. M.; Ramaker, H. J.; Westerhuis, J. A.; Smilde, A. K.; Gurden, S. P.; Wienke, D.; Appl. Spectrosc. 2003, 57, 1007.
  • 59. Van Zomeren, P. V.; Hoogvorst, A.; Coenegracht, P. M. J.; de Jong, G. J.; Analyst 2004, 129, 241.
  • 60. Carneiro, R. L.; Braga, J. W. B.; Poppi, R. J.; Tauler, R.; Analyst 2008, 133, 774.
  • 61. Alcaráz, M. R.; Schenone, A. V.; Culzoni, M. J.; Goicoechea, H. C.; Microchem. J. 2014, 112, 25.
  • 62. Março, P. H.; Tese de Doutorado, Universidade Estadual de Campinas, Brasil, 2009.
  • 63. Wang, Y.; Ni, Y.; Analyst 2014, 139, 416.
  • 64. Zhang, Y.; Zhang, G.; Zhou, X.; Li, Y.; Anal. Bioanal. Chem. 2013, 405, 8871.
  • 65. Carneiro, R. L.; Poppi, R. J.; Spectrochim Acta A 2014, 118, 215.
  • 66. Piqueras, S.; Duponchel, L.; Tauler, R.; de Juan, A.; Anal. Chim. Acta 2014, 819, 15.
  • 67. de Juan, A.; Tauler, R.; Dyson, R.; Marcolli, C.; Rault, M.; Maeder, M.; TrAC Trend. Anal. Chem. 2004, 23, 70.
  • 68. Amigo, J. M.; Ravn, C.; Eur. J. Pharm. Sci. 2009, 37, 76.
  • 69. Cruz, J.; Blanco, M.; J. Pharm. Biom. Anal. 2011, 56, 408.
  • 70. Terra, L. A.; Poppi, R. J.; Chemom. Intell. Lab. Syst. 2014, 130, 91.
  • 71. Vajna, B.; Pataki, H.; Nagy, Z.; Farkas, I.; Marosi, G.; Int. J. Pharm. 2011, 419, 107.
  • 72. Vajna, B.; Patyi, G.; Nagy, Z.; Bodis, A.; Farkas, A.; Marosi, G.; J. Raman Spectr. 2011, 42, 1977.
  • 73. Firkala, T.; Farkas, A.; Vajna, B.; Farkas, I.; Marosi, G.; J. Pharm. Biom. Anal. 2013, 76, 145.
  • 74. Wang, Y.; Ni, Y.; Talanta. 2014, 119, 320.
  • 75. Dadashi, M.; Abdollahi, H.; Tauler, R.; Chemom. Intell. Lab. Syst. 2012, 118, 33.
  • 76. Alier, M.; Tauler, R.; Chemom. Intell. Lab. Syst. 2013, 127, 17.
  • *
    e-mail:
  • Datas de Publicação

    • Publicação nesta coleção
      24 Out 2014
    • Data do Fascículo
      2014

    Histórico

    • Aceito
      27 Maio 2014
    • Recebido
      05 Fev 2014
    Sociedade Brasileira de Química Secretaria Executiva, Av. Prof. Lineu Prestes, 748 - bloco 3 - Superior, 05508-000 São Paulo SP - Brazil, C.P. 26.037 - 05599-970, Tel.: +55 11 3032.2299, Fax: +55 11 3814.3602 - São Paulo - SP - Brazil
    E-mail: quimicanova@sbq.org.br