Acessibilidade / Reportar erro

TOP - um programa de cálculo de descritores topológicos para uso em correlações entre estrutura e atividade

TOP -- a software for calculation of topological descriptors to be used in structure - activity relationships

Resumo

A computational interface, using sybyl format as an input file, was created in order to calculate connectivity indexes. After generation and classification of all substructures, which derive from the molecular structure, this interface calculates all possible orders from zero up to the maximun number of bonds in the molecule. Other topological indexes such as Wiener and Schultz indexes can also be calculated.

topological index; connectivity index; QSAR


topological index; connectivity index; QSAR

ARTIGO

TOP - um programa de cálculo de descritores topológicos para uso em correlações entre estrutura e atividade1

Porfírio Jesus das Nevesa, João Batista Neves da Costab e Papa Matar Ndiyae

Departamento de Química - Instituto de Ciências Exatas - UFRRJ

José Walkimar de Mesquita Carneiroc

Departamento de Química Geral e Inorgânica - Instituto de Química ¾ UFF

Recebido em 24/7/97; aceito em 13/4/98

aporfirio@ufrrj.br;bdacosta@ufrrj.br;cgqijose@vm.uff.br

TOP ¾ a software for calculation of topological descriptors to be used in structure - activity relationships. A computational interface, using sybyl format as an input file, was created in order to calculate connectivity indexes. After generation and classification of all substructures, which derive from the molecular structure, this interface calculates all possible orders from zero up to the maximun number of bonds in the molecule. Other topological indexes such as Wiener and Schultz indexes can also be calculated.

Keywords: topological index; connectivity index; QSAR.

INTRODUÇÃO

Métodos para obtenção de correlações quantitativas entre estrutura molecular e atividade(QSAR) e/ou propriedades (QSPR) baseiam-se em três hipóteses básicas. A primeira é que a estrutura de uma molécula, quer nos aspectos estéricos quer nos aspectos eletrônicos, deve conter as informações responsáveis por suas propriedades físicas, químicas ou biológicas. A segunda hipótese é que estas informações podem ser representadas de forma quantitativa por parâmetros numéricos para a atividade e/ou propriedade. Por fim, a possível correlação entre a estrutura molecular e a atividade/propriedade que se quer otimizar deve ser expressa em termos de relações matemáticas simples que permitam ao mesmo tempo fazer previsões de atividade/propriedade para sistemas análogos e, mais importante, permitam uma interpretação do processo em termos químicos2. A essência dos métodos QSAR é, portanto, transformar a estrutura química de um composto em uma série de descritores numéricos que representem as características mais relevantes para uma dada atividade/propriedade e, adicionalmente, estabelecer relações quantitativas entre os descritores e a atividade/propriedade que se quer otimizar.

A possibilidade de que a atividade e/ou propriedade seja uma função da estrutura molecular é uma hipótese intuitiva e vastamente discutida3. A segunda hipótese acima, qual seja, que a estrutura de uma molécula seja representada quantitativamente por descritores é menos intuitiva e também de ampla discussão4. Existe uma variedade de procedimentos para representar estrutura em termos de descritores, os quais, em maior ou menor grau, contêm as propriedades relevantes da estrutura molecular. Dentre as várias metodologias disponíveis para representação de estrutura molecular em termos de parâmetros numéricos, uma que merece destaque é a que procura representar uma molécula em termos de informações contidas em sua estrutura bidimensional, essencialmente aquelas relacionadas à conectividade atômica que dão origem à estrutura molecular. Estes parâmetros são conhecidos de uma forma geral como índices topológicos5.

Índices topológicos têm encontrado considerável sucesso na previsão de uma grande variedade de propriedades físicas, químicas ou biológicas5. Propriedades tais como calor de vaporização5, calor de formação5,ponto de ebulição6,7, refração molar6,solubilidade7, densidade8, coeficiente de partição9, polaridade, tempo de retenção em cromatografia10,11,etc., têm sido correlacionadas com descritores derivados dos índices topológicos. Estes índices também vêm sendo empregados na obtenção de correlação com diferentes atividades biológicas, podendo-se citar anestésicas12,13,14, narcóticas4, halucinogênicas15, inibições enzimáticas5,16, bromatológicas17, analgésicas18, anticonvulsivantes19, etc.

O cálculo de uma série de descritores topológicos para um conjunto de moléculas é, do ponto de vista matemático, consideravelmente simples, contudo, pode tornar-se uma tarefa laboriosa e com grande chance de erro se aplicada manualmente a um grande número de moléculas, principalmente quando estas possuem estrutura complexa. O emprego de metodologias computacionais é portanto recomendável não apenas pela redução no tempo necessário para tratar um determinado número de moléculas, mas principalmente, por evitar a chance de erro na obtenção dos descritores. Embora algumas metodologias computacionais para o cálculo de descritores topológicos tenham sido descritas na literatura, estas não são gerais e nem sempre são de fácil acesso20,21. O presente trabalho apresenta uma metodologia simples, de fácil emprego pelo usuário e de aplicação generalizada para cálculo de descritores topológicos, principalmente aqueles desenvolvidos por Kier e Hall4,5, conhecidos como índices de conectividade molecular.

TEORIA DOS ÍNDICES TOPOLÓGICOS

Os índices topológicos baseados na conectividade molecular são de três tipos: índices chi de conectividade molecular, mc, que caracterizam atributos estruturais da molécula; índices kappa de forma molecular, mk, e os valores de equivalência topológica T, que caracterizam átomos e grupos no esqueleto molecular e que são usados essencialmente para determinar átomos quimicamente equivalentes dentro de uma molécula4,5. Outros tipos de índices também merecem destaque, podendo-se citar, por exemplo, os índices eletrotopológicos22.

A análise da estrutura molecular do ponto de vista da conectividade começa pela adoção de uma representação apropriada para esta estrutura. Esta representação é baseada no esqueleto molecular, o qual contém a rede de ligações químicas, incluindo os átomos e as conexões entre eles. Tal representação é chamada de gráfico molecular. Este por sua vez é constituído de vértices, representados pelos átomos, e lados, representados pelas ligações. A série de átomos e conexões, no gráfico molecular, contém informação estrutural a qual deve ser transformada em um índice numérico que pode ser usado para representar a estrutura molecular. Os índices devem contemplar principalmente os elementos que são variáveis com a estrutura.

O menor nível de informação estrutural em um gráfico molecular é simplesmente o número de vértices. Obviamente este é um índice com baixíssimo conteúdo de informação. Outros índices com maior grau de informação podem ser abstraídos a partir do gráfico molecular. Índices que representam simplesmente o número de lados (índice de Wiener) ou o número de pares de lados adjacentes (índice de Platt23) em um gráfico molecular são exemplos de índices simples mas que podem fornecer interessantes correlações com uma série de propriedades. O avanço natural é no sentido de desenvolver índices que incluam maior quantidade de informação estrutural. Neste sentido, Randic introduziu o conceito de grau de vértice, d, o qual, para um dado vértice, é definido como o número de vértices vizinhos24. Por exemplo, o grupo metila possui apenas um vizinho, portanto d = 1; um grupo metileno tem dois vizinhos, d = 2, e daí por diante. Randic também propôs um peso para o lado entre os vértices i e j, definindo-o por (di.dj)-1/2 . A partir deste ponto pode-se definir um índice de ramificação como a soma dos pesos dos lados, para todos os lados em um gráfico molecular, (S(di.dj)-1/2 ).

Expressando matematicamente, cada lado entre os vértices i e j é caracterizado por um número definido como:

(1)

onde Ci jé o peso entre os vértices i e j e di é o grau do vértice i.

O índice de ramificação ou de conectividade molecular, c é obtido fazendo-se a soma de todos os Ci j.

(2)

A generalização do índice de Randic foi feita por Kier e Hall. Estes definiram o índice c em várias ordens, mc, em função do número de lados considerados em cada caso, como pode ser mostrado pelas equações a seguir:

(3)

(4)

(5)

Segundo Kier e Hall o índice c, em cada ordem, representa uma característica distinta da estrutura molecular. Para ordens maiores que 2 foram definidos novos índices de conectividade que levam em consideração os tipos de subestruturas consideradas. Desta forma, pode-se ter sequências do tipo linha(cL), ramo(cR), linha/ramo(cLR) ou anel(cA), dependendo da molécula apresentar ramificações ou ciclos, como exemplificadas no esquema 1.

Os índices de conectividades, como definidos acima, não conseguem distinguir entre diferentes átomos nem entre diferentes hibridizações. Por exemplo, o p-nitrotolueno (a) e o limoneno (b) apresentam o mesmo gráfico molecular (c) e portanto índices de conectividades iguais (Figura 1).


Para corrigir estas deficiências Kier e Hall sugeriram a definição do grau de vértice (d) não mais em função do número de lados vizinhos ao vértice mas em função da valência do átomo representado pelo vértice25. Desta forma o grau de vértice é definido por:

onde:

Zvi = número de elétrons de valência do átomo i;

hi = número de átomos de hidrogênios ligados ao átomo i; e

Zi = número atômico do átomo i.

A relação acima leva a uma definição equivalente à anterior para carbonos saturados, mas distingue claramente a presença de insaturações ou de heteroátomos (Figura 2).


Com base no grau de vértice dv, calcula-se o índice de conectividade de valência de várias ordens, mcv, de forma similar à definida anteriormente, conforme mostrados nas equações 3, 4 e 5.

As relações expressas acima definem o cálculo dos índices de conectividade conforme desenvolvido por Kier e Hall7,8. No presente trabalho outros índices, o índice de Wiener e o índice de Schultz26 foram também incluídos. Estes são calculados de forma simples. O índice de Wiener é definido como a soma das menores distâncias entre todos os vértices em um gráfico molecular e é calculado a partir da matriz de distâncias como a soma de todos os elementos ai j /2.

O índice de Schultz (Molecular Topological Index-MTI) é definido como:

onde, ei (i = 1, 2, ...N) são os elementos da matriz de ordem N n.[A + D] = [e1, e2 ...eN ], onde A é a matriz adjacência (N x N), D é a matriz distância (N x N) e n a matriz grau de vértice (1 x N). n é obtida pela soma das colunas ou linhas da matriz adjacência.

METODOLOGIA

A motivação para o presente trabalho foi o desenvolvimento de uma interface computacional capaz de calcular índices de conectividade de todas as ordens e, o maior espectro possível, de outros índices topológicos, a partir de informações elementares e facilmente acessíveis sobre estrutura molecular.

Atualmente existem vários pacotes computacionais que geram estruturas moleculares bidimensionais com relativa simplicidade. A partir da estrutura gerada no terminal de um computador, pode-se obter diferentes tipos de formatos de entrada de gráficos moleculares, de programas tais como: MOPAC, PCModel, alchemy, gaussian, etc. Dentre estes formatos, o que se mostrou mais adequado para o presente trabalho foi o formato sybyl, gerado pelo PCModel27, que traz informações sobre número e tipo de átomos, coordenadas cartesianas e conectividades.

O primeiro passo é a leitura de arquivos no formato sybyl (Esquema 2), gerado por programa de computador que desenha a estrutura molecular32. A partir da leitura armazenam-se as informações relativas aos elementos químicos e suas conectividades (ligações químicas) e compõe-se as matrizes e os vetores computacionais, estabelecendo-se os procedimentos lógicos de cálculo, independente do tipo de estrutura, cíclica ou acíclica.

Priorizou-se nesta etapa o desenvolvimento de uma sequência de programa (Figura 3) e os algoritmos necessários para esta implementação, independentemente da linguagem que fora utilizada (Clipper).

O arquivo de formato sybyl (*.mol) para a molécula do p-nitrotolueno, tomada como exemplo para demonstrar as várias etapas do código, é mostrado no Esquema 2 e os dados em negrito são aqueles usados como entrada para construção de uma matriz de conectividade no padrão da matriz Z, complementada por uma matriz ciclos (linha hachurada) , quando for o caso, que indica a ligação responsável pelo fechamento de cada anel, sendo que o tamanho desta matriz é variável conforme o número de anéis na estrutura (Figura 4).


A partir destas matrizes são compostas as matrizes distâncias, adjacências, ligações adjacentes e grau de vértice.

A matriz adjacências é simétrica e indica os vértices que são conectados ou não (ligações). A matriz grau de vértice é obtida a partir da soma das colunas ou das linhas da matriz adjacências. A matriz distâncias também é uma matriz simétrica contendo a menor distância entre todos os pares de vértices. A matriz ligações adjacentes é obtida com base na matriz adjacências e é composta de 8 colunas, sendo as duas primeiras para o número dos átomos da ligação e as demais para o número das ligações adjacentes à mesma, partindo do princípio que cada ligação tem no máximo 6 ligações adjacentes.

Exemplos destas matrizes para a molécula do p-nitrotolueno são mostrados na Figura 4.

A etapa seguinte no código é a geração de todas as subestruturas de ordem 1 até n, onde n é o número de linhas da matriz ligações adjacentes. Cada subestrutura de ordem m gera novas subestruturas de ordem m+1, iniciando com as ligações unitárias, a partir da matriz ligações adjacentes. Em cada sequência de ordem m são pesquisadas ligações adjacentes para todas as ligações que a compõe, garantindo assim, todas as possibilidades de combinações para qualquer tipo de gráfico molecular, sendo que as combinações com ligações repetidas são eliminadas, bem como as combinações idênticas (Esquema 3).

Em uma etapa subsequente cada subestrutura é classificada como sendo do tipo linha (cL), ramo (cR), linha-ramo (cLR) e anel (cA).

Simultaneamente à classificação, são calculados os índices de conectividade (nc) e de conectividade de valência (ncv) com base nas equações descritas anteriormente. Os índices de Wiener e de Schultz são calculados diretamente das matrizes distâncias e adjacências, respectivamente, sendo todos os valores acumulados numa matriz resultados que é gravada em arquivos texto (TXT) (Esquema 4) e também em arquivos tipo tabela de banco de dados (DBF).

RESULTADOS E DISCUSSÃO

Os resultados do processamento feito com a estrutura do p-nitrotolueno são mostrados no Esquema 4, sendo que o seu gráfico molecular apresenta 93 subestruturas linha, 4 subestruturas ramo, 99 subestruturas linha-ramo e 10 subestruturas anel. O tempo de processamento para esta molécula é de aproximadamente 3 segundos quando calculada em um microcomputador pentium de 150 MHz. Um exemplo de arquivo de saída do programa pode ser visto no Esquema 4.

À medida que o número de átomos na cadeia cresce, o tempo de processamento cresce exponencialmente e isso pode ser verificado com um alcalóide do ergot (Figura 5).


O gráfico molecular correspondente possui 26 vértices com 29 lados, gerando 935.674 subestruturas com ordem de 1 a 29. Para este sistema o tempo de cálculo, no mesmo computador, é de aproximadamente 19 horas.

A metodologia adotada para a geração de todas as subestruturas mostrou-se eficiente para qualquer tipo de gráfico molecular (spiros, anéis condensados e isolados, cubanos, etc.). A depuração dos resultados foi feita passo a passo, verificando-se, manualmente, as possibilidades de combinações de moléculas menores e, no caso da estrutura de um alcalóide do ergot, verificou-se coincidência dos dados com os disponíveis da literatura23 até a ordem 6, sendo o número de combinações das demais ordens aceito como correto por extensão.

Observou-se, também, que os valores numéricos obtidos para os índices de conectividade de maior ordem, podem apresentar uma certa dispersão numérica devido ao valor individual de cada sequência ser muito pequeno, de tal modo que, mesmo ocorrendo um grande número de combinações, numa dada ordem, o somatório é menor do que 10-4.

AGRADECIMENTOS

Ao CNPq pelo auxílio financeiro e concessão de bolsa de iniciação científica e à FAPERJ pela concessão de bolsa de iniciação científica.

REFERÊNCIAS

1. Encontra-se à disposição de pesquisadores em QSAR uma versão do arquivo executável que poderá ser transferido via e-mail. (porfirio@ufrrj.br ou dacosta@ufrrj.br)

2. Martin, Y. C.; J. Med. Chem. 1981, 24, 229.

3. B. Testa, L. B. Kier; in Reviews in Computational Chemistry, K. B. Lipkowitz, D. B. Boyd, Ed., VCH, New York 1991.

5. L. B. Kier, L. H. Hall, Molecular Connectivity in Chemistry and Drug Research, Academi Press, New York 1976.

6. Kier, L. B., Hall, L. H.; J. Pharm. Sci. 65 1976, 1806.

7. Kier, L. B., Hall, L. H.; Murray, W. J.; J. Pharm. Sci. 1975, 64, 1974.

8. Kier, L. B., Hall, L. H., Murray, W. J.; J. Pharm. Sci. 1976, 65, 1226.

9. Murray, W. J., Kier, L. B., Hall, L. H.; J. Pharm. Sci. 1975, 64, 1978.

10. Kier, L. B., Hall, L. H.; J. Pharm. Sci. 1981, 70, 930.

11. Sabljic, A.; J. Chromatogr. 1985, 319.

12. Randic, M.; J. Chromatgr. 1978, 1, 161.

13. Kier, L. B., Hall, L. H., Murray, W. J.; J. Chromatogr. 1975, 64, 1971.

14. Di Paolo, T.; J. Pharm. Sci. 1978, 67, 564.

15. Di Paolo, T.; J. Pharm. Sci. 1979, 68, 39.

16. Kier, L. B., Hall, L. H.; J. Med. Chem. 1977, 20, 1631.

17. Richard, A. J., Kier, L. B.; J. Pharm, Sci. 1981, 69, 124.

18. Kier, L. B.; J. Pharm. Sci. 1980, 69, 416.

19. Domenech, R. G., March, F. J. G., Soler, R. M.; Quant. Struct.-Act. Relat. 1996, 15, 201.

20. Dang, P., Madan, A. K.; J. Chem. Inf. Comput., Sci. 1994, 34, 1162.

21. Seybold, P. G., May, M., Bagal, U. A.; J. Chem. Educ. 1987, 64, 575

22. Sabljic, A., Horvatic, D.; J. Chem. Inf. Comput. Sci. 1993, 33, 292.

23. Takeuchi, K., Kuroda, C., Ishida, M.; J. Comput. Chem. 1989, 10, 380.

24. Bersuker, I. B, Dimoglo, K. B., Lipkowitz, D. B. Boyd, A. S.; in Reviews in Computational Chemistry, Ed. VCH, N.Y. 1991.

25. a) Wiener, H.; J. Am. Chem. Soc. 1947, 69, 17. b) Wiener, H.; J. Am. Chem. Soc. 1947, 69, 2636. c) Wiener, H.; J. Chem Phys. 1947, 15, 766. d) Wiener, H.; J. Chem Phys. 1948, 52, 1082.

26. Platt, J. R.; J. Phys. Chem. 1952, 56, 328.

27. a) Randic, M.; J. Am. Chem. Soc. 1975, 97, 6609. b) Randic, M., Wilkins, C. L.; Chem. Phys. Lett. 1979, 63, 332.

28. Kier, L. B., Hall, L. H.; Molecular Connectivity in Structure-Activity Analysis, Reserch Studies Press, Letchworth, England, 1986.

29. Kier, L. B., Hall, L. H.; J. Pharm. Sci. 1983, 72, 1170.

30. a) Schultz, H. P.; J. Chem. Inf. Comput. Sci. 1989, 29, 227. b) Nikolic, S., Trinajstic, N., Mihalic, Z.; J. Mathem. Chem. 1993, 12, 252.

31. a) Dewar, M. J. S., Thiel, W.; J. Am. Chem. Soc. 1977, 15, 4899. b) Clark, T.; A Handbook of Computational Chemistry. A pratical Guide to Chemical Structure and Energy Calculation, Willey-Interscience, N.Y. 1985.

32. PCModel versão 4.0 - Serena Software.

33. Formato de arquivo gerado pelo PCModel versão 4.0.

  • 2. Martin, Y. C.; J. Med. Chem. 1981, 24, 229.
  • 3. B. Testa, L. B. Kier; in Reviews in Computational Chemistry, K. B. Lipkowitz, D. B. Boyd, Ed., VCH, New York 1991
  • 5. L. B. Kier, L. H. Hall, Molecular Connectivity in Chemistry and Drug Research, Academi Press, New York 1976
  • 6. Kier, L. B., Hall, L. H.; J. Pharm. Sci 65 1976, 1806.
  • 7. Kier, L. B., Hall, L. H.; Murray, W. J.; J. Pharm. Sci 1975, 64, 1974.
  • 8. Kier, L. B., Hall, L. H., Murray, W. J.; J. Pharm. Sci 1976, 65, 1226.
  • 9. Murray, W. J., Kier, L. B., Hall, L. H.; J. Pharm. Sci 1975, 64, 1978.
  • 10. Kier, L. B., Hall, L. H.; J. Pharm. Sci 1981, 70, 930.
  • 11. Sabljic, A.; J. Chromatogr 1985, 319.
  • 12. Randic, M.; J. Chromatgr 1978, 1, 161.
  • 13. Kier, L. B., Hall, L. H., Murray, W. J.; J. Chromatogr 1975, 64, 1971.
  • 14. Di Paolo, T.; J. Pharm. Sci 1978, 67, 564.
  • 15. Di Paolo, T.; J. Pharm. Sci 1979, 68, 39.
  • 16. Kier, L. B., Hall, L. H.; J. Med. Chem 1977, 20, 1631.
  • 17. Richard, A. J., Kier, L. B.; J. Pharm, Sci 1981, 69, 124.
  • 18. Kier, L. B.; J. Pharm. Sci 1980, 69, 416.
  • 19. Domenech, R. G., March, F. J. G., Soler, R. M.; Quant. Struct.-Act. Relat 1996, 15, 201.
  • 20. Dang, P., Madan, A. K.; J. Chem. Inf. Comput., Sci 1994, 34, 1162.
  • 21. Seybold, P. G., May, M., Bagal, U. A.; J. Chem. Educ 1987, 64, 575
  • 22. Sabljic, A., Horvatic, D.; J. Chem. Inf. Comput. Sci 1993, 33, 292.
  • 23. Takeuchi, K., Kuroda, C., Ishida, M.; J. Comput. Chem 1989, 10, 380.
  • 24. Bersuker, I. B, Dimoglo, K. B., Lipkowitz, D. B. Boyd, A. S.; in Reviews in Computational Chemistry, Ed. VCH, N.Y. 1991.
  • 25. a) Wiener, H.; J. Am. Chem. Soc 1947, 69, 17.
  • b) Wiener, H.; J. Am. Chem. Soc 1947, 69, 2636.
  • c) Wiener, H.; J. Chem Phys 1947, 15, 766.
  • d) Wiener, H.; J. Chem Phys 1948, 52, 1082.
  • 26. Platt, J. R.; J. Phys. Chem. 1952, 56, 328.
  • 27. a) Randic, M.; J. Am. Chem. Soc 1975, 97, 6609.
  • b) Randic, M., Wilkins, C. L.; Chem. Phys. Lett 1979, 63, 332.
  • 28. Kier, L. B., Hall, L. H.; Molecular Connectivity in Structure-Activity Analysis, Reserch Studies Press, Letchworth, England, 1986.
  • 29. Kier, L. B., Hall, L. H.; J. Pharm. Sci 1983, 72, 1170.
  • 30. a) Schultz, H. P.; J. Chem. Inf. Comput. Sci 1989, 29, 227.
  • b) Nikolic, S., Trinajstic, N., Mihalic, Z.; J. Mathem. Chem 1993, 12, 252.
  • 31. a) Dewar, M. J. S., Thiel, W.; J. Am. Chem. Soc. 1977, 15, 4899.
  • b) Clark, T.; A Handbook of Computational Chemistry. A pratical Guide to Chemical Structure and Energy Calculation, Willey-Interscience, N.Y. 1985.
  • 32. PCModel versão 4.0 - Serena Software.

Datas de Publicação

  • Publicação nesta coleção
    10 Abr 2001
  • Data do Fascículo
    Nov 1998

Histórico

  • Aceito
    13 Abr 1998
  • Recebido
    24 Jul 1997
Sociedade Brasileira de Química Secretaria Executiva, Av. Prof. Lineu Prestes, 748 - bloco 3 - Superior, 05508-000 São Paulo SP - Brazil, C.P. 26.037 - 05599-970, Tel.: +55 11 3032.2299, Fax: +55 11 3814.3602 - São Paulo - SP - Brazil
E-mail: quimicanova@sbq.org.br