Accessibility / Report Error

Aplicações da teoria da informação à neurociência

Information theory applications in neuroscience

Resumo

Neurônios respondem a estímulos externos emitindo sequências de potenciais de ação (trens de disparos). Desse modo, pode-se dizer que o trem de disparos é a resposta neuronal a um estímulo de entrada. Potenciais de ação são fenômenos do tipo “tudo ou nada”, isto é, um trem de disparos pode ser representado por uma sequência de zeros e uns. No contexto da teoria da informação, pode-se então questionar: quanta informação acerca do estímulo externo o trem de disparos carrega? Ou ainda, quais aspectos do estímulo são codificados pela resposta neuronal? Neste artigo, faz-se uma introdução à teoria da informação em que são apresentados aspectos históricos, conceitos fundamentais da teoria e aplicações à neurociência. A conexão com a neurociência é feita com o uso de demonstrações e discussões de diferentes métodos da teoria da informação. Exemplos são fornecidos com o uso de simulações computacionais de dois modelos de neurônios, o neurônio Poisson e o neurônio integra-e-dispara, e um modelo de rede de autômatos celulares. No ultimo caso, demonstra-se como se pode utilizar medidas da teoria da informação para reconstruir a matriz de conectividade de uma rede. Todos os códigos utilizados para estas simulações foram disponibilizados publicamente na plataforma GitHub, acessíveis pelo url: github.com/ViniciusLima94/ticodigoneural.

Palavras-chave:
teoria da informação; neurociência; simulação computacional; neurônios

Abstract

Neurons respond to external stimuli by emitting sequences of action potentials (spike trains). In this way, one can say that the spike train is the neuronal response to an input stimulus. Action potentials are “all-or-none” phenomena, which means that a spike train can be represented by a sequence of zeros and ones. In the context of information theory, one can then ask: how much information about a given stimulus the spike train conveys? Or rather, what aspects of the stimulus are encoded by the neuronal response? In this article, an introduction to information theory is presented which consists of historical aspects, fundamental concepts of the theory, and applications to neuroscience. The connection to neuroscience is made with the use of demonstrations and discussions of different methods of the theory of information. Examples are given through computer simulations of two neuron models, the Poisson neuron and the integrate-and-fire neuron, and a cellular automata network model. In the latter case, it is shown how one can use information theory measures to retrieve the connectivity matrix of a network. All codes used in the simulations were made publicly available at the GitHub platform and are accessible trough the url: github.com/ViniciusLima94/ticodigoneural.

Keywords:
information theory; neuroscience; computer simulation; neurons

1. Introdução

O sistema nervoso tem como unidade básica o neurônio. Neurônios são células eletricamente excitáveis considerados os principais elementos envolvidos na transmissão de informação pelo cérebro, seja por meio de sinais elétricos ou químicos. Existe uma diferença de potencial elétrico v entre os meios intra- e extracelular de um neurônio, através da membrana plasmática, chamado de potencial de membrana. O potencial de membrana pode ser alterado pela chegada de estímulos externos ao neurônio. Na ausência de estímulos, o potencial de membrana flutua em torno de um valor constante negativo chamado potencial de repouso (vR). Estímulos que levam o potencial de membrana a valores mais positivos são chamados de despolarizantes ou excitatórios; por outro lado, estímulos que levam o potencial de membrana a valores mais negativos são chamados de hiperpolarizantes ou inibitórios. Quando um estímulo despolarizante é capaz de elevar o potencial de membrana acima de uma potencial limiar (vT), ocorre um potencial de ação ou disparo. A existência de um limiar para a ocorrência de um potencial de ação permite a interpretação deste fenômeno como sendo de tipo tudo ou nada1 1 O primeiro a notar isso foi o neurofisiologista inglês Lord Adrian [1]. . Se o estímulo despolarizante for mantido por um longo tempo, o neurônio emite uma sequência de potenciais de ação ou trem de disparos (Fig. 1).

Figura 1
Registro eletrofisiológico in vitro de uma célula piramidal do hipocampo do rato estimulada por uma injeção de corrente constante (I=260 pA) aplicada ao corpo celular (soma), mostrando parte do trem de disparos gerado pela célula. Acima do registro há uma sequência de zeros e uns ilustrando a representação binária da série temporal dos disparos da célula.

Acredita-se que a capacidade de processamento do cérebro é decorrente da interação entre os trens de disparos dos seus bilhões de neurônios, que pode ser entendida como uma espécie de codificação neural[2][2] W. Gerstner, W.M. Kistler, R. Naud e L. Paninski, Neuronal dynamics: From single neurons to networks and models of cognition (Cambridge University Press, Cambridge, 2014).. Neste artigo, o termo “codificação neural” será usado neste sentido2 2 Alguns autores criticam a concepção de código neural. Ver, por exemplo, [3]. . Os estímulos sensoriais são inicialmente codificados em trens de disparos por neurônios sensoriais localizados em estruturas periféricas do sistema nervoso, por exemplo, células da retina ou sensíveis ao tato na pele. Esses disparos propagam-se em direção ao cérebro pelos axônios dos neurônios, fazendo sinapses com outros neurônios e gerando cascatas de trens de disparos que se propagam estimulando mais neurônios, cobrindo vastas regiões cerebrais. A complexa interação entre essa multiplicidade de neurônios codifica as diferentes características dos estímulos (contorno, cor, intensidade, temperatura, cheiro, etc). Conjectura-se que a capacidade de processamento das diferentes características contidas nos sinais sensoriais provêm em parte da capacidade de processamento individual dos neurônios [4[4] P. König, K.E. Andreas e W. Singer, Trends neurosci. 19, 130 (1996).,5[5] B.B. Averbeck, E.L. Peter e A. Pouget, Nat. Rev. Neurosci. 7, 358 (2006).].

Considerando um neurônio isolado, o código neuronal pode ser entendido como a representação da informação de um estímulo aplicado ao neurônio na forma de um trem de disparos [6[6] W. Bialek, F. Rieke, R.D.R. Van Steveninck e D. Warland, Science 252, 1854 (1991). [7] J.J. Eggermont, Neurosci. Biobehav. R. 22, 355 (1998). [8] F. Rieke, D. Warland, R.D.R. Van Steveninck e W. Bialek, Spikes: exploring the neural code (MIT press, Cambridge, 1999). [9] L. Paninski, Neural. Comput. 15, 1191 (2003).-10[10] C. Laing e J.L. Gabriel, Stochastic methods in neuroscience (Oxford University Press, Oxford, 2010).]. Há várias hipóteses que concordam entre si que o potencial de ação é o principal meio de transmissão de informação pelo cérebro [11][11] B. Naundorf, F. Wolf e M. Volgushev, Nature 440, 1060 (2006).. Entretanto, ainda discute-se a respeito de qual a melhor maneira de interpretar e extrair a informação contida em séries temporais de disparos de um neurônio.

Independentemente da abordagem, o primeiro passo no estudo do código neural é detectar os sinais elétricos correspondentes aos trens de disparos e convertê-los em sinais mais simples e de fácil manipulação. Aproveitando a natureza “tudo ou nada” dos potenciais de ação, uma forma de simplificar o sinal é discretizar a série temporal e atribuir valores binários para os eventos. Assim, uma série de disparos pode ser “traduzida” por uma sequência binária (figura 1B[1] E.D. Adrian, J. Physiol. 47, 460 (1914).). Matematicamente, uma sequência desse tipo pode ser escrita como na Eq. 1,

(1) x i ( t ) = [ t i f ] δ ( t t i f ) ,

onde δ(t) é a função delta de Dirac e tif são os tempos em que ocorrem os disparos.

Em geral, pode-se classificar a codificação de informação feita pelo trem de disparos de um neurônio de duas maneiras diferentes [12][12] F. David e S. Nelson, Science 270, 756 (1995).: (i) por frequência de disparos [13][13] D.J. Foster e M.A. Wilson, Nature 440, 680 (2006). e (ii) por padrão temporal de disparos [14][14] M.R. Mehta, A.K. Lee e M.A. Wilson, Nature 417, 741 (2002). [15] C. Passaglia, F. Dodge, E. Herzog, S.Jackson e R. Barlow, P. Natl. Acad. Sci. 94, 12649 (1997). [16] V.E. Abraira e D.D. Ginty, Neuron 79, 618 (2013). [17] P. Dayan e L.F. Abbott, Theoretical neuroscience (MIT Press, Cambridge, 2001). [18] J. O'Keefe e M.L. Recce, Hippocampus. 3, 317 (1993).. Exemplos desses dois tipos de codificação são dados no Apêndice A.

O objetivo deste artigo é mostrar como as ferramentas da teoria da informação podem ser utilizadas para quantificar a informação contida nos trens de disparos neuronais. Isso será feito por meio de simulações computacionais de modelos de neurônios e da análise de seus trens de disparos por medidas da teoria da informação.

Este artigo está organizado da seguinte forma: na próxima seção, dois modelos computacionais de neurônios e um de rede de neurônios são usados com o objetivo de ilustrar a aplicação de métodos da teoria da informação em sinais artificialmente gerados. Adicionalmente, a seção 3 introduz todos os conceitos básicos para entendimento das principais medidas e, na seção 4, esses conceitos são trabalhados e ilustrados com uso de simulações computacionais. Discussões sobre problemas que podem ser encontrados ao implementar essas medidas também são encontradas nessa seção. Por fim, conclusões são apresentadas na seção 6.

2. Modelos de neurônio

De forma a aplicar os conceitos de teoria da informação que serão introduzidos neste artigo, optou-se por gerar sinais de neurônios a partir de modelos computacionais. No presente artigo foram utilizados três modelos: O neurônio Poisson, o neurônio integra-e-dispara estocástico e o neurônio binário estocástico; este último foi utilizado para a construção de uma rede neural simples. A escolha desses modelos se deve ao fato de que todos possuem trens de disparo estocásticos. Além disso, sua implementação computacional é simples.

2.1. Neurônio Poisson

O primeiro modelo considerado toma o sinal de entrada s(t) recebido pelo neurônio como a taxa de disparos dependente do tempo r(t) de um processo de Poisson [19][19] D. Bernardi e B. Lindner, J. Neurophysiol. 113, 1342 (2015). [21] C.E. Shannon, Bell. Syst. Tech. J. 27, 623 (1948).. Para tal modelo, assumindo que r(t) não varia significativamente dentro de um intervalo de tempo curto Δt, a probabilidade de que k disparos sejam gerados nesse intervalo de tempo é er(t)Δtr(t)Δtk/k!. Se r(t)Δt1, a expansão em série de Taylor de r(t) até primeira ordem resulta na equação (2), que é a taxa de disparos do neurônio,

(2) r ( t ) = r 0 [ 1 + ϵ s ( t ) ] ,

onde r0 é a frequência média de disparos e ϵ é um parâmetro adimensional que controla a força do sinal s(t). Este, por sua vez, é tomado como uma entrada gaussiana de média zero e variância unitária.

O algoritmo para gerar o trem de disparos pode ser implementado da seguinte forma:

  1. Para cada passo de tempo Δt na simulação, calcula-se a taxa de disparos instantânea r(t);

  2. Determina-se a probabilidade de emitir um disparo (pdisp) nesse passo de tempo, dada por pdisp=r(t)Δt;

  3. Gera-se um número aleatório (0<η<1) utilizando um gerador uniforme (note que η faz o papel do ruído nesse modelo). Caso η<pdisp é dito que o neurônio emitiu um disparo e nesse passo de tempo é atribuído o valor 1/Δt ao vetor correspondente ao trem de disparos; caso contrário é atribuído o valor 0.

Os parâmetros utilizados na implementação são os mesmos reportados em [19][19] D. Bernardi e B. Lindner, J. Neurophysiol. 113, 1342 (2015)., sendo r0=100, ϵ=0,2 e Δt=1 ms.

2.2. Neurônio integra-e-dispara estocástico

O modelo integra-e-dispara com vazamento (LIF, do inglês “leaky integrate-and-fire”) é um modelo simples, mas amplamente utilizado em neurociência computacional [2][2] W. Gerstner, W.M. Kistler, R. Naud e L. Paninski, Neuronal dynamics: From single neurons to networks and models of cognition (Cambridge University Press, Cambridge, 2014).. A versão do modelo implementada neste trabalho é a mesma descrita em [19][19] D. Bernardi e B. Lindner, J. Neurophysiol. 113, 1342 (2015)., a qual possui entrada e ruído gaussianos, sendo por isso chamada de modelo LIF estocástico. A dinâmica desse modelo é descrita pela equação (3).

(3) τ m v ˙ = v + μ + 2 D c ξ s ( t ) + 2 D ( 1 c ) ξ n ( t ) ,

onde τm é a constante de tempo da membrana; μ determina o potencial de repouso; ξs(t) e ξn(t) são processos gaussianos independentes, ambos com média zero e desvio padrão unitário, onde o primeiro é o estímulo de entrada e o segundo o ruído; D é a intensidade do ruído; e c é um parâmetro entre 0c1 que representa a força relativa do sinal [19][19] D. Bernardi e B. Lindner, J. Neurophysiol. 113, 1342 (2015)..

A dinâmica do modelo é complementada por uma regra de “disparo-e-reset” dada pela equação (4),

(4) v ( t ) v T disparo em t v ( t + τ abs ) = v R .

Nesta regra, quando a voltagem atinge o valor vT (potencial limiar), ela é resetada para vR (voltagem de reset) e mantida nele por um período τabs (período refratário absoluto).

Nessa versão do modelo o potencial de membrana é normalizado, sendo v[0,1] mV, de modo que define-se vR=0 e vT=1. O valor inicial do potencial de membrana é dado por um número aleatório uniforme também contido no intervalo [0,1].

A equação (3) é resolvida numericamente neste artigo com uso do método de Euler--Maruyama [20][20] D.J. Higham, Siam. Rev. 43, 525 (2001). e reescrita na forma de um processo iterativo dado pela equação (5).

(5) v ( t + Δ t ) = v ( t ) + ( v + μ τ m ) Δ t + 2 D c Δ t τ m ξ s ( t ) + 2 D ( 1 c ) Δ t τ m ξ n ( t ) ,

onde Δt é o passo de integração.

O trem de disparos pode ser gerado da seguinte forma:

  1. Em cada passo de tempo da simulação, calcula-se v(t+Δt), utilizando a equação (5);

  2. Caso a condição de disparo-e-reset dada pela equação (4) seja cumprida:

    1. Atribui-se 1/Δt ao vetor correspondente ao trem de disparos;

    2. Entrar no período refratário, então voltar ao passo 1.

  3. Senão, atribui-se 0 ao vetor correspondente ao trem de disparos. Então, voltar ao passo 1.

Para esse modelo foram simulados dois casos com diferentes parâmetros: τm=10, μ=0,75, D=0,6 ms, c=0,34 e τabs=0 ms (sinal fraco) e τm=10 ms, μ=0,75, D=3,3 ms, c=0,98 e τabs=0 ms (sinal forte). Para ambos os casos Δt=0,1 ms.

2.3. Rede de neurônios binários estocásticos

Neurônios binários representam uma simplificação da resposta de um neurônio, podendo assumir apenas dois estados a cada passo de tempo Δt: o estado de repouso S0=0 e o estado ativo (ou disparo) S1=1. Desta forma, o trem de disparos S(t) desse modelo de neurônio é dado por uma série temporal de zeros e uns.

A rede de neurônios binários considerada neste trabalho consiste de N neurônios interconectados sendo Nex excitatórios e Nin inibitórios. As conexões excitatórias são feitas com probabilidade Pe, e as inibitórias com probabilidade Pi. Essas conexões são representadas na forma de uma matriz de adjacência (Madj), de dimensão NxN. Caso haja uma conexão entre os neurônios i e j, diz-se que Mi,jadj=G, senão Mi,jadj=0.

O valor G define o peso (ou força) da conexão sináptica, sendo que para sinapses excitatórias G assume valores positivos e para sinapses inibitórias G assume valores negativos.

No caso considerado aqui, os disparos dos neurônios se comportam de maneira estocástica. A probabilidade de haver um disparo Pd de um dado neurônio i no tempo t+Δt é determinada pelo estado dos neurônios j=1,2,...,N com ji no tempo t, de acordo com a equação (6):

(6) P d = I + j = 1 , j i N M i , j adj S j ( t ) ,

onde I é um estímulo constante igual para todos os neurônios. Note que conexões excitatórias aumentam Pd enquanto que conexões inibitórias diminuem.

Para manter a simplicidade, será usada uma rede cujas conexões são exclusivamente excitatórias (ou seja, não há sinapses inibitórias), com Nex=100, Pe=0,01, Ge=0,3 e I=0,01. A simulação foi feita com duração Tsim=104 passos de tamanho Δt=1.

3. Conceitos básicos de teoria da informação

A teoria da informação foi desenvolvida por Claude Shannon em 1948 em um artigo cujo título se referia a ela como teoria da comunicação[23][23] S. Haykin, Redes Neurais: Princípios e prática (Artmed editora, São Paulo, 2008). 3 2 Alguns autores criticam a concepção de código neural. Ver, por exemplo, [3]. . Vários excelentes livros oferecem tratamento detalhado da teoria da informação, cobrindo seu desenvolvimento histórico e aplicações em campos distintos [22[22] J.R. Pierce, An introduction to information theory: symbols, signals and noise (Courier Corporation, Mineola, 2012). [23] S. Haykin, Redes Neurais: Princípios e prática (Artmed editora, São Paulo, 2008). [24] D.J.C. MacKay, Information theory, inference and learning algorithms (Cambridge University Press, Cambridge, 2003), v. 4-25[25] J.V. Stone, Information theory: a tutorial introduction (Sebtel Press, Sheffield, 2015), v. 2].

O objetivo desta seção é apresentar duas grandezas fundamentais da teoria, entropia e informação mútua discreta, para em seguida apresentar métodos de calculá-las para trens de disparos.

3.1. Entropia

Seja a variável aleatória:

(7) X = { x k | k = 1 , 2 , . . . , m } .

A ocorrência de um evento xk em uma sequência de eventos ocorre com probabilidade:

(8) p k = P ( X = x k ) ,

obedecendo:

(9) 0 p k 1 e k = 1 m p k = 1 .

A quantidade de informação Ik associada ao evento k foi definida por Shannon como,

(10) I k = log 1 p k .

Observe que esta definição corresponde à noção intuitiva de informação. Para exemplificar, considere que o evento xk possui probabilidade pk=1 de ocorrência, o que faz com que todos os outros eventos xi com ik tenham probabilidade pi=0 de ocorrência. Neste caso, a ocorrência do evento xk na sequência não causa nenhuma surpresa, logo a informação obtida com sua observação é nula (log(1/1)=0).

Imagine agora o caso em que os eventos ocorrem com probabilidades distintas entre si. Cada evento observado dará uma quantidade de informação diferente. Em particular, eventos com menores probabilidades causarão maiores surpresas, resultando em maiores ganhos de informação. Antes da ocorrência do próximo evento na sequência, há uma incerteza a respeito de qual dos m possíveis eventos poderá aparecer. Quando o evento ocorre, digamos xk, ganha-se uma quantidade de informação Ik=log(1/pk) e, por consequência, há uma redução na incerteza que é igual a essa quantidade de informação. Fica claro que a definição de Shannon associa informação ao grau de surpresa de um evento e faz corresponder o ganho de informação obtido pela observação de um evento a uma redução na incerteza [23][23] S. Haykin, Redes Neurais: Princípios e prática (Artmed editora, São Paulo, 2008). (veja a figura 2A).

Figura 2
(A) Quantidade de informação de Shannon Ik em função da probabilidade p de ocorrência do evento k. (B) Entropia informacional em função da probabilidade p quando apenas dois eventos podem ocorrer xk={x1,x2} com probabilidades pk={p,1p} respectivamente.

Pode-se calcular o logaritmo na equação (10) em qualquer base, desde que a mesma seja usada para todos os cálculos. A base usada determina a unidade em que se mede a quantidade de informação. Aqui será usada a base 2, para a qual a unidade de Ik é o bit.

A quantidade média de informação associada a uma dada sequência de eventos é definida como a entropia H(X) da sequência:

(11) H ( X ) = k = 1 m p k log ( p k ) = E [ I k ] .

Para ilustrar o significado de H(X), considere o caso simples em que X possui apenas dois valores possíveis xk={x1,x2} com probabilidades pk={p,1p}, respectivamente. Para diferentes valores de p no intervalo [0,1], é possível ver que a entropia possui um máximo para o caso em que p=1p=0,5 (veja figura 2B[2] W. Gerstner, W.M. Kistler, R. Naud e L. Paninski, Neuronal dynamics: From single neurons to networks and models of cognition (Cambridge University Press, Cambridge, 2014).). Tal fato mostra que entropia é uma medida de incerteza, pois o caso em que p=0,5 corresponde a uma distribuição uniforme (todos os eventos têm a mesma probabilidade) e este é o caso com maior incerteza a respeito do próximo valor na sequência de eventos.

A entropia é limitada ao intervalo 0H(X)log(m), assumindo valor zero para o caso em que um dos eventos xk tenha probabilidade pk=1 de ocorrência (incerteza mínima) e valor log(m) para o caso em que todos os eventos xk sejam equiprováveis com probabilidade pk=1/m (incerteza máxima).

3.2. Informação mútua

Para introduzir o conceito de informação mútua, considere o caso em que os eventos (pense neles como sinais em uma série temporal) xX são transmitidas através de um canal ruidoso4 4 É dito que X é a entrada do canal e Y a saída. tendo sua saída observada em yY (veja a figura 3). Dada a existência do ruido, a saída observada pode não corresponder fielmente à entrada (por exemplo, a sequência binária 01001110 na entrada X se torna 01011100 na saída Y devido à ação do ruído sobre o terceiro evento na sequência).

Figura 3
Entrada X sendo transmitida através de um canal contaminado com ruído η, gerando a saída Y.

Neste caso, o problema que se põe é o seguinte: como medir a incerteza restante em X após ser observado um único valor de Y?

Para responder a esta pergunta, comecemos definindo a grandeza chamada de entropia condicional pela equação (12):

(12) H ( X | Y ) = H ( X , Y ) H ( Y ) .

A entropia condicional5 2 Alguns autores criticam a concepção de código neural. Ver, por exemplo, [3]. é a quantidade de incerteza restante sobre a entrada X após a saída Y ter sido observada [23[23] S. Haykin, Redes Neurais: Princípios e prática (Artmed editora, São Paulo, 2008).,25[25] J.V. Stone, Information theory: a tutorial introduction (Sebtel Press, Sheffield, 2015), v. 2]. O primeiro termo do lado direito da equação (12) é chamado de entropia conjunta, definida pela equação (13).

(13) H ( X , Y ) = x X y Y p ( x , y ) log p ( x , y ) ,

onde p(x,y) é a probabilidade de ocorrência do par x e y.

Para o caso em que X e Y são estatisticamente independentes, p(x,y)=p(x)p(y) e a equação (13) pode ser reescrita como:

(14) H ( X , Y ) = H ( X ) + H ( Y ) .

O limite superior da entropia condicional é obtido pela substituição da equação (14) em (12) resultando em H(X|Y)=H(X). Ou seja, caso a entrada e a saída sejam descorrelacionadas, a incerteza em X se mantém inalterada independentemente do valor observado em Y. Por outro lado, se Y=X a incerteza é reduzida a zero, neste caso é dito que o canal é livre de ruído. Assim, 0H(X|Y)H(X).

Como a entropia H(X) é a incerteza acerca das entradas X antes de se observar a saída Y, e a entropia condicional H(X|Y) é a incerteza restante sobre X após a obervação de Y, é possível definir a redução média da incerteza sobre X após a observação de Y pela equação (15). Essa grandeza é chamada de informação mútua MI(X;Y) (do inglês para mutual information) [23[23] S. Haykin, Redes Neurais: Princípios e prática (Artmed editora, São Paulo, 2008). [24] D.J.C. MacKay, Information theory, inference and learning algorithms (Cambridge University Press, Cambridge, 2003), v. 4-25[25] J.V. Stone, Information theory: a tutorial introduction (Sebtel Press, Sheffield, 2015), v. 2].

(15) M I ( X ; Y ) = H ( X ) H ( X | Y ) .

De uma forma intuitiva, a informação mútua pode ser entendida como a informação compartilhada por X e Y.

É importante notar algumas propriedades da informação mútua:

  • A informação mútua é simétrica, isto é, MI(Y;X)=MI(X;Y);

  • A informação mútua é não negativa, isto é, MI(X;Y)0.

Substituindo (12) em (15) e isolando a entropia conjunta, temos:

(16) H ( X , Y ) = H ( X ) + H ( Y ) M I ( X , Y ) .

Dessa forma, a entropia conjunta age como uma espécie de contêiner para as várias entropias, incluindo a informação mútua [25][25] J.V. Stone, Information theory: a tutorial introduction (Sebtel Press, Sheffield, 2015), v. 2. A relação entre as grandezas apresentadas aqui é ilustrada na figura 4. Resumindo:

Figura 4
Relação entre as diversas entropias definidas e a informação mútua (ver texto).
  • H(X) é a incerteza relativa a X, isto é, a incerteza sobre qual mensagem x será transmitida;

  • H(Y) é a incerteza relativa a Y, isto é, a incerteza sobre qual mensagem Y será recebida;

  • H(X,Y) é a incerteza sobre a ocorrência do par x e y, ela age como um contêiner para as várias componentes da entropia;

  • H(X|Y) é a quantidade de incerteza restante sobre a entrada X após a saída Y ser observada.

3.3. Teoria da informação em neurociência

Os conceitos da teoria da informação discutidos nas seções anteriores começaram a ser aplicados em neurociência poucos anos após o aparecimento do artigo de Shannon, tendo sido intensamente utilizados desde então [8[9] L. Paninski, Neural. Comput. 15, 1191 (2003)., 26[26] F. Attneave, Psychol. Rev. 61, 183 (1954). [27] H.B. Barlow, Current problems in animal behaviour (Cambridge University Press, Cambridge, 1961).-28[28] A.G. Dimitrov, A.A Lazar e J.D. Victor, J. Comput. Neurosci. 30, 1 (2011).].

Algumas das principais contribuições atuais da teoria da informação na neurociência permitem:

  • estudar a capacidade de transmissão de informação pelas células nervosas e quantificar a informação que flui através do sistema nervoso [29[29] D. MacKay e W.S. McCulloch, Bull. Math. Biophys. 14, 127 (1952).,30[30] S.P. Strong, R. Koberle, R.R. de Ruyter van Steveninck, W. Bialek, Phys. Rev. Lett. 80, 197 (1998).];

  • inferir a conectividade estrutural de redes neurais biológicas por meio do registro da sua atividade elétrica [31[31] J.G. Orlandi, O. Stetter, J. Soriano, T. Geisel e D. Battaglia, Plos One 9, e98842 (2014).,32[32] S.A. Neymotin, K.M. Jacobs, A.A. Fenton e W.W. Lytton, J. Comput. Neurosci. 30, 69 (2011)]. Medidas de entropia demonstram que correlações na atividade elétrica das redes são dependentes do grau de conectividade interna;

  • inferir a conectividade funcional de redes neurais biológicas por meio de dados de EEG, MEG ou fMRI [33[33] M. Wibral, B. Rahm, M. Rieder, M. Lindner, R. Vicente e J. Kaiser, Prog. Biophys. Mol. Bio. 105, 80 (2011).,34[34] W. Liao, J. Ding, D. Marinazzo, Q. Xu, Z. Wang, C. Yuan, Z. Zhang, G. Lu e H.Chen, Neuroimage 54, 2683 (2011).]. Regiões cerebrais não necessariamente conectadas apresentam atividade correlacionada interpretada como uma conexão funcional entre elas.

4. Medindo a informação de trens de disparo

Nesta seção, são utilizadas grandezas da teoria da informação para determinar a quantidade de informação carregada por trens de disparos neuronais e recuperar a matriz de conectividade de uma rede de neurônios binários.

4.1. Método direto

Para um neurônio binário (ver seção 2), considera-se que existe uma probabilidade de disparo Pd e uma probabilidade de silêncio Ps (a princípio estacionárias). Essas probabilidades podem ser estimadas a partir do trem de disparos:

(17) P d = i = 1 N x ( t i ) N ,

e,

(18) P s = 1 P d ,

onde N é o número de passos na simulação do neurônio.

Em seguida, a entropia pode ser determinada utilizando diretamente a equação (11).

A informação mútua entre dois trens de disparos x(t) e y(t) é calculada utilizando-se a equação 16. Isso requer que se determine, além das entropias dos dois trens de disparos H(x) e H(y), a entropia da distribuição conjunta H(x,y). Note que a dependência do tempo nos trens de disparos é omitida com o intuito de não carregar a notação.

A determinação dessas entropias pode ser feita seguindo os passos abaixo:

  1. Determina-se as probabilidade de disparo e silêncio, para os trens de disparo x(t) e y(t), utilizando as equações (17) e (18);

  2. Com as probabilidades encontradas no passo anterior, determina-se as entropias H(x) e H(y) com a equação (11);

  3. A determinação da probabilidade conjunta é feita em 3 sub-passos:

    1. Desloca-se o trem de disparos y(t) por um intervalo de tempo τ em relação ao trem de disparos x(t);

    2. Em seguida, para cada intervalo Δt, analisa-se o par de valores x(t) e y(t+τ) para se determinar o número de ocorrências de cada um dos pares, [0, 0], [0,1], [1,0] e [1,1] e calcular a probabilidade de ocorrência de cada um deles;

    3. Com as probabilidades encontradas no passo anterior, calcula-se a entropia conjunta dada pela equação (13).

  4. Após a determinação das entropias H(x), H(y) e H(x,y), a informação mútua pode ser determinada com a equação (16).

A figura 5, resume os passos para determinação da entropia H(x,y).

Figura 5
Resumo do método para determinação da entropia conjunta H(x,y) explicada no texto. Após a obtenção dos trens de disparo x(t) e y(t) (ver seção 1), desloca-se um deles por um valor τ, e determina-se a probabilidade de ocorrência dos pares [0,0], [0,1], [1,0] e [1,1] (retângulos vermelhos tracejados) para em seguida determinar H(x,y).

O valor de τ para o qual a informação mútua entre x(t) e y(t+τ) é máxima é o tempo que a informação leva para ir de um neurônio ao outro.

As estimativas da entropia e da informação mútua por meio das probabilidades Pd e Ps e das probabilidades de ocorrência dos pares [0,0], [0,1], [1,0] e [1,1] para duas séries x(t) e y(t) podem ser consideradas boas para neurônios cujos disparos se dão de forma independente. Para o caso em que há autocorrelações em um trem de disparos, as probabilidades Ps e Pd são erroneamente estimadas. Neste caso, deve-se adotar uma estratégia em que se determina a probabilidade de ocorrência de um bloco constituído de uma sequência binária dentro de um trem de disparos. Para isso, primeiro determina-se essas probabilidades aplicando-se diversos estímulos ao neurônio e amostrando sua resposta, i.e. os trens de disparos.

Em seguida, repete-se o procedimento porém com um estímulo fixo, de modo que a distribuição de probabilidade do conjunto de trens de disparos seja a probabilidade condicional P(resposta|estímulo). O cálculo da entropia utilizando essa distribuição dará a entropia condicional (equação (12)), ou seja, nesta etapa determina-se a informação relativa ao ruído existente na resposta do neurônio. A razão para isso é que com repetidas apresentações do mesmo estímulo, respostas ruidosas tornam-se menos aparentes em meio ao padrão típico de resposta ao neurônio [30][30] S.P. Strong, R. Koberle, R.R. de Ruyter van Steveninck, W. Bialek, Phys. Rev. Lett. 80, 197 (1998).. A figura 6 resume esquematicamente este procedimento, denominado “método direto”.

Figura 6
Esquema do método direto. (A) O modelo de neurônio é submetido a um sinal acompanhado de ruído, gerando uma série temporal que, em seguida, é convertida em um trem de disparos. (B) A entropia é determinada pela estimulação do neurônio com diversos sinais. Mede-se as respostas R do neurônio para, em seguida, determinar a distribuição P(R), com a qual pode-se calcular a entropia utilizando a equação (11). (C) O ruído é determinado do mesmo modo, porém utiliza-se sempre um sinal fixo para estimular o neurônio.

Embora o método direto dê o valor real da informação contida no trem de disparos e tenha a vantagem de não necessitar de conhecimento prévio acerca da natureza do estímulo aplicado, na prática, sua implementação é difícil devido ao chamado “problema da dimensionalidade”. Por exemplo, uma simulação de duração Tsim com resolução temporal Δt gera um trem de disparos com L=Tsim/Δtbins. Como o trem de disparos é binário, existem 2L possíveis respostas do neurônio, ou seja, para estimar as distribuições de probabilidade das respostas é necessário uma grande quantidade de dados, o que geralmente leva a problemas de subamostragem [19[19] D. Bernardi e B. Lindner, J. Neurophysiol. 113, 1342 (2015).,35[35] A. Borst e F.E. Theunissen, Nat. Neurosci. 2, 947 (1999).].

Além do problema da dimensionalidade, o método direto não indica quais aspectos do sinal são representados pela resposta neuronal.

Uma maneira de contornar os problemas do método direto é criando-se estimativas para a informação mútua, como, por exemplo, o limite inferior para a informação mútua baseado na função de coerência entre entrada e saída. Isso será discutido na próxima seção.

4.2. Informação mútua dependente da frequência

Outra forma de calcular a quantidade de informação contida no trem de disparos x(t) de um neurônio em resposta a um dado estímulo s(t) é pela chamada “coerência espectral” Cxs(f), definida pela equação (19). A coerência espectral é dada pelo quadrado do coeficiente de correlação linear entre o estímulo e a resposta no domínio da frequência, sendo limitada entre 0Cxs1.

(19) C xs ( f ) = lim T | x ˜ ( f ) s ˜ * ( f ) | 2 | x ˜ ( f ) | 2 | s ˜ ( f ) | 2 ,

onde indicam médias feitas por diversas repetições e x˜(f) e s˜(f) são, respectivamente, as transformadas de Fourier do trem de disparos neuronal e do sinal, dadas por:

(20) x ˜ ( f ) = 0 T x ( t ) e 2 π i f d t , s ˜ ( f ) = 0 T s ( t ) e 2 π i f d t ,

em que T é a janela de tempo usada para integração.

O limite inferior da informação mútua (Ilb) é dado pela equação (21):

(21) I lb = 0 f c log 2 ( 1 C xs ( f ) ) d f .

Esse limite inferior para a taxa de informação mútua (MIR, do inglês “mutual information rate”) é valido somente para o caso em que a estatística do sinal de entrada s(t) é gaussiana.

Um aspecto interessante do cálculo da informação utilizando a equação (21) é que o termo no interior da integral pode ser visto como a taxa de informação dependente da frequência. Assim, diferentemente do que acontece no método direto, em que não se sabe quais aspectos do sinal são representados pela resposta neuronal, aqui têm-se uma noção disso. Observe que plotando log2(1Cxs(f))versusf é possível determinar quanta informação do sinal é processada em cada frequência.

Para demonstrar esses conceitos, os modelos de neurônios descritos na seção 2 foram implementados Python e, a partir dos resultados obtidos, foram determinadas as curvas para a MIR e o valor total da informação Ilb.

Na figura 7, pode-se observar que o neurônio Poisson transmite informação igualmente em todas as frequências, enquanto que o neurônio LIF estocástico carrega informação preferencialmente nas baixas frequências.

Figura 7
Curvas da taxa de informação mútua dependente da frequência para os casos em que utilizou-se (i) o neurônio Poisson, (ii) o neurônio LIF com sinal fraco e (iii) o neurônio LIF com sinal forte. É possível ver que o neurônio Poisson processa informação igualmente em todas frequências, enquanto que o neurônio LIF processa preferencialmente nas baixas frequências. Além disso, o neurônio LIF é capaz de transmitir uma quantidade maior de informação (especialmente no caso com sinal forte, veja a discussão no texto).

A integração das curvas na figura 7 dá o valor total da MIR para cada um dos neurônios. A capacidade do LIF estocástico, tanto para o caso com sinal fraco quanto para o sinal forte (20,97±0,22 bits/s e 139,44±0,65 bits/s respectivamente) é superior à do neurônio Poisson (3,33±0,08 bits/s).

Observe que apesar das medidas apresentadas nessa seção se restringirem a sinais de origem gaussiana, a sua implementação prática é mais viável que as do método direto.

5. Determinação da conectividade de uma rede

Nesta seção, com o objetivo de determinar a matriz de adjacência de uma rede de neurônio binários, utiliza-se o método discutido na seção 4.1. Em particular, estima-se as probabilidades de disparo e de silêncio, dadas pelas equações (17 e 18), para calcular a entropia dos trens de disparos. Para determinar a informação mútua entre pares de neurônios, utiliza-se o algorítimo esquematizado na figura 5.

A atividade da rede descrita na seção 2.3 pode ser visualizada com um gráfico de rastreio como o da figura 8. Neste gráfico, o eixo vertical representa os neurônios, indexados de 1 a N, e o eixo horizontal representa o tempo. Os disparos dos neurônios são representados por barras amarelas. Assim, cada linha horizontal no diagrama representa o trem de disparos de um neurônio de forma visual.

Figura 8
Gráfico de rastreio dos trens de disparo da rede de autômatos. Cada linha horizontal representa o trem de disparos de um neurônio, onde cada traço amarelo corresponde a um disparo.

Utilizando o método apresentado na seção 4.1, foi possível recuperar a matriz de adjacência Madj original da rede. A figura 9 mostra a matriz original (figura 9A) ao lado da matriz recuperada (figura 9B). Observe que a segunda matriz apresenta os valores da informação mútua entre pares de neurônio pré- e pós-sinápticos.

Figura 9
Aplicação do cálculo da informação mútua para neurônios binários para a recuperação da matriz de adjacência original da rede. Em (A) é mostrada a matriz de adjacência original, onde cada traço amarelo é o valor de Ge, como descrito na seção 2.3. Em (B) mostra-se os valores de informação mútua encontrados. As cores indicam a intensidade da MI(x;y). Nota-se que nos pontos onde existe conexão a MI(x;y) é alta permitindo que Madj seja estimada.

Por intermédio da matriz de informação mútua é possível estimar Madj. Isto é feito estabelecendo-se um valor de corte L, e em seguida, atribuindo-se o valor 1 nas posições da matriz estimada Mestadj em que os valores da matriz de informação mútua MI(x;y) ultrapassarem L. Senão, atribui-se o valor 0. É importante ressaltar que neste caso utilizou-se τ=1, que é igual ao valor do passo de tempo Δt utilizado, e como a probabilidade de disparo de um dado neurônio depende do estado dos neurônios pré-sinápticos no passo anterior, esse é o tempo que leva para a informação viajar de um neurônio ao outro.

6. Conclusão

Os métodos apresentados neste texto ilustram maneiras de se aplicar ferramentas da teoria da informação a trens de disparos. Em particular, mostrou-se como determinar a informação para trens de disparos de neurônios Poisson e LIF estocástico utilizando o método direto e o método baseado na função de coerência. O segundo método não está sujeito ao problema da dimensionalidade, como o primeiro, e permite maior eficiência em aplicações práticas, embora esteja restrito ao caso de sinais gaussianos.

Também foi mostrado como realizar o calculo da entropia para neurônios binários e da informação mútua entre dois trens de disparos gerados por esse tipo de neurônio. Como aplicação final desse método mostrou-se que é possível utilizá-lo para recuperar a conectividade de uma rede simples de autômatos celulares.

Esses métodos ilustram a aplicabilidade das ferramentas da teoria da informação em neurociência. Além deles, medidas desenvolvidas recentemente como, por exemplo, as chamadas “entropia transferida” [36][36] T. Schreiber, Phys. Rev. Lett. 85, 461 (2000). e “campo de dinâmica da informação” [37][37] M. Wibral, J.T. Lizier e V. Priesemann, arXiv:1412.0291 (2014)., propõem novas grandezas que permitem determinar como a informação flui, é armazenada e é transformada pelos disparos dos neurônios de uma rede neural. Outra medida recente, chamada “informação mútua causal”, aperfeiçoa a metodologia utilizada aqui para não só inferir a topologia da rede, mas também a direção e a natureza das sinapses [38][38] F.S. Borges, E.L. Lameu, K.C. Iarosz, P.R. Protachevicz, I.L. Caldas, R.L. Viana, E.E.N. Macau, A.M. Batista e M.D.S. Baptista, Phys. Rev. E. 97, 022303 (2018). [39] M. Michele e M. Rosanna, Plos One 5, e36867 (2012)..

De modo geral, o presente artigo apresentou as grandezas fundamentais da teoria da informação para que o leitor interessado em se aprofundar tenha mais facilidade ao adentrar no estado da arte no campo da teoria da informação aplicada à neurociência.

Material suplementar

O seguinte material suplementar está disponível online:

Apêndice A.

Agradecimentos

Esta pesquisa foi desenvolvida como parte das atividades do Centro de Pesquisa, Inovação e Difusão em Neuromatemática (CEPID NeuroMat) da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP), proc. no. 2013/07699-0. VL recebe uma bolsa de mestrado da FAPESP, proc. no. 2017/05874-0. RFOP recebe uma bolsa de doutorado da FAPESP, proc. no. 2013/25667-8. CCC recebeu bolsa de doutorado da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). ROS recebe uma bolsa de doutorado da FAPESP, proc. no. 2017/07688-9. RFOP e ACR participam do Projeto Temático FAPESP No. 2015/50122-0. ACR recebe uma bolsa de pesquisador do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), proc. no. 306251/2014-0.

  • 1
    O primeiro a notar isso foi o neurofisiologista inglês Lord Adrian [1][1] E.D. Adrian, J. Physiol. 47, 460 (1914)..
  • 2
    Alguns autores criticam a concepção de código neural. Ver, por exemplo, [3][3] R. Brette, bioRxiv:168237 (2017)..
  • 3
    Uma versão integral desse artigo está disponível na url http://math.harvard.edu/$\sim$ctm/home/text/others/shannon/entropy/entropy.pdf
  • 4
    É dito que X é a entrada do canal e Y a saída.
  • 5
    A entropia condicional é igual à entropia do ruído H(X|Y)=H(η) [25][25] J.V. Stone, Information theory: a tutorial introduction (Sebtel Press, Sheffield, 2015), v. 2.
  • [1]
    E.D. Adrian, J. Physiol. 47, 460 (1914).
  • [2]
    W. Gerstner, W.M. Kistler, R. Naud e L. Paninski, Neuronal dynamics: From single neurons to networks and models of cognition (Cambridge University Press, Cambridge, 2014).
  • [3]
    R. Brette, bioRxiv:168237 (2017).
  • [4]
    P. König, K.E. Andreas e W. Singer, Trends neurosci. 19, 130 (1996).
  • [5]
    B.B. Averbeck, E.L. Peter e A. Pouget, Nat. Rev. Neurosci. 7, 358 (2006).
  • [6]
    W. Bialek, F. Rieke, R.D.R. Van Steveninck e D. Warland, Science 252, 1854 (1991).
  • [7]
    J.J. Eggermont, Neurosci. Biobehav. R. 22, 355 (1998).
  • [8]
    F. Rieke, D. Warland, R.D.R. Van Steveninck e W. Bialek, Spikes: exploring the neural code (MIT press, Cambridge, 1999).
  • [9]
    L. Paninski, Neural. Comput. 15, 1191 (2003).
  • [10]
    C. Laing e J.L. Gabriel, Stochastic methods in neuroscience (Oxford University Press, Oxford, 2010).
  • [11]
    B. Naundorf, F. Wolf e M. Volgushev, Nature 440, 1060 (2006).
  • [12]
    F. David e S. Nelson, Science 270, 756 (1995).
  • [13]
    D.J. Foster e M.A. Wilson, Nature 440, 680 (2006).
  • [14]
    M.R. Mehta, A.K. Lee e M.A. Wilson, Nature 417, 741 (2002).
  • [15]
    C. Passaglia, F. Dodge, E. Herzog, S.Jackson e R. Barlow, P. Natl. Acad. Sci. 94, 12649 (1997).
  • [16]
    V.E. Abraira e D.D. Ginty, Neuron 79, 618 (2013).
  • [17]
    P. Dayan e L.F. Abbott, Theoretical neuroscience (MIT Press, Cambridge, 2001).
  • [18]
    J. O'Keefe e M.L. Recce, Hippocampus. 3, 317 (1993).
  • [19]
    D. Bernardi e B. Lindner, J. Neurophysiol. 113, 1342 (2015).
  • [20]
    D.J. Higham, Siam. Rev. 43, 525 (2001).
  • [21]
    C.E. Shannon, Bell. Syst. Tech. J. 27, 623 (1948).
  • [22]
    J.R. Pierce, An introduction to information theory: symbols, signals and noise (Courier Corporation, Mineola, 2012).
  • [23]
    S. Haykin, Redes Neurais: Princípios e prática (Artmed editora, São Paulo, 2008).
  • [24]
    D.J.C. MacKay, Information theory, inference and learning algorithms (Cambridge University Press, Cambridge, 2003), v. 4
  • [25]
    J.V. Stone, Information theory: a tutorial introduction (Sebtel Press, Sheffield, 2015), v. 2
  • [26]
    F. Attneave, Psychol. Rev. 61, 183 (1954).
  • [27]
    H.B. Barlow, Current problems in animal behaviour (Cambridge University Press, Cambridge, 1961).
  • [28]
    A.G. Dimitrov, A.A Lazar e J.D. Victor, J. Comput. Neurosci. 30, 1 (2011).
  • [29]
    D. MacKay e W.S. McCulloch, Bull. Math. Biophys. 14, 127 (1952).
  • [30]
    S.P. Strong, R. Koberle, R.R. de Ruyter van Steveninck, W. Bialek, Phys. Rev. Lett. 80, 197 (1998).
  • [31]
    J.G. Orlandi, O. Stetter, J. Soriano, T. Geisel e D. Battaglia, Plos One 9, e98842 (2014).
  • [32]
    S.A. Neymotin, K.M. Jacobs, A.A. Fenton e W.W. Lytton, J. Comput. Neurosci. 30, 69 (2011)
  • [33]
    M. Wibral, B. Rahm, M. Rieder, M. Lindner, R. Vicente e J. Kaiser, Prog. Biophys. Mol. Bio. 105, 80 (2011).
  • [34]
    W. Liao, J. Ding, D. Marinazzo, Q. Xu, Z. Wang, C. Yuan, Z. Zhang, G. Lu e H.Chen, Neuroimage 54, 2683 (2011).
  • [35]
    A. Borst e F.E. Theunissen, Nat. Neurosci. 2, 947 (1999).
  • [36]
    T. Schreiber, Phys. Rev. Lett. 85, 461 (2000).
  • [37]
    M. Wibral, J.T. Lizier e V. Priesemann, arXiv:1412.0291 (2014).
  • [38]
    F.S. Borges, E.L. Lameu, K.C. Iarosz, P.R. Protachevicz, I.L. Caldas, R.L. Viana, E.E.N. Macau, A.M. Batista e M.D.S. Baptista, Phys. Rev. E. 97, 022303 (2018).
  • [39]
    M. Michele e M. Rosanna, Plos One 5, e36867 (2012).

Disponibilidade de dados

Citações de dados

R. Brette, bioRxiv:168237 (2017).

M. Wibral, J.T. Lizier e V. Priesemann, arXiv:1412.0291 (2014).

Datas de Publicação

  • Publicação nesta coleção
    2019

Histórico

  • Recebido
    03 Jul 2018
  • Revisado
    10 Set 2018
  • Aceito
    15 Set 2018
Sociedade Brasileira de Física Caixa Postal 66328, 05389-970 São Paulo SP - Brazil - São Paulo - SP - Brazil
E-mail: marcio@sbfisica.org.br