Acessibilidade / Reportar erro

Distribuições de probabilidade

Probability distributions

Resumos

Apresentamos de forma pedagógica o tema das distribuições de probabilidade, que é central para o entendimento da mecânica estatística e da mecânica quântica, além de ser importante para todo tipo de descrição estatística dos fenômenos naturais.

Palavras-chave:
Distribuições de probabilidade; Entropia; Momentos e cumulantes


We present a pedagogical treatment of probability distributions, which is central for the understanding of statistical mechanics and quantum mechanics, apart from being importante for every kind of statistical description of natural phenomena.

Keywords
Probability distributions; Entropy; Moments and cumulants


1. Introdução

O uso de variáveis aleatórias em física foi uma das grandes ideias da segunda metade do século XIX, quando Boltzmann, Maxwell e Gibbs desenvolveram a mecânica estatística e abriram caminho para um entendimento microscópico das leis da termodinâmica. A ideia fundamental por trás desse desenvolvimento é a de que um sistema muito complicado e imprevisível pode, mesmo estando submetido a leis determinísticas, exibir comportamento aparentemente aleatório e pode ser descrito de forma eficiente como se fosse realmente aleatório.

O conceito central dessa abordagem é o de distribuição de probabilidade. Esse conceito é indispensável para o entendimento tanto da mecânica clássica quanto da mecânica quântica. No primeiro caso, porque sistemas caóticos ou com muitos graus de liberdade se prestam muito bem a uma descrição probabilística; no segundo caso porque o módulo quadrado da função de onda é interpretado justamente como uma distribuição de probabilidade.

Apresentamos neste artigo um tratamento pedagógico das distribuições de probabilidade mais importantes, suas propriedades matemáticas e suas aplicações em problemas físicos.

2. Variáveis Aleatórias Discretas

Digamos que uma certa quantidade x assume valores a partir de um conjunto finito, {x1,,xN}, e que a probabilidade de ocorrência do valor xn é dada por p(xn). A probabilidade pode ser conhecida de antemão, porque o processo de geração da variável aleatória é bem conhecido, ou pode ter de ser estimado a partir das frequências dos resultados em um número grande de realizações.

O exemplo mais simples é a distribuição uniforme, em que todos os valores são igualmente prováveis. É o caso de um dado ou de uma moeda, se acreditarmos que não estão viciados, ou dos números da Mega Sena (na prática, até novembro de 2021 a dezena mais sorteada, 53, apareceu 278 vezes, enquanto que a dezena menos sorteada, 26, apareceu apenas 203 vezes [1[1] http://www.numeromania.com.br/sena.html.
http://www.numeromania.com.br/sena.html....
]).

Outra distribuição famosa é a de Zipf,

(1) p Zipf α , N ( n ) 1 n α ,

que descreve a população dos países no mundo, ou a população das cidades de um país, ou a frequência de ocorrência das palavras de um idioma [2[2] S.K. Baekl, S. Bernhardsson e P. Minnhagen, New J. Phys. 13, 043004 (2011)., 3[3] M. Visser, New J. Phys. 15, 043021 (2013).]. A quantidade pZipfα,N(n) é a resposta para as perguntas “quantos dentre os N brasileiros moram na n-ésima maior cidade do Brasil”? ou “qual a probabilidade de ocorrência da n-ésima palavra mais frequente em um texto de N palavras?”; o parâmetro α deve ser determinado empiricamente.

A distribuição de Poisson

(2) p Poisson λ ( n ) = e - λ λ n n ! ,

é útil na descrição do número de ocorrências independentes de um mesmo evento em um dado intervalo de tempo. Por exemplo, a quantidade pPoissonλ(n) é a probabilidade de que aconteçam n decaimentos de uma amostra de elemento radioativo ao longo de um minuto, sendo λ o número médio de decaimentos por minuto.

Se um evento tem probabilidade p de ocorrer e 1-p de não ocorrer, então a probabilidade de que ele ocorra exatamente n vezes em N testes é dada por

(3) p Binomial N , p ( n ) = ( N n ) p n ( 1 - p ) N - n ,

que é chamada de distribuição binomial.

Como mencionado na Introdução, a um conjunto de probabilidades {p(x1),,p(xN)} podemos associar uma entropia, que de forma adimensional é dada por

(4) S = - n p ( x n ) log ( p ( x n ) ) .

De certa forma, a entropia mede a falta de informação a respeito do estado do sistema. Se soubermos que ele está no estado m, por exemplo, teremos pn(xm)=δnm e S=0.

Se todas as probabilidades forem iguais, p(xn)=1/N, então S=log(N). No emsenble microcanônico da mecânica estatística, a entropia de Boltzmann é justamente dada por S(E)=klog(W), onde k é a constante de Boltzmann e W é o número de microestados com energia E. Já no ensemble canônico, a probabilidade depende da temperatura,

(5) p ( E n ) = e - E n / k T Z ,

sendo a função de partição dada por Z=ne-En/kT, de modo que ficamos com

(6) S = - k n p n ( - E n / k T - log ( Z ) ) = E T + k log ( Z ) .

A identificação Z=e-F/kT entre a função de partição e a energia livre de Helmholtz leva à igualdade termodinâmica F=E-TS.

3. Variáveis Aleatórias Contínuas

Seja x uma variável aleatória que assume valores contínuos. Dizemos que ρ(x) é sua distribuição se a probabilidade de x estar no intervalo (a,b) é dada por abρ(x)dx. Toda distribuição satisfaz as propriedades de não-negatividade, ρ(x)0, e de normalização, ρ(x)dx=1. Note que ρ(x) não é uma probabilidade, e sim uma densidade de probabilidade (ou seja, é a sua integral que é uma probabilidade).

Na mecânica quântica, a função de onda Ψ(x,t) satisfaz a equação de Schrödinger e portanto sua evolução temporal é determinística. Entretanto, seu módulo quadrado fornece a distribuição da variável aleatória que resulta do processo de medição da posição da partícula em questão no instante t, ou seja, |Ψ(x,t)|2=ρt(x).

Na mecânica clássica, o uso de distribuições de probabilidade está ligado ao fato de que nenhum processo de medida tem precisão infinita, de modo que é sempre necessário associar uma incerteza à posição (ou ao momento, ou a ambos) de uma partícula, mesmo que não estejamos levando em conta efeitos quânticos. No caso de sistemas caóticos, essa incerteza cresce exponencialmente com o tempo.

Se tivermos certeza absoluta de que a variável x assume um certo valor, digamos x0, então sua distribuição é uma função delta, δ(x-x0). Se consideramos altamente provável que x esteja próximo de x0, com uma incerteza bem pequena, então usaremos uma distribuição próxima da delta; por exemplo, uma função que seja constante na vizinhança de x0 e nula fora dessa vizinhança, ou algo mais suave como uma gaussiana.

Em analogia com a entropia de Gibbs, muitas vezes se define a “entropia” da distribuição ρ(x) como sendo

(7) S [ ρ ] = - ρ ( x ) log [ ρ ( x ) ] d x ,

e de fato a relação termodinâmica F=E-TS decorre da mesma forma que para variáveis discretas. Entretanto, essa não é uma boa definição de entropia. Basta notar que ρ(x) pode ser maior do que 1, o que pode levar a uma “entropia” negativa. Ademais, essa entropia não tende a zero quando a incerteza na variável desaparece. Mesmo com esses pontos problemáticos, a quantidade acima costuma ser utilizada.

É importante saber mudar de variáveis. Se x possui distribuição de probabilidade ρ(x) e temos uma variável que é função dela, y=f(x), então quem será τ(y), a distribuição da variável y? Para responder a essa questão, recorremos à ideia de que a probabilidade deve se conservar. Supondo, por simplicidade, que f(x) é injetora, esperamos intuitivamente que a chance de y ter o valor y0 deve ser igual à chance de x ter o valor x0 tal que y0=y(x0). Mais concretamente,

a b ρ ( x ) d x = y ( a ) y ( b ) τ ( y ) d y

Se ba, temos

(8) τ ( y ) lim b a y ( b ) - y ( a ) b - a = τ ( y ) d y d x = ρ ( x )

e, portanto,

(9) τ ( y ) = ρ ( f - 1 ( y ) ) | d f / d x | .

Outra forma de proceder é usar a função delta de Dirac para escrever:

(10) τ ( y ) = ρ ( x ) δ ( y - f ( x ) ) d x .

Note a presença de um módulo no denominador de (9), necessário para evitar a ocorrência de probabilidades negativas.

4. Variáveis Pseudo-Aleatórias

Com exceção daqueles que acontecem na escala quântica, os fenômenos naturais não são realmente aleatórios. Se jogarmos o nosso dado sempre da mesma maneira, exatamente da mesma maneira, sem variar o impulso, a altura da mão, a inclinação, o material da superfície onde ele vai cair, a densidade do ar, sem variar absolutamente nada, as leis de Newton garantem que o resultado vai ser sempre o mesmo. Na prática, isso é impossível, de modo que o resultado é pseudo-aleatório e usar uma abordagem probabilística faz sentido.

Em geral, comportamento pseudo-aleatório é comum em sistemas caóticos. Por exemplo, o famoso mapa logístico produz uma série de números entre 0 e 1 a partir da relação de recorrência xn+1=4xn(1-xn). Esses números são gerados a partir de um procedimento simples e determinístico, mas se distribuem erraticamente no intervalo (0,1) e são pseudo-aleatórios. A distribuição de probabilidade que descreve esse conjunto de pontos é 1πx(1-x), de tipo Beta. Um outro exemplo éo mapa

(11) x n + 1 = { 2 x 1 - x 2 for 0 x 2 - 1 , 1 - x 2 2 x for 2 - 1 x 1 ,

que gera pontos distribuídos de acordo com a distribuição 4π(1+x2). Em geral é muito difícil determinar a distribuição de probabilidade associada a um mapa caótico [4[4] P. Biswas, H. Shimoyama e L.R. Mead, J. Phys. A: Math. Theor. 43, 125103 (2010).]. A semelhança entre sistemas caóticos de poucos graus de liberdade e sistemas termodinâmicos é explorada, por exemplo, em [5[5] C. Beck e F. Schlogl, Thermodynamics of Chaotic Systems (Cambridge University Press, Cambridge, 1993). ].

A aplicação mais chocante de métodos probabilísticos a situações determinísticas talvez seja a que envolve os números primos. Por incrível que pareça, várias propriedades dos números primos sugerem que eles estão distribuídos, entre os inteiros, de maneira pseudo-aleatória. Essa hipótese, conhecida como modelo de Cramér, postula que a probabilidade de que um número n seja primo é aproximadamente 1logn, o que funciona em algumas situações. Por exemplo, decorre daí que a quantidade de números primos menores que um valor qualquer X2 deve ser aproximadamente 2Xdxlogx, o que está de fato correto.

Outro exemplo é teorema de Erdős-Kac [6[6] WIKIPEDIA, Erds-Kac Theorem, disponível em: https://en.wikipedia.org/wiki/Erdös–Kac_theorem, acessado em 04/01/2022.
https://en.wikipedia.org/wiki/Erdös–Kac_...
], que diz que se ω(n) é o número de fatores primos distintos do número n, então para n1 a quantidade (ω(n)-loglogn)/loglogn tem distribuição gaussiana com média 0 e variância 1. O comportamento dos ciclos de permutações de N números, com N1, também têm características pseudo-aleatórias muito semelhantes às dos números primos, envolvendo distribuições de Poisson [7[7] A. Granville, The anatomy of integers and permutations, disponível em: https://dms.umontreal.ca/~andrew/MSI/AnatomyForTheBook.pdf, acessado em 04/01/2022.
https://dms.umontreal.ca/~andrew/MSI/Ana...
, 8[8] R. Arratia, A.D. Barbour e S. Tavaré, Notices Am. Math. Soc. 44, 903 (1997)., 9[9] J. Baez, Random permutations, disponível em: https://math.ucr.edu/home/baez/permutations/, acessado em 04/01/2022.
https://math.ucr.edu/home/baez/permutati...
].

5. Momentos e Cumulantes

Seja ρ(x) uma distribuição de probabilidade. As grandezas

(12) M n = x n ρ ( x ) d x = x n

são seus momentos. Note que M0 = 1 para toda distribuição, já que são sempre normalizadas. O primeiro momento corresponde ao valor médio da variável. A diferença entre o segundo momento e o quadrado do primeiro é a chamada variância, e mede o quanto a variável se distancia de sua média,

(13) σ = M 2 - M 1 2 = ( x - x ) 2 .

A função geratriz dos momentos,

(14) f ( t ) = n = 0 M n t n n ! ,

chamada de função característica, se relaciona com a distribuição da seguinte maneira:

(15) f ( t ) = n = 0 t n n ! x n ρ ( x ) d x = ρ ( x ) ( n = 0 ( t x ) n n ! ) d x = ρ ( x ) e t x d x ,

ou seja, por uma espécie de transformada de Laplace (note que ainda não especificamos o espaço no qual a variável está definida), que talvez possa ser invertida para fornecer ρ(x) dada f(t). Em vez da função geratriz, muitas vezes se usa a chamada função característica, que é simplesmente

(16) φ ( t ) = f ( i t ) = ρ ( x ) e i t x d x .

O resultado acima é interessante porque muitas vezes os momentos podem ser obtidos experimentalmente, ou numericamente. Ou seja, podemos medir a média, a variância, etc. Tendo em mãos essas quantidades podemos, em tese, obter informações a respeito da distribuição que as gerou.

Outro conjunto de números que pode ser usado para caracterizar uma distribuição são seus cumulantes. Seja Cn o cumulante de ordem n e seja

(17) g ( t ) = n = 1 C n t n n !

a função geratriz desses números. Os cumulantes são definidos em termos dos momentos através de uma relação entre as respectivas funções geratrizes:

(18) g ( t ) = log [ f ( t ) ] , f ( t ) = e g ( t ) .

Como

(19) log ( 1 + M 1 t + M 2 t 2 2 + O ( t 3 ) ) = M 1 t + ( M 2 - M 1 2 ) t 2 2 + O ( t 3 ) ,

vemos que o primeiro cumulante coincide com a média e o segundo é justamente a variância. O terceiro e o quarto cumulantes são chamados, respectivamente, de obliquidade e curtose. Nos casos mais simples, a obliquidade e a curtose medem, respectivamente, o quanto a distribuição é inclinada e o quanto seu pico é achatado.

Todos os cumulantes de ordem maior que 2 são nulos para uma distribuição gaussiana. Sendo assim, podemos dizer que, de certa forma, os cumulantes de uma distribuição ρ(x) medem o quanto ela difere de uma gaussiana.

Os cumulantes possuem duas propriedades importantes, que não são compartilhadas pelos momentos: 1) os cumulantes da soma de variáveis aleatórias independentes são iguais às somas dos cumulantes individuais; 2) com exceção do primeiro, são invariantes por translação, ou seja, os cumulantes de ρ(x+a) são iguais aos de ρ(x).

Os quatro primeiros momentos são dados em função dos cumulantes por

(20) M 1 = C 1 ,
(21) M 2 = C 2 + C 1 2 ,
(22) M 3 = C 3 + 3 C 2 C 1 + C 1 3 ,
(23) M 4 = C 4 + 4 C 3 C 1 + 3 C 2 2 + 6 C 2 C 1 2 + C 1 4 .

Os coeficientes que aparecem nessa fórmulas são conhecidos como números de Faà di Bruno. Para descrevê-los, precisamos do conceito de partição. As partições de um inteiro positivo são as maneiras de escrevê-lo como soma de inteiros positivos. Por exemplo, o número 4 tem cinco partições: 4, 3+1, 2+2, 2+1+1 e 1+1+1+1. O número de partes da partição λ é denotado (λ), e rj(λ) é o número de vezes que a parte j aparece em λ. Por exemplo, (2,1,1)=3, r1(2,1,1)=2, r2(2,1,1)=1. Em geral, temos

(24) M n = λ n n ! j λ j ! r j ( λ ) ! i λ C i ,

onde a soma é sobre todas as partições de n. Por outro lado, os primeiros cumulantes em função dos momentos são:

(25) C 1 = M 1 ,
(26) C 2 = M 2 - M 1 2 ,
(27) C 3 = M 3 - 3 M 2 M 1 + 2 M 1 3 ,
(28) C 4 = M 4 - 4 M 3 M 1 - 3 M 2 2 + 12 M 2 M 1 2 - 6 M 1 4 ,

e a fórmula geral é:

(29) C n = λ n ( - 1 ) ( λ ) - 1 ( ( λ ) - 1 ) ! n ! j λ j ! r j ( λ ) ! i λ M i .

A relação entre momentos e cumulantes possui uma interpretação interessante quando vista em termos gráficos. Representamos o cumulante Cn por um grafo cíclico que possui n vértices. O produto Cn Cm corresponde a um grafo com n + m vértices e dois ciclos, que visitam n e m vértices cada.

A Figura1 mostra todas as possibilidades com 4 vértices. Temos 1 caso que consiste de quatro componentes triviais, de um vértice só, correspondendo a C14; temos 6 casos que consistem de duas componentes triviais e uma componente de dois vértices, correspondendo a C12C1; temos 3 casos que consistem de duas componentes de dois vértices, correspondendo a C22; temos 4 casos que consistem de um componente trivial e uma de três vértices, correspondendo a C1C3 e temos 1 caso totalmente conexo, que corresponde a C4. Note como cada conjunto de grafos na figura corresponde a um termo na expressão de M4 em termos de cumulantes, Eq. (23).

Figura 1
Relação gráfica entre momentos e cumulantes: decomposição de grafos em componentes conexas.

De acordo com essa interpretação, dizemos que o cumulante Cn corresponde ao diagrama cíclico de n vértices conexo, enquanto o momento Mn corresponde a todos os diagramas de n vértices com componentes cíclicas, inclusive os que não são conexos.

De fato, essa relação entre diagrams conexos/ desconexos é mais geral do que a relação entre cumulantes/momentos. Seja f uma função que associa a qualquer grafo um número real. Suponhamos que a função seja multiplicativa, no sentido de que seu valor em um grafo desconexo é dado pelo produto dos valores calculados sobre as componentes conexas: F(AB)=F(A)F(B). Então, se

(30) s = g todos F ( g )

é uma soma de F sobre todos os grafos com componentes conexas de um certo tipo (cíclicas, por exemplo), podemos obter a mesma soma porém restrita a grafos conexos do mesmo tipo tomando o logaritmo:

(31) log ( s ) = g conexos F ( g ) .

6. Distribuições Beta, Gamma e Gaussiana

Suponha que temos um problema físico que queremos descrever de maneira estatística. Temos uma variável aleatória x e queremos associar a ela alguma distribuição. Qual a distribuição mais natural? A resposta depende da natureza do espaço no qual a variável está definida: ele é finito, semi-infinito ou duplamente infinito?

6.1. Intervalo finito, Beta

Algumas variáveis aleatórias têm seu valor restrito a um intervalo finito. A posição de uma partícula dentro de uma caixa, por exemplo, ou a posição de um oscilador com energia finita, ou a condutância de um sistema eletrônico.

A distribuição uniforme é a mais simples que podemos imaginar nessa situação. Em um intervalo finito, (a,b), ela é dada por ρ(x)=1/(b-a). No caso do intervalo (0,1), temos ρ(x)=1. Essa distribuição tem momentos dados por

(32) 0 1 x n d x = 1 n + 1

e função geratriz f(t)=1t(et-1).

Existe uma generalização da distribuição constante no intervalo finito (0,1), chamada de distribuição Beta, que é especificada por dois parâmetros positivos:

(33) ρ Beta α , β ( x ) = B x α - 1 ( 1 - x ) β - 1 .

Para que ela seja corretamente normalizada, é preciso que

(34) 1 B = 0 1 x α - 1 ( 1 - x ) β - 1 ,

e essa integral é conhecida como a primeira integral de Euler ou integral Beta, daí o nome da distribuição. Ela é dada em termos da função Gamma (veja na próxima subseção):

(35) B = Γ ( α + β ) Γ ( α ) Γ ( β ) .

Podemos generalizar a distribuição Beta para um intervalo genérico (a,b), usando a forma (x-a)α-1(b-x)β-1.

A distribuição constante corresponde ao caso particular α=β=1. Para que a distribuição seja normalizável temos que ter α,β1/2.

Se α=β, a distribuição é simétrica. Se α>1, valores muito pequenos de x são pouco prováveis, e o contrário acontece se α<1 (a situação na vizinhança de x=1 é análoga, com β em lugar de α). Os momentos da distribuição Beta são dados por

(36) 0 1 B x n x α - 1 ( 1 - x ) β - 1 d x = Γ ( α + n ) Γ ( α + β ) Γ ( α ) Γ ( α + β + n ) .

Um exemplo importante da distribuição Beta é o seguinte. Imagine que temos um oscilador harmônico que satisfaz mv2+kx2=kx02, ou seja, tem frequência angular ω e amplitude x0, mas não temos nenhuma informação sobre onde ele está. Se medirmos sua posição num instante qualquer, é razoável supor que a probabilidade de que esteja num intervalo de tamanho dx é proporcional ao tempo que ele fica nesse intervalo, portanto inversamente proporcional à velocidade que tem quando passa por ali, ou seja,

(37) d x v ( x ) = d x ω x 0 2 - x 2 .

Essa é uma distribuição Beta no intervalo (-x0,x0) com parâmetros α=β=12. Esse tipo de densidade de probabilidade aparece também em aproximações semiclássicas da mecânica quântica.

Se distribuímos pontos de maneira uniforme sobre a circunferência S1, ou seja se tivermos o ângulo θ com distribuição uniforme, então a projeção desses pontos sobre o eixo horizontal x=cosθ será 1|dx/dθ|=1|sin(θ)|, que em termos de y=x2 é a distribuição Beta em (0,1) com parâmetros α=β=12. De forma mais geral, como discutido em [10[10] K. Życzkowski e H.J. Sommers, J. Phys. A: Math. Gen. 33, 2045 (2000).], a projeção da esfera em N sobre M leva a uma distribuição Beta para o quadrado da distância até a origem, com parâmetros α=M/2 e β=(N-M)/2.

Outro exemplo notável é distribuição de Wigner, conhecida como lei do semi-círculo, dada por 12π4-x2. Ela pode ser vista como um caso particular da Beta no intervalo (-2,2) com parâmetros α=β=3/2. Essa distribuição descreve os autovalores de matrizes hermitianas e com elementos independentes e distribuídos de forma gaussiana [11[11] G. Livan, M. Novaes e P. Vivo, Introduction to Random Matrices: Theory and Practice (Springer, Cham, 2018).], no regime de grandes dimensões. Seus momentos pares são os chamados números de Catalão,

(38) 1 2 π - 2 2 x 2 n 4 - x 2 = 1 n + 1 ( 2 n n ) .

Podemos mencionar ainda o contexto de transporte eletrônico através de cavidades quânticas com dinâmica clássica caótica [12[12] C.W.J. Beenakker, Rev. Mod. Phys. 69, 731 (1997).]. Se as guias de entrada e saída têm apenas um canal de transmissão aberto cada uma, então a condutância do sistema, 0g1 em unidades apropriadas, tem distribuição de probabilidade constante se não houver simetria de reversão temporal e proporcional a g-1/2 se houver essa simetria (ambas distribuições Beta).

6.2. Intervalo semi-infinito, Gamma

Algumas variáveis aleatórias podem estar restritas a um intervalo semi-infinito, tipicamente (0,). É o caso, por exemplo, da coordenada radial de uma partícula em duas ou três dimensões, ou do intervalo de tempo entre dois decaimentos radioativos do mesmo átomo, ou duas colisões no modelo de Drude.

No modelo de Drude, um elétron se move livremente exceto por colisões com impurezas imóveis. Digamos que P(t) é a probabilidade de nenhuma colisão ter ocorrido durante um intervalo de tempo t. É razoável supor que duas colisões são eventos independentes e portanto a probabilidade de não ocorrer colisão em (0,t1+t2) seja igual à probabilidade de não ocorrer colisão em (0,t1) multiplicada pela probabilidade de não ocorrer colisão em (t1,t1+t2). Supondo ainda que a probabilidade depende apenas do intervalo de tempo e não dos instantes inicial e final, queremos que P(t1+t2)=P(t1)P(t2). Concluímos imediatamente que P(t)=e-t/τ para algum parâmetro τ.

A distribuição exponencial 1ξe-x/ξ é o caso mais simples de distribuição Gamma. Seu valor médio é ξ e sua variância é ξ2.

Por exemplo, se x e y são coordenadas no plano e têm ambas a mesma distribuição gaussiana, proporcional a e-x2 e a e-y2, respectivamente, então a distribuição da distância até a origem, r=x2+y2, é proporcional a re-r2. Se definirmos z=r2, então a variável z tem distribuição exponencial.

A distribuição Gamma mais geral contém dois parâmetros reais e é dada por

(39) ρ Gamma α , ξ ( x ) = G x α - 1 e - x / ξ .

A normalização exige que

(40) 1 G = 0 x α - 1 e - x / ξ d x ,

que é conhecida como a segunda integral de Euler ou integral Gamma. Sua solução é justamente a função Gamma,

(41) 0 x α - 1 e - x d x = Γ ( α ) ,

uma generalização do fatorial, pois se α é um número inteiro, então Γ(α)=(α-1)!. A constante de normalização é

(42) G = 1 ξ α Γ ( α ) .

Por exemplo, a função de onda do estado fundamental do átomo de hidrogênio decai exponencialmente a partir da origem, sendo proporcional a e-r/a0 onde a0 é a raio de Bohr. A densidade de probabilidade correspondente, em coordenadas esféricas, é proporcional a r2e-2r/a0 (note o fator r2 que vem do elemento de volume). Essa é uma distribuição Gamma com α=3 e ξ=a0/2.

Se α<1, a distribuição Gamma favorece o valor x=0. Se α>1, então x=0 passa a ser improvável (é necessário que α1/2).

Os momentos da distribuição Gamma são

(43) 0 x n ρ Gamma α , ξ ( x ) d x = ξ n Γ ( α + n ) Γ ( α ) .

A função geratriz desses momentos é

(44) f ( t ) = 1 ( 1 - ξ t ) α ,

que realmente satisfaz

(45) f ( t ) = 0 ρ Gamma α , ξ ( x ) e t x d x .

Já os cumulantes são dados simplesmente por Cn=α(n-1)!ξn, já que a sua função geratriz é

(46) g ( t ) = - α log ( 1 - ξ t ) .

É curioso que, quando α=n+1 é um número inteiro e ξ=1, a distribuição Gamma coincide com a distribuição de Poisson, ρGamman+1,1(x)=pPoissonx(n).

É interessante notar que a distribuição Gamma pode ser encarada como um caso limite da distribuição Beta em (0,1): se temos xα-1(1-x)β e fazemos x=y/(ξβ) e depois tomamos β, o resultado é proporcional a yα-1e-y/ξ.

6.2.1. Distribuição de Pareto

Podemos generalizar a distribuição Gamma usando um intervalo semi-infinito (a,) com a>0. A versão mais popular dessa situação é a que obtemos ao fazer ξ. Nesse caso, temos a distribuição de Pareto, que corresponde a uma lei de potência:

(47) ρ Pareto a , α ( x ) = α a α x α + 1 .

Empiricamente, observa-se que essa distribuição descreve bem a distribuição de renda em um país (muita gente ganhando pouco, raros milionários) e a distribuição do tamanho das cidades (muitas cidades pequenas, poucas metrópoles), entre outros dados obtidos empiricamente. Leis de potência parecem ser muito comuns na natureza, ainda que sua real validade matemática seja discutível [13[13] A. Clauset, C.R. Shalizi e M.E.J. Newman, SIAM Review 51, 661 (2009).].

Como a distribuição de Pareto é muito concentrada, ela deu origem ao chamado “princípio de Pareto” de que 80% dos resultados correspondem a 20% das causas (ou seja, 80% da população viveria em 20% das cidades, ou 80% da riqueza estaria nas mãos dos 20% mais ricos, 80% das vendas de uma loja seriam feitas para 20% dos clientes etc). Esse princípio só vale exatamente se a distribuição tiver parâmetro α=log451,16, mas já foi observado (em proporções um pouco diferentes) em várias situações.

A distribuição de Pareto só tem os primeiros momentos,

(48) M n = α a n α - n , n < α .

Os momentos com ordem maior que α divergem, de modo que a função geratriz não existe.

Se x tem distribuição de Pareto no intervalo (a,), então a variável y=log(x/a) tem distribuição exponencial.

6.3. Intervalo duplamente infinito, Gaussiana

E se nossa variável aleatória não estiver contida em um intervalo finito mas, em vez disso, puder assumir qualquer valor real? Nesse caso, a distribuição gaussiana é de longe a mais popular:

(49) ρ Gauss μ , σ ( x ) = 1 σ 2 π e - ( x - μ ) 2 2 σ 2 .

Essa distribuição tem valor médio μ e variância σ2.

Sendo a distribuição uma função par em torno da média, os momentos ímpares em torno da média são nulos,

(50) - ( x - μ ) 2 n + 1 ρ Gauss μ , σ ( x ) d x = 0 .

Por outro lado, os momentos pares em torno da média são dados por

(51) - ( x - μ ) 2 n ρ Gauss μ , σ ( x ) d x = σ 2 n ( 2 n - 1 ) !! = σ 2 n ( 2 n ) ! 2 n n ! .

Os momentos originais, por sua vez, são um pouco mais complicados,

(52) - x n ρ Gauss μ , σ ( x ) d x = k = 0 n / 2 n ! k ! ( n - 2 k ) ! 2 k σ 2 k μ n - 2 k .

A função geratriz desses momentos é

(53) f ( t ) = e t 2 σ 2 / 2 + t μ .

Neste caso, a função característica, Eq. (16), e a distribuição original podem ser relacionadas por uma transformada de Fourier,

(54) φ ( t ) = e - t 2 σ 2 / 2 + i t μ = - ρ Gauss μ , σ ( x ) e i t x d x .

Por outro lado, a função geratriz dos cumulantes é simplesmente

(55) g ( t ) = t 2 σ 2 / 2 + t μ ,

de modo que todos os cumulantes de ordem maior que 2 são nulos para uma distribuição gaussiana, como já comentamos anteriormente.

O estado fundamental do oscilador harmônico quântico, ou seja, a solução da equação de Schrödinger

(56) - 2 2 m d 2 d x 2 ψ ( x ) + m ω 2 2 x 2 ψ ( x ) = ω 2 ψ ( x ) ,

dá origem a uma distribuição de probabilidade gaussiana,

(57) | ψ ( x ) | 2 = m ω π e - m ω x 2 ,

com média 0 e variância proporcional a .

A gaussiana é também a solução fundamental da equação de difusão, ψt=Dd2ψdx2, para x(-,). Isso significa que, se a condição inicial for ψ(x,0)=δ(x), a solução no tempo t será dada por

(58) ψ ( x , t ) = 1 4 π D t e - 1 4 D t x 2 .

Parte da importância da distribuição gaussiana vem do chamado Teorema Central do Limite: a soma de um número grande de variáveis independentes e identicamente distribuídas, com variância finita, será sempre gaussiana, mesmo que essas variáveis não o sejam. Concretamente, digamos que xi, com 1iN, são N variáveis aleatórias independentes, cada uma dela com distribuição ρ(x), sendo que x=μ e (x-μ)2=σ2. Então, quando N a distribuição da variável y=(x1++xN)/N fica indistinguível da função ρGaussμ,σ/N(y), qualquer que seja ρ(x).

O exemplo mais famoso do teorema central do limite é o movimento Browniano. Em uma dimensão, se uma partícula se move de forma aleatória, tendo a cada passo uma certa probabilidade de se deslocar um pouco para esquerda ou um pouco para a direita, sua distância a partir de onde começou terá, depois de um tempo longo, distribuição gaussiana [14[14] WIKIPEDIA, Brownian motion, disponível em: https://en.wikipedia.org/wiki/Brownian_motion, acessado em 04/01/2022.
https://en.wikipedia.org/wiki/Brownian_m...
], com variância que cresce linearmente com o tempo (essencialmente, esse é o mesmo problema resolvido pela equação de difusão mencionada acima).

Em um espaço de dimensão N, o quadrado da distância até a origem é dado por r2=i=1Nxi2. Se os xi são variáveis aleatórias independentes, cada uma delas com distribuição ρGauss0,1(x), então a distribuição da variável r é

(59) ρ Chi N ( r ) = r N - 1 e - r 2 / 2 2 N / 2 - 1 Γ ( N / 2 ) ,

que é chamada de distribuição Chi. Para N=2 ela é conhecida como distribuição de Rayleigh e descreve, por exemplo, o primeiro estado excitado do oscilador harmônico quântico e também os autovalores de matrizes circulantes aleatórias de alta dimensão [15[15] K. Saha, Spectral properties of large dimensional random circulant type matrices. Tese de Doutorado, Indian Statistical Institute, Calcutá (2010).]. Para N=3 ela é a distribuição de Maxwell-Boltzmann, que descreve a velocidade das partículas que compõem um gás.

A distribuição Chi também descreve a diferença λ2-λ1 entre o maior e o menor autovalor de matrizes hermitianas 2×2 com distribuição gaussiana. Talvez valha a pena fazer essa conta explicitamente no caso de matrizes reais. A diferença entre os autovalores da matriz M=(abbc) é d=(a-c)2+4b2. Tomamos a distribuição conjunta como sendo proporcional a

(60) e - 1 2 Tr ( M 2 ) = e - a 2 / 2 e - c 2 / 2 e - b 2 .

Fazendo a mudança de variáveis a-c=dcosθ, 2b=dsinθ e a+c=e, temos um jacobiano que é proporcional a d e

(61) a 2 2 + c 2 2 + b 2 = d 2 + e 2 4 .

A integral sobre e é trivial e chegamos ao resultado (que corresponde à Chi com N=2). O aspecto mais interessante desse cálculo é justamente o jacobiano, pois ele mostra que os autovalores se repelem: a variável d tem pouca chance de ser nula. Em outras palavras, matrizes aleatórias não costumam ser degeneradas [16[16] F. Haake, S. Gnutzmann e M. Kuś, Quantum Signatures of Chaos (Springer, Berlim, 2018), 4ͣ ed.].

Uma observação interessante é que, se r tem a distribuição Chi apresentada acima, a variável z=r2 tem distribuição

(62) z N / 2 - 1 e - z / 2 2 N / 2 Γ ( N / 2 ) ,

que é às vezes chamada de distribuição Chi-quadrado, mas que é simplesmente uma distribuição Gamma com α=N/2 e ξ=2.

Finalmente, é interessante notar que a distribuição gaussiana pode ser encarada como um caso limite da distribuição Beta simétrica em (-1,1): se temos (1+x)β(1-x)β e fazemos x=y/β e depois tomamos β, o resultado é exatamente e-y2.

6.4. Princípio variacional

Comentamos na Seção 3 que a quantidade

(63) S [ ρ ] = - - ρ ( x ) log [ ρ ( x ) ] d x

não é uma definição adequada de entropia. Não obstante, vale notar que a gaussiana é a distribuição que maximiza esse funcional, dados os três vínculos

(64) - ρ ( x ) d x = 1 ,
(65) - x ρ ( x ) d x = M 1

e

(66) - x 2 ρ ( x ) d x = M 2 .

De fato, a equação de Euler-Lagrange para esse problema é dada por

(67) δ S δ ρ = - log ( ρ ) - 1 - ν 0 - ν 1 x - ν 2 x 2 = 0 ,

cuja solução é imediata e fornece justamente a gaussiana. Assim, de certa forma pode-se dizer que, ao supormos que uma variável aleatória definida em (-,) tem distribuição gaussiana, estamos fazendo a escolha de “máxima entropia”, ou seja, a hipótese que pressupõe o mínimo de informação a respeito do problema.

No caso do intervalo semi-infinito (0,), podemos acrescentar uma penalidade para o valor x=0, se quisermos tornar menos provável que a variável tenha esse valor. Uma maneira de fazer isso é acrescentar um termo logarítmico ao funcional e escrever

(68) S [ ρ ] = - 0 { ρ ( x ) log [ ρ ( x ) ] d x + ( α - 1 ) ρ ( x ) log x } d x .

A distribuição Gamma maximiza esse funcional, com os vínculos (64) e (65).

Finalmente, para uma variável aleatória no intervalo (0,1) introduzimos duas penalidades,

(69) S [ ρ ] = - 0 1 { ρ ( x ) log [ ρ ( x ) ] d x + ( α - 1 ) ρ ( x ) log x + ( β - 1 ) ρ ( x ) log ( 1 - x ) } d x .

A distribuição Beta maximiza esse funcional, com o vínculo (64).

7. Outras Distribuições Importantes

As distribuições Beta, Gamma e gaussiana são fundamentais, mas há várias outras distribuições de probabilidades importantes além delas. Mencionemos alguns exemplos.

7.1. Distribuição lorentziana

A distribuição lorentziana (também chamada distribuição de Cauchy):

(70) a π ( ( x - μ ) 2 + a 2 ) , - < x < .

Uma característica dessa distribuição é que, como ela decai muito devagar, não tem nenhum momento bem definido. Nem mesmo a média existe. A grandeza μ é a moda e a mediana, mas não é a média; por outro lado, a grandeza a é a largura à meia altura, mas não é o desvio padrão.

Em termos de um parâmetro complexo, z=μ+ia, a distribuição lorentziana pode ser escrita como 1πIm(1x-z). Sua função característica é bastante simples,

(71) - e i t x a π ( ( x - μ ) 2 + a 2 ) d x = e i μ t - a | t | .

Se t>0, essa função é simplesmente eizt.

A largura de linha dos estados excitados de um átomo (existentes por causa da interação com o vácuo eletromagnético e responsável pelo tempo de vida finito dos estados excitados) é uma lorentziana (a variável sendo a energia).

A lorentziana não está sujeita ao teorema central do limite, por não ter variância. Em vez disso, ela satisfaz sua própria versão do teorema: a soma de variáveis identicamente distribuídas com distribuição lorentziana também tem distribuição lorentziana.

Se x e y são duas variáveis independentes com distribuição gaussiana, de média 0 e variância 1, então a razão x/y tem distribuição lorentziana, com μ=0 e a=1.

7.2. Distribuições de valores extremos

Seja uma variável aleatória x com distribuição de probabilidade ρ(x). Sua distribuição cumulativa

(72) P ( x < X ) = - X ρ ( x ) d x

representa a probabilidade de que x tenha valor menor do que X.

Imaginemos uma nova variável aleatória x~ que é o maior valor de x dentre um sorteio de N realizações independentes,

(73) x ~ = max ( x 1 , , x N ) .

É claro que x~X se e somente se xiX para todo i. Portanto,

(74) P ( x ~ < X ) = i = 1 N P ( x < X ) = [ P ( x < X ) ] N .

Por exemplo, se ρ(x)=1ξe-x/ξ, então P(x<X)=(1-e-X/ξ). Subtraindo um fator ξlog(N), por conveniência, temos P(x~-ξlog(N)<X)=P(x~<X+ξlog(N)) e

(75) P ( x ~ < X + ξ log ( N ) ) = ( 1 - e - X / ξ N ) N e - e - X / ξ ,

onde tomamos o limite N. Esse é o caso mais simples de uma variável com distribuição de Gumbel, cuja cumulativa é em geral dada por e-e-(X-μ)/σ.

Temos aqui um caso de universalidade [17[17] A. Hansen, Front. Phys. 8, 533 (2020).], porque o valor extremo deslocado, x~-qN, tem distribuição de Gumbell, quando N, para qualquer distribuição original ρ(x) que decaia mais rápido do que qualquer potência quando x. O valor do deslocamento é dado pela igualdade P(x<qN)=1-1/N.

A distribuição de Gumbell já foi usada para descrever a chuva mais forte do ano e outros fenômenos meteorológicos [18[18] D. Koutsoyiannis, em: ESF LESC Exploratory Workshop (Bologna, 2003).]. Matematicamente, ela descreve bem o módulo do maior autovalor de matrizes não-hermitianas [19[19] M. Novaes, Phys. Rev. E 85, 036202 (2012).].

Se ρ(x) decai como uma potência, ρ(x)1/xα+1, como no caso da distribuição de Pareto, então o valor extremo tem distribuição de Fréchet, cuja cumulativa é do tipo e-N/Xα.

Existe ainda uma terceira classe de universalidade, quando ρ(x)=0 para x>a e ρ(x)(x-a)α-1 quando x tende a a pela esquerda (essa situação inclui uma distribuição constante num intervalo finito, por exemplo). Nesse caso, o valor extremo tem distribuição de Weibull, cuja cumulativa é do tipo e-N(a-X)α.

8. Conclusão

Distribuições de probabilidade são um conceito fundamental em física e matemática, indispensáveis na compreensão da mecânica estatística e da mecânica quântica, sem falar no tratamento estatístico de dados que hoje em dia só cresce, com computadores cada vez mais rápidos processando quantidades de dados cada vez maiores.

Apresentamos neste artigo uma discussão acessível das principais distribuições de probabilidade que são encontradas na física, mencionando suas principais propriedades e exemplos de aplicações. Esperamos assim contribuir para a formação de estudantes de física, fornecendo um material de referência e de apoio àqueles que estão encontrando essas ideias pela primeira vez.

Agradeço o apoio financeiro do CNPq (306765/ 2018-7) e os comentários de um parecerista anônimo.

Referências

  • [1]
    http://www.numeromania.com.br/sena.html.
    » http://www.numeromania.com.br/sena.html.
  • [2]
    S.K. Baekl, S. Bernhardsson e P. Minnhagen, New J. Phys. 13, 043004 (2011).
  • [3]
    M. Visser, New J. Phys. 15, 043021 (2013).
  • [4]
    P. Biswas, H. Shimoyama e L.R. Mead, J. Phys. A: Math. Theor. 43, 125103 (2010).
  • [5]
    C. Beck e F. Schlogl, Thermodynamics of Chaotic Systems (Cambridge University Press, Cambridge, 1993).
  • [6]
    WIKIPEDIA, Erds-Kac Theorem, disponível em: https://en.wikipedia.org/wiki/Erdös–Kac_theorem, acessado em 04/01/2022.
    » https://en.wikipedia.org/wiki/Erdös–Kac_theorem
  • [7]
    A. Granville, The anatomy of integers and permutations, disponível em: https://dms.umontreal.ca/~andrew/MSI/AnatomyForTheBook.pdf, acessado em 04/01/2022.
    » https://dms.umontreal.ca/~andrew/MSI/AnatomyForTheBook.pdf
  • [8]
    R. Arratia, A.D. Barbour e S. Tavaré, Notices Am. Math. Soc. 44, 903 (1997).
  • [9]
    J. Baez, Random permutations, disponível em: https://math.ucr.edu/home/baez/permutations/, acessado em 04/01/2022.
    » https://math.ucr.edu/home/baez/permutations/
  • [10]
    K. Życzkowski e H.J. Sommers, J. Phys. A: Math. Gen. 33, 2045 (2000).
  • [11]
    G. Livan, M. Novaes e P. Vivo, Introduction to Random Matrices: Theory and Practice (Springer, Cham, 2018).
  • [12]
    C.W.J. Beenakker, Rev. Mod. Phys. 69, 731 (1997).
  • [13]
    A. Clauset, C.R. Shalizi e M.E.J. Newman, SIAM Review 51, 661 (2009).
  • [14]
    WIKIPEDIA, Brownian motion, disponível em: https://en.wikipedia.org/wiki/Brownian_motion, acessado em 04/01/2022.
    » https://en.wikipedia.org/wiki/Brownian_motion
  • [15]
    K. Saha, Spectral properties of large dimensional random circulant type matrices Tese de Doutorado, Indian Statistical Institute, Calcutá (2010).
  • [16]
    F. Haake, S. Gnutzmann e M. Kuś, Quantum Signatures of Chaos (Springer, Berlim, 2018), 4ͣ ed.
  • [17]
    A. Hansen, Front. Phys. 8, 533 (2020).
  • [18]
    D. Koutsoyiannis, em: ESF LESC Exploratory Workshop (Bologna, 2003).
  • [19]
    M. Novaes, Phys. Rev. E 85, 036202 (2012).

Datas de Publicação

  • Publicação nesta coleção
    19 Jan 2022
  • Data do Fascículo
    2022

Histórico

  • Recebido
    08 Dez 2021
  • Revisado
    25 Dez 2021
  • Aceito
    27 Dez 2021
Sociedade Brasileira de Física Caixa Postal 66328, 05389-970 São Paulo SP - Brazil - São Paulo - SP - Brazil
E-mail: marcio@sbfisica.org.br