Acessibilidade / Reportar erro

Combinando Métodos de Aprendizado Supervisionado para a Melhoria da Previsão do Redshift de Galáxias

RESUMO

Um problema fundamental em cosmologia é estimar redshifts de galáxias com base em dados fotométricos. Por exemplo a Sloan Digital Sky Survey (SDSS) já coletou dados fotométricos relativos a cerca de um bilhão de objetos para os quais é necessário estimar os respectivos redshifts. Tradicionalmente, essa tarefa é resolvida utilizando-se métodos de aprendizado de máquina. Neste trabalho, mostramos como métodos existentes podem ser combinados de forma a se obter estimativas ainda mais precisas para os redshifts de galáxias. Abordamos este problema sob duas éticas: (i) estimação da regressão do redshift y nas covariáveis fotométricas x,E[Y|x], e (ii) estimação da função densidade condicional f(y|x). Aplicamos as técnicas propostas para um banco de dados provenientes do SDSS e concluímos que as predições combinadas são de fato mais precisas que os métodos individuais.

Palavras-chave:
aprendizado de máquina; stacking; funções densidades condicionais; cosmologia

ABSTRACT

A key problem in cosmology is the estimation of the redshifts of galaxies using photometric data. For instance, the Sloan Digital Sky Survey (SDSS) has already collected photometric data of about one billion objects, and it is necessary to estimate their redshifts. Typically, this is done by using supervised learning methods. In this work we show that existing redshift prediction methods can be combined in order to obtain more accurate predictions. We tackle this problem under two perspectives: (i) estimation of the regression function of the redshift y on the photometric x, E[Y|x], and (ii) estimation of the conditional density f(y|x).We apply the proposed techniques to data from the Sloan Digital Sky Survey, and show that the combined predictions are indeed more accurate.

Keywords:
machine learning; stacking; conditional densities; cosmology

1 INTRODUÇÃO

O redshift de uma galáxia é essencialmente uma medida da distância entre essa galáxia e a Terra. Estimar essa quantidade com alta precisão é um problema chave em cosmologia: Isso ocorre pois, como a luz necessita de tempo para percorrer uma dada distância, imagens de objetos que estão mais distantes em nosso universo refletem como o universo era há muitos anos atrás. Quanto mais distante o objeto, mais antiga é a imagem obtida. Assim, estimar o redshift de um objeto é fundamental para que seja possível fazer interferências precisas sobre a evolução do universo22. G.B. Brammer, P.G. van Dokkum & P. Coppi. EAZY: a fast, public photometric redshift code. The Astrophysical Journal, 686(2) (2008), 1503..

Existem duas formas de estimar o redshift de uma galáxia: a espectroscopia e a fotometria. A espectroscopia é baseada na decomposição da luz emitida por um objeto. Avaliando-se a localização das linhas de absorção no seu espectro, é possível estimar o redshift da galáxia com grande acurácia. Infelizmente, essa é uma técnica extremamente cara e lenta, de modo que não é possível aplicá-la a muitos objetos. No entanto, a fotometria é uma técnica de medição mais rápida e barata, que é baseada na observação de imagens de uma galáxia em diferentes bandas fotométricas. Infelizmente, a fotometria produz estimativas de baixa resolução. Como há bilhões de galáxias em nosso universo, não é possível aplicar a espectroscopia a todas elas. Assim, é importante criar métodos que sejam capazes de utilizar a fotometria da melhor forma possível para conseguir estimativas precisas dos redshifts, de modo que não seja necessário aplicar a espectroscopia para todas as galáxias de interesse.

Na prática, a fotometria consiste na medição de diversas cores de uma galáxia a partir de sua imagem. Para que essas cores sejam utilizadas para estimar redshifts, coleta-se um conjunto de dados em que são conhecidos tantos os dados fotométricos (i.e., as cores das galáxias) quanto o redshift de cada uma delas, sendo esses obtidos através de espectroscopia. A partir dessas informações, utiliza-se métodos de aprendizado de máquina para fazer a predição do redshift em novas galáxias que não foram submetidas ao processo de espectroscopia22. G.B. Brammer, P.G. van Dokkum & P. Coppi. EAZY: a fast, public photometric redshift code. The Astrophysical Journal, 686(2) (2008), 1503.), (88. P.E. Freeman, R. Izbicki & A.B. Lee. A unified framework for constructing, tuning and assessing photometric redshift density estimates in a selection bias setting. Monthly Notices of the Royal Astronomical Society, 468(4) (2017), 4556-4565.), (1313. R. Izbicki & A.B. Lee. Converting high-dimensional regression to high-dimensional conditional density estimation. Electronic Journal of Statistics, 11(2) (2017), 2800-2831.), (1414. R. Izbicki, A.B. Lee & P.E. Freeman. Photo-z estimation: An example of nonparametric conditional density estimation under selection bias. The Annals of Applied Statistics, 11(2) (2017), 698-724..

Alguns dos métodos tradicionalmente utilizados para resolver esse problema de predição são os k-vizinhos mais préximos66. I. Csabai, T. Budavari, A.J. Connolly, A.S. Szalay, Z. Gyory, N. Benitez, J. Annis, J. Brinkmann, D. Eisenstein, M. Fukugita et al. The application of photometric redshifts to the SDSS early data release. The Astronomical Journal, 125(2) (2003), 580., redes neurais artificiais2525. C. Yèche, P. Petitjean, J. Rich, E. Aubourg, J.C. Hamilton, J.M. Le Goff, I. Paris, S. Peirani, C. Pichon, E. Rollinde et al. Artificial neural networks for quasar selection and photometric redshift determination. Astronomy & Astrophysics, 523 (2010), A14., máquinas de vetores de suporte2323. Y. Wadadekar. Estimating photometric redshifts using support vector machines. Publications of the Astronomical Society of the Pacific, 117(827) (2004), 79., processos gaussianos11. I.A. Almosallam, M.J. Jarvis & S.J. Roberts. GPZ: non-stationary sparse Gaussian processes for heteroscedastic uncertainty estimation in photometric redshifts. Monthly Notices of the Royal Astronomical Society, 462(1) (2016), 726-739. entre outros. Formalmente, esses métodos visam estimar o valor esperado do redshift de uma galáxia Y dadas as covariáveis fotométricas x, i.e., E[Y|x]. Além dessa abordagem, há um interesse crescente na estimação da função de densidade condicionalf(y|x), uma vez que essa tem mais informação que seu valor esperado e é capaz de lidar com multimodalidades e assimetrias na distribuição do rétulo77. N. Dalmasso, T. Pospisil, A.B. Lee, R. Izbicki, P.E. Freeman & A.I. Malz. Conditional Density Estimation Tools in Python and R with Applications to Photometric Redshifts and Likelihood-Free Cosmological Inference. arXiv preprint arXiv:1908.11523, (2019).), (1212. R. Izbicki & A.B. Lee. Nonparametric conditional density estimation in a high-dimensional regression setting. Journal of Computational and Graphical Statistics, 25(4) (2016), 1297-1316.), (1414. R. Izbicki, A.B. Lee & P.E. Freeman. Photo-z estimation: An example of nonparametric conditional density estimation under selection bias. The Annals of Applied Statistics, 11(2) (2017), 698-724.), (1616. R. Izbicki, G.T. Shimizu & R.B. Stern. Distribution-free conditional predictive bands using density estimators. arXiv preprint arXiv:1910.05575, (2019).), (1818. S. Schmidt, A. Malz, J. Soo, I. Almosallam, M. Brescia, S. Cavuoti, J. Cohen-Tanugi, A. Connolly, J. DeRose, P. Freeman et al. Evaluation of probabilistic photometric redshift estimation approaches for LSST. arXiv preprint arXiv:2001.03621, (2020).), (1919. E.S. Sheldon, C.E. Cunha, R. Mandelbaum, J. Brinkmann & B.A. Weaver. Photometric redshift probability distributions for galaxies in the SDSS DR8. The Astrophysical Journal Supplement Series, 201(2) (2012), 32.), (2424. D. Wittman. What lies beneath: Using p(z) to reduce systematic photometric redshift errors. The Astrophysical Journal Letters, 700(2) (2009), L174..

Neste trabalho, mostramos que métodos existentes de predição de redshifts podem ser combinados a fim de obter estimativas ainda mais precisas para cada galáxia. Isto é, mostramos que, ao invés de simplesmente selecionar o melhor método de predição, é vantajoso combinar as predições fornecidas por cada modelo. Em particular, aplicamos métodos de stacking usuais em aprendizado de máquina para executar essa tarefa55. V. Coscrato, M.H.d.A. Inácio & R. Izbicki. The NN-Stacking: Feature weighted linear stacking through neural networks. arXiv preprint arXiv:1906.09735, (2019).), (2828. Z.H. Zhou. “Ensemble Methods: Foundations and Algorithms”. Chapman & Hall/CRC, 1st ed. (2012).. Também apresentamos um novo método de stacking que visa combinar funções de densidades condicionais. Ainda que tenhamos aplicado as técnicas aqui apresentadas para um problema de astronomia, elas são muito mais gerais e podem ser aplicadas a diferentes contextos, em particular em situações nas quais é muito caro de se obter o rétulo real.

O restante do artigo está dividido da seguinte maneira. A Seção 2 apresenta os dados analisados, assim como os métodos usados para predizer o redshift de cada galáxia. Em particular, apresentamos os métodos que visam combinar os resultados de técnicas já existentes. A Seção 3 apresenta os resultados das técnicas descritas ao banco de dados. Finalmente, a Seção 4 conclui o artigo com considerações finais.

2 METODOLOGIA

2.1 Dados

Os dados fotométricos e espectroscépicos utilizados fazem parte do Sloan Digital Sky Survey (SDSS)2626. D.G. York, J. Adelman, J.E. Anderson Jr, S.F. Anderson, J. Annis, N.A. Bahcall, J. Bakken, R. Barkhouser, S. Bastian, E. Berman et al. The sloan digital sky survey: Technical summary. The Astronomical Journal, 120(3) (2000), 1579., que contém imagens de mais de 200 milhões de galáxias. Todas foram medidas utilizando a fotometria e cerca de um milhão foram também medidas por espectroscopia. Neste trabalho, foi utilizado um subconjunto com 300 mil observações, que foi aleatoriamente separado em treinamento dos algoritmos base (150 mil), validação dos algoritmos base (20 mil), treinamento dos algoritmos de stacking (100 mil), validação dos algoritmos de stacking (20 mil) e teste (10 mil) (vide a Seção 2.3.2 para mais detalhes). A escolha desses números foi motivada levando-se em conta que (i) o conjunto para treinar os algoritmos base deve ser grande (pois esses métodos são complexos), (ii) a validação (i.e., escolha de tuning parameters) em geral é um processo mais simples, de modo que apenas 20 mil observações são suficientes para isso, (iii) o treinamento dos algoritmos de stacking também é mais simples que o treinamento dos regressores base (pois há poucos regressores base), (iv) o estimador do risco é apenas uma média, de modo que 10 mil observações são suficientes para isso.

O SDSS faz medições de cinco magnitudes, capturando imagens através de cinco filtros correspondentes: o verde (g), vermelho (r), ultravioleta (u) e dois comprimentos de onda infravermelhos (i e z). A partir dessas magnitudes, são calculadas as cores de cada galáxia através da subtração de magnitudes consecutivas: u?g, g?r, r?i e assim por diante. Cada magnitude também está associada a um erro medição. Esses erros também são medidos e denotados por e g , e r e assim sucessivamente. A partir dessas medidas, define-se o vetor de covariáveis associadas à i-ésima galáxia, x i , como o vetor de valores de medição das cores (u?g, g?r, r?i, etc.) obtidos através da fotometria juntamente com os erros de medição associados a cada uma das magnitudes. Além disso, a variável resposta associada à i-ésima galáxia, yi, é o valor do redshift desta unidade amostral obtido utilizando espectroscopia. O erro de medição da espectroscopia é negligenciável88. P.E. Freeman, R. Izbicki & A.B. Lee. A unified framework for constructing, tuning and assessing photometric redshift density estimates in a selection bias setting. Monthly Notices of the Royal Astronomical Society, 468(4) (2017), 4556-4565., de modo que tratamos yi como sendo o redshift real da i-ésima galáxia.

2.2 Métodos de predição de redshifts

Nesta seção, descrevemos os métodos utilizados neste artigo para obter predições para o redshift de uma galáxia. Posteriormente (Seção 2.3), esses métodos são combinados de forma a ser obter predições ainda melhores.

Formalmente, deseja-se utilizar a amostra X1, Y1, ..., Xn, Yn d × Y, para encontrar uma função g : d Y que faça predições precisas para o redshift de novas galáxias a partir de suas covariáveis. Para quantificar o quão boas são as predições produzidas pela função g, será utilizada a função de risco quadrática, R(g)=E[(g(X)Y)2] uma vez que Y é uma variável contínua. Note que tal escolha implica que a melhor função de predição é a função de regressão, E[Y|x] 99. T. Hastie, R. Tibshirani & J. Friedman. “The Elements of Statistical Learning”. Springer Series in Statistics. Springer New York Inc., New York, NY, USA (2001).), (1717. G. James, D. Witten, T. Hastie & R. Tibshirani. “An Introduction to Statistical Learning: with Applications in R”. Springer (2013). URL https://faculty.marshall.usc.edu/gareth-james/ISL/.
https://faculty.marshall.usc.edu/gareth-...
.

2.2.1 FlexCode

O FlexCode é um método que visa estimar a função densidade condicional f(y|x). Para tanto, sua ideia chave (vide1313. R. Izbicki & A.B. Lee. Converting high-dimensional regression to high-dimensional conditional density estimation. Electronic Journal of Statistics, 11(2) (2017), 2800-2831. para mais detalhes) é expandir f(y|x) em uma base ortonormal (ϕi(y))i (como, por exemplo, a base de Fourier):

f y | x = j β j x ϕ j y .

Devido à ortogonalidade, βj(x)=E[ϕj(Y)|x]. Dessa forma, os βj's são estimados por regressão: β^jx = E^ϕjY|x isto é, regredindo cada ϕj(Y) em x. Por fim, o estimador FlexCode é definido por

f ^ y | x = j = 1 J β ^ j x ϕ j y ,

em que J é escolhido com validação cruzada. Note que diferentes métodos de regressão levam a diferentes estimativas da função densidade condicional e o método escolhido pode ter uma grande influência no desempenho do FlexCode. Para maximizar o ganho dos métodos de stacking, as escolhas nesse artigo foram feitas de modo que cada método de regressão tivesse uma natureza bastante distinta um do outro. Mais especificamente, os métodos de regressão considerados neste trabalho são florestas aleatérias, lasso, KNN, XGBoost99. T. Hastie, R. Tibshirani & J. Friedman. “The Elements of Statistical Learning”. Springer Series in Statistics. Springer New York Inc., New York, NY, USA (2001).), (1111. R. Izbicki & T.M. dos Santos. Machine Learning sob a ótica estatística (2019). URL http://www.rizbicki.ufscar.br/sml.pdf.
http://www.rizbicki.ufscar.br/sml.pdf...
, de modo que quatro versões do FlexCode serão contempladas.

Para criar estimadores pontuais a partir da função densidade estimada f^y|x, utilizamos três resumos de tal função densidade: a média, a moda e a mediana.

2.2.2 GPZ

O método baseado em processos gaussianos esparsos heterocedásticos (GPZ,11. I.A. Almosallam, M.J. Jarvis & S.J. Roberts. GPZ: non-stationary sparse Gaussian processes for heteroscedastic uncertainty estimation in photometric redshifts. Monthly Notices of the Royal Astronomical Society, 462(1) (2016), 726-739.) retorna um estimador pontual de E[Y|x], e não a função densidade como o FlexCode. O processo é definido por uma forma semiparamétrica construída a partir de pesos. Mais especificamente, assume-se que Y i é gerado por uma combinação linear de m funções não lineares de xi : ϕ1xi = ϕ1xi, ..., ϕmxi m.

Y i = ϕ x i w + ε i ,

em que εi ~ N0, β-1xi, w é o vetor de parâmetros a ser estimado e ϕj(xi) é dado por

ϕ j x i = e x p - x i - p j t Γ j t Γ j x i - p j 2 ,

em que p j são conjuntos de vetores de base associados às funções de base, ΓjtΓj são matrizes de precisão sob medida associadas a cada função de base. Além disso, assume-se que β(x)=exp(ϕ(x)u+b). Os parâmetros desse processo, incluindo u e b, são estimados com um método bayesiano. Para mais detalhes, vide11. I.A. Almosallam, M.J. Jarvis & S.J. Roberts. GPZ: non-stationary sparse Gaussian processes for heteroscedastic uncertainty estimation in photometric redshifts. Monthly Notices of the Royal Astronomical Society, 462(1) (2016), 726-739..

2.3 Combinando preditores pontuais

Nesta seção, descrevemos os métodos utilizados para criar uma função de predição combinada (aqui denotada por G) a partir das funções já construídas utilizando os métodos descritos na seção anterior (aqui denotadas por gi=gi(x),i=1,...,B).

2.3.1 Média simples e mediana

A forma mais simples de combinar g 1, g 2, ..., g B é utilizando a média dos valores previstos ou seja,

G x : = 1 B b = 1 B g b x .

Alternativamente, pode-se utilizar a mediana dessas predições.

2.3.2 Stacking

A ideia chave do método de stacking1111. R. Izbicki & T.M. dos Santos. Machine Learning sob a ótica estatística (2019). URL http://www.rizbicki.ufscar.br/sml.pdf.
http://www.rizbicki.ufscar.br/sml.pdf...
), (2828. Z.H. Zhou. “Ensemble Methods: Foundations and Algorithms”. Chapman & Hall/CRC, 1st ed. (2012). é utilizar as predições g1(x),...,gB(x) como entradas para algoritmos de aprendizado supervisionado com a finalidade de obter predições combinadas.

Formalmente, apés obter as funções de predição gi : d , i = 1, ..., B utilizando-se os algoritmos descritos nas outras seções, aplica-se cada uma delas a um conjunto de dados não utilizados para seu treinamento, X~1, Y~1, ..., X~n, Y~n d × Y. Seja w~i : = g1xi, .., gBxi B o vetor que contém o valor de cada função de predição aplicada na i-ésima unidade amostral x i . Aplica-se então um método de aprendizado supervisionado (como regressão linear, redes neurais ou florestas aleatérias99. T. Hastie, R. Tibshirani & J. Friedman. “The Elements of Statistical Learning”. Springer Series in Statistics. Springer New York Inc., New York, NY, USA (2001).) ao conjunto w~1, Y~1, ..., w~n~, Y~n~ com a finalidade de se obter uma função de predição h : B . Feito isso, define-se Gx : = hg1x, ..., gBx como a função resultante que combina os B métodos de predição já criados. Neste trabalho, criamos h a partir dos seguintes métodos de aprendizado supervisionado: florestas aleatérias33. L. Breiman. Random forests. Machine learning, 45(1) (2001), 5-32., KNN2727. M.L. Zhang & Z.H. Zhou. ML-KNN: A lazy learning approach to multi-label learning. Pattern recognition, 40(7) (2007), 2038-2048., lasso2020. R. Tibshirani. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1) (1996), 267-288. e XGBoost44. T. Chen & C. Guestrin. XGBoost: A scalable tree boosting system. In “Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining”. ACM (2016), pp. 785-794..

2.4 Combinando funções densidades condicionais

Além das técnicas de combinação de preditores pontuais, também investigamos duas formas de combinar os estimadores da função densidade condicional f(y|x).

2.4.1 Média simples

Uma maneira de combinar as estimativas f^iy|x, i = 1, ..., B é calcular a média simples entre elas, ou seja,

f ^ y | x = 1 B i = 1 B f ^ i y | x

Como cada f^i é uma função densidade, f^ também o é, pois necessariamente é positiva e integra um em y.

2.4.2 Média ponderada

Uma alternativa à média simples é utilizar uma média ponderada, uma vez que cada método pode ter um desempenho diferente. Para isso, consideramos a seguinte função de risco para estimadores de função densidade condicional:

R f ^ , f = f ^ y | x - f y | x 2 d P x d y = f ^ 2 y | x d P x d y - 2 f y | x d P x d y + f ^ 2 y | x d P x d y .

Denotando por X1', Y1', ..., Xn', Yn' um conjunto de dados não utilizados para estimar a função densidade, pode-se estimar esse risco (a menos de uma constante) por1313. R. Izbicki & A.B. Lee. Converting high-dimensional regression to high-dimensional conditional density estimation. Electronic Journal of Statistics, 11(2) (2017), 2800-2831.

R ^ f ^ , f : = 1 n i = 1 n f ^ 2 y | i ' | x i ' d y - 2 n i = 1 n f ^ y i ' | x i ' .

A ideia chave para criar um estimador da função densidade condicional utilizando-se média ponderada, f^αy|x = i = 1Bαify|x é buscar os valores de α1, ..., αB que minimizam o risco estimado, sujeito à restrição de que tais valores sejam de fato pesos. Isto é, busca-se por

a r g m i n α : α i > 0 , i = 1 B α i = 1 R ^ f ^ α , f .

Como

R ^ f ^ α , f = 1 n i = 1 n k , l = 1 B f ^ k y | x i ' f ^ l y | x i ' d y - 2 n i = 1 n k = 1 B f ^ k y | x i ' ,

a escolha étima é dada pela solução do problema

a r g m i n α : α i > 0 , i = 1 B α i = 1 α t B α - 2 α t b , (2.1)

em que 𝔹 é a matriz

B = 1 n i = 1 n f b y | x i ' f b ' y | x i ' d y b , b ' = 1 B

e o vetor b é dado pela equação

b = 1 n i = 1 n f ^ b y i ' | x i ' b = 1 B

Tal problema de otimização pode ser resolvido numericamente utilizando métodos de programação quadrática2121. B.A. Turlach & A. Weingessel. quadprog: Functions to solve quadratic programming problems. CRAN-Package quadprog, (2007).. Neste artigo, utilizamos a função solve.QP do pacote quadprog para otimizar essa função objetivo2222. B.A. Turlach & A. Weingessel. “quadprog: Functions to solve Quadratic Programming Problems.” (2013). URL https://CRAN.R-project.org/package=quadprog. R package version 1.5-5.
https://CRAN.R-project.org/package=quadp...
.

3 RESULTADOS

O FlexCode foi ajustado atrÁves do pacote em R1515. R. Izbicki & T. Pospisil. rizbicki/FlexCode v5.9-beta.3 (2019). doi: 10.5281/zenodo.3366065. URL https://doi.org/10.5281/zenodo.3366065.
https://doi.org/10.5281/zenodo.3366065...
. JÁ o GPZ foi ajustado com o cédigo em Python disponível em https://github.com/OxfordML/GPz. A Tabela 1 mostra os riscos quadráticos estimados de cada um dos modelos de predição pontual investigados. Os métodos combinados por stacking dominaram uniformemente todos os métodos individuais. Por outro lado, combinar métodos individuais utilizando média ou mediana foi subétimo. Isso possivelmente se deve ao fato de que, nessas abordagens, todos os modelos individuais contribuem igualmente para a predição combinada. Isto é, essas abordagens não levam em conta que métodos diferentes podem possuir desempenhos distintos.

Tabela 1:
Risco estimado e tempo de ajuste de cada preditor pontual. Para os métodos baseados em combinação/stacking, o tempo se refere apenas para a combinação dos modelos, e portanto não leva em conta os ajustes dos classificadores base.

Observa-se também que os riscos do método GPZ e do FlexCode estimado via regressão por XGBoost (utilizando a mediana) produzem os menores riscos dentre os modelos individuais. Por fim, nota-se que todas as predições feitas através do KNN possui resultados inferiores aos demais métodos.

Com a finalidade de compreender o modelo ajustado pelo stacking via XGBoost, calculamos o ganho médio (isto é, o quanto cada covariável contribui para reduzir o erro quadrático médio do modelo,44. T. Chen & C. Guestrin. XGBoost: A scalable tree boosting system. In “Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining”. ACM (2016), pp. 785-794.) de cada modelo individual (Tabela 2). Quanto maior o valor dessa medida, maior é a contribuição deste modelo individual na diminuição do erro de predição do modelo conjunto. Os métodos mais importantes são o GPZ e o FlexCode XGBoost com a variação mediana. De fato, esses foram justamente os melhores métodos individuais segundo a Tabela 1. Além disso, os demais apresentam um ganho nulo ou muito préximo de zero, o que indica que esses métodos não são relevantes para o cálculo das predições do stacking via XGBoost. Do ponto de vista prático, pode ser vantajoso remover modelos com ganho nulo. De fato, essa remoção não deve afetar o desempenho estatístico (i.e., preditivo) do ajuste resultante, e ela também farÁ com que haja mais velocidade na hora de calcular as predições para novas observações.

Tabela 2:
Importância de cada covariável no modelo combinado ajustado via XGBoost.

A Tabela 3 mostra o modelo de stacking ajustado utilizando-se o lasso. Os únicos métodos selecionados pelo modelo foram o GPZ e o FlexCode XGBoost com a variação mediana e média. Este resultado é coerente com o observado no stacking via XGBoost (Tabela 2).

Tabela 3:
Coeficientes do modelo combinado ajustado utilizando-se o lasso.

A Figura 1 mostra gráficos de dispersão entre os redshifts observados e os redshifts estimados pelos melhores métodos individuais e pelo stacking via lasso. Pode-se notar que a maior parte das observações encontram-se em torno da reta identidade, o que indica que há um bom desempenho preditivo. Contudo, há uma grande quantidade de galáxias outliers (sinalizadas em vermelho). Essas são galáxias para as quais os métodos preditivos forneceram resultados ruins. Como estes pontos estão presentes tanto no ajuste do GPZ quanto no XGBoost mediana, que são de natureza bastante diferente, há portanto um indicativo de que as covariáveis possivelmente não são informativas o suficiente para se fazer a predição com grande acurácia para algumas galáxias. Este fato faz com que os métodos de estimação de função densidade condicional, cujos ajustes estão descritos na seção que segue, sejam de grande valia para descrever as incertezas existentes nas predições.

Figura 1:
Gráficos de dispersão entre os redshifts observados e os redshifts estimados pelos melhores métodos individuais e pelo stacking via lasso.

3.1 Combinando estimadores de funções densidades condicionais

A Tabela 4 mostra o risco estimado de cada método de estimação da função densidade condicional. A combinação usando a média ponderada de fato leva a um melhor resultado. A média simples, por outro lado, tem um resultado inferior ao FlexCode-XGBoost. Isso possivelmente se deve ao fato de que, nessa abordagem, todos os modelos individuais contribuem igualmente para a predição combinada.

Tabela 4:
Risco estimado de cada estimador da função densidade condicional f(y|x).

Entre os modelos individuais, o método que apresenta o menor risco é o FlexCode-XGBoost, enquanto que os piores resultados são dados pelo FlexCode-Lasso.

A Tabela 5 mostra os valores étimos dos pesos encontrados segundo a Equação 2.1. Note que valores de αi diferentes de zero estão associados aos métodos de estimação de função densidade que tiveram um bom desempenho preditivo segundo a Tabela 4. Por outro lado, os métodos que obtiveram riscos mais altos tiveram peso nulo na ponderação. Observe que o FlexCode-XGBoost, o método que apresenta o melhor poder preditivo, tem peso associado muito maior do que os demais.

Tabela 5:
Pesos étimos α para a combinação ponderada das funções densidades condicionais.

A Figura 2 mostra as funções densidades estimadas utilizando-se ponderação para quatro galáxias escolhidas aleatoriamente. A linha vertical representa o redshift observado. Observa-se que as estivas das funções densidades para cada galáxia têm natureza bastante distinta em cada caso. Em geral, elas são assimétrica e multimodais, o que corrobora que essas funções densidades possuem mais informação que preditores pontuais.

Figura 2:
Funções densidades estimadas utilizando-se ponderação para quatro galáxias escolhidas aleatoriamente. A linha vertical representa o redshift observado em cada caso.

4 CONCLUSÕES

A estimação mais precisa do redshift de galáxias permite fazer interferência mais precisa sobre modelos cosmolégicos. Assim, ela possibilita identificar quais teorias sobre a evolução do universo são mais adequadas, o que por sua vez é fundamental para prever com maior precisão o comportamento futuro de nosso universo. Neste trabalho, mostramos que combinar métodos já existentes de predição do redshift de uma galáxia pode levar a resultados melhores do que considerar apenas algoritmos de aprendizado individuais. Para o caso de regressão (i.e., estimação pontual de y), vimos que o método que levou a predições mais precisas foi o stacking via lasso. Tal método utilizou uma combinação linear entre FlexCode-XGBoost mediana, FlexCode-XGBoost média e GPZ. Tal combinação deu mais pesos ao FlexCode-XGBoost mediana, que foi justamente o melhor preditor individual. Ainda que este combinação tenha elevado o poder preditivo dos modelos individuais, vimos que as predições são bastante ruins para algumas galáxias (Figura 1), o que indica que as covariáveis de fato não podem determinar o redshift de cada galáxia com alta precisão. Assim, torna-se valioso conseguir estimar bem a função densidade condicional f(y|x). O método que levou a estimativas mais precisas de f(y|x) foi o método que combina linearmente as estimativas individuais com pesos diferentes. Quase todo o peso foi dado ao FlexCode-XGBoost, que demonstrou ter um bom ajuste.

Assim, concluímos que os métodos de stacking levaram a um aumento no poder preditivo de cada um dos estimadores base. Em troca, esses procedimentos são computacionalmente mais intensivos na hora de calcular predições, visto que é necessário calcular as predições de cada um dos estimadores base para então combiná-las.

Em trabalhos futuros pretendemos propor outras formas de combinar as funções densidades obtidas que permitam que o peso recebido por cada componente do stacking varie segundo o valor de cada covariável. Outro ponto a ser estudado é que os métodos existentes possuem a suposição de que as observações são independentes e identicamente distribuídas. Contudo, a suposição de mesma distribuição não é razoável para esse problema 1414. R. Izbicki, A.B. Lee & P.E. Freeman. Photo-z estimation: An example of nonparametric conditional density estimation under selection bias. The Annals of Applied Statistics, 11(2) (2017), 698-724., uma vez que as galáxias que são rotuladas geralmente são mais préximas, por conta da espectroscopia funcionar melhor para esses casos. Como se tem interesse em fazer predições para galáxias não rotuladas, o comportamento da sua medição induz um viés de seleção no conjunto rotulado, de modo que o risco pode ser subestimado mesmo utilizando o data splitting. Assim, uma extensão deste trabalho consiste em levar esse viés de seleção em conta na hora de combinar as predições. Finalmente, também iremos combinar covariáveis fotométricas com informações sobre a morfologia de cada galáxia 1010. P. Ianishi & R. Izbicki. Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados. TEMA (São Carlos), 18(1) (2017), 155-172. de modo a obter estimativas mais precisas para o redshift de cada galáxia.

AGRADECIMENTOS

Os autores agradecem a Luís Ernesto Salasar e Gustavo Henrique de Araujo Pereira pelas valiosas sugestões feitas a esse trabalho.

Este projeto contou com o auxílio da FAPESP (2017/03363-8 e 2019/11321-9) e do CNPq (306943/2017-4).

REFERÊNCIAS

  • 1
    I.A. Almosallam, M.J. Jarvis & S.J. Roberts. GPZ: non-stationary sparse Gaussian processes for heteroscedastic uncertainty estimation in photometric redshifts. Monthly Notices of the Royal Astronomical Society, 462(1) (2016), 726-739.
  • 2
    G.B. Brammer, P.G. van Dokkum & P. Coppi. EAZY: a fast, public photometric redshift code. The Astrophysical Journal, 686(2) (2008), 1503.
  • 3
    L. Breiman. Random forests. Machine learning, 45(1) (2001), 5-32.
  • 4
    T. Chen & C. Guestrin. XGBoost: A scalable tree boosting system. In “Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining”. ACM (2016), pp. 785-794.
  • 5
    V. Coscrato, M.H.d.A. Inácio & R. Izbicki. The NN-Stacking: Feature weighted linear stacking through neural networks. arXiv preprint arXiv:1906.09735, (2019).
  • 6
    I. Csabai, T. Budavari, A.J. Connolly, A.S. Szalay, Z. Gyory, N. Benitez, J. Annis, J. Brinkmann, D. Eisenstein, M. Fukugita et al. The application of photometric redshifts to the SDSS early data release. The Astronomical Journal, 125(2) (2003), 580.
  • 7
    N. Dalmasso, T. Pospisil, A.B. Lee, R. Izbicki, P.E. Freeman & A.I. Malz. Conditional Density Estimation Tools in Python and R with Applications to Photometric Redshifts and Likelihood-Free Cosmological Inference. arXiv preprint arXiv:1908.11523, (2019).
  • 8
    P.E. Freeman, R. Izbicki & A.B. Lee. A unified framework for constructing, tuning and assessing photometric redshift density estimates in a selection bias setting. Monthly Notices of the Royal Astronomical Society, 468(4) (2017), 4556-4565.
  • 9
    T. Hastie, R. Tibshirani & J. Friedman. “The Elements of Statistical Learning”. Springer Series in Statistics. Springer New York Inc., New York, NY, USA (2001).
  • 10
    P. Ianishi & R. Izbicki. Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados. TEMA (São Carlos), 18(1) (2017), 155-172.
  • 11
    R. Izbicki & T.M. dos Santos. Machine Learning sob a ótica estatística (2019). URL http://www.rizbicki.ufscar.br/sml.pdf
    » http://www.rizbicki.ufscar.br/sml.pdf
  • 12
    R. Izbicki & A.B. Lee. Nonparametric conditional density estimation in a high-dimensional regression setting. Journal of Computational and Graphical Statistics, 25(4) (2016), 1297-1316.
  • 13
    R. Izbicki & A.B. Lee. Converting high-dimensional regression to high-dimensional conditional density estimation. Electronic Journal of Statistics, 11(2) (2017), 2800-2831.
  • 14
    R. Izbicki, A.B. Lee & P.E. Freeman. Photo-z estimation: An example of nonparametric conditional density estimation under selection bias. The Annals of Applied Statistics, 11(2) (2017), 698-724.
  • 15
    R. Izbicki & T. Pospisil. rizbicki/FlexCode v5.9-beta.3 (2019). doi: 10.5281/zenodo.3366065. URL https://doi.org/10.5281/zenodo.3366065
    » https://doi.org/10.5281/zenodo.3366065» https://doi.org/10.5281/zenodo.3366065
  • 16
    R. Izbicki, G.T. Shimizu & R.B. Stern. Distribution-free conditional predictive bands using density estimators. arXiv preprint arXiv:1910.05575, (2019).
  • 17
    G. James, D. Witten, T. Hastie & R. Tibshirani. “An Introduction to Statistical Learning: with Applications in R”. Springer (2013). URL https://faculty.marshall.usc.edu/gareth-james/ISL/
    » https://faculty.marshall.usc.edu/gareth-james/ISL/
  • 18
    S. Schmidt, A. Malz, J. Soo, I. Almosallam, M. Brescia, S. Cavuoti, J. Cohen-Tanugi, A. Connolly, J. DeRose, P. Freeman et al. Evaluation of probabilistic photometric redshift estimation approaches for LSST. arXiv preprint arXiv:2001.03621, (2020).
  • 19
    E.S. Sheldon, C.E. Cunha, R. Mandelbaum, J. Brinkmann & B.A. Weaver. Photometric redshift probability distributions for galaxies in the SDSS DR8. The Astrophysical Journal Supplement Series, 201(2) (2012), 32.
  • 20
    R. Tibshirani. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1) (1996), 267-288.
  • 21
    B.A. Turlach & A. Weingessel. quadprog: Functions to solve quadratic programming problems. CRAN-Package quadprog, (2007).
  • 22
    B.A. Turlach & A. Weingessel. “quadprog: Functions to solve Quadratic Programming Problems.” (2013). URL https://CRAN.R-project.org/package=quadprog R package version 1.5-5.
    » https://CRAN.R-project.org/package=quadprog
  • 23
    Y. Wadadekar. Estimating photometric redshifts using support vector machines. Publications of the Astronomical Society of the Pacific, 117(827) (2004), 79.
  • 24
    D. Wittman. What lies beneath: Using p(z) to reduce systematic photometric redshift errors. The Astrophysical Journal Letters, 700(2) (2009), L174.
  • 25
    C. Yèche, P. Petitjean, J. Rich, E. Aubourg, J.C. Hamilton, J.M. Le Goff, I. Paris, S. Peirani, C. Pichon, E. Rollinde et al. Artificial neural networks for quasar selection and photometric redshift determination. Astronomy & Astrophysics, 523 (2010), A14.
  • 26
    D.G. York, J. Adelman, J.E. Anderson Jr, S.F. Anderson, J. Annis, N.A. Bahcall, J. Bakken, R. Barkhouser, S. Bastian, E. Berman et al. The sloan digital sky survey: Technical summary. The Astronomical Journal, 120(3) (2000), 1579.
  • 27
    M.L. Zhang & Z.H. Zhou. ML-KNN: A lazy learning approach to multi-label learning. Pattern recognition, 40(7) (2007), 2038-2048.
  • 28
    Z.H. Zhou. “Ensemble Methods: Foundations and Algorithms”. Chapman & Hall/CRC, 1st ed. (2012).

Datas de Publicação

  • Publicação nesta coleção
    30 Abr 2020
  • Data do Fascículo
    Jan-Apr 2020

Histórico

  • Recebido
    22 Mar 2019
  • Aceito
    11 Nov 2019
Sociedade Brasileira de Matemática Aplicada e Computacional Rua Maestro João Seppe, nº. 900, 16º. andar - Sala 163 , 13561-120 São Carlos - SP, Tel. / Fax: (55 16) 3412-9752 - São Carlos - SP - Brazil
E-mail: sbmac@sbmac.org.br