<b>Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados</b>

IANISHI, P.; IZBICKI, R.

doi:10.5540/tema.2017.018.01.0155

P. IANISHI

Departamento de Estatística, UFSCar - Universidade Federal de Sa˜o Carlos, 13565-905 São Carlos, SP, Brasil. E-mail: paulaianishi@yahoo.com.br

R. IZBICKI ^**Autor correspondente: Rafael Izbicki - E-mail: rafaelizbicki@gmail.com

Departamento de Estatística, UFSCar - Universidade Federal de Sa˜o Carlos, 13565-905 São Carlos, SP, Brasil. E-mail: paulaianishi@yahoo.com.br

*Autor correspondente: Rafael Izbicki - E-mail: rafaelizbicki@gmail.com

Thumbnail

Figura 1:
Exemplos de morfologia espiral, elíptica e irregular, respectivamente.

Thumbnail

Figura 2:
Exemplos de morfologia merger e de interação, respectivamente.

Thumbnail

Figura 3:
Exemplos de imagens do conjunto de dados CANDELS: galáxias elíptica, irregular e merger, respectivamente.

Thumbnail

Figura 4:
Medidas F (acima) e S.E. (abaixo) para classificação de galáxias do tipo merger.

Thumbnail

Figura 5:
Medidas F (acima) e S.E. (abaixo) para classificação de galáxias regulares.

Thumbnail

Figura 6:
Árvore de classificação para galáxias merger obtida pelo método de sobreamostragem.

Thumbnail

Figura 7:
Classificação das galáxias regulares e não regulares pelo método de florestas aleatórias. Abordagem usual (à esquerda) e de sobreamostragem (à direita). O MeanDecreaseGini mede o quanto adicionar uma covariável na árvore diminui (em média) o índice de Gini ¹²12 G. James, D. Witten, T. Hastie & R. Tibshirani. An introduction to statistical learning. Springer (2013)..

Thumbnail

Figura 8:
Exemplo do tratamento da imagem, por agrupamento de píxeis, de uma galáxia merger para que seja possível computar a estatística I. As modas são encontradas pelo algoritmo mean shift.

Thumbnail

Tabela 1:
Medidas de qualidade para métodos usuais (i.e., sem correção por falta de balanceamento).

Thumbnail

Tabela 2:
Medidas de qualidade por abordagem de sobreamostragem.

Thumbnail

Tabela 3:
Medidas de qualidade por abordagem de atribuição de pesos.

Thumbnail

Tabela 4:
Medidas de qualidade por abordagem de mudança de corte.

Thumbnail

Tabela 5:
Proporção de observações preditas igualmente por diferentes métodos - galáxias regulares (esquerda) e galáxias merger (direita).

Thumbnail

Tabela 6:
Coeficientes estimados pelo método de regressão logística penalizada usual (segunda coluna) e sobreamostragem (terceira coluna). Coeficientes estimados como zero por ambos os métodos são suprimidos.

Thumbnail

Regulares
	Árvores	Florestas	Reg. Log. Pen.
Sensibilidade	0.854	0.882	0.918
	(0.819, 0.889)	(0.847, 0.918)	(0.891, 0.945)
Especificidade	0.453	0.437	0.382
	(0.381, 0.526)	(0.364, 0.511)	(0.312, 0.454)
Valor predito positivo	0.774	0.775	0.765
	(0.735, 0.813)	(0.736, 0.814)	(0.727, 0.804)
Valor predito negativo	0.585	0.629	0.680
Valor predito negativo	(0.505, 0.667)	(0.554, 0.705)	(0.59, 0.771)

Merger
	Árvores	Florestas	Reg. Log. Pen.
Sensibilidade	0	0.117	0.088
	(0, 0)	(0.025, 0.21)	(0.007, 0.17)
Especificidade	1	0.989	0.986
	(1, 1)	(0.981, 0.998)	(0.977, 0.997)
Valor predito positivo	-*	0.5	0.375
	-*	(0.186, 0.814)	(0.07, 0.68)
Valor predito negativo	0.917	0.925	0.922
Valor predito negativo	(0.895, 0.939)	(0.904, 0.947)	(0.901, 0.945)

Regulares
	Árvores	Florestas	Reg. Log. Pen.
Sensibilidade	0.733	0.846	0.825
	(0.69, 0.776)	(0.812, 0.882)	(0.788, 0.863)
Especificidade	0.640	0.523	0.632
	(0.571, 0.711)	(0.45, 0.597)	(0.562, 0.704)
Valor predito positivo	0.817	0.795	0.831
	(0.777, 0.858)	(0.757, 0.835)	(0.794, 0.869)
Valor predito negativo	0.522	0.609	0.623
Valor predito negativo	(0.458, 0.587)	(0.534, 0.685)	(0.554, 0.692)

Merger
	Árvores	Florestas	Reg. Log. Pen.
Sensibilidade	0.617	0.264	0.558
	(0.479, 0.756)	(0.138, 0.392)	(0.417, 0.7)
Especificidade	0.850	0.970	0.853
	(0.82, 0.881)	(0.956, 0.985)	(0.823, 0.884)
Valor predito positivo	0.272	0.45	0.256
	(0.189, 0.356)	(0.262, 0.638)	(0.173, 0.341)
Valor predito negativo	0.960	0.935	0.955
Valor predito negativo	(0.943, 0.978)	(0.915, 0.956)	(0.937, 0.974)

Regulares
	Árvores	Florestas	Reg. Log. Pen.
Sensibilidade	0.665	0.882	0.818
	(0.62, 0.711)	(0.851, 0.914)	(0.781, 0.856)
Especificidade	0.664	0.460	0.632
	(0.594, 0.734)	(0.388, 0.534)	(0.562, 0.704)
Valor predito positivo	0.813	0.782	0.830
	(0.769, 0.857)	(0.744, 0.821)	(0.793, 0.868)
Valor predito negativo	0.474	0.641	0.613
Valor predito negativo	(0.415, 0.535)	(0.559, 0.723)	(0.545, 0.683)

Merger
	Árvores	Florestas	Reg. Log. Pen.
Sensibilidade	0.647	0.176	0.588
	(0.51, 0.784)	(0.066, 0.287)	(0.448, 0.729)
Especificidade	0.818	0.986	0.848
	(0.786, 0.852)	(0.977, 0.996)	(0.817, 0.879)
Valor predito positivo	0.244	0.545	0.259
	(0.17, 0.319)	(0.284, 0.807)	(0.177, 0.343)
Valor predito negativo	0.962	0.929	0.957
Valor predito negativo	(0.945, 0.98)	(0.909, 0.951)	(0.94, 0.976)

Regulares
	Árvores	Florestas	Reg. Log. Pen.
Sensibilidade	0.775	0.711	0.829
	(0.735, 0.816)	(0.668, 0.756)	(0.792, 0.866)
Especificidade	0.609	0.703	0.617
	(0.538, 0.68)	(0.637, 0.77)	(0.546, 0.689)
Valor predito positivo	0.813	0.840	0.826
	(0.774, 0.853)	(0.801, 0.88)	(0.789, 0.864)
Valor predito negativo	0.553	0.526	0.622
Valor predito negativo	(0.485, 0.621)	(0.465, 0.588)	(0.552, 0.692)

Merger
	Árvores	Florestas	Reg. Log. Pen.
Sensibilidade	0	0.705	0.676
	(0, 0)	(0.576, 0.836)	(0.543, 0.81)
Especificidade	1	0.8	0.853
	(1, 1)	(0.766, 0.834)	(0.823, 0.884)
Valor predito positivo	-*	0.242	0.294
	-*	(0.171, 0.314)	(0.209, 0.38)
Valor predito negativo	0.917	0.967	0.967
Valor predito negativo	(0.895, 0.939)	(0.951, 0.984)	(0.951, 0.983)

Covariável	Usual	Sobreamostragem
(Intercepto)	-3.373	-1.872
M	0.001	0.000
I	1.993	2.761
D	0.051	1.826
A	2.928	4.942

[1] *Autor correspondente: Rafael Izbicki - E-mail: rafaelizbicki@gmail.com

	Árvore	Floresta	R.L.P.		Árvore	Floresta	R.L.P.
Árvore	100.0%	91.4%	91.4%	Árvore	100.0%	86.1%	90.4%
Floresta	91.4%	100.0%	93.6%	Floresta	86.1%	100.0%	85.3%
R.L.P.	91.4%	93.6%	100.0%	R.L.P.	90.4%	85.3%	100.0%

Brasil

Brasil

Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados ^† † Este trabalho foi parcialmente financiado pela Fundação de Amparo á Pesquisa do Estado de São Paulo (2014/25302-2) e pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (200959/2010-7).

RESUMO

Brasil

Brasil

Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados † † Este trabalho foi parcialmente financiado pela Fundação de Amparo á Pesquisa do Estado de São Paulo (2014/25302-2) e pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (200959/2010-7).

RESUMO

Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados ^† † Este trabalho foi parcialmente financiado pela Fundação de Amparo á Pesquisa do Estado de São Paulo (2014/25302-2) e pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (200959/2010-7).