Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados

Authors

  • Paula Ianishi Universidade Federal de São Carlos
  • Rafael Izbicki Federal University of Sao Carlos

DOI:

https://doi.org/10.5540/tema.2017.018.01.0155

Keywords:

Classificação, Conjunto de dados desbalanceados, Aprendizado de Máquina

Abstract

Galáxias podem possuir diferentes morfologias, uma importante fonte de informação
para o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Como não é possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados  para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e mergers. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias {\it mergers}, as melhores predições foram provenientes das abordagens de superamostragem e mudança de corte. Para o caso de galáxias regulares, levar o desbalanceamento em consideração não foi tão importante, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de mergers.
Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas através da inclusão de novas estatísticas resumo com base nas imagens, ou através de banco de dados maiores.

References

Conselice, Christopher J.: The relationship between stellar light distributi-

ons of galaxies and their formation histories. In: The Astrophysical Journal

Supplement Series 147 (2003), Nr. 1, S. 1

Efron, B.: The jackknife, the bootstrap and other resampling plans. Bd. 38.

SIAM, 1982

Freeman, PE ; Izbicki, R ; Lee, AB ; Newman, JA ; Conselice, CJ ;

Koekemoer, AM ; Lotz, JM ; Mozena, M: New image statistics for detecting

disturbed galaxy morphologies at high redshift. In: Monthly Notices of the

Royal Astronomical Society 434 (2013), S. 282–295

Friedman, Jerome ; Hastie, Trevor ; Tibshirani, Robert: The elements of

statistical learning. Bd. 1. Springer series in statistics Springer, Berlin, 2001

Gil, Vanessa O. ; Ferrari, Fabricio ; Emmendorfer, Leonardo: Investigação

da aplicação de algoritmos de agrupamento para o problema astrofísico de

classificação de galáxias. In: Revista Brasileira de Computação Aplicada 7

(2015), Nr. 2, S. 52–61

Izbicki, R. ; Stern, R. B.: Learning with many experts: model selection and

sparsity. In: Statistical Analysis and Data Mining 6 (2013), Nr. 6, S. 565–577

James, Gareth ; Witten, Daniela ; Hastie, Trevor ; Tibshirani, Robert:

An introduction to statistical learning. Springer, 2013

Koekemoer, Anton M. ; Faber, SM ; Ferguson, Henry C. ; Grogin, Nor-

man A. ; Kocevski, Dale D. ; Koo, David C. ; Lai, Kamson ; Lotz, Jen-

nifer M. ; Lucas, Ray A. ; McGrath, Elizabeth J. u. a.: CANDELS: The

Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey – The Hubble Space Telescope Observations, Imaging Data Products, and Mosaics. In: The Astrophysical Journal Supplement Series 197 (2011), Nr. 2, S. 36

Kotsiantis, S. ; Kanellopoulos, D. ; Pintelas, P.: Handling imbalan-

ced datasets: A review. In: GESTS International Transactions on Computer

Science and Engineering 30 (2006), Nr. 1, S. 25–36

Lotz, Jennifer M. ; Primack, Joel ; Madau, Piero: A new nonparametric

approach to galaxy morphological classification. In: The Astronomical Journal

(2004), Nr. 1, S. 163

R Core Team: R: A Language and Environment for Statistical Com-

puting. Vienna, Austria: R Foundation for Statistical Computing, 2016.

https://www.R-project.org/

Sun, Y. ; Wong, A. K. C. ; Kamel, M. S.: Classification of imbalanced

data: A review. In: International Journal of Pattern Recognition and Artificial

Intelligence 23 (2009), Nr. 04, S. 687–719

Visa, S. ; Ralescu, A.: Issues in mining imbalanced data sets-a review

paper. In: Proceedings of the sixteen midwest artificial intelligence and cognitive science conference Bd. 2005 sn, 2005, S. 67–73

Published

2017-05-22

How to Cite

Ianishi, P., & Izbicki, R. (2017). Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados. Trends in Computational and Applied Mathematics, 18(1), 155. https://doi.org/10.5540/tema.2017.018.01.0155

Issue

Section

Original Article