Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados
DOI:
https://doi.org/10.5540/tema.2017.018.01.0155Keywords:
Classificação, Conjunto de dados desbalanceados, Aprendizado de MáquinaAbstract
Galáxias podem possuir diferentes morfologias, uma importante fonte de informaçãopara o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Como não é possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e mergers. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias {\it mergers}, as melhores predições foram provenientes das abordagens de superamostragem e mudança de corte. Para o caso de galáxias regulares, levar o desbalanceamento em consideração não foi tão importante, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de mergers.
Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas através da inclusão de novas estatísticas resumo com base nas imagens, ou através de banco de dados maiores.
References
Conselice, Christopher J.: The relationship between stellar light distributi-
ons of galaxies and their formation histories. In: The Astrophysical Journal
Supplement Series 147 (2003), Nr. 1, S. 1
Efron, B.: The jackknife, the bootstrap and other resampling plans. Bd. 38.
SIAM, 1982
Freeman, PE ; Izbicki, R ; Lee, AB ; Newman, JA ; Conselice, CJ ;
Koekemoer, AM ; Lotz, JM ; Mozena, M: New image statistics for detecting
disturbed galaxy morphologies at high redshift. In: Monthly Notices of the
Royal Astronomical Society 434 (2013), S. 282–295
Friedman, Jerome ; Hastie, Trevor ; Tibshirani, Robert: The elements of
statistical learning. Bd. 1. Springer series in statistics Springer, Berlin, 2001
Gil, Vanessa O. ; Ferrari, Fabricio ; Emmendorfer, Leonardo: Investigação
da aplicação de algoritmos de agrupamento para o problema astrofísico de
classificação de galáxias. In: Revista Brasileira de Computação Aplicada 7
(2015), Nr. 2, S. 52–61
Izbicki, R. ; Stern, R. B.: Learning with many experts: model selection and
sparsity. In: Statistical Analysis and Data Mining 6 (2013), Nr. 6, S. 565–577
James, Gareth ; Witten, Daniela ; Hastie, Trevor ; Tibshirani, Robert:
An introduction to statistical learning. Springer, 2013
Koekemoer, Anton M. ; Faber, SM ; Ferguson, Henry C. ; Grogin, Nor-
man A. ; Kocevski, Dale D. ; Koo, David C. ; Lai, Kamson ; Lotz, Jen-
nifer M. ; Lucas, Ray A. ; McGrath, Elizabeth J. u. a.: CANDELS: The
Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey – The Hubble Space Telescope Observations, Imaging Data Products, and Mosaics. In: The Astrophysical Journal Supplement Series 197 (2011), Nr. 2, S. 36
Kotsiantis, S. ; Kanellopoulos, D. ; Pintelas, P.: Handling imbalan-
ced datasets: A review. In: GESTS International Transactions on Computer
Science and Engineering 30 (2006), Nr. 1, S. 25–36
Lotz, Jennifer M. ; Primack, Joel ; Madau, Piero: A new nonparametric
approach to galaxy morphological classification. In: The Astronomical Journal
(2004), Nr. 1, S. 163
R Core Team: R: A Language and Environment for Statistical Com-
puting. Vienna, Austria: R Foundation for Statistical Computing, 2016.
Sun, Y. ; Wong, A. K. C. ; Kamel, M. S.: Classification of imbalanced
data: A review. In: International Journal of Pattern Recognition and Artificial
Intelligence 23 (2009), Nr. 04, S. 687–719
Visa, S. ; Ralescu, A.: Issues in mining imbalanced data sets-a review
paper. In: Proceedings of the sixteen midwest artificial intelligence and cognitive science conference Bd. 2005 sn, 2005, S. 67–73
Downloads
Published
How to Cite
Issue
Section
License
Copyright
Authors of articles published in the journal Trends in Computational and Applied Mathematics retain the copyright of their work. The journal uses Creative Commons Attribution (CC-BY) in published articles. The authors grant the TCAM journal the right to first publish the article.
Intellectual Property and Terms of Use
The content of the articles is the exclusive responsibility of the authors. The journal uses Creative Commons Attribution (CC-BY) in published articles. This license allows published articles to be reused without permission for any purpose as long as the original work is correctly cited.
The journal encourages Authors to self-archive their accepted manuscripts, publishing them on personal blogs, institutional repositories, and social media, as long as the full citation is included in the journal's website version.