Comparação de Random Survival Forest e modelo de Cox com relação a performance de previsão: Um estudo de caso

Tiago Almeida Oliveira, Pedro Augusto Ferreira da Silva, Hiago José Andrade de Albuquerque Martins, Lucas Cardoso Pereira, Alisson de Lima Brito, Ednário Barbosa de Mendonça

Resumo


A análise de sobrevivência é atualmente uma das ferramentas estatísticas que mais crescem no meio acadêmico. Na análise de sobrevivência existe uma sólida teoria de modelos de regressão que pode ser usada para modelar dados com observações incompletas chamadas censuras, a maioria desses modelos são paramétricos e existe também o modelo semi-paramétrico de riscos proporcionais de Cox. Neste sentido, os modelos Machine Learning em conjunto com o Random Forest em análise de sobrevivência (RSF) são uma alternativa crescente para o uso em predição. Foram ajustados 4 diferentes configurações de coariáveis no RSF, partindo de um modelo saturado com presença de interação até um modelo parcimonioso baseado em critérios própios a área de Machine Learning para escolha de variáveis. Os modelos foram comparados contra o modelo de Cox via critérios C-index e Brier Score Index - IBS. O melhor modelo ajustado para predição foi o modelo completo com todas as covariáveis sob modelagem de Random Survival Forest.

Palavras-chave


Análise de Sobrevivência; Riscos Proporcionais; Machine Learning

Texto completo:

PDF

Referências


BREIMAN, L. Random forests. Machine Learning, 45: 5-32, 2001.

CARVALHO, M. S., et al. Análise de sobrevida. Rio de Janeiro: Fiocruz, 2005.

COLOSSIMO, E. A; GIOLO, S. R. Análise de Sobrevivência Aplicada. 1. ed. São Paulo, SP: Editora Edgard Blucher, 2006, 367p.

EHRLINGER, J. ggRandomForests: Exploring random forest survival. arXiv preprint arXiv:1612.08974, 2016.

ISHWARAN, H; KOGALUR, U. B. Random survival forests for R. R news, v. 7, n. 2, p. 25-31, 2007.

ISHWARAN, H; KOGALUR, U. B., BLACKSTONE, E.H., LAUER, M.S. Random survival forests. Ann.Appl. Stat. , 2 (3), 841?860, 2008.

ISHWARAN, H; KOGALUR, U. B. Random Forests for Survival, Regression and Classification (RF-SRC), R package version 1.6." URL http://CRAN.R-project.org/package=

randomForestSRC, 2014.

MOGENSEN, Ulla B.; ISHWARAN, Hemant; GERDS, Thomas A. Evaluating random forests for survival analysis using prediction error curves. Journal of statistical software, v. 50, n. 11, p. 1, 2012.

BOU- HAMAD, I., LAROCQUE, D., BEN-AMEUR, H. A review of

survival trees, Statistics Surveys, vol. 5, pp. 44?71, 2011.

Sociedade Brasileira de Diabetes: Tipos de Diabetes. Disponível em:

. Acesso em: 09 de abr. de 2019.

Sociedade Brasileira de Endocrinologia e Metabologia: O que é Diabetes. Disponível em:

. Acesso em: 09 de abr. de 2019.

RYTGAARD, H. C.; GERDS, T. A. Random Forests for Survival Analysis. Wiley StatsRef: Statistics Reference Online, p. 1-8, 2018.

R CORE TEAM. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. 2019. ISBN 3-900051-07-0, URL http://www.R-project.org/.

YOSEFIAN, I; MOSA FARKHANI, E; BANESHI, M. R. Application of random forest survival models to increase generalizability of decision trees: a case study in acute myocardial infarction. Computational and mathematical methods in medicine, v. 2015, 2015.