Comparação de Random Survival Forest e modelo de Cox com relação a performance de previsão: Um estudo de caso

  • Tiago Almeida Oliveira Universidade Estadual da Paraíba
  • Pedro Augusto Ferreira da Silva Universidade Estadual da Paraíba
  • Hiago José Andrade de Albuquerque Martins Universidade Estadual da Paraíba
  • Lucas Cardoso Pereira Universidade Estadual da Paraíba
  • Alisson de Lima Brito Unversidade Federal de Lavras
  • Ednário Barbosa de Mendonça Universidade Estadual da Paraíba
Palavras-chave: Análise de Sobrevivência, Riscos Proporcionais, Machine Learning

Resumo

A análise de sobrevivência é atualmente uma das ferramentas estatísticas que mais crescem no meio acadêmico. Na análise de sobrevivência existe uma sólida teoria de modelos de regressão que pode ser usada para modelar dados com observações incompletas chamadas censuras, a maioria desses modelos são paramétricos e existe também o modelo semi-paramétrico de riscos proporcionais de Cox. Neste sentido, os modelos Machine Learning em conjunto com o Random Forest em análise de sobrevivência (RSF) são uma alternativa crescente para o uso em predição. Foram ajustados 4 diferentes configurações de coariáveis no RSF, partindo de um modelo saturado com presença de interação até um modelo parcimonioso baseado em critérios própios a área de Machine Learning para escolha de variáveis. Os modelos foram comparados contra o modelo de Cox via critérios C-index e Brier Score Index - IBS. O melhor modelo ajustado para predição foi o modelo completo com todas as covariáveis sob modelagem de Random Survival Forest.

Biografia do Autor

Tiago Almeida Oliveira, Universidade Estadual da Paraíba
Bacharel em Estatística pela Universidade Estadual da Paraíba - UEPB (2006). Mestre em Estatística e Experimentação Agropecuária pela Universidade Federal de Lavras - UFLA (2008). Doutor em Estatística e Experimentação Agronômica - Esalq/Usp (2012). Revisor dos periódicos: Revista Brasileira de Biometria (RBB) e Revista Brasileira de Parasitologia Veterinária (RBPV). Membro do grupo de pesquisa estatística aplicada e computacional da Universidade Estadual da Paraíba. Atualmente é Professor Doutor nível C e Chefe Adjunto do Departamento de Estatística da Universidade Estadual da Paraíba - UEPB. Foi Coordenador Adjunto do curso de Bacharelado em Estatística (UEPB) entre 2014-2016 e Coordenador do Curso de Estatística (UEPB) entre 2016-2018. Tem experiência na área de Probabilidade e Estatística, com ênfase em Planejamento de Experimentos, Análise de Sobrevivência e Modelos de Regressão. Sua linha de Pesquisa no Mestrado foi a de Planejamento de Experimentos com proeminência em Análise de Covariância. No Doutorado sua linha de Pesquisa foi a de Estatística Genética com ênfase em Melhoramento Genético Animal.
Pedro Augusto Ferreira da Silva, Universidade Estadual da Paraíba
Estudante do oitavo período do curso de Estatística e aluno de iniciação cientifica cota 2018/2019.
Hiago José Andrade de Albuquerque Martins, Universidade Estadual da Paraíba
Aluno do curso de bacharelado em estatística, bolsista de iniciação científica.
Lucas Cardoso Pereira, Universidade Estadual da Paraíba
Estudante do curso de Estatística da UEPB, tem experiência na área de Informatica.
Alisson de Lima Brito, Unversidade Federal de Lavras

Bacharel em Estatística pela Universidade Estadual da Paraíba (UEPB). Fez parte de projetos de iniciação científica (PIBIC) como bolsista e voluntário durante 3 anos e participou do programa de monitoria também como bolsista e voluntário em duas disciplinas. Atuou como colaborador no Núcleo de Estudos em Genética e Educação (NEGE) do mestrado acadêmico em saúde pública da UEPB durante o último semestre do curso, auxiliando nas análises estatísticas. Atualmente é discente do Programa de Pós-graduação em Estatística e Experimentação Agropecuária da Universidade Federal de Lavras (UFLA) a nível de mestrado.

Ednário Barbosa de Mendonça, Universidade Estadual da Paraíba

Possui bacharelado em Estatística pela Universidade Estadual da Paraíba (2014) e mestrado em Matemática (bolsista CAPES), com área de concentração em Estatística, pela Universidade Federal de Campina Grande. Atualmente é professor substituto do Departamento de Estatística da Universidade Estadual da Paraíba e presta consultoria estatística para alunos, docentes e profissionais das mais diversas áreas do conhecimento.

Referências

BREIMAN, L. Random forests. Machine Learning, 45: 5-32, 2001.

CARVALHO, M. S., et al. Análise de sobrevida. Rio de Janeiro: Fiocruz, 2005.

COLOSSIMO, E. A; GIOLO, S. R. Análise de Sobrevivência Aplicada. 1. ed. São Paulo, SP: Editora Edgard Blucher, 2006, 367p.

EHRLINGER, J. ggRandomForests: Exploring random forest survival. arXiv preprint arXiv:1612.08974, 2016.

ISHWARAN, H; KOGALUR, U. B. Random survival forests for R. R news, v. 7, n. 2, p. 25-31, 2007.

ISHWARAN, H; KOGALUR, U. B., BLACKSTONE, E.H., LAUER, M.S. Random survival forests. Ann.Appl. Stat. , 2 (3), 841?860, 2008.

ISHWARAN, H; KOGALUR, U. B. Random Forests for Survival, Regression and Classification (RF-SRC), R package version 1.6." URL http://CRAN.R-project.org/package=

randomForestSRC, 2014.

MOGENSEN, Ulla B.; ISHWARAN, Hemant; GERDS, Thomas A. Evaluating random forests for survival analysis using prediction error curves. Journal of statistical software, v. 50, n. 11, p. 1, 2012.

BOU- HAMAD, I., LAROCQUE, D., BEN-AMEUR, H. A review of

survival trees, Statistics Surveys, vol. 5, pp. 44?71, 2011.

Sociedade Brasileira de Diabetes: Tipos de Diabetes. Disponível em:

<http://www.diabetes.org.br/publico/diabetes/tipos-de-diabetes>. Acesso em: 09 de abr. de 2019.

Sociedade Brasileira de Endocrinologia e Metabologia: O que é Diabetes. Disponível em:

<https://www.endocrino.org.br/o-que-e-diabetes/>. Acesso em: 09 de abr. de 2019.

RYTGAARD, H. C.; GERDS, T. A. Random Forests for Survival Analysis. Wiley StatsRef: Statistics Reference Online, p. 1-8, 2018.

R CORE TEAM. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. 2019. ISBN 3-900051-07-0, URL http://www.R-project.org/.

YOSEFIAN, I; MOSA FARKHANI, E; BANESHI, M. R. Application of random forest survival models to increase generalizability of decision trees: a case study in acute myocardial infarction. Computational and mathematical methods in medicine, v. 2015, 2015.

Publicado
29-07-2019