Aplicação de Modelos Mistos e SVM em Seleção Genômica de árvores de Eucalipto

  • Ana Gabriela Pereira Vasconcelos Universidade de São Paulo
  • Joanlise Marco Leon de Andrade Universidade de Brasília
  • Bernardo Borba de Andrade Universidade de brasília
  • Dario Grattapaglia Embrapa Recursos Genéticos e Biotecnologia
  • Bruno Marco de Lima Centro de Tectonologia - Fibria
Palavras-chave: Seleção genômica, melhoramento genético, regressão ridge, validação cruzada, SVM

Resumo

Programas de melhoramento genético de árvores de floresta visam aumentar a qualidade e ganho econômico de suas plantações por meio de manipulação genética. Porém essa tarefa envolve desafios como longos ciclos de cruzamento e altos custos de coleta de fenótipos. Nesse sentido, abordagens que avaliam valores genéticos de árvores jovens sem a necessidade de fenotipagem, possuem o potencial de superar estes desafios. Uma delas é a Seleção Genômica, que consiste em se utilizar informações moleculares para se estimar efeitos de marcadores genéticos com base em um modelo de predição. O modelo, desenvolvido em uma população de treinamento com informações genotípicas e fenotípicas, é utilizado para se obter valores genéticos baseados em dados genotípicos de plantas candidatas. Portanto, a escolha do modelo é uma etapa essencial. Este estudo compara modelos mistos e SVMs em dados de eucaliptos, além de avaliar fatores que influenciam as métricas obtidas, como características genéticas, qualidade dos fenótipos e efeitos de parentesco. Notou-se que os modelos para os fenótipos com maiores herdabilidades apresentaram medidas de previsão superiores. Ainda foi possível verificar a importância do controle dos efeitos de parentesco por meio da validação cruzada para a obtenção de métricas menos otimistas, uma vez que os modelos são utilizados com dados de indivíduos não incluídos na população de treinamento. Por fim, observou-se que os modelos de regressão e de SVM apresentaram resultados consistentes, os quais evidenciaram que sua escolha deve depender do estudo em questão.

Biografia do Autor

Ana Gabriela Pereira Vasconcelos, Universidade de São Paulo
Bacharel em Estatística pela Universidade de Brasília, atualmente aluna de mestrado em Estatística no Instituto de Matemática e Estatísica IME-USP.
Joanlise Marco Leon de Andrade, Universidade de Brasília
Possui graduação em Estatística pela Universidade de Brasília (1999), mestrado em Estatística pela Universidade de São Paulo (2002), mestrado e doutorado em Epidemiologia pela Universidade de Minnesota (2004 e 2008). Atualmente é professora no departamento de Estatística da UnB. Áreas de maior interesse incluem Estatística Genética, Análise de Microarrays, Genética de Doenças Cardíacas e Autoimunes.
Bernardo Borba de Andrade, Universidade de brasília
Professor Associado da Universidade de Brasília. Atua na área de Probabilidade e Estatística com linhas de pesquisa em Modelos de Regressão e Probabilidade Aplicada.
Dario Grattapaglia, Embrapa Recursos Genéticos e Biotecnologia
Engenheiro florestal pela Universidade de Brasília (1985) e PhD em Genética (co-major em Ciências Florestais) pela North Carolina State University (1994) (Phi Kappa Phi Honor Society Chapter 33 - 1992). Pesquisador Científico A e Líder de projetos da EMBRAPA Recursos Genéticos e Biotecnologia desde 1994 e Professor do programa de pós-graduação em Ciências Genômicas e Biotecnologia da Universidade Católica de Brasília desde 2000. Também atua como Adjunct Professor na North Carolina State University desde 2016 e é professor credenciado para orientação de pós-graduandos na UnB desde 1995 e co-orientação pontual na USP-Esalq desde 1997. É sócio fundador e proprietário da Heréditas/Genomax Tecnologia em Análise de DNA Ltda. desde 1996. Sua área de atuação é centrada na genética, melhoramento e ciências genômicas de plantas com ênfase em espécies florestais. Tangencialmente também desenvolve pesquisa na área de genética de populações e forense de seres humanos e animais domésticos. Atuou como editor associado da revista Tree Genetics and Genomes (Springer) de 2005 a 2016 e atualmente é editor associado da revista Heredity (Nature Publishing) e da Genetics and Molecular Biology (Sociedade Brasileira de Genética) desde 2009. É consultor de agências de fomento científico no Brasil (CNPq, FAPESP, FINEP, CAPES) e exterior (US National Science Foundation, USDA Plant Genome Initative, Australian Research Council, Genome Canada, France Genomique) e atua ainda como consultor técnico científico na interface entre genômica e melhoramento genético para empresas de base florestal no Brasil e exterior. Atuou como membro do painel de consultores (Review Advisory Panel) do Generation Challenge Program (CGIAR-FAO) e como membro de conselhos de consultores científicos (Scientific Advisory Boards) de projetos de pesquisa em genômica florestal no Canadá (Genome Canada), e projetos da Comunidade Européia. Foi eleito membro titular da Academia Brasileira de Ciências em 2012.
Bruno Marco de Lima, Centro de Tectonologia - Fibria
Possui graduação em Engenharia Florestal pela Universidade de São Paulo (2006), mestrado em Agronomia (Genética e Melhoramento de Plantas) pela Universidade de São Paulo (2010) e doutorado em Agronomia (Genética e Melhoramento de Plantas) pela Universidade de São Paulo (2014). Atualmente é pesquisador em melhoramento florestal - Fibria Celulose.

Referências

BATES, Douglas; VAZQUEZ, Ana Ines. pedigreemm: Pedigree-based mixed-effects models. [S.l.], 2014. R package version 0.3-3.

CORTES, Corinna; VAPNIK, Vladimir. Support-vector networks. Machine learning, Springer, v. 20, n. 3, p. 273-297, 1995.

DESTA, Zeratsion Abera; ORTIZ, Rodomiro. Genomic selection: genome-wide prediction in plant improvement. Trends in Plant Science, v. 19, n. 9, p. 592-601, 2014. ISSN 1360-1385.

ENDELMAN, J. B. Ridge regression and other kernels for genomic selection with R package rrBLUP. Plant Genome, v. 4, p. 250-255, 2011.

GIANOLA, Daniel et al. Additive genetic variability and the Bayesian alphabet. Genetics, Genetics Soc America, v. 183, n. 1, p. 347-363, 2009.

GRATTAPAGLIA, D. Breeding forest trees by genomic selection: current progress and the way forward. In Genomics of Plant Genetic Resources Vol 1 pp 651-682. eds R. Tuberosa, A. Graner & E. Frison. [S.l.], 2014.

HENDERSON, Charles R. Selection index and expected genetic advance. Statistical genetics and plant breeding, Washington, DC, v. 982, p. 141-163, 1963.

JED WING, Max Kuhn. Contributions from et al. caret: Classification and Regression Training. [S.l.]. R package version 6.0-78.

LIMA, Bruno Marco de. Bridging genomics and quantitative genetics of Eucalyptus: genome-wide prediction and genetic parameter estimation for growth and wood properties using high-density SNP data. 2014. Tese (Doutorado) { Escola Superior de Agricultura "Luiz de Queiroz".

LIN, Z; HAYES, BJ; DAETWYLER, HD. Genomic selection in crops, trees and forages: a review. Crop and Pasture Science, CSIRO, v. 65, n. 11, p. 1177-1191, 2014.

MEYER, David; WIEN, FH Technikum. Support vector machines. R News, v. 1, n. 3, p. 23-26, 2001.

ORNELLA, L et al. Genomic-enabled prediction with classification algorithms. Heredity, Nature Publishing Group, v. 112, n. 6, p. 616, 2014.

R CORE TEAM. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2017.

RESENDE, RT et al. Assessing the expected response to genomic selection of individuals and families in Eucalyptus breeding with an additive-dominant model. Heredity, Nature Publishing Group, v. 119, n. 4, p. 245, 2017.

ROBERTS, David R et al. Cross-validation strategies for data with temporal, spatial, hierarchical, or phylogenetic structure. Ecography, Wiley Online Library, v. 40, n. 8, p. 913-929, 2017.

SEARLE, Shayle R; CASELLA, George; MCCULLOCH, Charles E. Variance components. [S.l.]: John Wiley & Sons, 2009. v. 391.

SILVA-JUNIOR, OB et al. Eucalyptus genotyping taken to the next level: development of the "EucHIP60k. br"based on large scale multi-species SNP discovery and ascertainment, pp, 2013.

VANRADEN, Paul M. Efficient methods to compute genomic predictions. Journal of dairy science, Elsevier, v. 91, n. 11, p. 4414-4423, 2008.

WIMMER, Valentin et al. synbreed: a framework for the analysis of genomic prediction data using R. Bioinformatics, v. 28, n. 15, p. 2086-2087, 2012.

Publicado
29-07-2019