Aplicação de Modelos Mistos e SVM em Seleção Genômica de árvores de Eucalipto

Autores/as

  • Ana Gabriela Pereira Vasconcelos Universidade de São Paulo
  • Joanlise Marco Leon de Andrade Universidade de Brasília
  • Bernardo Borba de Andrade Universidade de brasília https://orcid.org/0000-0003-4688-9733
  • Dario Grattapaglia Embrapa Recursos Genéticos e Biotecnologia https://orcid.org/0000-0002-0050-970X
  • Bruno Marco de Lima Centro de Tectonologia - Fibria

Palabras clave:

Seleção genômica, melhoramento genético, regressão ridge, validação cruzada, SVM

Resumen

Programas de melhoramento genético de árvores de floresta visam aumentar a 
qualidade e ganho econômico de suas plantações por meio de manipulação genética.
Porém essa tarefa envolve desafios como longos ciclos de cruzamento e altos custos
de coleta de fenótipos. Nesse sentido, abordagens que avaliam valores genéticos de
árvores jovens sem a necessidade de fenotipagem, possuem o potencial de superar estes
desafios. Uma delas é a Seleção Genômica, que consiste em se utilizar informações
moleculares para se estimar efeitos de marcadores genéticos com base em um modelo
de predição. O modelo, desenvolvido em uma população de treinamento com informações
genotípicas e fenotípicas, é utilizado para se obter valores genéticos baseados em dados
genotípicos de plantas candidatas. Portanto, a escolha do modelo é uma etapa essencial.
Este estudo compara modelos mistos e SVMs em dados de eucaliptos, além de avaliar fatores
que influenciam as métricas obtidas, como características genéticas, qualidade dos fenótipos
e efeitos de parentesco. Notou-se que os modelos para os fenótipos com maiores herdabilidades
apresentaram medidas de previsão superiores. Ainda foi possível verificar a importância do
controle dos efeitos de parentesco por meio da validação cruzada para a obtenção de métricas
menos otimistas, uma vez que os modelos são utilizados com dados de indivíduos não incluídos
na população de treinamento. Por fim, observou-se que os modelos de regressão e de SVM
apresentaram resultados consistentes, os quais evidenciaram que sua escolha deve depender
do estudo em questão.

Biografía del autor/a

Ana Gabriela Pereira Vasconcelos, Universidade de São Paulo

Bacharel em Estatística pela Universidade de Brasília, atualmente aluna de mestrado em Estatística no Instituto de Matemática e Estatísica IME-USP.

Joanlise Marco Leon de Andrade, Universidade de Brasília

Possui graduação em Estatística pela Universidade de Brasília (1999), mestrado em Estatística pela Universidade de São Paulo (2002), mestrado e doutorado em Epidemiologia pela Universidade de Minnesota (2004 e 2008). Atualmente é professora no departamento de Estatística da UnB. Áreas de maior interesse incluem Estatística Genética, Análise de Microarrays, Genética de Doenças Cardíacas e Autoimunes.

Bernardo Borba de Andrade, Universidade de brasília

Professor Associado da Universidade de Brasília. Atua na área de Probabilidade e Estatística com linhas de pesquisa em Modelos de Regressão e Probabilidade Aplicada.

Dario Grattapaglia, Embrapa Recursos Genéticos e Biotecnologia

Engenheiro florestal pela Universidade de Brasília (1985) e PhD em Genética (co-major em Ciências Florestais) pela North Carolina State University (1994) (Phi Kappa Phi Honor Society Chapter 33 - 1992). Pesquisador Científico A e Líder de projetos da EMBRAPA Recursos Genéticos e Biotecnologia desde 1994 e Professor do programa de pós-graduação em Ciências Genômicas e Biotecnologia da Universidade Católica de Brasília desde 2000. Também atua como Adjunct Professor na North Carolina State University desde 2016 e é professor credenciado para orientação de pós-graduandos na UnB desde 1995 e co-orientação pontual na USP-Esalq desde 1997. É sócio fundador e proprietário da Heréditas/Genomax Tecnologia em Análise de DNA Ltda. desde 1996. Sua área de atuação é centrada na genética, melhoramento e ciências genômicas de plantas com ênfase em espécies florestais. Tangencialmente também desenvolve pesquisa na área de genética de populações e forense de seres humanos e animais domésticos. Atuou como editor associado da revista Tree Genetics and Genomes (Springer) de 2005 a 2016 e atualmente é editor associado da revista Heredity (Nature Publishing) e da Genetics and Molecular Biology (Sociedade Brasileira de Genética) desde 2009. É consultor de agências de fomento científico no Brasil (CNPq, FAPESP, FINEP, CAPES) e exterior (US National Science Foundation, USDA Plant Genome Initative, Australian Research Council, Genome Canada, France Genomique) e atua ainda como consultor técnico científico na interface entre genômica e melhoramento genético para empresas de base florestal no Brasil e exterior. Atuou como membro do painel de consultores (Review Advisory Panel) do Generation Challenge Program (CGIAR-FAO) e como membro de conselhos de consultores científicos (Scientific Advisory Boards) de projetos de pesquisa em genômica florestal no Canadá (Genome Canada), e projetos da Comunidade Européia. Foi eleito membro titular da Academia Brasileira de Ciências em 2012.

Bruno Marco de Lima, Centro de Tectonologia - Fibria

Possui graduação em Engenharia Florestal pela Universidade de São Paulo (2006), mestrado em Agronomia (Genética e Melhoramento de Plantas) pela Universidade de São Paulo (2010) e doutorado em Agronomia (Genética e Melhoramento de Plantas) pela Universidade de São Paulo (2014). Atualmente é pesquisador em melhoramento florestal - Fibria Celulose.

Citas

BATES, Douglas; VAZQUEZ, Ana Ines. pedigreemm: Pedigree-based mixed-effects models. [S.l.], 2014. R package version 0.3-3.

CORTES, Corinna; VAPNIK, Vladimir. Support-vector networks. Machine learning, Springer, v. 20, n. 3, p. 273-297, 1995.

DESTA, Zeratsion Abera; ORTIZ, Rodomiro. Genomic selection: genome-wide prediction in plant improvement. Trends in Plant Science, v. 19, n. 9, p. 592-601, 2014. ISSN 1360-1385.

ENDELMAN, J. B. Ridge regression and other kernels for genomic selection with R package rrBLUP. Plant Genome, v. 4, p. 250-255, 2011.

GIANOLA, Daniel et al. Additive genetic variability and the Bayesian alphabet. Genetics, Genetics Soc America, v. 183, n. 1, p. 347-363, 2009.

GRATTAPAGLIA, D. Breeding forest trees by genomic selection: current progress and the way forward. In Genomics of Plant Genetic Resources Vol 1 pp 651-682. eds R. Tuberosa, A. Graner & E. Frison. [S.l.], 2014.

HENDERSON, Charles R. Selection index and expected genetic advance. Statistical genetics and plant breeding, Washington, DC, v. 982, p. 141-163, 1963.

JED WING, Max Kuhn. Contributions from et al. caret: Classification and Regression Training. [S.l.]. R package version 6.0-78.

LIMA, Bruno Marco de. Bridging genomics and quantitative genetics of Eucalyptus: genome-wide prediction and genetic parameter estimation for growth and wood properties using high-density SNP data. 2014. Tese (Doutorado) { Escola Superior de Agricultura "Luiz de Queiroz".

LIN, Z; HAYES, BJ; DAETWYLER, HD. Genomic selection in crops, trees and forages: a review. Crop and Pasture Science, CSIRO, v. 65, n. 11, p. 1177-1191, 2014.

MEYER, David; WIEN, FH Technikum. Support vector machines. R News, v. 1, n. 3, p. 23-26, 2001.

ORNELLA, L et al. Genomic-enabled prediction with classification algorithms. Heredity, Nature Publishing Group, v. 112, n. 6, p. 616, 2014.

R CORE TEAM. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2017.

RESENDE, RT et al. Assessing the expected response to genomic selection of individuals and families in Eucalyptus breeding with an additive-dominant model. Heredity, Nature Publishing Group, v. 119, n. 4, p. 245, 2017.

ROBERTS, David R et al. Cross-validation strategies for data with temporal, spatial, hierarchical, or phylogenetic structure. Ecography, Wiley Online Library, v. 40, n. 8, p. 913-929, 2017.

SEARLE, Shayle R; CASELLA, George; MCCULLOCH, Charles E. Variance components. [S.l.]: John Wiley & Sons, 2009. v. 391.

SILVA-JUNIOR, OB et al. Eucalyptus genotyping taken to the next level: development of the "EucHIP60k. br"based on large scale multi-species SNP discovery and ascertainment, pp, 2013.

VANRADEN, Paul M. Efficient methods to compute genomic predictions. Journal of dairy science, Elsevier, v. 91, n. 11, p. 4414-4423, 2008.

WIMMER, Valentin et al. synbreed: a framework for the analysis of genomic prediction data using R. Bioinformatics, v. 28, n. 15, p. 2086-2087, 2012.

Publicado

29-07-2019

Cómo citar

Vasconcelos, A. G. P., de Andrade, J. M. L., de Andrade, B. B., Grattapaglia, D., & de Lima, B. M. (2019). Aplicação de Modelos Mistos e SVM em Seleção Genômica de árvores de Eucalipto. Sigmae, 8(2), 532–553. Recuperado a partir de https://publicacoes.unifal-mg.edu.br/revistas/index.php/sigmae/article/view/1032

Número

Sección

Probability and Statistics