Estudo de técnicas multivariadas para seleção de variáveis em grandes bancos de dados: uma aplicação envolvendo dados de inibição (IC50)

Autores

  • Jaciele de Jesus oliveira Departamento de Estatística e Ciências Atuariais, Universidade Federal de Sergipe https://orcid.org/0000-0002-6211-2548
  • Antônio Luiz Silveira Vilanova Costa Departamento de Estatística e Ciências Atuariais, Universidade Federal de Sergipe https://orcid.org/0000-0002-2861-6531
  • João Batista Filgueira Costa Mestrando em Biometria e Estatística Aplicada, Universidade Federal Rural de Pernambuco
  • Guilherme Rocha Moreira Prof. Biometria e Estatística Aplicada, Universidade Federal de Pernambuco.
  • Nivan Bezerra da Costa Departamento de Estatística e Ciências Atuariais, Universidade Federal de Sergipe
  • Carlos Raphael Araújo Daniel Departamento de Estatística e Ciências Atuariais, Universidade Federal de Sergipe

Palavras-chave:

Regressão Por Componentes Principais, Mínimos Quadrados Parciais, Índice de Concentração.

Resumo

A análise multivariada é um meio eficiente na análise de grandes bancos de dados contendo inúmeras variáveis, pois tais técnicas podem ser utilizadas para obter um número reduzido de variáveis sem perda de informação útil. Este trabalho tem por objetivo estudar as técnicas de regressão múltipla, Regressão Por Componentes Principais e Mínimos Quadrados Parciais em problemas de seleção de variáveis e avaliar o desempenho destas estratégias em um banco de dados real. O banco de dados utilizado apresenta 602 estruturas e 93 variáveis buscando descrever o comportamento das variáveis resposta Índice de Concentração (IC50) e suas transformações ln(IC50) e 1/ IC50. O IC50 é uma medida da potência de uma substância no processo de inibição de uma função química ou biológica, indicando quanto da substância é necessária para inibir um dado processo pela metade, portanto, quanto menor o IC50, mais ativo é o composto. Foram ajustados modelos particionando os dados em conjuntos de treinamento e teste. Os dados também foram submetidos a uma análise de agrupamento numa tentativa de separar grupos de compostos semelhantes entre si. A presença de outliers e sua influência nos ajustes foram avaliadas. No geral as técnicas utilizadas tiveram um desempenho satisfatório comparando valores de erro quadrático médio, permitindo identificar um modelo que se ajustou bem ao conjunto teste e conseguiu descrever bem os dados. Na maioria dos casos, a técnica Mínimos Quadrados Parciais, apresentou melhores resultados nesse estudo. Por fim, foi possível destacar as 20 variáveis mais relevantes para o modelo.

 

Biografia do Autor

Jaciele de Jesus oliveira, Departamento de Estatística e Ciências Atuariais, Universidade Federal de Sergipe

Dep. de estatística e Ciências atuariais.

Referências

BOROUCHE, J. M., SAPORTA. G. Análise de dados. Zahar Editores. Rio de Janeiro, 1982.

MACQUEEN, J. B. Some Methods for Classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. 1. University of California, 1967.

MANLY, B. J. F. Métodos Estatísticos Multivariados: Uma Introdução. 3 ed. Porto Alegre: Bookman, 2008.

MORELLATO, S. A. Modelos de Regressão PLS com Erros Heterocedásticos. 2010. 60f. Dissertação de Mestrado-Universidade Federal de São Carlos, São Paulo, 2010

R CORE TEAM. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. 2000. Disponível em: https://www.R-project.org/.

SAAD, D. S. Aplicação de Técnicas Estatísticas Multivariadas em Dados de Cerâmica Vermelha Produzida no Rio Grande do Sul. 2009.166f. Dissertação de Mestrado-Universidade Federal de Santa Maria, Rio Grande do Sul, 2009.

YAROSHCHYK, P; DEATH, D.L. e SPENCER S.J. Comparison of principal components regression, partial least squares regression, multi-block partial least squares regression, and serial partial least squares regression algorithms for the analysis of Fe in iron ore using LIBS. Journal Analytical Atomic Spectrometry, 1 ed, 2012.

WENTZELL, P.D. e MONTOTO L.V. Comparison of principal components regression and partial least squares regression through generic simulations of complex mixtures. Chemometrics and Intelligent Laboratory Systems, V. 65, 2003, Pages 257-279.

WOLD, S.; SJÖSTRÖME, M. e ERIKSSON, L. PLS-Regression: A Basic Tool of Chemometrics. Elsevier, Chemometrics and Intelligent Laboratory Systems, v.58, p.109-130, 2001.

Downloads

Publicado

16-04-2021

Como Citar

oliveira, J. de J., Vilanova Costa, A. L. S., Filgueira Costa, J. B. ., Moreira, G. R., Costa, N. B. da, & Daniel, C. R. A. (2021). Estudo de técnicas multivariadas para seleção de variáveis em grandes bancos de dados: uma aplicação envolvendo dados de inibição (IC50). Sigmae, 9(2), 63–70. Recuperado de https://publicacoes.unifal-mg.edu.br/revistas/index.php/sigmae/article/view/1076

Edição

Seção

Estatística Aplicada