Estudo de técnicas multivariadas para seleção de variáveis em grandes bancos de dados: uma aplicação envolvendo dados de inibição (IC50)
Palavras-chave:
Regressão Por Componentes Principais, Mínimos Quadrados Parciais, Índice de Concentração.Resumo
A análise multivariada é um meio eficiente na análise de grandes bancos de dados contendo inúmeras variáveis, pois tais técnicas podem ser utilizadas para obter um número reduzido de variáveis sem perda de informação útil. Este trabalho tem por objetivo estudar as técnicas de regressão múltipla, Regressão Por Componentes Principais e Mínimos Quadrados Parciais em problemas de seleção de variáveis e avaliar o desempenho destas estratégias em um banco de dados real. O banco de dados utilizado apresenta 602 estruturas e 93 variáveis buscando descrever o comportamento das variáveis resposta Índice de Concentração (IC50) e suas transformações ln(IC50) e 1/ IC50. O IC50 é uma medida da potência de uma substância no processo de inibição de uma função química ou biológica, indicando quanto da substância é necessária para inibir um dado processo pela metade, portanto, quanto menor o IC50, mais ativo é o composto. Foram ajustados modelos particionando os dados em conjuntos de treinamento e teste. Os dados também foram submetidos a uma análise de agrupamento numa tentativa de separar grupos de compostos semelhantes entre si. A presença de outliers e sua influência nos ajustes foram avaliadas. No geral as técnicas utilizadas tiveram um desempenho satisfatório comparando valores de erro quadrático médio, permitindo identificar um modelo que se ajustou bem ao conjunto teste e conseguiu descrever bem os dados. Na maioria dos casos, a técnica Mínimos Quadrados Parciais, apresentou melhores resultados nesse estudo. Por fim, foi possível destacar as 20 variáveis mais relevantes para o modelo.
Referências
BOROUCHE, J. M., SAPORTA. G. Análise de dados. Zahar Editores. Rio de Janeiro, 1982.
MACQUEEN, J. B. Some Methods for Classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. 1. University of California, 1967.
MANLY, B. J. F. Métodos Estatísticos Multivariados: Uma Introdução. 3 ed. Porto Alegre: Bookman, 2008.
MORELLATO, S. A. Modelos de Regressão PLS com Erros Heterocedásticos. 2010. 60f. Dissertação de Mestrado-Universidade Federal de São Carlos, São Paulo, 2010
R CORE TEAM. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. 2000. Disponível em: https://www.R-project.org/.
SAAD, D. S. Aplicação de Técnicas Estatísticas Multivariadas em Dados de Cerâmica Vermelha Produzida no Rio Grande do Sul. 2009.166f. Dissertação de Mestrado-Universidade Federal de Santa Maria, Rio Grande do Sul, 2009.
YAROSHCHYK, P; DEATH, D.L. e SPENCER S.J. Comparison of principal components regression, partial least squares regression, multi-block partial least squares regression, and serial partial least squares regression algorithms for the analysis of Fe in iron ore using LIBS. Journal Analytical Atomic Spectrometry, 1 ed, 2012.
WENTZELL, P.D. e MONTOTO L.V. Comparison of principal components regression and partial least squares regression through generic simulations of complex mixtures. Chemometrics and Intelligent Laboratory Systems, V. 65, 2003, Pages 257-279.
WOLD, S.; SJÖSTRÖME, M. e ERIKSSON, L. PLS-Regression: A Basic Tool of Chemometrics. Elsevier, Chemometrics and Intelligent Laboratory Systems, v.58, p.109-130, 2001.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Proposta de Política para Periódicos de Acesso Livre
Autores que publicam nesta revista concordam com os seguintes termos:
- Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
- Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
- Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado (Veja O Efeito do Acesso Livre).