\RequirePackage{lineno}
\documentclass[a4paper,11pt]{article}
\usepackage{fancyhdr}
\fancyhf{}
%\usepackage[latin1]{inputenc} 
\usepackage[brazilian]{babel}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{graphicx}
\usepackage{latexsym,amssymb,amsmath,amsfonts} %fontes e simbolos de AMS
\usepackage[left=2.5cm, right=2.5cm, top=2.5cm,bottom=2.5cm]{geometry}
\usepackage{url}
\usepackage{indentfirst}
\usepackage{enumerate}
\usepackage[ocgcolorlinks]{hyperref}
\usepackage{comment}



\begin{document}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\pagestyle{fancy}
\setcounter{page}{1}
\renewcommand{\thefootnote}{$\dagger$}
\lfoot{}
\cfoot{\slshape {\bf Sigmae}, Alfenas, v.1, n.2, p. 1-15. 2013.}
\rfoot{}
%\setpagewiselinenumbers
\modulolinenumbers[1]
\linenumbers
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\begin{center}
{\large {\bf Desempenho de testes para homogeneidade de vari\^ancias em delineamentos inteiramente casualizados}}\vspace{0.5cm}
\end{center}


\noindent{\bf Resumo:} {\it Por volta de 1920, Fisher propôs a análise de variância, que visa a decomposição da variação total em fontes de variação conhecidas. Para validade dos resultados da análise de variância, esta depende que algumas condições pressupostas sejam atendidas. Uma das razões de se ignorar a checagem das pressuposições é a dificuldade de encontrar testes adequados para tal finalidade. A hipótese de homogeneidade de variâncias é o pressuposto mais importante da análise de variâncias. A violação de qualquer outra suposição pode resultar em heterogeneidade do erro experimental, e isso reforça ainda mais a necessidade de seu estudo. Com isso, os objetivos desta pesquisa foram implementar e estudar o desempenho no controle do erro tipo I e poder de 15 testes para homogenenidade de variâncias, utilizando simulação de Monte Carlo, em variadas configurações de tratamentos e repetições. Em situações de normalidade e delineamento inteiramente casualizado as propostas baseadas na verossimilhança apresentaram os melhores resultados seguidas da proposta bayesiana apresentada por Samiuddin. As variações do teste de Levene tiveram resultados modestos em situações de poucas repetições o que também ocorreu com as de Cochran.}
\newline

\noindent{\bf Palavras-chave:} 

Heterocedasticidade, Erro tipo I, Poder
\newline\newline

\noindent{\bf Abstract:} {\it By 1920, Fisher proposed the analysis of variance, which aims to decompose the total variation in sources of variation known. For validity of the results of the analysis of variance, this depends on some conditions are met presupposed. One reason to ignore checking of assumptions is the difficulty of finding adequate tests for such purpose. The assumption of homogeneity of variances is the most important assumption of the analysis of variance. Violation of any other assumption may result in heterogeneity of experimental error, and this further reinforces the need for their study. Thus, the objectives of this research were to study the performance and implement the control of type I error and power of 15 tests for homogenenidade variances using Monte Carlo simulation, in varied settings of treatments and replicates. In normal and randomized design proposals based on the likelihood showed the best results followed the proposal presented by Bayesian Samiuddin. Variations Levene's test had modest results in situations of low reps which also happened to Cochran.
}
\newline

\noindent{\bf Keywords:} 

Heteroscedasticity, Type I error, power

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newpage                                                                                   %
\pagestyle{fancy}                                                                          %
\renewcommand{\thefootnote}{\roman{footnote}}                                              %
\chead{\slshape Nogueira, D. A. e Pereira, G. M. (2013)}
\rhead{\thepage}
\lfoot{}
\cfoot{\slshape {\bf Sigmae}, Alfenas, v.1, n.2, p. 1-15. 2013.}
\rfoot{}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\section*{Introdução}

Comparações de variâncias sempre ocorrem em várias áreas da estatística, com o intuito de minimizar, controlar e acompanhar a variabilidade, o que é de fundamental importância na produção, no melhoramento genético, no controle de qualidade etc.

Quando se está interessado na realização de inferências há sempre a necessidade de verificar algumas pressuposições dos métodos utilizados. Para ser valida uma análise de variância, esta também depende que algumas condições pressupostas sejam atendidas. A normalidade dos erros é uma delas. Muitos autores consideram que a de maior importância seja a de homogeneidade de variâncias dos erros. 

Essas pressuposições muitas vezes não são checadas e, desta forma, podem comprometer a validade dos resultados dos testes e das estimações realizadas. Uma das razões de se ignorar a checagem das pressuposições para validade da análise é a dificuldade de se encontrarem recursos computacionais. A maior parte dos softwares estatísticos não avaliam estas pressuposições ou até não possuem rotinas para isso. Na literatura, os testes existentes para se verificar a hipótese de homogeneidade de variâncias são específicos para certos modelos, o que dificulta a sua aplicação. 

A importância do teste de homogeneidade de variâncias em muitas áreas da Experimentação é baseada na premissa de que muitos testes de hipóteses sobre médias ou efeitos de tratamentos são realizados pressupondo que as variâncias das populações amostradas sejam iguais. A violação dessa hipótese pode afetar o desempenho do método e comprometer os resultados de diferentes formas, segundo Johnson e Wichern (1998). Vários modelos estão disponíveis
na literatura para este tipo de estudo e é sabido que a heterocedasticidade dos resíduos é um fator que pode afetar a inferência, podendo impactar diretamente nas conclusões (FERREIRA et al., 2006). A presença de heterogeneidade de variâncias pode também ter um sério efeito na validade do teste F, especialmente quando os tamanhos des amostras são desbalanceados (O'brien, 1978; Keyes; Levy, 1997).

Segundo Gomez e Gomez (1984), a heterogeneidade de variância pode ocorrer de duas maneiras. Em uma delas, a variância ocorre sem nenhuma relação com a média e na outra existe uma relação entre estas. Em ciências biológicas é comum a presença de correlação positiva entre média e variância. Grupos com grandes médias tendem a apresentar grandes variâncias e grupos de pequenas médias apresentam pequenas variâncias.

Um dos objetivos desse estudo foi testar o desempenho no controle da taxa de erro tipo I e o poder dos testes utilizados por pesquisadores diante de situações em que a pressuposição de homogeneidade de variância não é atendida. Um teste é classificado como rigoroso, quando a taxa de erro tipo I cometida por ele é menor que o nível nominal de significância e considerado como liberal se este for maior. O erro do tipo I é o erro cometido ao rejeitar $H_{0}$ quando, na realidade, é verdadeira, ou seja, dizer que há diferença entre as variâncias, sendo que essa diferença não existe. A probabilidade de cometer este erro é designada por $\alpha$. O segundo é o erro tipo II que se comete ao aceitar $H_{0}$ quando, na realidade, é falsa, ou seja, afirmar que as variâncais são todas iguais quando na verdade existe uma diferença entre elas. A probabilidade de cometer este erro do tipo II é designada por $\beta$. Em um teste de hipóteses é obviamente desejável que se reduza ao mínimo as probabilidades $\alpha$ e $\beta$ (Steel e Torrie, 1980).

O Poder de um teste tem como objetivo conhecer o quanto o teste de hipóteses controla o erro do tipo II, ou qual a probabilidade de rejeitar a hipótese nula se realmente for falsa. Na prática, é importante que se tenham testes com níveis de significância próximos do nível de significância nominal e que o poder seja elevado, mesmo em situações de amostras pequenas. O poder de um teste de hipóteses é dado pelo complementar de $\beta$, e é afetado diretamente pelo tamanho da amostra, pelo nível de significância adotado e pelo verdadeiro valor do parâmetro a ser testado.

Pretendeu-se com esse trabalho, por meio de simulações de Monte Carlo, avaliar o desempenho  em relação ao erro tipo I e poder, de 15 testes para homogeneidade de variâncias em 16 combinações diferentes para o número de tratamentos e repetições em três diferentes níveis de significância. Foram abordadas apenas situações envolvendo normalidade e balanceamento.


\section*{Metodologia}

%\subsection{Teste de Bartlett com correção (1937)} \vspace*{.5cm}

Para exemplificar uma hipótese de homogeneidade de variâncias, sejam t amostras de tamanho n cada, provindas de suas respectivas populações de tratamentos. Para tal considerou-se o seguinte modelo:

\begin{eqnarray}
% \nonumber to remove numbering (before each equation)
  y_{ij}=\mu+\tau_{i}+\varepsilon_{ij}
\end{eqnarray}

\noindent em que $y_{ij}$ a $j$-ésima observação da $i$-ésima população de tratamento, para i = 1, ..., t e j = 1, ..., n. Ainda no modelo $\mu$ pode ser a média geral, $\tau_{i}$ o efeito fixo do i-ésimo tratamento e $\varepsilon_{ij}$ o erro experimental associado a cada observação, assumindo distribuição normal com média 0 e variância $\sigma^{2}_{i}$. 

Como definido, deseja-se verificar a hipótese $H_{0}: \sigma^{2}_{1}=\sigma^{2}_{2}=\ldots=\sigma^{2}_{t}=\sigma^{2}$.

Para testar a hipótese de homogeneidade ($H_{0}$) inicia-se com a proposta apresentada por Bartlett, que é considerada por muitos como o melhor teste para comparação de variâncias que se baseia na razão de verossimilhanças dada por:

\begin{eqnarray}
  \Lambda=\frac{(2\pi)^{-\frac{2}{n}}(\sigma^{2})^{-\frac{2}{n}}exp^{-\frac{n}{2}}}{(2\pi)^{-\frac{2}{n}}\prod_{i=1}^{t}(\sigma^{2}_{i})^{-\frac{2}{n_{i}}}exp^{-\frac{n}{2}}}=\frac{(\sigma^{2})^{-\frac{2}{n}}}{\prod_{i=1}^{t}(\sigma^{2}_{i})^{-\frac{2}{n_{i}}}}=\frac{\prod_{i=1}^{t}(\sigma^{2}_{i})^{\frac{2}{n_{i}}}}{(\sigma^{2})^{\frac{2}{n}}}.
\end{eqnarray}

Sob $H_{0}$, $-2Ln(\Lambda)$ tem distribuição assintótica de qui-quadrado com $\nu=t-1$ graus de liberdade. Sob $H_{1}$ têm-se t médias e t variâncias e, sob $H_{0}$, t médias e 1 variância comum a todas. Assim, $B_{0}=nLn(\widehat{\sigma}^{2})-\sum_{i=1}^{t}(n_{i}Ln(\widehat{\sigma}^{2}))$ tem distribuição assintótica de qui-quadrado com $\nu=t-1$
graus de liberdade, sob $H_{0}$. Bartlett (1937) propôs uma correção e mudanças para melhorar a aproximação e, desta forma, a estatística de Bartlett (1937) para o teste da hipótese é:

\begin{eqnarray}
  B_{1}=\frac{(n-t)Ln(S^{2}_{p})-\sum_{i=1}^{t}(n_{i}-1)Ln(S^{2}_{i})}{1+\frac{1}{3(t-1)}\left[\sum_{i=1}^{t}\left(\frac{1}{n_{i}-1}\right)-\frac{1}{n-t}\right]},
\end{eqnarray}

\noindent sendo $S_{i}^{2}$ o estimador da variância amostral e $S_{p}^{2}=\sum_{i=1}^{n}\nu_{i}S_{i}^{2}\Big/(n-t)$ o estimador não viesado da variância comum.

%\subsection{Teste de Bartlett com correção para a Curtose (opção 1)} \vspace*{.5cm}

Em 1989, Boos e Brownie propuseram uma modificação no teste de Bartlett, que agora considera o estimador do coeficiente de curtose ($\beta_{2}$). Este fato se deve à tentativa de minimizar a influência da ausência de normalidade das populações amostrais que afetam, assim, o controle das taxas de erro tipo I e o poder (Ferreira, 2005). O teste aproxima de $(\beta_{2}-1)\chi^{2}_{(t-1)}\Big/2 $ sob $H_{0}$, em que $\beta_{2}=E(Y-\mu)^{4}\Big/\sigma^{4}$ é o coeficiente de curtose da população amostral. Assim, a estatística do teste é dada:

\begin{eqnarray}
 B_{2}=\frac{2}{\left[\frac{n\sum_{i=1}^{t}\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^{2}}{[\sum_{i=1}^{t}\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^{2}]^{2}}\right]-1}\left[(n-t)Ln(S^{2}_{p})-\sum_{i=1}^{t}(n_{i}-1)Ln(S^{2}_{i})\right],
\end{eqnarray}

\noindent que segue assintoticamente a distribuição de qui-quadrado com $\nu=t-1$ graus de liberdade, sob $H_{0}$. O $\overline{y}_{i.}$ é a média amostral do $i$-ésimo tratamento.

%\subsection{Teste de Bartlett com correção para a Curtose (opção 2)} \vspace*{.5cm}

Outra proposta avaliada, seguindo a mesma linha de raciocínio, também apresentada por Boos e Brownie (1989) é considerar uma outra opção de correção usando a curtose e a estatística do teste é dada por:

\begin{eqnarray}
 B_{3}=\frac{2B_{1}}{\left[\frac{n\sum_{i=1}^{t}\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^{2}}{[\sum_{i=1}^{t}\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^{2}]^{2}}\right]-1},
\end{eqnarray}

\noindent que segue também assintoticamente a distribuição de qui-quadrado com $\nu=t-1$ graus de liberdade, sob $H_{0}$. Para ambos os casos com correção de curtose se o estimador do coeficiente de curtose for menor que 1 a estatística é considerada nula e o valor-p será 1.

%subsection{Teste de Bartlett (Modificado por Dixon e Massey (1969))} \vspace*{.5cm}

Dixon e Massey um pouco antes, em 1969, propuseram nova versão para o teste de Bartlett que se considerou, neste estudo, como a versão 4 do teste de Bartlett. A proposta é diferente das propostas anteriores, e a estatística $B_{4}=LM/(b-M)$ segue uma distribuição F com $\nu_{1}=t-1$ e $\nu_{2}=3(t-1)/A^{2}$ graus de liberdade, em que $M = (n-t)Ln(S^{2}_{p})-\sum_{i=1}^{t}(n_{i}-1)Ln(S^{2}_{i})$; $A = \frac{1}{3(t-1)}\left[\sum_{i=1}^{t}\left(\frac{1}{n_{i}-1}\right)-\frac{1}{n-t}\right]$; $L = 3(t-1)/A^{2}$ e $b = L/(1-A+2/L)$. 

%\subsection{Teste de Levene (1960) (com desvio da média em módulo)}
%\vspace*{.5cm}

Outra proposta muito utilizada na literatura foi apresentada por Levene (1960) para a comparação de variâncias e baseia-se em uma transformação nos dados originais com a realização de uma análise de variância com um fator onde o teste F permite avaliar a existência de efeitos entre os tratamentos. Na verdade estes efeitos são as variâncias, testando-se assim, a presença de homogeneidade de variâncias. A transformação nada mais é do que a obtenção dos resíduos. A ideia acabou criando uma família de testes com modificações na transformação. Para tanto, seja $\overline{y}_{i}$ a média amostral da $i$-ésima população de tratamentos e seja $z_{ij}=|y_{ij}-\overline{y}_{i.}|$ uma transformação realizada nos valores originais, a estatística do teste é dada por:

\begin{equation}
  L_{5}=\frac{\displaystyle\sum_{i=1}^{t}n_{i}\left(\overline{z}_{i.}-\overline{z}_{..}\right)^{2}\Bigg/(t-1)}{\displaystyle\sum_{i=1}^{t}\displaystyle\sum_{j=1}^{n_{i}}\left(\overline{z}_{i.}-\overline{z}_{..}\right)^{2}\Bigg/(n-t)},
\end{equation}

\noindent sendo $\overline{z}_{i.}$ a média de cada tratamento da variável transformada e $\overline{z}_{..}$ a média geral da variável transformada. Sob $H_{0}$, a estatística $L_{5}$ segue uma distribuição F, com  $\nu1=t-1$ e $\nu2=n-t$ graus de liberdade.

%\subsection{Teste de Levene (1960) (com desvio quadrático da média)} \vspace*{.5cm}

Uma segunda opção utiliza uma outra transformação definida por
$z_{ij}=\left(\overline{y}_{ij}-\overline{y}_{i.}\right)^2$. A estatística permanece a mesma e será denotada por $L_{6}$. 

%\subsection{Teste de Brown e Forsythe (1974) (Teste de Levene com desvio da mediana em módulo)} \vspace*{.5cm}

Em 1974, uma sugestão foi apresentada por Brown e Forsythe para melhoria do teste de Levene, que considera a utilização do estimador da mediana no lugar da média. Na literatura, esta versão é conhecida como teste de Brown-Forsythe. Para tanto, seja $\widetilde{y}_{i\cdot}=md_{i}$ a mediana amostral da $i$-ésima população de tratamentos e seja $z_{ij}=\left|y_{ij}-\widetilde{y}_{i.}\right|$ uma transformação realizada nos valores originais. A estatística permanece a mesma utilizada no teste de Levene (1960) e trataremos esta de $L_{7}$. 

%\subsection{Teste de Brown e Forsythe modificado} \vspace*{.5cm}

Segundo Rubin (1983) e Mehrotra (1997) citados por Argaç (2002) há uma falha no teste original de Brown e Forsythe (1974), a falha é especialmente na consideração dos graus de liberdade da aproximação à distribuição F. A estatística Brown-Forsythe e Levene, utilizam $\nu1=t-1$ onde, segundo estes autores, deveriam utilizar uma aproximação proposta por
Box (1954), ficando então os graus de liberdade do numerador da seguinte forma:

\begin{equation}\label{eq1}
  \nu1=\frac{\left[\displaystyle\sum_{i=1}^{t}\left(1-\frac{n_{i}}{n}\right)S^{2}_{i}\right]^2}{\displaystyle\sum_{i=1}^{t}S_{i}^{4}+\left[\displaystyle\sum_{i=1}^{t}\frac{n_{i}S_{i}^{2}}{n}\right]^2-2\displaystyle\sum_{i=1}^{t}\frac{n_{i}S_{i}^{4}}{n}}.
\end{equation}

O $\nu2$ e a estatística, que trataremos de $L_{8}$, são os mesmos do teste de Brown e Forsythe (1974). Sob $H_{0}$, a estatística $L_{8}$ segue uma distribuição F, com $\nu1$
dado na equação (\ref{eq1}) e $\nu2=n-t$ graus de liberdade. 


%\subsection{Teste Bayesiano (Samiuddin, 1976)} \vspace*{.5cm}

Samiuddin (1976) propôs um teste para avaliar a hipótese de igualdade das variâncias usando a análise bayesiana. Samiuddin considerou uma distribuição a priori não informativa para $\mu_{i}$ e $\sigma_{i}^{2}$. A verossimilhança assumida no teste é proporcional a:

\begin{equation*}
    \prod_{i=1}^{t}\left(\frac{1}{\sigma_{i}}\right)exp\Bigg[-\frac{1}{2}\displaystyle\sum_{j=1}^{n_{i}}(y_{ij}-\mu_{i})^2\bigg/\sigma_{i}^{2}\Bigg].
\end{equation*}

A posteriori conjunta é definida como o produto das duas distribuições (Priori e Verossimilhança) e a integração da posteriori em relação aos $\mu_{i}$'s nos permite obter a distribuição marginal de $\sigma_{i}^{2}$'s. O autor utiliza uma transformação de Wilson-Hilferty (Wilson e Hilferty, 1931) para aproximar uma qui-quadrado pela normal. O autor também mostra que $\phi_{i}=(1/\sigma_{i}^{2})^{\frac{1}{2}}$ segue aproximadamente uma distribuição normal com média $m_{i}$ e variância $a^{2}_{i}$ sendo, portanto:

\begin{align*}
    mi &= \left((n_{i}-1)\Bigg/\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^2\right)^{\frac{1}{2}}[1-(2/9(n_{i}-1))]\\
    a_{i}^{2} &= 2\Bigg/\left[9\left(\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^2\right)^{\frac{2}{3}}(n_{i}-1)^{\frac{1}{3}}\right] .
\end{align*}

Quando a hipótese de homogeneidade de variâncias é verdadeira então a estatística do teste bayesiano é dado por:

\begin{equation*}
    S_{9}=\displaystyle\sum_{i=1}^{t}(m_{i}-m)^2\big/a_{i}^{2},
\end{equation*}

\noindent sendo
$m=\left(\sum_{i=1}^{t}m_{i}/a_{i}^{2}\right)\Big/\left(\sum_{i=1}^{t}1/a_{i}^{2}\right)$.
Sob $H_{0}$, a estatística do teste bayesiano tem distribuição assintótica de qui-quadrado com $\nu=t-1$ graus de liberdade.

%\subsection{Testes de O'Neill e Mathews (2000)} \vspace*{.5cm}

Segundo O'Neill e Mathews (2000), os softwares estatísticos que oferecem as variadas formas do teste de Levene ignoram o fato dos delineamentos desbalanceados, e de que as variáveis analisadas podem ser não-normais e, por isso, a estatística do teste F utilizada pelo teste de Levene pode não seguir uma distribuição F. A proposta se baseia na estimação utilizando a análise de variância pelo método de mínimos quadrados ponderados (MQP). A estatística analisa a variável $z_{ij}=|y_{ij}-\overline{y}_{i.}|$ e a estatística do teste com base na análise de variância por mínimos quadrados ponderados é dada por:

\begin{equation*}
    OM_{10}=\frac{N-t}{t-1}\frac{\sum_{i=1}^{t}w_{0i}(\overline{z}_{i.}-\overline{\overline{z}})^2}{\sum_{i=1}^{t}w_{1i}\sum_{j=1}^{n}(z_{ij}-\overline{z}_{i.})^2},
\end{equation*}

\noindent sendo $N=\sum_{i=1}^{t}n_{i}$ e os pesos dados por $w_{0i}=n_i[1+\frac{2}{\pi}\left(\sqrt{n_i(n_i-2)}+sen^{-1}\frac{1}{n_i-1}-n_i\right)]^{-1}$ e $w_{1i}=[1+\frac{2}{\pi(n_i-1)}\left(\sqrt{n_i(n_i-2)}+sen^{-1}\frac{1}{n_i-1}\right)]^{-1}$, em que $\overline{z}_{i.}$ é a i-ésima média de $z_{ij}$, e $\overline{\overline{z}}$ a média ponderada de $\overline{z}_{i.}$ usando $w_{0i}$. Para a situação de delineamentos balanceados ($n_{i}=n$ para todo i) a estatística é simplesmente um múltiplo da estatística F da análise de variância por mínimos quadrados ordinários (MQO)

\begin{equation*}
    F_{QMP}=m\times F_{QMO},
\end{equation*}

\noindent sendo $m=\frac{b-c}{b+(n-1)c}$, em que $b=(1-\frac{2}{\pi})$ e $c=\frac{2}{\pi}(\frac{1}{n-1})(\sqrt{n(n-2)}+sin^{-1}\frac{1}{n-1}-(n-1))$. Este multiplicador (m) converte a estatística por quadrados mínimos ordinários em uma estatística por quadrados
mínimos ponderados. Segundo os autores, esta estatística é importante especialmente para amostras pequenas, pois o valor de $m$ tende a 1 quando $n$ tende ao $\infty$.

%\subsection{Testes utilizando Procedimentos Jackknife} \vspace*{.5cm}

Além das propostas frequentistas e bayesiana apresentadas, uma outra vertente são os procedimentos computacionais como Jackknife. Segundo Manly (1997), procedimentos Jackknife são aqueles em que, a partir de uma amostra, é feito o descarte de uma observação e em seguida é aplicado o estimador nos valores restantes. O descarte é de uma observação por vez para todas as observações amostrais assim, o número de estimadores é o mesmo do número de observações. Essas observações no final sofrem um determinado tipo de alteração e passam a se chamar pseudovalores. Layard (1973), propôs mudanças no procedimento do Jackknife de Miller (1968) para testar a hipótese de igualdade de variâncias. O teste é baseado no procedimento de Levene (1960), porém considerando pseudovalores. Seja o pseudovalor $U_{ij}=n_{i}Ln(S_{i}^{2})-(n_{i}-1)Ln(S^{2}_{i(j)})$, em que $S^{2}_{i(j)}$ é o estimador da variância da i-ésima população de tratamento, após a eliminação da j-ésima observação. Desta forma, o teste de Layard é dada por:

\begin{equation}
  L_{11}=\frac{\displaystyle\sum_{i=1}^{t}n_{i}\left(\overline{U}_{i.}-\overline{U}_{..}\right)^{2}\Bigg/(t-1)}{\displaystyle\sum_{i=1}^{t}\displaystyle\sum_{j=1}^{n_{i}}\left(\overline{U}_{i.}-\overline{U}_{..}\right)^{2}\Bigg/(n-t)},
\end{equation}

\noindent sendo $\overline{U}_{i.}$ a média de cada tratamento do pseudovalor e $\overline{U}_{..}$ a média geral do pseudovalor. Sob $H_{0}$, a estatística $L_{11}$ segue uma distribuição F, com $\nu1=t-1$ e $\nu2=n-t$ graus de liberdade. 

O'Brien em 1978 define uma nova proposta do teste de Layard usando pseudovalores que não sofreram transformação logarítmica sendo eles $V_{ij}=n_{i}S_{i}^{2}-(n_{i}-1)S^{2}_{i(j)}$. A estatística do teste ($O_{12}$) é a mesma do teste de Layard somente com a substituição dos pseudovalores.

%\subsubsection{Teste de Cochran (1937)}

Em Argaç (2002) é citado que James em 1951 sugeriu uma aproximação à distribuição de qui-quadrado para o teste clássico proposto por Cochran em 1937. A estatística do teste é
dada por:

\begin{equation*}
    C_{13}=\displaystyle\sum_{i=1}^{t}\frac{n_{i}}{S_{i}^{2}}\left[\overline{y}_{i.}-\displaystyle\sum_{j=1}^{t}h_{j}\overline{y}_{.j}\right]^2,
\end{equation*}

\noindent sendo
$h_{j}=\left(n_{j}/S_{j}^{2}\right)\Big/\sum_{k=1}^{t}n_{k}/S_{k}^{2}$.
Sob $H_{0}$ a estatística de Cochran tem distribuição assintótica de qui-quadrado com $\nu=t-1$ graus de liberdade. Nesta mesma linha, Welch, também em 1951, propôs uma modificação ao teste clássico de Cochran, onde a estatística segue uma distribuição F. 

%Em Brown e Forsythe (1974) foram testados estas duas propostas e concluíram que a aproximação de Welch é superior, portanto como em Argaç (2002) \cite{argaç_2002} não se abordará a aproximação de James (1951) \cite{james_1951}.

%\subsubsection{Teste de Welch (1951)}

A proposta de Welch apresenta a seguinte estatística:

\begin{equation*}
    W_{14}=\frac{\displaystyle\sum_{i=1}^{t}\frac{n_{i}}{S_{i}^{2}}\left[\overline{y}_{i.}-\displaystyle\sum_{j=1}^{t}h_{j}\overline{y}_{.j}\right]^2}{(t-1)+2(t-2)(t+1)^{-1}\sum_{i=1}^{t}(n_{i}-1)^{-1}(1-h_{i})^2}.
\end{equation*}

\noindent Sob $H_{0}$ a estatística $W_{14}$ segue uma distribuição F, com $\nu1=t-1$ e
$\nu2$ graus de liberdade dado por:

\begin{equation*}
    \nu2=\frac{t^{2}-1}{3\sum_{i=1}^{t}(n_{i}-1)^{-1}(1-h_{i})^{2}}.
\end{equation*}

%\subsubsection{Teste de Welch Modificado}

Hartung et al. (2002) desenvolveram uma modificação no teste de Welch para correção da liberalidade deste teste na presença de amostras pequenas e aumento no número de tratamentos. A estatística do teste é dada por:

\begin{equation*}
    WM_{15}=\frac{\displaystyle\sum_{i=1}^{t}\frac{n_{i}}{(\varphi_{i}S_{i}^{2})}\left[\overline{y}_{i.}-\displaystyle\sum_{j=1}^{t}h^{*}_{j}\overline{y}_{.j}\right]^2}{(t-1)+2(t-2)(t+1)^{-1}\sum_{i=1}^{t}(n_{i}-1)^{-1}(1-h^{*}_{i})^2},
\end{equation*}

\noindent sendo
$h^{*}_{i}=h^{*}_{j}=\left(n_{j}/(\varphi_{j}S_{j}^{2})\right)\Big/\sum_{k=1}^{t}n_{k}/(\varphi_{k}S_{k}^{2})$;
$\varphi_{i}=(n_{i}+\delta_{1})/(n_{i}+\delta_{2})$ e $\delta_{1}$ e $\delta_{2}$ números reais escolhidos cada qual para satisfazer $1\leq \varphi_{i}\leq c_{i}$, $c_{i}=(n_{i}-1)/(n_{i}-3)$. Sob $H_{0}$ a estatística $WM_{15}$ segue uma distribuição F, com $\nu=t-1$ e $\nu2^{*}$ graus de liberdade dado por:

\begin{equation*}
    \nu2^{*}=\frac{t^{2}-1}{3\sum_{i=1}^{t}(n_{i}-1)^{-1}(1-h^{*}_{i})^{2}}.
\end{equation*}


\section*{Simulações}

Considerando um delineamento inteiramente casualizado (DIC) foram comparados por simulação de Monte Carlo, testes ($B_1$, $B_2$, $B_3$, $B_4$, $L_5$, $L_6$, $L_7$, $L_8$, $S_9$, $OM_{10}$, $L_{11}$, $O_{12}$, $C_{13}$, $W_{14}$ e $WM_{15}$)  para homogeneidade de variâncias. Para isso, foram realizadas simulações nas hipóteses nulas ($H_0$) completas e hipóteses alternativas ($H_1$) para o estudo de desempenho das taxas de erro tipo I e poder. As simulações dos resíduos foram realizadas assumindo distribuição normal com média zero e variância de acordo com a situação. Para o estudo do erro tipo I assumiram-se variâncias constantes entre os tratamentos. No caso do estudo do poder, sob hipótese alternativa verdadeira, as variâncias foram consideradas diferentes entre tratamentos. As diferenças foram simuladas de acordo com uma razão ($\delta$) entre a maior e a menor variância. Todas simulações foram realizadas no software R (R Development Core Team, 2012) de forma a se ter um coeficiente de variação experimental de 15\% para todos os casos. O número de iterações foi 10.000 e os números de tratamentos (t níveis) foram 3, 5, 10 e 20 e o mesmo ocorreu para as repetições (n níveis). Para o teste $WM_{15}$, o valor de $\varphi_{i}$ foi considerado a média entre 1 e $c_{i}$. Os valores de $\delta$ foram 4, 8, 16 e 32. Os valores-p observados foram confrontados com três níveis nominais de significância (0,01; 0,05 e 0,10).


\section*{Resultados e Discussões}

Na Tabela 1 são apresentadas as taxas de erro tipo I em função do número de tratamentos, repetições e nível de significância de 0,05 para os testes de homogeneidade. As taxas observadas foram confrontadas com os intervalos de 99\% de confiança para proporções (Leemis e Trivedi, 1996). De acordo com os resultados foi verificado que o teste de Bartlet, considerando o nível nominal de 5\%, foi o único a controlar o erro tipo I ao nível de significância para todas as configurações adotadas. A versão proposta por Boos e Brownie ($B_2$) apresentou controle da taxa de erro tipo I com o aumento do número de repetições, mas se manteve liberal para poucas repetições. A terceira versão do teste de Bratlett ($B_3$) controlou o erro tipo I para situções com até 5 tratamentos e acima desse número, passou a ser conservador. A proposta bayesiana apresentada por Samiuddin ($S_9$) teve um comportamento sempre rigoroso, controlando a taxa de erro à medida que se aumentou o número de repetições. O mesmo ocorreu com a versão Jacknife apresentada por O'Neil e Mathews ($OM_{10}$). Os demais testes não controlaram a taxa de erro tipo I, como apresentado na Tabela 1. Resultados similares foram observados para os níveis de significância 0,01 e 0,10.     

\begin{flushleft}
\begin{table}[h]
\caption{Taxas de erro dos testes para hogeneidade de variâncias em função do número de tratamentos (t) e do número de repetições (n) para o nível nominal de significância $\alpha = 0,05$} \label{tab1}
\begin{center}
{\tiny \begin{tabular}{ccccccccccccccccc}
\hline        t	&	n	&	$B_1$	&	$B_2$	&	$B_3$	&	$B_4$	&	$L_5$	&	$L_6$	&	$L_7$	&	$L_8$	&	$S_9$	&	$OM_{10}$	&	$L_{11}$	&	$O_{12}$	&	$C_{13}$	&	$W_{14}$	&	$WM_{15}$	\\
\hline	3	&	3	&	0,046*	&	0,101	&	0,054*	&	0,141	&	0,069	&	$0,000^\dag$	&	$0,000^\dag$	&	$0,000^\dag$	&	$0,016^\dag$	&	$0,000^\dag$	&	$0,006^\dag$	&	$0,000^\dag$	&	0,197	&	$0,034^\dag$	&	$0,003^\dag$	\\
	5	&	3	&	0,046*	&	0,105	&	0,052*	&	0,174	&	0,122	&	$0,009^\dag$	&	$0,000^\dag$	&	$0,000^\dag$	&	$0,011^\dag$	&	$0,000^\dag$	&	$0,006^\dag$	&	$0,000^\dag$	&	0,322	&	0,063	&	$0,005^\dag$	\\
	10	&	3	&	0,045*	&	0,125	&	0,049*	&	0,227	&	0,254	&	0,164	&	$0,000^\dag$	&	$0,000^\dag$	&	$0,008^\dag$	&	$0,001^\dag$	&	$0,002^\dag$	&	$0,000^\dag$	&	0,566	&	0,139	&	$0,010^\dag$	\\
	20	&	3	&	0,047*	&	0,142	&	$0,039^\dag$	&	0,321	&	0,486	&	0,565	&	$0,000^\dag$	&	$0,000^\dag$	&	$0,004^\dag$	&	$0,001^\dag$	&	$0,001^\dag$	&	$0,000^\dag$	&	0,820	&	0,287	&	$0,022^\dag$	\\
	3	&	5	&	0,048*	&	0,083	&	0,061	&	0,090	&	0,086	&	0,062	&	$0,004^\dag$	&	$0,003^\dag$	&	$0,039^\dag$	&	$0,010^\dag$	&	$0,043^\dag$	&	$0,000^\dag$	&	0,125	&	0,045*	&	$0,019^\dag$	\\
	5	&	5	&	0,052*	&	0,075	&	0,050*	&	0,101	&	0,098	&	0,077	&	$0,003^\dag$	&	$0,001^\dag$	&	$0,034^\dag$	&	$0,009^\dag$	&	$0,035^\dag$	&	$0,012^\dag$	&	0,181	&	0,053*	&	$0,018^\dag$	\\
	10	&	5	&	0,047*	&	0,074	&	$0,044^\dag$	&	0,119	&	0,135	&	0,113	&	$0,001^\dag$	&	$0,000^\dag$	&	$0,026^\dag$	&	$0,011^\dag$	&	$0,025^\dag$	&	$0,011^\dag$	&	0,312	&	0,084	&	$0,024^\dag$	\\
	20	&	5	&	0,048*	&	0,075	&	$0,037^\dag$	&	0,149	&	0,181	&	0,167	&	$0,000^\dag$	&	$0,000^\dag$	&	$0,021^\dag$	&	$0,011^\dag$	&	$0,014^\dag$	&	$0,007^\dag$	&	0,489	&	0,130	&	$0,031^\dag$	\\
	3	&	10	&	0,050*	&	0,058	&	0,051*	&	0,068	&	0,063	&	0,049*	&	$0,032^\dag$	&	$0,027^\dag$	&	0,048*	&	$0,010^\dag$	&	0,052*	&	$0,021^\dag$	&	0,080	&	0,047*	&	$0,031^\dag$	\\
	5	&	10	&	0,048*	&	0,057	&	0,047*	&	0,070	&	0,072	&	0,058	&	$0,029^\dag$	&	$0,021^\dag$	&	$0,044^\dag$	&	$0,009^\dag$	&	0,048*	&	$0,025^\dag$	&	0,108	&	0,050*	&	$0,031^\dag$	\\
	10	&	10	&	0,048*	&	0,050*	&	$0,039^\dag$	&	0,078	&	0,078	&	0,072	&	$0,024^\dag$	&	$0,016^\dag$	&	$0,040^\dag$	&	$0,011^\dag$	&	$0,040^\dag$	&	$0,024^\dag$	&	0,152	&	0,060	&	$0,031^\dag$	\\
	20	&	10	&	0,047*	&	0,051*	&	$0,037^\dag$	&	0,081	&	0,091	&	0,093	&	$0,016^\dag$	&	$0,009^\dag$	&	$0,037^\dag$	&	$0,009^\dag$	&	$0,030^\dag$	&	$0,017^\dag$	&	0,217	&	0,068	&	$0,033^\dag$	\\
	3	&	20	&	0,049*	&	0,053*	&	0,051*	&	0,058	&	0,057	&	0,050*	&	$0,038^\dag$	&	$0,035^\dag$	&	0,048*	&	$0,010^\dag$	&	0,050*	&	$0,035^\dag$	&	0,066	&	0,057	&	$0,043^\dag$	\\
	5	&	20	&	0,051*	&	0,052*	&	0,048*	&	0,060	&	0,061	&	0,056	&	$0,034^\dag$	&	$0,029^\dag$	&	0,049*	&	$0,008^\dag$	&	0,049*	&	$0,037^\dag$	&	0,073	&	0,049*	&	$0,039^\dag$	\\
	10	&	20	&	0,049*	&	0,047*	&	$0,043^\dag$	&	0,061	&	0,063	&	0,057	&	$0,032^\dag$	&	$0,024^\dag$	&	0,045*	&	$0,009^\dag$	&	$0,040^\dag$	&	$0,034^\dag$	&	0,091	&	0,050*	&	$0,038^\dag$	\\
	20	&	20	&	0,047*	&	0,048*	&	$0,042^\dag$	&	0,063	&	0,066	&	0,067	&	$0,024^\dag$	&	$0,018^\dag$	&	$0,042^\dag$	&	$0,011^\dag$	&	$0,039^\dag$	&	$0,031^\dag$	&	0,117	&	0,055*	&	$0,037^\dag$	\\
\hline 
\multicolumn{16}{l} {*Não diferente do nivel nominal, baseado no IC exato para proporções com 99\% de confiança.} &\\
\multicolumn{16}{l} {$\dag$ diferente do nivel nominal, estando abaixo do limite inferior do IC exato para proporções com 99\% de confiança.} &\\
\end{tabular}} 
\end{center}
\end{table}
\end{flushleft}

Para uma representação gráfica de todos os testes, percebeu-se um comportamento semelhante entre os desempenhos dos testes quando considerou-se 3 e 5 tratamentos. Devido, optou-se por fixar o número de tratamentos como 3 e representar, na Figura \ref{fig:1}, o desempenho destes com o aumento dos tamanhos amostrais. Para $\delta$=1 tem-se a representação da taxa de erro tipo I. Alguns testes tiveram resultados de destaque. O teste $B_4$ de Dixon e Massey apresentou maior poder em relação aos demais testes mas não controlou o nível de significância nominal para a taxa de erro tipo I, sendo de comportamento liberal, com taxas elevadas, para grande número de tratamentos e amostras pequenas. Outro teste de elevado poder foi a proposta $B_2$ mas que também não controlou a taxa de erro tipo I para pequenas amostras, sendo esta obtida somente a partir de 10 repetições. De comportamento similar ao teste $B_2$, a proposta original de Levene ($L_5$) apresentou curva do poder inferior ao $B_2$, mas superior aos demais. O teste original de Bartlett ($B_1$) teve sua curva de poder inferior aos supracitados mas foi a única proposta a controlar o erro tipo I em todas as situações, como apresentado na Tabela 1. Ainda considerando amostras pequenas, a versão $B_3$ apresentou um poder próximo à proposta original de Bartlett e o teste bayesiano de Samiuddin ($S_9$), mantendo um rigor no controle da taxa de erro tipo I e, como esperado, menor poder nestas. Os testes $L_7$, $L_8$, $OM_{10}$, $L_{11}$ e $O_{12}$ tiveram desempenhos muito inferiores, valores de taxa de erro tipo I e Poder não passaram de 5\% para amostras de tamanho 3. Para o teste de Cochran ($C_{13}$) verificou-se uma ausência de controle da taxa de erro tipo I para pequenas amostras, com diminuição desta taxa a medida que as amostras aumentam. As versões $W_{14}$ e $WM_{15}$ dependem diretamente da proposta $C_{13}$, por isso $W_{14}$ também apresentou um comportamento assintótico para o controle da taxa de erro tipo I a medida que as amostras aumentavam. A versão modificada $WM_{15}$, controlou a taxa de erro tipo I em todos os casos, mas apresentou comportamento rigoroso em amostras pequenas. A ausencia de controle da taxa de erro tipo I ou o rigor nesta influenciou o comportamento do poder destes testes baseados na proposta de Cochran.


\begin{figure}[!h]
\begin{center}
\includegraphics[scale=1.55]{todos_t3.jpg}
\caption{Representação gráfica do desempenho de todos os testes considerando t=3, tamanho da amostra (n) e razão entre variâncias populacionais ($\delta$).}\label{fig:1}
\end{center}
\end{figure}

De modo geral, para o número de tratamentos igual a 3, os testes de maior destaque foram $B_1$, $B_2$, $B_4$ e $S_9$. As propostas tendem a ter um comportamento mais parecido, entre si, com o aumento no número de repetições, mas observa-se que com 5 repetições, valor muito usado na prática, as curvas de poder se distanciaram (Figura 2). As propostas $L_6$ e $O_{12}$ tiveram os piores desempenhos de todos os testes.

As versões que se baseiam na proposta de Bartlett ($B_1$, $B_2$, $B_3$ e $B_4$) não foram exploradas para as propostas que foram desenvolvidas pois suas varições, segundos os autores, vem para contornar a dependencia à distribuição normal. 

No estudo, as simulações foram baseadas na normalidade e, por isso, todas tiveram desempenho inferior à proposta original, com resalva para o teste $B_4$ que, por não controlar o erro tipo I (liberal), teve uma curva de maior poder.

Uma supresa foi o desempenho apresentado pela proposta de Samiuddin ($S_9$) baseada em um método bayesiano. Mostrou-se um teste com uma curva de poder próxima dos melhores desempenhos, apesar de ser conservador em amostas com 3 e 5 repetições. A proposta de O’Neill e Mathews ($OM_{10}$) apresentou uma curva de poder abaixo dos demais para pequenas amostras e um rigor no controle da taxa de erro tipo I. Merece destaque pelo fato de ser conservador em todas as configurações e, em situações de amostras grandes, apresentou um elevado poder. Com amostras de tamanho 5 ou mais o teste controlou também o erro tipo I para 1\% e 10\% de significância.

Todas as versões que foram propostas para a melhoria de algum teste clássico, tiveram resultados piores nas situações estudadas. Apenas as versões $B_4$, que apresentou uma curva de poder melhor que o teste original de Bartlett, com resalva de ser um teste liberal em todas as configurações estudadas, e a versão {\it jackknife} ($L11$) do teste original de Levene que apresentou uma curva de poder um pouco melhor em situações com amostra de tamanhos 10 e 20.

O aumento do número de tratamentos surtiu um efeito de um leve aumento no poder dos testes, sendo mais significativo quando se estudaram 20 tratamentos. O teste $B_4$ apresentou um aumento na taxa de erro tipo I e, por isso, credita-se um aumento também do poder. Os testes $S_9$ e as versões jackknife ($L_{11}$, $O_{12}$) passaram a ser mais rigorosos no controle da taxa de erro tipo I com um aumento no poder, como os demais. Esses resultados são mais evidentes para amostras maiores que 3 repetições. 

\begin{figure}[!h]
\begin{center}
\includegraphics[scale=1.55]{b1.jpg}
\caption{Representação gráfica do desempenho do teste original de Bartlett de acordo com o número de tratametos (t), tamanho da amostra (n) e razão entre variâncias populacionais ($\delta$).}\label{fig:2}
\end{center}
\end{figure}

Na Figura \ref{fig:2} são representados graficamente os resultados referente ao desempenho quanto a taxa de erro tipo I e poder do teste de Bartlet ($B_1$) para todas as configurações estudadas. É possível observar o controle do erro tipo I e o aumento do poder do teste a medida que o número de repetições aumenta. O aumento da razão entre as variâncias ($delta$), como era esperado, possibilitou ao teste maior poder, ou seja, maior capacidade de diagnosticar diferenças. Pode-se verificar que, para um $\delta$ = 8 com 10 repetições, o poder já se encontra próximo de 80\%. Considerando um número de repetições qualquer observa-se também um aumento do poder com o aumento do número de tratamentos. 


\begin{figure}[!h]
\begin{center}
\includegraphics[scale=1.55]{levene.jpg}
\caption{Representação gráfica do desempenho dos testes que são baseados na proposta de Levene considerando t=3, tamanho da amostra (n) e razão entre variâncias populacionais ($\delta$).}\label{fig:3}
\end{center}
\end{figure}

Os testes baseados na proposta de Levene (1960) ($L_5$, $L_6$, $L_7$, $L_8$, $L_{11}$, $O_{12}$) apresentaram desempenho frustrante, com destaque apenas para a versão original $L_5$ e a versão jackknife de Layard (1973) ($L_{11}$). Na Figura \ref{fig:3} são apresentados os desempenhos para o número de tratamentos igual a 3. Nenhum dos seis testes controlou o erro tipo I nas configurações estudadas, exceto algumas poucas combinações. Apresentaram baixo poder para amostras pequenas, mesmo com a máxima diferença estudada entre as variâncias (Figura \ref{fig:3}). A versão {\it jackknife} apresentada por Layard, com tamanhos de amostras 5, apresentou um resultado bem próximo do teste original de Levene e, com amostras maiores do que 10, apresentou um poder superior em todas as configurações estudadas. Outro teste que merece destaque é a proposta apresentada por O'Neill e Mathews ($OM_{10}$) que tem como finalidade corrigir o teste de Levene para situações de desbalanceamento mas, como não foram estudados estes casos, esta se mostrou de desempenho pior do que a versão original de Levene. As propostas de Brown-Forsythe ($L_7$) e Brown-Forsythe modificado ($L_8$) apresentaram igual comportamento e tiveram desempenho pior do que as versões supracitadas. As versões com transformações definidas na mediana são recomendadas quando a distribuição é não-normal, com o intuito de aumentar a robustez do teste. As versões $L_6$ e $O_{12}$ tiveram os piores desempenhos nestas situações. Com um tamanho de amostra de 20 os resultados foram semelhantes. Para outros números de tratamentos, as versões $L_5$ e $L_6$ tiveram um poder maior que as demais, mas apresentaram um comportamento liberal, com erros tipo I muito elevados, da ordem de 40\% para 20 tratamentos. As demais versões ($L_7$, $L_8$, $L_{11}$ e $O_{12}$) se mostraram rigorosas no controle do erro tipo I, e para amostras de tamanho 3, o poder não ultrapassou 5\%, como anteriormente comentado. Os desempenhos só melhoram quando o tamanho da amostra é, pelo menos, 10.


\section*{Conclusões}

Em amostras pequenas os testes apresentaram desempenhos variados. Como destaque, o teste de Bartlett ($B_1$) manteve o controle do erro tipo I em todas as configurações e níveis de significância estudados, com curva de poder entre os melhores desempenhos. A proposta original de Levene ($L_5$) não controlou a taxa de erro tipo I para pequenas amostras, apresentando aumento desta à medida que o número de tratamentos aumentava e, consequentemente, maior poder. As versões $S_9$, $OM_{10}$ e $L_{11}$ apresentaram comportamento rigoroso e poder baixo para pequenas amostras. Com amostras maiores do que 10 repetições os testes apresentaram comportamentos parecidos para a curva de poder, sendo estes elevados para $\delta$ acima de 8.  

\section*{Agradecimento}

A Fapemig pelo apoio financeiro.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%                                                              %
%                  REFERENCES  (REFERÊNCIAS)                   %
%                                                              %
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section*{Referências}

\begin{flushleft}

\noindent ARGAÇ, D. Testing for homogeneity in a general one-way classication with fixed effects: power simulations and comparative study. {\it Computational Statistics and Data Analysis}, 2002.  \newline

\noindent BARTLETT, M. S. Properties of sufficiency and statistical tests. {\it Proceedings of the Royal Statistical Society - Serie A}, v,60, p.268-282, 1937. \newline

\noindent BOOS, D. D.; BROWNIE, C. Bootstrap methods for testing homogeneity of variances {\it Technometrics}, v.31, n.1, p.69-82, 1989.\newline

\noindent BOX, G. E. P.; ANDERSEN, S. L. Permutation theory in the derivation of robust criteria and the study of departures from assumptions. {\it Journal of the Royal Statistical Society, Series B}, v.17, n.1, p.1-26, 1955.\newline

\noindent BOX, G. E. P. Some theorems on quadratic forms applied in the study of analysis of variance problems, I. Effect of inequality of variance in the one-way classification. {\it Ann. Math. Statist.}, v.25, p.290-302, 1954.\newline

\noindent BROWN, M. B.; FORSYTHE, A. B. Robust tests for equality of variances. {\it Journal of the American Statistical Association}, v.69, n.346, p.364-367, 1974.\newline

\noindent BROWN, M. B.; FORSYTHE, A. B. The use of weighted contrasts in analysis of models with heterogeneity of variance. Proceedings of the Business and Economics Statistics Section {\it American Statistical Association}, p.347-352, 1983.\newline

\noindent DIXON, W. J.; MASSEY, F. J. Introduction to statistical analysis. {\it McGraw-Hill Book}, New York, n.3, p.308-309 , 1969.\newline

\noindent FERREIRA, D. F. {\it Estatística básica}, Editora UFLA, Lavras - MG, p.664, 2005.\newline

\noindent FERREIRA, D. F.; DEMÉTRIO, C. G. B.; MANLY, B. F. J.; MACHADO, A. DE A.; VENCOVSKY, R. Statistical models in agriculture: biometrical methods for evaluating phenotypic stability in plant breeding. {\it Cerne}, v.12, n.4, p.373-388, 2006.
\newline

\noindent GOMEZ, K. A.; GOMEZ, A. A. Statistical procedures for agricultural research. {\it John Wiley}, n.2, p.680, 1984.
\newline

\noindent HARTUNG, J.; ARGAÇ, D.; MAKAMBI, K. H., Small sample properties of tests on homogeneity in one-way ANOVA and meta-analysis. {\it Statist. Papers} , n.43, p.197-235, 2002.\newline

\noindent JAMES, G. S. The comparison of several groups of observations when the ratios of population variances are unknown. {\it Biometrika}, n.38, p.324-329, 1951.\newline

\noindent JOHNSON, R. A.; WICHERN, D. W. {\it Applied multivariate statistical
analysis.} Prentice Hall: New Jersey, p.816, 1998.\newline

\noindent KEYES, T. K.; LEVY, M. S. Analysis of levene's test under design imbalance. {\it Journal of Educational and Behavioral Statistics}, v.22, p.227-236, 1997.\newline

\noindent LAYARD, M. N. J. Robust large-sample tests for homogeneity of variances. {\it Journal of the American Statistical Association}, v.68, n.341, p.195-198, 1973.\newline

\noindent LEEMIS, L.; TRIVEDI, K. S. A comparison of approximate interval estimators of the Bernoulli parameter. {\it The American Statistician}, v.50, p.63-68. 1996.\newline

\noindent LEVENE, H. Robust tests for equality of variances. {\it Contribution to Probability and Statistics. Stanford, CA: Stanford University Press}, p.278-292, 1960.\newline

\noindent MANLY, B. F. J. Randomization, bootstrap and Monte Carlo methods in biology. {\it University of Otago}, New Zealand, p. 356, 1997.\newline

\noindent MEHROTRA, D. V. Improving the Brown Forsythe solution to the generalized Behrens Fisher problem. {\it Comm. Statist. Simulation Comput.}, v.26, p.1139 1145, 1997.\newline

\noindent MILLER, R. G., Jr. Jackknifing variances. {\it Annals of Mathematical Statistics}, v.39, n.2, p.567-582, 1968.\newline

\noindent O'BRIEN, R. G. A robust technique for testing heterogeneity of variance effects in factorial design. {\it Psychometrika}, v.43, n.3, p.327-342, 1978.\newline

\noindent O'NEILL, M. E.; MATHEWS, K. L. A weighted least squares approach to levene's test of homogeneity of variance. {\it Australian e New Zealand Journal Statistical}, v.42, n.1, p.81-100, 2000.\newline

\noindent O'NEILL, M. E.; MATHEWS, K. L. Levene tests of homogeneity of variance for general block and treatment designs. {\it Biometrics}, v.51, p.216-224, 2002.\newline

\noindent R DEVELOPMENT CORE TEAM. {\it R: A language and environment for statistical computing}. R Foundation for Statistical Computing, Vienna, Austria. 2012. ISBN 3-900051-07-0, Disponível: http://www.R-project.org/.\newline

\noindent RUBIN A. S. {\it Experimentação em genética}. Editora UFLA, Lavras - MG, n.2, p.303, 2005.\newline

\noindent SAMIUDDIN, M. Bayesian test of homogeneity of variance. {\it Journal of the American Statistical Association}, v.71, n.354, p.515-517, 1976.\newline

\noindent WELCH, B. L. On the comparison of several mean values: an alternative approach.
{\it Biometrika}, n.38, p.330-336, 1951.\newline

\noindent WILSON, E. B.; HILFERTY, M. M. The distribution of chi-square. {\it Proceedingdof the National Academy of Science}, v.17, p.684-688, 1931.

\noindent 
\end{flushleft}
  

\end{document}