%% Antes de processar este arquivo LaTeX (LaTeX2e) deve
%% verificar que o arquivo TEMA.cls estah no mesmo
%% diretorio. O arquivo TEMA.cls pode ser obtido do
%% endereco www.sbmac.org.br/tema.

\documentclass{TEMA}

\usepackage[brazil]{babel}      % para texto em Português
%\usepackage[english]{babel}    % para texto em Inglês

\usepackage[latin1]{inputenc}   % para acentuação em Português
%\input{P-margin.inf}

\usepackage[dvips]{graphics}
%\usepackage{subfigure}
\usepackage{graphicx}
\usepackage{epsfig}

\newcommand{\B}{{\tt\symbol{92}}}
\newcommand{\til}{{\tt\symbol{126}}}
\newcommand{\chap}{{\tt\symbol{94}}}
\newcommand{\agud}{{\tt\symbol{13}}}
\newcommand{\crav}{{\tt\symbol{18}}}

\begin{document}

%********************************************************
\title
    {Análise de Componentes Principais Aplicada à Estimaçao de Parâmetros no Modelo de Regressão Logística Quadrático}

\author
    {Nome(s) do(s) Autor(es)%
     \thanks{e-mail do autor}\,,
     Departamento ,
      Universidade , Endereço , Cidade}

\criartitulo

\runningheads {Autor(es)}{Componentes Principais e o Modelo Logístico Quadrático}

\begin{abstract}
{\bf Resumo}. A maioria dos estudos sobre o modelo de regressão logística politômica considera apenas o modelo com funções discriminantes lineares. Entretanto, funções discriminantes quadráticas podem ser de grande utilidade, além de apresentar melhores resultados. Porém, o modelo logístico quadrático envolve a estimação de um grande número de parâmetros desconhecidos, o que pode exigir um grande esforço computacional. Neste trabalho utiliza-se um conjunto de componentes principais das variáveis explanatórias a fim de reduzir as dimensões do modelo a ser estimado, com variáveis explanatórias contínuas, bem como os custos computacionais para a estimação de parâmetros na regressão logística quadrática politômica, sem perda de eficiência. Simulações com dois conjuntos de dados mostram que o modelo de regressão logística quadrático, com componentes principais, é computacionalmente viável, podendo produzir resultados melhores que aqueles obtidos pelo modelo de regressão logística clássico, em termos de taxas de classificações corretamente efetuadas.

{\bf Palavras-chave}. Regressão Logística Politômica, Regressão Logística Quadrática,
Análise de Componentes Principais.
\end{abstract}


%********************************************************
\newsec{Introdução}
O Modelo de Regressão Logística é empregado para modelar a relação entre uma variável dependente categórica e um conjunto de variáveis explanatórias. Na literatura disponível a quase totalidade dos trabalhos sobre o modelo considera apenas funções discriminantes lineares, como \cite{aguilera}, \cite{AlbertAnderson}, \cite{gervini} e \cite{heinze}, para citar alguns poucos. Entretanto, funções discriminantes quadráticas podem ser de grande utilidade, podendo também apresentar melhores resultados. Porém, o modelo logístico quadrático para variábel resposta politômica envolve a estimação de um grande número de parâmetros, o que pode exigir um elevado esforço computacional, especialmente quando há um  número elevado de variáveis explanatórias no conjunto de dados. Neste trabalho propõe-se o uso de um conjunto de componentes principais das variáveis explanatórias a fim de reduzir as dimensões do modelo a ser estimado, com variáveis contínuas, bem como os custos computacionais para a estimação de parâmetros na regressão logística quadrática politômica, sem perda de eficiência.

\newsec{Modelo de Regressão Logística Clássico}
Seja uma amostra de \textit{n} observações independentes, distribuídas entre \textit{s} grupos, $G_{1},G_{2},...,G_{s}$. Seja $\underline{\mathbf{x}}$ o vetor de  variáveis explanatórias, ou covariáveis, tal que, $\underline{\mathbf{x}}^{T}=\left(x_{0},x_{1},...,x_{p}\right)$, onde $x_{0}\equiv1$, por conveniência. Seja $Y$ a variável resposta politômica, com \textit{s} respostas possíveis, cada resposta indicando o grupo, ou categoria, ao qual pertence a observação em questão. Na forma matricial, as \textit{n} observações são dadas por:
    
\[
\mathbf{X}=\left[\begin{array}{cccc}
1 & x_{11} & ... & x_{p1}\\
1 & x_{12} & ... & x_{p2}\\
... & ... & ... & ...\\
1 & x_{1n} & ... & x_{pn}\end{array}\right]
\]

O Modelo de Regressão Logística Clássico (MRLC), para variável resposta politômica, assume que as probabilidades a \textit{posteriori} são dadas por:

\[
P\left(G_{k}\mid\underline{\mathbf{x}}\right)=\frac{exp\left(\beta_{k0}+{\displaystyle \sum_{j=1}^{p}}\beta_{kj}x_{j}\right)}{{\displaystyle \sum_{i=1}^{s}}exp\left(\beta_{i0}+{\displaystyle \sum_{j=1}^{p}}\beta_{ij}x_{j}\right)}
\]

\noindent onde $k=1\,,\,2\,,\,...\,,\, s-1$ e $\underline{\mathbf{B}}\,_{s}=\mathbf{0}$, considerando \textit{s} como o grupo de referência. Há $\left(s-1\right)\left(p+1\right)$ parâmetros desconhecidos e a função de versossimilhança é:

\[
\ell\left(\underline{\mathbf{B}}\mid\mathrm{\mathbf{Y},}\underline{\mathbf{x}}\right)=\prod_{i=1}^{n}\prod_{k=1}^{s}\left[P\left(G_{k}\mid\underline{\mathbf{x}}\,_{i}\right)\right]^{Y_{ki}}
\]

\noindent onde $\mathbf{Y}=\left(\mathbf{Y}_{1}\,,\,...\,,\mathbf{Y}_{n}\right)^{T}$
e $\mathbf{Y}_{i}=\left(Y_{1i},...,Y_{si}\right)$, com $Y_{ki}=1$ se $Y=k$ , e $Y_{ki}=0$ em outro caso. A função log-verossimilhança é dada por:

\[
L\left(\underline{\mathbf{B}}\mid\textrm{$\mathbf{Y},$}\underline{\mathbf{x}}\right)=\sum_{i=1}^{n}\sum_{k=1}^{s}Y_{ki}ln\left[P\left(G_{k}\mid\underline{\mathbf{x}}\,_{i}\right)\right]
\]

Nestas condições, tem-se que:

\[
\frac{\partial}{\partial\beta_{kj}}L\left(\underline{\mathbf{B}}\mid\mathbf{Y},\underline{\mathbf{x}}\right)=\sum_{i=1}^{n}x_{ij}\left(Y_{ki}-P\left(G_{k}\mid\underline{\mathbf{x}}\,_{i}\right)\right)
\]

O Estimador de Máxima Verossimilhança (EMV) $\underline{\mathbf{\hat{B}}}$ é obtido após igualar as derivadas a zero e resolver o sistema resultante em relação a $\underline{\mathbf{B}}$. O procedimento mais utilizado neste caso é o Método de Newton-Raphson.

Na prática, a estimação dos parâmetros desconhecidos do modelo logístico é sensível a certas características dos dados, especialmente no que se refere à sobreposição de grupos. Uma abordagem apresentada por \cite{AlbertAnderson} propõe a classificação do conjunto de dados em três categorias: separação completa, quando os grupos estão completamente separados, sobreposição parcial, quando apenas alguns grupos apresentam sobreposição e sobreposição completa, quando cada grupo compartilha informações iguais com todos os demais grupos. De acordo com \cite{AlbertAnderson}, os estimadores de máxima verossimilhança podem ser calculados se, e somente se, houver sobreposição de grupos. Algumas abordagens para contornar o problema da separação entre grupos podem ser encontradas em \cite{heinze} e \cite{rousseeuw}, para variável resposta binária, e \cite{andruski}, para variável resposta politômica.

Para contornar o problema da separação completa, adotou-se neste trabalho uma generalização do Modelo de Regressão Logística Oculto (MRLO), método de estimação robusta proposto por \cite{rousseeuw} para variável resposta binária, e que tem como base abordagens apresentadas por \cite{ekholm} e \cite{copas}. Esta generalização considera que há \textit{n} variáveis não observáveis, $T_{1}$, ... , $T_{n}$, onde $T_{i}$ possui \textit{s} valores possíveis, $\gamma_{i}$ , ... , $\gamma_{s}$. Desta forma, tem-se \textit{$Y_{i}=j$} com probabilidade $P\left(Y_{i}=j\mid T_{i}=\gamma_{k}\right)=\delta{}_{jk}$, onde $\sum_{j=1}^{s}\delta_{jk}=1$ e $\delta_{jj}=max_{k=1,...,s}\left\{ \delta_{jk}\right\} $.

O estimador de máxima verossimilhança para $T_{i}$ , quando $Y_{i}=j$, é $\widehat{T}_{ML,i}=\gamma_{j}$. Para um modelo com \textit{n} possíveis respostas $y_{ij}$, \textit{i} = 1 , ... , \textit{n} e \textit{j} = 1 , ... , \textit{s}, onde $y_{ij}=1$, se $Y_{i}=j$, e $y_{ij}=0$, caso contrário, pode-se definir a variável dada por:

\begin{center}
\[
\tilde{y}_{ij}=\sum_{k=1}^{s}y_{ik}\delta_{kj}
\]
\end{center}

Para o MRLC, $\delta_{jj}=1$ e $\delta_{jk}=0$, se $j\neq k$. O objetivo é maximizar:

\begin{center}
\[
\ell\left(\underline{\mathbf{\Theta}}\mid\underline{\tilde{\mathbf{Y}}}\,,\,\underline{\mathbf{X}}\right)=\prod_{i=1}^{n}\prod_{j=1}^{s}\left[P\left(T_{j}\mid\underline{\mathbf{x}}_{i}\right)\right]^{\tilde{Y}_{ji}}\:.
\]
\end{center}

A função log-verossimilhança fica:

\begin{center}
\[
L\left(\underline{\mathbf{\Theta}}\mid\underline{\mathbf{\tilde{Y}}}\,,\,\underline{\mathbf{X}}\right)=\sum_{i=1}^{n}\left[\sum_{j=1}^{s-1}\tilde{y}_{ji}\mu_{j}-ln\left(1+\sum_{j=1}^{s-1}exp\left(\mu_{j}\right)\right)\right]\:,
\]
\end{center}

\noindent onde $\mu_{j}=\theta_{j0}+\theta_{j1}x_{1}+\theta_{j2}x_{2}+...+\theta_{jp}x_{p}$, \textit{j} = 1 , 2 , ... , \textit{s} - 1.

Os estimadores de máxima verossimilhança são os valores que maximizam a função log-verossimilhança com relação a $\underline{\mathbf{\Theta}}$. Para maiores detalhes sobre a referida maximização, sugere-se consultar \cite{andruski}. Na literatura disponível é possível encontrar diferentes abordagens visando a implementação de métodos de estimação robusta, apresentados por \cite{gervini}, \cite{hubert} e \cite{kodzar}, entre outros.

De acordo com \cite{rousseeuw}, \cite{copas}  observou que a estimação de $\delta_{0}$ e $\delta_{1}$, para variável resposta binária, pode ser bastante complexa e dispendiosa, sob o ponto de vista computacional, a menos que \textit{n} seja muito grande. A abordagem simétrica consiste em escolher uma constante $\gamma>0$ e tomar $\delta_{0}=\gamma$ e $\delta_{1}=1-\gamma$, onde $\gamma$ é tão pequeno que $\gamma^{2}$ possa ser ignorado, e $\delta_{0}<\hat{\pi}<\delta_{1}$, onde $\hat{\pi}$, $\delta_{0}$ e $\delta_{1}$ são dados por $\delta_{1}=\frac{1+\hat{\pi}\delta}{1+\delta}$ , $\delta_{0}=\frac{\hat{\pi}\delta}{1+\delta}$ , $\hat{\pi}=max\left\{ \delta\,,\, min\left(1-\delta\,;\,\bar{\pi}\right)\right\} $, $\bar{\pi}=\frac{1}{n}\sum_{i=1}^{n}y_{i}$.

Explicações mais detalhadas, bem como discussões, podem ser encontradas em \cite{copas}, \cite{rousseeuw} e \cite{hubert}. Neste trabalho considerou-se que a probabilidade de observar o verdadeiro estado, dada por $P\left(Y_{i}=j\,|\, T_{i}=\gamma_{j}\right)=\delta_{jj}$, deve ser superior a 0.5, isto é, $0.5<\delta_{jj}<1$, adicionalmente $\sum_{k=1,k\neq j}^{s}\delta_{jk}<\delta_{jj}$. Além disto, não é possível determinar o estimador dado por $\bar{\pi}_{j}=\frac{1}{n}\sum_{i=1}^{n}y_{ij}$, $j=1\,,\,...\,,\, s$, uma vez que $\bar{\pi}_{j}$ pode ser menor que 0.5. Neste trabalho optou-se por escolher $\delta=0.99$, e fazer $\delta_{jj}=\delta$ e $\delta_{jk}=\frac{1-\delta}{s-1}$.

\newsec{Modelo de Regressão Logística Quadrático}
A inclusão de termos quadráticos e multiplicativos na função linear do MRLC resulta no Modelo de Regressão Logística Quadrático (MRLQ), dado por:

\begin{center}
\[
Q\left(G_{k}\mid\underline{\mathbf{X}}\right)=\frac{exp\left(\underline{\chi}_{k}\right)}{{\displaystyle \sum_{i=1}^{s}}exp\left(\underline{\chi}_{i}\right)}
\]
\end{center}

\noindent onde $ 
\underline{\chi}_{k}=\alpha_{k0}+{\displaystyle \sum_{i=1}^{p}}\alpha_{ki}x_{i}^{2}+{\displaystyle \sum_{i=p+1}^{_{p}C_{2}}}\alpha_{ki}x_{j'}x_{j''}+{\displaystyle \sum_{i=_{p}C_{2}+1}^{_{p}C_{2}+p}}\alpha_{ki}x_{j}
$,  $k=1\,,\,2\,,\,...\,,\, s-1$ , $\underline{\chi}\,_{s}=\mathbf{0}$, e $j,j''=1\,,\,2\,,\,...\,,\, p$ , $j'=1\,,\,2\,,\,...\,,\, p-1$.

\noindent Este modelo envolve $\left[(s-1\right)\left(p+1\right)]\left(1+\frac{p}{2}\right)$ parâmetros desconhecidos, cuja estimação segue o mesmo raciocínio usado para obter os parâmetros do MRLC. Entretanto, caso haja um grande número de covariáveis, o número de parâmetos adicionais pode resultar em um problema de difícil resolução, do ponto de vista computacional, o que pode tornar de grande utilidade um método destinado a reduzir as dimensões do conjunto de dados. De acordo com \cite{anderson}, a expressão quadrática também pode ser apresentada na forma:

\begin{center}
\[
\underline{\chi}_{k}=\alpha_{k0}+ \underline{\mathbf{x}}^{T}\mathbf{\Omega}_{k}\underline{\mathbf{x}} + \alpha_{k}^{T}\underline{\mathbf{x}}
\]
\end{center}

\noindent onde $\mathbf{\Omega}_{k}= \mathbf{V}_{k}^{- 1} - \mathbf{V}_{s}^{- 1}$, $\mathbf{V}_{k}$ é a matriz de covariâncias em $G_{k}$, $k = 1, 2, ... , s - 1$, e $\mathbf{V}_{s}$ é a matriz de covariâncias em $G_{s}$.

\noindent Para reduzir o número de parâmetros, \cite{anderson} sugere uma aproximação obtida através da decomposição espectral da matriz de informação, que resulta na expressão:

\begin{center}
\[
\mathbf{\Omega}_{k} = {\displaystyle \sum_{j=1}^{p}}\lambda_{jk}\ell_{jk}\ell_{jk}^T
\]
\end{center}

\noindent onde os $\lambda_{jk}$ são os autovalores da matriz $\mathbf{\Omega}_{k}$, em ordem decrescente, $\lambda_{1k}\geq\lambda_{2k}\geq\ldots\geq\lambda_{pk}$, e $l_{jk}$ são os respectivos autovetores. Neste caso, $\mathbf{\Omega}_{k}$ pode ser escrita como $\mathbf{\Omega}_{k} \cong \lambda_{k}l_{k}l_{k}^T$, onde $\lambda_{k}$ é o maior autovalor. O passo seguinte é a normalização de cada $l_{j}^T = (\ell_{j1}, ... , \ell_{jp})$ sob as restrições:

\begin{center}
\[
{\displaystyle \sum_{k=1}^{p}}\ell_{jk}^2 = 1
\]
\end{center}

\noindent Como esta abordagem pode ser pouco eficiente computacionalmente, sugere-se uma alternativa, que consiste em considerar a forma dada por:

\begin{center}
\[
\underline{\chi}_{k}=\alpha_{k0}+ \mu_{k}(d_{k}^{T}\underline{\mathbf{x}})^{2} + \alpha_{k}^{T}\underline{\mathbf{x}}
\]
\end{center}

\noindent onde $\mu_{k} = sgn(\lambda_{k})$, $k = 1, ... , s - 1$, $d_{kj} = \ell_{kj} / \sqrt{\vert\lambda_{k}\vert}$, $j = 1, ... , p$. A função log-verossimilhança é maximizada com relação a $\alpha_{kj}$ e $d_{kj}$, sem restrições, $2^{(s - 1)}$ vezes para $\mu_{k} = \pm{1}$. Na seqüência, toma-se como estimadores de máxima verossimilhança os maiores valores entre os $2^{(s - 1)}$ valores da função log-verossimilhança, obtendo-se desta forma os estimadores para cada um dos $(s - 1)p$ parâmetros. Contudo esta abordagem nem sempre é aplicável. Por exemplo, de acordo com \cite{anderson} se o conjunto de dados contém variáveis binárias, os termos da diagonal da matriz de covariâncias são iguais a zero. Neste trabalho propõe-se utilizar como covariáveis as componentes principais da matriz de informação $\mathbf{I(\underline{\mathbf{B}})}$, de ordem $(s - 1)(p + 1)$, cujos elementos são dados por:

\begin{center}
\[
\frac{\partial^{2}L\left(\mathbf{\underline{\mathbf{B}}}\right)}{\partial\beta_{jm}\partial\beta_{jm'}}=-\sum_{i=1}^{n}x_{m'i}x_{mi}\left[\mathbf{Q}\left(G_{j}|\underline{\mathbf{x}}_{i}\right)\right]\left[1-\mathbf{Q}\left(G_{j}|\underline{\mathbf{x}}_{i}\right)\right]
\]
\end{center}

e

\begin{center}
\[
\frac{\partial^{2}L\left(\mathbf{\underline{\mathbf{B}}}\right)}{\partial\beta_{jm}\partial\beta_{j'm'}}=\sum_{i=1}^{n}x_{m'i}x_{mi}\left[\mathbf{Q}\left(G_{j}|\underline{\mathbf{x}}_{i}\right)\right]\left[\mathbf{Q}\left(G_{j'}|\underline{\mathbf{x}}_{i}\right)\right]
\]
\end{center}

onde $j , j' = 1 , 2 , ... , (s - 1)$ e $m , m' = 1 , 2 , ... , p$.

\newsec{Modelo de Regressão Logística de Componentes Principais}
A Análise de Componentes Principais (ACP) é um método utilizado para estudar a variância e a covariância através de combinações lineares das \textit{p} variáveis envolvidas, e pode ser considerada uma ferramenta para reduzir a colinearidade entre as variáveis explanatórias e, também, a dimensão do conjunto de dados, pois permite expressar a maior parte da variabilidade através de \textit{q} componentes principais, $q < p$.

Sejam \textit{n} observações de \textit{p} variáveis contínuas, dadas pela matriz $\mathbf{X}$, e seja a matriz de covariância amostral:

\begin{center}
\[
\mathbf{S}=\left[\begin{array}{cccc}
s_{11} & s_{12} & \mathbf{...} & s_{1p}\\
 & s_{22} & \mathbf{...} & s_{2p}\\
 &  & \ddots & \vdots\\
 &  &  & s_{pp}\end{array}\right].
 \]
\end{center}

As observações $\underline{\mathbf{x}}$ podem ser padronizadas, de modo que

\begin{center}
\[
\mathbf{S}=\frac{1}{n-1}\,\mathbf{X^{T}X}
\]
\end{center}

A matriz $\mathbf{S}$ pode ser escrita como $\mathbf{S=V^{T}\Lambda V}$, onde $\mathbf{\Lambda}=diag\left(\lambda_{1},\mathbf{...},\lambda_{p}\right)$ e $\mathbf{V}$ ï¿½ uma matriz ortogonal. Seja $\mathbf{Z}$ a matriz cujas colunas são as componentes principais, dada por $\mathbf{Z = XV}$, onde $\underline{\mathbf{v}}_{1},...,\underline{\mathbf{v}}_{p}$ são os autovetores da matriz $\mathbf{S}$, associados aos autovalores $\lambda_{1}\geq...\geq\lambda_{p}\geq 0$, tal que a matriz de observações possa ser escrita como $\mathbf{X=ZV^{T}}$, onde $x_{ij}=\sum_{k=1}^{p}z_{ik}v_{jk}\:$. Além disto, as matrizes $\mathbf{Z}$ e $\mathbf{V}$ podem ser escritas como:

\begin{center}
$\mathbf{Z}=\left[\begin{array}{ccccccc}
1 & z_{11} & ... & z_{1q} & z_{1(q+1)} & ... & z_{1p}\\
... & ... & ... & ... & ... & ... & ...\\
1 & z_{n1} & ... & z_{nq} & z_{n(q+1)} & ... & z_{np}\end{array}\right]=\left(\mathbf{\mathbf{Z}}_{(q)}|\mathbf{Z}_{(r)}\right)$
\end{center}

e

\begin{center}
$\mathbf{V}=\left[\begin{array}{ccccccc}
1 & 0 & ... & 0 & 0 & ... & 0\\
1 & v_{11} & ... & v_{1q} & v_{1(q+1)} & ... & v_{1p}\\
... & ... & ... & ... & ... & ... & ...\\
1 & v_{p1} & ... & v_{pq} & v_{p(q+1)} & ... & v_{pp}\end{array}\right]=\left(\mathbf{V}_{(q)}|\mathbf{V}_{(r)}\right)$
\end{center}

Para melhorar a estimação de parâmetros do modelo logístico na presença de multicolinearidade, e reduzir a dimensão do conjunto de dados, \cite{aguilera} sugere usar como covariáveis do modelo logístico um conjunto reduzido de componentes principais das variáveis originais. Esta abordagem, chamada Modelo de Regressão Logística por Componentes Principais (MRLCP), fornece uma estimação bastante precisa dos parâmetros, no caso de existência de multicolinearidade, e toma por base uma abordagem proposta por \cite{massy}. Adicionalmente, de acordo com \cite{barker}, estimadores obtidos através da ACP podem apresentar viés inferior ao apresentado por estimadores obtidos através de métodos mais comumente usados. Por outro lado, deve-se levar em consideração que, conforme \cite{mclachlan}, os estimadores dos autovalores da matriz $\mathbf{S}$ podem ter um grande viés quando tendem a ser iguais, ou muito próximos. Abordagens para reduzir este viés podem ser encontradas em \cite{hubert}.

A generalização do MRLCP para variável resposta politômica não exige uma formulação complexa. Inicialmente calcula-se a matriz de covariâncias $\mathbf{S}$. Desta forma, os elementos da matriz $\mathbf{X}$ podem ser representados por $x_{ik}=\sum_{j=1}^{p}z_{ij}v_{kj}\:$, tal que:

\begin{center}
\[
P\left(G_{t}\mid\mathbf{Z}\underline{\mathbf{v}}\,_{i}\right)=\frac{exp\left(\beta_{t0}+{\displaystyle \sum_{k=1}^{p}}{\displaystyle \sum_{j=1}^{p}}z_{ij}v_{kj}\beta_{tk}\right)}{{\displaystyle \sum_{m=1}^{s}}exp\left(\beta_{m0}+{\displaystyle \sum_{k=1}^{p}}{\displaystyle \sum_{j=1}^{p}}z_{ij}v_{kj}\beta_{mk}\right)}\:,
\]
\end{center}

\noindent onde \textit{i} = 1 , ... , \textit{s}, \textit{j} = 0 , ... , \textit{p}, \textit{t} = 1 , ... , \textit{s} e $\beta_{sj}=0$.

\noindent Fazendo $\gamma_{tj}={\displaystyle \sum_{k=1}^{p}v_{kj}\beta_{tk}}$, o MRLCP para variável resposta politômica é dado por:

\begin{center}
\[
P\left(G_{t}\mid\mathbf{Z}\underline{\mathbf{v}}\,_{i}\right)=\frac{exp\left(\beta_{t0}+{\displaystyle \sum_{j=1}^{p}}z_{ij}\gamma_{tj}\right)}{{\displaystyle \sum_{i=1}^{s}}exp\left(\beta_{i0}+{\displaystyle \sum_{j=1}^{p}}z_{ij}\gamma_{mj}\right)}\:,
\]
\end{center}

\noindent O Modelo de Regressão Logística Quadrático de Componentes Principais (MRLQCP) é:

\begin{center}
\[
Q\left(G_{k}\mid\mathbf{Z}\underline{\mathbf{v}}\,_{i}\right)=\frac{exp\left(\underline{\chi}_{k}\right)}{{\displaystyle \sum_{i=1}^{s}}exp\left(\underline{\chi}_{i}\right)}
\]
\end{center}

\noindent onde $\underline{\chi}_{k}=\chi_{k0}+{\displaystyle \sum_{i=1}^{p}}z_{ij}\gamma_{kj}^{2}+{\displaystyle \sum_{i=p+1}^{_{p}C_{2}}}z_{ij}\gamma_{kj'}\gamma_{kj''}+{\displaystyle \sum_{i=_{p}C_{2}+1}^{_{p}C_{2}+p}}z_{ij}\gamma_{kj}
$, para $k=1\,,\,2\,,\,...\,,\, s-1$ , $\underline{\chi}\,_{s}=\mathbf{0}$, e $j,j''=1\,,\,2\,,\,...\,,\, p$ , $j'=1\,,\,2\,,\,...\,,\, p-1$.

Para a formulação do MRLCP e do MRLQCP foram utilizadas as \textit{q} primeiras componentes principais, com a percentagem acumulada da variância total não inferior a 95\%. Sobre a seleção de componentes principais, deve-se ter em mente, conforme \cite{jolliffe}, que componentes principais com os menores autovalores podem ser tão úteis quanto aquelas com maiores autovalores, podendo, inclusive, gerar modelos discriminantes mais eficazes.

\newsec{Aplicações}

Para verificar a eficiência do modelo logístico quadrático para variável resposta politômica, bem como da utilização da Análise de Componentes Principais na estimação de parâmetros do modelo em questão, os modelos quadráticos obtidos foram testados em dois bancos de dados extraídos da literatura. O primeiro conjunto de dados foi obtido de \cite{fisher}, e contém medidas de 150 observações de flores de três espécies. O segundo conjunto, obtido de \cite{brodnjak}, contém 120 observações referentes aos teores de ácidos graxos de óleos vegetais de cinco variedades. Os resultados obtidos, comparados com relação à taxa aparente de erros, são apresentados na seqüência.

\noindent \textbf{Exemplo 1: Iris}. São três grupos: \textit{Iris Setosa} ($G_{1}$), \textit{Iris Versicolor} ($G_{2}$) e \textit{Iris Virginica} ($G_{3}$), usado como grupo de referência. Em cada grupo há 50 observações e quatro variáveis explanatórias: Comprimento ($x_{1}$) e largura ($x_{2}$) da sépala e comprimento ($x_{3}$) e largura ($x_{4}$) da pétala, em milímetros. Sabe-se que o grupo $G_{1}$ é completamente separado dos demais. Além disto, há uma forte correlação entre as variáveis $x_{3}$ e $x_{4}$, com $r = 0,9629$. Neste exemplo, enquanto o MRLO requer a estimação de 10 parâmetros, ou cinco para cada função discriminante, o MRLQ envolve 30 parâmetros, 15 para cada função discriminante. Para os modelos com componentes principais foram selecionadas as duas componentes com maior percentagem da variância acumulada. Desta forma, o MRLCP envolve seis parâmetros, enquanto o MRLQCP envolve 12 parâmetros. A Tabela \ref{tabela01} mostra as variâncias (autovalores) e a percentagem acumulada da variância total para cada componente principal. As matrizes de classificações para o MRLO e para o MRLCP, com funções discriminantes lineares, são apresentadas na Tabela \ref{tabela02}. As taxas de acertos para os modelos com discriminantes quadráticas, MRLCP e MRLQCP, são apresentadas na Tabela \ref{tabela03}. Estes resultados mostram que o modelo quadrático com  duas componentes principais apresentou as mesmas taxas de acerto obtidas pelo MRLQ. Entretanto, cabe ressaltar que o MRLQCP exigiu a estimação de um número significativamente menor de parâmetros.

\begin{table} [h!]
\caption{ {\small Iris. Variâncias (Autovalores) e Percentagem Acumulada da Variância Total.}} 
\label{tabela01}
\begin{center}
\begin{tabular}{c}
%\tabularnewline
\begin{tabular}{|c|c|c|c|c|}
\hline 
{\small Variância ($\lambda$)}&
{\small 2.92}&
{\small 0.91}&
{\small 0.15}&
{\small 0.021}\tabularnewline
\hline
{\small Variância Total Acumulada (\%)}&
{\small 72.96}&
{\small 95.81}&
{\small 99.48}&
{\small 100.00}\tabularnewline
\hline
\end{tabular}\tabularnewline
\end{tabular}
\end{center}
\end{table}

\begin{table} [h!]
\caption{Matriz de Classificações. Iris. Funções Discriminantes Lineares.} \label{tabela02}
\begin{center}
\begin{tabular}{c}
%\tabularnewline
\begin{tabular}{|c|c|c|}
\hline 
\begin{tabular}{c}
{Modelo}\tabularnewline
\end{tabular}&
\begin{tabular}{c}
{Grupo Observado}\tabularnewline
\end{tabular}&
\begin{tabular}{c}
\begin{tabular}{c}
{Grupo Predito}\tabularnewline
\begin{tabular}{ccc}
{G 1 }&
{G 2 }&
{G 3 }\tabularnewline
\end{tabular}\tabularnewline
\end{tabular}\tabularnewline
\end{tabular}\tabularnewline
\hline
{MRLO}&
\begin{tabular}{c}
{G 1}\tabularnewline
{G 2}\tabularnewline
{G 3}\tabularnewline
\end{tabular}&
\begin{tabular}{ccc}
{1.00}&
{0.00}&
{0.00}\tabularnewline
{0.00}&
{0.98}&
{0.02}\tabularnewline
{0.00}&
{0.02}&
{0.98}\tabularnewline
\end{tabular}\tabularnewline
\hline 
{MRLCP (2 c.p.'s)}&
\begin{tabular}{c}
{G 1}\tabularnewline
{G 2}\tabularnewline
{G 3}\tabularnewline
\end{tabular}&
\begin{tabular}{ccc}
{1.00}&
{0.00}&
{0.00}\tabularnewline
{0.00}&
{0.88}&
{0.12}\tabularnewline
{0.00}&
{0.10}&
{0.90}\tabularnewline
\end{tabular}\tabularnewline
\hline
\end{tabular}\tabularnewline
\end{tabular}
\end{center}
\end{table}

\begin{table} [h!]
\caption{Matriz de Classificações. Iris. Funções Discriminantes Quadráticas.}
\label{tabela03}
\begin{center}
\begin{tabular}{c}\tabularnewline
\begin{tabular}{|c|c|c|}
\hline 
\begin{tabular}{c}
{Modelo}\tabularnewline
\end{tabular}&
\begin{tabular}{c}
{Grupo Observado}\tabularnewline
\end{tabular}&
\begin{tabular}{c}
\begin{tabular}{c}
{Grupo Predito}\tabularnewline
\begin{tabular}{ccc}
{G 1 }&
{G 2 }&
{G 3 }\tabularnewline
\end{tabular}\tabularnewline
\end{tabular}\tabularnewline
\end{tabular}\tabularnewline
\hline
{MRLQ}&
\begin{tabular}{c}
{G 1}\tabularnewline
{G 2}\tabularnewline
{G 3}\tabularnewline
\end{tabular}&
\begin{tabular}{ccc}
{1.00}&
{0.00}&
{0.00}\tabularnewline
{0.00}&
{0.98}&
{0.02}\tabularnewline
{0.00}&
{0.02}&
{0.98}\tabularnewline
\end{tabular}\tabularnewline
\hline 
{MRLQCP (2 c.p.'s)}&
\begin{tabular}{c}
{G 1}\tabularnewline
{G 2}\tabularnewline
{G 3}\tabularnewline
\end{tabular}&
\begin{tabular}{ccc}
{1.00}&
{0.00}&
{0.00}\tabularnewline
{0.00}&
{0.98}&
{0.02}\tabularnewline
{0.00}&
{0.02}&
{0.98}\tabularnewline
\end{tabular}\tabularnewline
\hline
\end{tabular}\tabularnewline
\end{tabular}
\end{center}
\end{table}

\noindent \textbf{Exemplo 2: Ácidos Graxos}. São 120 observações, cinco grupos e sete variáveis explanatórias, representando os teores de sete ácidos graxos: palmítico, esteárico, oléico, linoléico, linolênico, eicosanoico e eicosenoico. Os cinco grupos considerados referem-se a óleos de: colza ($G_{1}$), girassol ($G_{2}$), amêndoa ($G_{3}$), milho ($G_{4}$) e abóbora ($G_{5}$), utilizado como grupo de referência. Cabe ressaltar que os teores de ácidos oléico e linoléico apresentam forte correlação, com $r = -0,9565$. Neste exemplo o modelo logístico linear contém quatro funções discriminantes, cada uma com oito parâmetros, isto é, 32 parâmetros desconhecidos. O modelo quadrático, por sua vez, requer a estimação de 144 parâmetros, ou 36 para cada função discriminante. A Tabela \ref{tabela04} mostra as variâncias (autovalores) e a percentagem acumulada da variância total para cada componente principal. Para a construção dos modelos MRLCP e MRLQCP foram utilizadas quatro componentes principais, totalizando 20 parâmetros para o MRLCP e 60 para o MRLQCP. A Tabela \ref{tabela05} apresenta as matrizes de classificações para o MRLO e para o MRLCP, com funções discriminantes lineares. As matrizes de classificações para o MRLQ e para MRLQCP são apresentadas na Tabela \ref{tabela06}. Neste caso, embora o MRLQCP tenha apresentado taxas inferiores ao MRLQ, pode-se argumentar que estas mesmas taxas são superiores ao MRLO, com funções lineares.

\begin{table}[h!]
\caption{ {\small Ácidos Graxos. Variâncias (Autovalores) e Percentagem Acumulada da Variância Total.}}
\label{tabela04}
\begin{center}
\begin{tabular}{c}
\begin{tabular}{|c|c|c|c|c|c|c|c|}
\hline 
{\small Variância ($\lambda$)}&
{\small 3.91}&
{\small 1.08}&
{\small 0.93}&
{\small 0.79}&
{\small 0.21}&
{\small 0.08}&
{\small 0.00}\tabularnewline
\hline
 {\small Variância Total Acumulada (\%)}&
{\small 55.85}&
{\small 71.84}&
{\small 84.66}&
{\small 95.90}&
{\small 98.83}&
{\small 99.99}&
{\small 100.00}\tabularnewline
\hline
\end{tabular}\tabularnewline
\end{tabular}
\end{center}
\end{table}

\begin{table}[h!]
\caption{Matriz de Classificações. Ácidos Graxos. Funções Discriminantes Lineares.}
\label{tabela05}
\begin{center}
\begin{tabular}{c}\tabularnewline
\begin{tabular}{|c|c|c|}
\hline 
\begin{tabular}{c}
{Modelo}\tabularnewline
\end{tabular}&
\begin{tabular}{c}
{Grupo Observado}\tabularnewline
\end{tabular}&
\begin{tabular}{c}
\begin{tabular}{c}
{Grupo Predito}\tabularnewline
\begin{tabular}{ccccc}
{G 1 }&
{G 2 }&
{G 3 }&
{G 4}&
{G 5}\tabularnewline
\end{tabular}\tabularnewline
\end{tabular}\tabularnewline
\end{tabular}\tabularnewline
\hline
{MRLO}&
\begin{tabular}{c}
{G 1}\tabularnewline
{G 2}\tabularnewline
{G 3}\tabularnewline
{G 4}\tabularnewline
{G 5}\tabularnewline
\end{tabular}&
\begin{tabular}{ccccc}
{0.64}&
{0.00}&
{0.00}&
{0.00}&
{0.36}\tabularnewline
{0.00}&
{0.95}&
{0.00}&
{0.00}&
{0.05}\tabularnewline
{0.00}&
{0.00}&
{1.00}&
{0.00}&
{0.00}\tabularnewline
{0.00}&
{0.00}&
{0.00}&
{0.70}&
{0.30}\tabularnewline
{0.15}&
{0.00}&
{0.05}&
{0.05}&
{0.70}\tabularnewline
\end{tabular}\tabularnewline
\hline 
{MRLCP (4 c.p.'s)}&
\begin{tabular}{c}
{G 1}\tabularnewline
{G 2}\tabularnewline
{G 3}\tabularnewline
{G 4}\tabularnewline
{G 5}\tabularnewline
\end{tabular}&
\begin{tabular}{ccccc}
{0.64}&
{0.00}&
{0.00}&
{0.00}&
{0.36}\tabularnewline
{0.00}&
{0.95}&
{0.00}&
{0.00}&
{0.05}\tabularnewline
{0.00}&
{0.00}&
{0.96}&
{0.00}&
{0.04}\tabularnewline
{0.00}&
{0.00}&
{0.00}&
{0.80}&
{0.20}\tabularnewline
{0.17}&
{0.06}&
{0.03}&
{0.06}&
{0.68}\tabularnewline
\end{tabular}\tabularnewline
\hline
\end{tabular}\tabularnewline
\end{tabular}\end{center}
\end{table}

\begin{table}[h!]
\caption{Matriz de Classificações. Ácidos Graxos. Funções Discriminantes Quadráticas.}
\label{tabela06}
\begin{center}
\begin{tabular}{c}\tabularnewline
\begin{tabular}{|c|c|c|}
\hline 
\begin{tabular}{c}
{Modelo}\tabularnewline
\end{tabular}&
\begin{tabular}{c}
{Grupo Observado}\tabularnewline
\end{tabular}&
\begin{tabular}{c}
\begin{tabular}{c}
{Grupo Predito}\tabularnewline
\begin{tabular}{ccccc}
{G 1 }&
{G 2 }&
{G 3 }&
{G 4}&
{G 5}\tabularnewline
\end{tabular}\tabularnewline
\end{tabular}\tabularnewline
\end{tabular}\tabularnewline
\hline
{MRLQ}&
\begin{tabular}{c}
{G 1}\tabularnewline
{G 2}\tabularnewline
{G 3}\tabularnewline
{G 4}\tabularnewline
{G 5}\tabularnewline
\end{tabular}&
\begin{tabular}{ccccc}
{0.82}&
{0.00}&
{0.00}&
{0.00}&
{0.18}\tabularnewline
{0.00}&
{1.00}&
{0.00}&
{0.00}&
{0.00}\tabularnewline
{0.00}&
{0.00}&
{1.00}&
{0.00}&
{0.00}\tabularnewline
{0.00}&
{0.00}&
{0.00}&
{1.00}&
{0.00}\tabularnewline
{0.00}&
{0.00}&
{0.00}&
{0.00}&
{1.00}\tabularnewline
\end{tabular}\tabularnewline
\hline 
{MRLQCP (4 c.p.'s)}&
\begin{tabular}{c}
{G 1}\tabularnewline
{G 2}\tabularnewline
{G 3}\tabularnewline
{G 4}\tabularnewline
{G 5}\tabularnewline
\end{tabular}&
\begin{tabular}{ccccc}
{0.73}&
{0.00}&
{0.00}&
{0.00}&
{0.27}\tabularnewline
{0.00}&
{1.00}&
{0.00}&
{0.00}&
{0.00}\tabularnewline
{0.00}&
{0.00}&
{1.00}&
{0.00}&
{0.00}\tabularnewline
{0.00}&
{0.00}&
{0.00}&
{0.90}&
{0.10}\tabularnewline
{0.00}&
{0.03}&
{0.00}&
{0.05}&
{0.92}\tabularnewline
\end{tabular}\tabularnewline
\hline
\end{tabular}\tabularnewline
\end{tabular}\end{center}
\end{table}

\newsec{Conclusão}
O uso de componentes principais para substituir as variáveis explanatórias teve como resultado a redução das dimensões do conjunto de dados e, consequentemente, do número de parâmetros desconhecidos do modelo de regressão logística quadrático, com variável resposta politômica. Esta redução, juntamente com os resultados obtidos, em termos de taxas de classificação, permitem concluir que a ocorrência de multicolinearidade deixa de ser um problema e passa a ser elemento importante da solução, pois a sua ocorrência possibilita o uso de um conjunto reduzido de componentes principais, acarretando uma significativa redução do esforço computacional necessário à estimação dos parâmetros. Embora não tenha apresentado a mesma eficiência que o MRLQ, o modelo quadrático com componentes principais mostrou-se mais eficiente que o modelo clássico, com funções discriminantes lineares, o que demonstra a sua viabilidade como método de classificação. De acordo com \cite{brodnjak}, quando usadas na classificação de óleos vegetais, as componentes principais exigem uma inspeção mais elaborada. Os resultados obtidos mostram que as componentes principais, em conjunto com o modelo logístico, podem ser utilizadas sem maiores problemas na construição de modelos de apoio à tomada de decisões.

O problema decorrente da separação completa de grupos foi contornado através de uma generalização do modelo logístico oculto, possibilitando a estimação dos parâmetros mesmo nas referidas condições. A principal vantagem desta abordagem é a capacidade de encontrar valores finitos para os estimadores de máxima verossimilhança, tanto para o modelo clássico, com funções discriminantes lineares, como para o modelo logístico quadrático. Uma vantagem adicional está no fato de não haver maiores dificuldades para a implementação computacional. Com relação ao desempenho, é possível concluir, pelos exemplos apresentados, que o modelo logístico quadrático, com estimadores obtidos a partir das componentes principais das variáveis explanatórias, mostrou-se um método confiável para a análise e reconhecimento estatístico de padrões, podendo apresentar melhores taxas de classificação que o modelo clássico, com funções lineares.

\begin{abstract}
{\bf Abstract}. Many papers on logistic regression have only considered the logistic regression model with linear discriminant functions, but there are situations where quadratic discriminant functions are useful, and works better. However, the quadratic logistic regression model involves the estimation of a great number of unknown parameters, and this leads to computational difficulties when there are a great number of independent variables. This paper proposes to use a set of principal components of the explanatory variables, in order to reduce the dimensions in the problem, with continuous independent variables, and the computational costs for the parameter estimation in polytomous quadratic logistic regression, without loss of accuracy. Examples on datasets taken from the literature show that the quadratic logistic regression model, with principal components, is feasible and, generally, works better than the classical logistic regression model with linear discriminant functions, in terms of correct classification rates.
\end{abstract}

\begin{thebibliography}{8}

\bibitem{aguilera} A.M. Aguilera, M. Escabias, M.J. Valderrama, Using principal components for estimating logistic regression with high-dimensional multicollinear data, {\em Computational Statistics \& Data Analysis}, {\bf 55} (2006), 1905--1924.

\bibitem{AlbertAnderson} A. Albert, J. A. Anderson, On the existence of maximum likelihood estimates in logistic regression models, {\em Biometrika}, {\bf 71} (1984), 1--10.

\bibitem{anderson} J.A. Anderson, Quadratic logistic discrimination, {\em Biometrika}, {\bf 62} (1975), 149--154.

\bibitem{andruski} I. Andruski-Guimarães e A. Chaves Neto, Estimation in polytomous logistic model: comparison of methods, {\em Journal of Industrial and Management Optimization}, {\bf 5} (2009), 239--252.

\bibitem{barker} L. Barker, C. Brown, Logistic regression when binary predictor variables are highly correlated, {\em Satistics in Medicine}, {\bf 20} (9-10) (2001), 1431--1442.

\bibitem{brodnjak} $\mathrm{D. Brodnjak-Von\check{c}ina\,\: Z.C. Kodba,\: e\: C. Novi\check{c}}$, Multivariate data analysis in classification of vegetable oils characterized by the content of fatty acids. {\em Chemometrics and Intelligent Laboratory Systems} {\bf 75} (2005), 31--43.

\bibitem{copas} J.B. Copas, Binary regression models for contaminated data. With discussion. {\em Journal of Royal Statistical Society B}, {\bf 50}, (1988), 225--265.

\bibitem{ekholm} A. Ekholme, J. Palmgren, A model for binary response with misclassification. {\em GLIM 82 Proceedings of the International Conference on Generalized Linear Models}, (1982) 128--143.

\bibitem{fisher} R.A. Fisher, The use of multiple measurements in taxonomic problems. {\em Annals of Eugenics} {\bf 3} (1936), 179--188.

\bibitem{gervini} D. Gervini, Robust adaptive estimators for binary regression models. {\em Journal of Statistical Planning and Inference}, {\bf 131}, (2005), 297--311 .

\bibitem{heinze} G. Heinze, M. Schemper, A solution to the problem of separation in logistic regression. {\em Statistics in Medicine} {\bf 21} (2002), 2409--2419.

\bibitem{hubert} M. Hubert, K. van Driessen, Fast and robust discriminant analysis. {\em Computational Statistics \& Data Analysis}, {\bf 45}, 2 (2004), 301--320.

\bibitem{jolliffe} I.T. Jolliffe, A note on the use of principal components in regression. {\em Applied Statistics}, {\bf 31}, 3 (1982), 300--303. 

\bibitem{kodzar} N. Kodzarkhia, G.D. Mishra, L. Reiersolmoen, Robust estimation in the logistic regression model. {\em Journal of Statistical Planning and Inference}, {\bf 98} (2004), 211-223.

\bibitem{massy} W. F. Massy, Principal component regression in exploratory statistical research. {\em Journal of American Statistical Association}, {\bf 60},  (1965), 234--246.

\bibitem{mclachlan} G. J. McLachlan, ``Discriminant Analysis and Statistical Pattern Recognition'', p. 130. John Wiley \& Sons, Inc., Hoboken, New Jersey, U.S.A. 2004.

\bibitem{rousseeuw} P.J. Rousseeuw, A. Christmann, Robustness against separation and outliers in logistic regression, {\em Computational Statistics \& Data Analysis}, {\bf 43} (2003), 315--332.

\end{thebibliography}

\end{document}
\newpage
$ \  \  $  \thispagestyle{myheadings}  \markboth{      }{   }