%% Antes de processar este arquivo LaTeX (LaTeX2e) deve
%% verificar que o arquivo TEMA.cls estah no mesmo
%% diretorio. O arquivo TEMA.cls pode ser obtido do
%% endereco www.sbmac.org.br/tema.

\documentclass{TEMA}

\usepackage[brazil]{babel}      % para texto em Portugu\^es
%\usepackage[english]{babel}    % para texto em Ingl\^es

\usepackage[latin1]{inputenc}   % para acentua\c{c}\~ao em Portugu\^es
%\input{P-margin.inf}
\usepackage[dvips]{graphics}
\usepackage{subfigure}
\usepackage{graphicx}
\usepackage{amsfonts}
\usepackage{amsmath}
\usepackage[usenames,dvipsnames]{pstricks}
\usepackage{epsfig}
%\usepackage{lineno}

\newcommand{\B}{{\tt\symbol{92}}}
\newcommand{\til}{{\tt\symbol{126}}}
\newcommand{\chap}{{\tt\symbol{94}}}
\newcommand{\agud}{{\tt\symbol{13}}}
\newcommand{\crav}{{\tt\symbol{18}}}
\newcommand{\R}{\mathcal{R}}
\hyphenation{a-cer-ca}

\begin{document}
\sloppy
%********************************************************
\title
    {Estimativa do Perfil da Concentra\c{c}\~ao de Clorofila em \'Aguas Naturais Atrav\'es de um Perceptron de M\'ultiplas Camadas\thanks{Agrade\c{c}o a CAPES pelo auxilio financeiro durante a realiza\c{c}\~ao do doutorado.}}

\author
    {F. DALL CORTIVO%
     \thanks{E-mail: [fabio.cortivo, ezzat, haroldo]@lac.inpe.br}\,,
     Programa de P\'os-Gradua\c{c}\~ao em Computa\c{c}\~ao Aplicada -- CAP, Instituto Nacional de Pesquisas Espaciais -- INPE. Av. dos Astronautas, 1758, 12227-010 S\~ao Jos\'e do Campos, SP, Brasil.
     \\ \\
     E.S. CHALHOUB,\, H.F. CAMPOS VELHO,\, Laborat\'orio Associado de Computa\c{c}\~ao e Matem\'atica Aplicada -- LAC, Instituto Nacional de Pesquisas Espaciais -- INPE. Av. dos Astronautas, 1758, 12227-010 S\~ao Jos\'e do Campos, SP, Brasil.}

\criartitulo

\runningheads {Dall Cortivo, Chalhoub e Campos Velho}{Estimativa da Concentra\c{c}\~ao de Clorofila em \'Aguas Naturais}
%\runningheads {Autor(es)\ldots}{Estimativa da Concentra\c{c}\~ao de Clorofila em \'Aguas Naturais}
%\linenumbers

\begin{abstract}
{\bf Resumo}. Estimativa do perfil de concentra\c{c}\~ao de clorofila, em \'aguas naturais, a partir da radia\c{c}\~ao emergente na superf\'icie de um corpo d'\' agua, com o uso de rede neural artificial do tipo Perceptron de M\'ultiplas Camadas. A concentra\c{c}\~ao de clorofila est\'a relacionada com os coeficientes de absor\c{c}\~ao e espalhamento via modelos bio-\'opticos. O treinamento da rede \'e formulado como um problema de otimiza\c{c}\~ao, no qual a atualiza\c{c}\~ao das vari\'aveis livres da rede (pesos, vi\'es e par\^ametros de cada fun\c{c}\~ao de ativa\c{c}\~ao) \'e feita atrav\'es do m\'etodo quasi-Newton.

{\bf Palavras-chave}. Perceptron de M\'ultiplas Camadas, M\'etodo quasi-Newton, Concentra\c{c}\~ao de Clorofila, Equa\c{c}\~ao de Transfer\^encia Radiativa.
\end{abstract}

%********************************************************
\section{Introdu\c{c}\~ao}\setcounter{equation}{0}
A intera\c{c}\~ao de um feixe de f\'otons com um corpo d'\'agua \'e representada pela Equa\c{c}\~ao de Transfer\^encia Radiativa (ETR). Dadas as condi\c{c}\~oes de contorno, o termo fonte e as propriedades \'oticas inerentes, \'e poss\'ivel resolver a ETR e, assim, determinar a quantidade de part\'iculas (f\'otons) que est\~ao emergindo na superf\'icie da \'agua ap\'os a intera\c{c}\~ao com o meio. Ao abordar o problema dessa forma, caracteriza-se o que \'e chamado de problema direto. O correspondente problema inverso consiste em determinar uma ou mais propriedades f\'isicas (fontes internas, condi\c{c}\~oes de contorno, propriedades \'oticas) a partir das medidas radiom\'etricas (radi\^ancias) emergentes e/ou do interior do corpo d'\'agua.

O problema inverso pode ser formulado como um problema de otimiza\c{c}\~ao, buscando solu\c{c}\~oes regularizadas. Essa abordagem, chamada de impl\'icita, foi utilizada para resolver problemas, nos quais se desejou estimar perfis verticais da concentra\c{c}\~ao de clorofila \cite{souto:2006}. Apesar dos bons resultados obtidos, a complexidade do problema inverso/direto fez necess\'ario a utiliza\c{c}\~ao de processamento paralelo para a resolu\c{c}\~ao \cite{souto:2006, soutoetal:2008}.
%
%Um algoritmo para resolu\c{c}\~ao de problemas inversos consiste em formular um problema de otimiza\c{c}\~ao n\~ao-linear e sujeito a restri\c{c}\~oes, no qual o problema direto \'e resolvido iterativamente para aproxima\c{c}\~oes sucessivas dos par\^ametros/fun\c{c}\~oes desconhecidos. Esse processo iterativo \'e executado at\'e que a fun\c{c}\~ao objetivo, representando a aproxima\c{c}\~ao de m\'inimos quadrados entre o modelo e os dados experimentais adicionado um termo de regulariza\c{c}\~ao, convergir para um valor pequeno (especificado) -- a precis\~ao requerida. Essa abordagem, chamada de impl\'icita, foi utilizada para resolver problemas, nos quais se desejou estimar perfis verticais da concentra\c{c}\~ao de clorofila \cite{souto:2006}. Apesar dos bons resultados obtidos, a complexidade do problema inverso/direto fez necess\'ario a utiliza\c{c}\~ao de processamento paralelo para a resolu\c{c}\~ao \cite{souto:2006, soutoetal:2008}.
%
A resolu\c{c}\~ao de \'otica hidrol\'ogica inversa por esta estrat\'egia requer enorme custo computacional.

Uma estrat\'egia para reduzir o tempo computacional na resolu\c{c}\~ao deste tipo de problema inverso \'e a utiliza\c{c}\~ao de Redes Neurais Artificiais (RNAs) \cite{cortivoetal:2010, oliveiraetal:2010, cortivoetal:2012}, devido a capacidade intr\'inseca desses sistemas em aproximar fun\c{c}\~oes \cite{haykin:2001:pt}.
 
Estimativas da concentra\c{c}\~ao de clorofila de superf\'icie em \'aguas naturais (al\'em de outras propriedades), a partir da reflect\^ancia medida por sat\'elites, j\'a tem sido realizadas atrav\'es de RNAs \cite{keinerbrown:1999, helmutdoerffer:1999, grossetal:2000}. Nesses trabalhos, os padr\~oes de entrada da rede s\~ao formados pelas reflect\^ancias medidas nas bandas (comprimentos de onda) do vis\'ivel, sendo que o valor m\'edio de cada banda corresponde a uma entrada da rede. Em nosso estudo, os padr\~oes de entrada necess\'arios para treinar e validar a rede s\~ao formados pela radia\c{c}\~ao (radi\^ancia) emergente na superf\'icie, sendo que cada dire\c{c}\~ao (polar) discreta considerada corresponde a uma entrada da rede. O m\'etodo de invers\~ao baseado em RNA ser\'a testado com medidas de radi\^ancias sint\'eticas, em que radi\^ancias s\~ao calculadas a partir da solu\c c\~ao da ETR (problema direto). Modelos bio-\'opticos \cite{morel:1991,gordon:morel:1983} s\~ao empregados, em que coeficientes de absor\c c\~ao e espalhamento s\~ao dados em fun\c c\~ao da concentra\c c\~ao de clorofila. Para a resolu\c{c}\~ao num\'erica da ETR \'e utilizado o c\'odigo PEESNA \cite{ezzatetal:2003}, o qual implementa o m\'etodo $S_N$ anal\'itico ($AS_N$) \cite{chalhoub:1997}. O problema inverso faz uso de uma RNA do tipo {Perceptron de M\'ultiplas Camadas (MLP)}.

O treinamento da rede \'e feito atrav\'es da minimiza\c c\~ao do funcional de diferen\c ca quadr\'atica entre as respostas dadas pela rede os padr\~oes de sa\'ida conhecidos A busca m\'inima do funcional \'e feita atrav\'es do m\'etodo quasi-Newton \cite{cortivoetal:2012, cortivoetal:2012:ijcnn}.
O conjunto de par\^ametros estimados no processo de treinamento da rede inclui,  al\'em de pesos e vi\'es, o par\^ametro das fun\c c\~oes de ativa\c c\~ao.

% Al\'em dos pesos e vi\'es,  cada par\^ametro das fun\c{c}\~oes de ativa\c{c}\~ao \'e inclu\'ido no conjunto de vari\'aveis a serem otimizadas e, ainda, s\~ao adicionadas restri\c{c}\~oes \`as vari\'aveis livres da rede (pesos, vi\'es e par\^ametro das fun\c{c}\~oes de ativa\c{c}\~ao), fazendo com que estas n\~ao atinjam ordens de grandezas muito elevadas, evitando a satura\c{c}\~ao dos neur\^onios, fator esse que prejudica o aprendizado da rede. A inclus\~ao do par\^ametro das fun\c{c}\~oes de ativa\c{c}\~ao no conjunto de vari\'aveis livres, faz com que cada fun\c{c}\~ao de ativa\c{c}\~ao possa se especializar em uma regi\~ao espec\'ifica do conjunto de treinamento, melhorando a capacidade de generaliza\c{c}\~ao da rede \cite{cortivoetal:2012:ijcnn}.

%********************************************************
\section{Formula\c{c}\~ao do Problema Direto}\label{secao:2:cortivo}\setcounter{equation}{0}
A ETR \'e um modelo matem\'atico utilizado para representar a intera\c{c}\~ao de um feixe de luz (f\'otons) com um corpo d'\'agua. Em muitas aplica\c{c}\~oes, principalmente aquelas que envolvem o estudo da intera\c{c}\~ao desse feixe de luz com \'aguas oce\^anicas, \'e plaus\'ivel considerar que o corpo d'\'agua apresente varia\c{c}\~oes significativas, com rela\c{c}\~ao aos seus constituintes, apenas com a profundidade. Neste caso, denomina-se o que \'e chamado de geometria plano-paralela. A ETR para este tipo de geometria, com depend\^encia espectral, azimutal e polar, e espalhamento anisotr\'opico \'e \mbox{dada por}
\begin{multline}\label{ote}
  \mu\frac{\partial}{\partial \tau} I(\tau,\mu,\varphi,\lambda)+ I(\tau,\mu,\varphi,\lambda) =\\ \frac{b(\tau,\lambda)}{c(\tau,\lambda)}\int_{-1}^{1}\int_{0}^{2\pi}\int_\lambda p(\cos\Theta,\lambda)I(\tau,\mu',\varphi',\lambda')d\lambda'{d}\varphi'{d}\mu'+ S_0(\tau,\lambda),
\end{multline}
em que $I(\tau,\mu,\varphi,\lambda)$ representa a intensidade do feixe de radia\c{c}\~ao, \mbox{$\tau\in(0,\,\zeta)$} a vari\'avel \'otica, no qual $\zeta$ \'e a espessura \'otica do meio, \mbox{$\mu\in[-1,\,1]$} e \mbox{$\varphi\in[0,\,2\pi]$}, representam, respectivamente, o co-seno do \^angulo polar medido a partir do eixo positivo $\tau$ e o \^angulo azimutal, os quais especificam a dire\c{c}\~ao de propaga\c{c}\~ao $\Theta$ da radia\c{c}\~ao no meio e $\lambda$ \'e o comprimento de onda do f\'oton. O termo $b(\tau,\lambda)$ \'e o coeficiente de espalhamento, \mbox{$c(\tau,\lambda)=a(\tau,\lambda)+b(\tau,\lambda)$} \'e o coeficiente de atenua\c{c}\~ao do feixe em que $a(\tau,\lambda)$ \'e o coeficiente de absor\c{c}\~ao. Por fim, o termo $p(\cos\Theta,\lambda)$ \'e  chamado de fun\c{c}\~ao de fase, e representa o espalhamento de um feixe incidente na dire\c{c}\~ao \mbox{$\{\mu',\,\varphi',\,\lambda\}$} a ser espalhado na dire\c{c}\~ao \mbox{$\{\mu,\,\varphi,\,\lambda\}$}, e $S_0(\tau,\lambda)$ \'e uma fonte interna de radia\c{c}\~ao. As condi\c{c}\~oes de contorno, associadas ao problema abordado, \mbox{s\~ao dadas por}
\begin{equation}\label{obcs}
    I(0,\mu,\varphi,\lambda) = I_0\delta(\mu-\mu_0)\delta(\varphi-\varphi_0)\qquad
%\end{equation}
\text{e}\qquad
%\begin{equation}
    I(\zeta,-\mu,\varphi,\lambda) = 0,
\end{equation}
%\end{subequations}
em que e $I_0$ \'e a radi\^ancia incidente na superf\'icie, $\mu_0$ \'e o cosseno do \^angulo polar de incid\^encia, $\varphi_0$ \'e o \^angulo azimutal de incid\^encia e $\delta(\,\cdot\,)$ \'e a fun\c{c}\~ao delta de Dirac.

Para resolver o problema definido pela equa\c{c}\~ao (\ref{ote}), sujeita \`as condi\c{c}\~oes dadas pelas equa\c{c}\~oes (\ref{obcs}), efetua-se uma discretiza\c c\~ao espacial e espectral \cite{chalhoub:2005}. H\'a um desacoplamento para cada comprimento de onda e aqui a depend\^encia do comprimento de onda ser\'a tomado um valor m\'edio, isto \'e: $I_\lambda(\tau,\mu,\varphi)=(1/\Delta \lambda) \int_\lambda^{\lambda+\Delta\lambda} I(\tau,\mu,\varphi,\lambda) d\lambda$. A fim de simplificar a nota\c{c}\~ao n\~ao ser\'a grifado a depend\^encia do comprimento de onda $\lambda$. O pr\'oximo passo consiste em realizar a decomposi\c{c}\~ao da intensidade de radia\c{c}\~ao $I(\tau,\mu,\varphi)$ \cite{chandrasekhar:1950} em componentes espalhada $I_s(\tau,\mu,\varphi)$ e n\~ao-espalhada $I_u(\tau,\mu,\varphi)$ e, dessa forma, a solu\c{c}\~ao $I(\tau,\mu,\varphi)$ passa a ser expressa como sendo a soma dessas componentes,
\begin{equation*}
  I(\tau,\mu,\varphi)=I_u(\tau,\mu,\varphi)+I_s(\tau,\mu,\varphi).
\end{equation*}

Para obter a solu\c{c}\~ao para a componente n\~ao-espalhada, considera-se \mbox{$b(\tau,\lambda)=0$} na equa\c{c}\~ao (\ref{ote}), sujeito \`as condi\c{c}\~oes (\ref{obcs}) e, ent\~ao, resolve-se a equa\c{c}\~ao diferencial parcial resultante. J\'a para a componente espalhada $I_s(\tau,\mu,\varphi)$, inicialmente aproxima-se a fun\c c\~ao de fase de Henyey-Greenstein \cite{mobley:1994} em uma s\'erie finita de fun\c c\~oes de Legendre associadas, e em seguida utiliza-se a decomposi\c{c}\~ao de Fourier em co-senos \cite{chandrasekhar:1950}, sobre o \^angulo azimutal, de modo a gerar $L+1$ equa\c{c}\~oes integro-diferencias (ETRs), sem a depend\^encia de $\varphi$. O termo integral presente em cada equa\c{c}\~ao \'integro-diferencial \'e aproximado pelo m\'etodo da coloca\c{c}\~ao, o qual consiste em substituir a integral angular por um esquema de quadratura de Gauss-Legendre. Essa aproxima\c{c}\~ao produz um conjunto de $N$ equa\c{c}\~oes diferenciais ordin\'arias de primeira ordem para cada \^angulo azimutal. A solu\c{c}\~ao anal\'itica, para cada um desses conjuntos, \'e obtida atrav\'es do m\'etodo $AS_N$, que \'e baseado na decomposi\c{c}\~ao espectral da matriz de espalhamento. Para a aproxima\c{c}\~ao num\'erica \'e utilizado o c\'odigo \mbox{PEESNA \cite{ezzatetal:2003}}, o qual implementa o m\'etodo $AS_N$.

A rela\c{c}\~ao entre os coeficientes de absor\c{c}\~ao e espalhamento com a concentra\c{c}\~ao de clorofila \'e feita atrav\'es de modelos bio-\'opticos. Segundo \cite{morel:1991} e \cite{gordon:morel:1983}, as express\~oes que relacionam a concentra\c{c}\~ao de clorofila com a absor\c{c}\~ao e o espalhamento s\~ao dadas, respectivamente, por
\begin{equation*}
  a(\tau,\lambda)=\left[a^w_\lambda+0.06\,a^c_\lambda\,C^{0.65}(\tau)\right]\left[1+0.2\,e^{-0.014(\lambda-440)}\right],\vspace*{-1mm}
\end{equation*}
e
\begin{equation*}
  b(\tau,\lambda)=b_\lambda^w+\frac{550}{\lambda}\,0.3\,C^{0.62}(\tau),
\end{equation*}
em que $a^w_\lambda$ e $b_\lambda^w$ s\~ao, respectivamente, o coeficiente de absor\c{c}\~ao e espalhamento da \'agua pura, cujos valores podem ser encontrados em \cite{morelprieur:1977}, $\lambda$ representa o comprimento de onda adotado, $a^c_\lambda$ \'e um coeficiente de absor\c{c}\~ao espec\'ifico da concentra\c{c}\~ao de clorofila, cujo valor pode ser encontrado em \cite{prieursathyendranath:1981}, e $C(\tau)$ \'e a \mbox{concentra\c{c}\~ao de clorofila, a} qual, para o presente trabalho, \'e considerada constante. \mbox{Por fim, mais detalhes a-} cerca da solu\c{c}\~ao para o problema definido nessa se\c{c}\~ao podem ser encontrados \mbox{em \cite{chalhoub:2005}.}

%********************************************************

\section{Perceptron de M\'ultiplas Camadas}\setcounter{equation}{0}
Um MLP \'e obtido atrav\'es da conex\~ao de v\'arios neur\^onios entre si, de modo a formarem uma rede. Essa rede \'e constitu\'ida de uma camada de entrada, uma ou mais camadas ocultas, e uma camada de sa\'ida. Nesse modelo de rede, a informa\c{c}\~ao \'e passada adiante camada por camada at\'e atingir a camada de sa\'ida. A informa\c{c}\~ao que chega em cada uma das unidades de processamento e que dever\'a ser processada por essas unidades, \'e definida matematicamente por $v_i=\sum_jw_{ji}x_j+b_i$, em que $x_{j}$ representa as informa\c{c}\~oes de entrada, $w_{ji}$ as conex\~oes entre os neur\^onios (sinapses), e $b_i$ \'e chamado de n\'ivel de vi\'es, e pode ser interpretado como um valor que \'e ajustado a fim de ``complementar'' alguma atividade presente no neur\^onio biol\'ogico, mas n\~ao presente no neur\^onio artificial. Essa informa\c{c}\~ao \'e processada atrav\'es de uma fun\c{c}\~ao de ativa\c{c}\~ao $\phi$, a qual tem por finalidade restringir a amplitude do sinal de sa\'ida. Assim, o sinal que segue para o pr\'oximo neur\^onio \'e definido como \mbox{$y_i=\phi(v_i)$}. Comumente s\~ao empregadas como fun\c{c}\~oes de ativa\c{c}\~ao: a fun\c{c}\~ao sigm\'oide, a fun\c{c}\~ao tangente hiperb\'olica e a fun\c{c}\~ao linear, definidas, respectivamente, por
\begin{equation*}
  \phi(v)=\frac{1}{1+e^{-av}},\quad a>0,\quad \phi(v)=\frac{1-e^{-av}}{1+e^{-av}},\quad a>0\quad\text{e}\quad\phi(v)=av,\quad a\in\R^*.
\end{equation*}

Redes do tipo MLPs requerem um treinamento do tipo supervisionado, ou seja, com a  presen\c{c}a de um professor que tem o conhecimento do ambiente que a rede dever\'a aprender. Esse ambiente \'e representado por um conjunto de entradas e sa\'idas conhecidas. Durante a fase de aprendizagem, o professor apresenta uma determinada entrada \`a rede, que por sua vez processa a informa\c{c}\~ao apresentada e devolve uma sa\'ida. A sa\'ida calculada pela rede \'e comparada com a sa\'ida desejada, e com isso \'e gerado um sinal de erro, o qual \'e propagado para tr\'as (retropropaga\c{c}\~ao) atrav\'es do algoritmo de treinamento. Durante a retropropaga\c{c}\~ao do erro, o algoritmo de treinamento, baseado em alguma regra, faz uma corre\c{c}\~ao nas vari\'aveis livres da rede de modo a corrigir os valores dos seus par\^ametros livres, a fim de minimizar o erro cometido. Dessa forma, espera-se que a rede aprenda a fazer a correta associa\c{c}\~ao entre os padr\~oes de entrada e os padr\~oes de sa\'ida. 

\section{Formula\c{c}\~ao do Problema Inverso}\label{secao:4:cortivo}\setcounter{equation}{0}
A formula\c{c}\~ao para o treinamento, descrita abaixo, segue a adotada em \cite{cortivoetal:2012:ijcnn}. Nessa formula\c{c}\~ao o treinamento \'e supervisionado e do tipo \textit{batch} \cite{haykin:2001:pt}.

Para formular o problema inverso (treinamento), inicialmente os padr\~oes de entrada s\~ao organizados em uma matriz $\mathbb{E}_t$. Nessa matriz, cada coluna representa um vetor padr\~ao de entrada e cada elemento da coluna \'e uma entrada da rede. Por sua vez, os padr\~oes de sa\'ida s\~ao organizados em uma matriz $\mathbb{O}_t$, em que cada padr\~ao de sa\'ida corresponde a uma coluna e cada elemento desta coluna \mbox{corresponde a um neur\^onio de sa\'ida}.

\`As sa\'idas que s\~ao calculadas pela rede, associa-se a matriz $\mathbb{O}_n$, em que as entradas seguem a mesma ordem da matriz $\mathbb{O}_t$. � f\'acil perceber que cada entrada da matriz $\mathbb{O}_n$ ir\'a depender da matriz de pesos sin\'apticos, $\mathbb{W}$, da matriz/vetor de vi\'es, $\mathbb{B}$, e de cada padr\~ao de entrada presente na matriz $\mathbb{E}_t$, assim
\begin{equation}\label{cortivo:on:wb}
  \mathbb{O}_n=\mathbb{O}_n\left(\mathbb{E}_t,\mathbb{W},\mathbb{B}\right).%\vspace*{-1.5mm}
\end{equation}

O pr\'oximo passo consiste em adicionar cada par\^ametro das fun\c{c}\~oes de ativa\c{c}\~ao no conjunto de vari\'aveis livres. Portanto, considerando que estes par\^ametros s\~ao organizados em uma matriz $\mathbb{A}$, em que cada coluna corresponde a uma camada de neur\^onios e cada elemento desta coluna corresponde a um neur\^onio dessa camada, \'e poss\'ivel escrever a equa\c{c}\~ao (\ref{cortivo:on:wb}) como
\begin{equation*}
  \mathbb{O}_n=\mathbb{O}_n\left(\mathbb{E}_t,\mathbb{W},\mathbb{B},\mathbb{A}\right).%\vspace*{-2mm}
\end{equation*}

Como $\mathbb{O}_t$ \'e conhecida, pois s\~ao os padr\~oes de sa\'ida do treinamento, e $\mathbb{O}_n$ ser\'a calculado pela rede, \'e poss\'ivel calcular o erro entre $\mathbb{O}_t$ e $\mathbb{O}_n$. Assim, define-se um funcional $\mathcal{J}(\,\cdot\,)$ que seja dado pela soma das diferen\c{c}as quadr\'aticas entre cada entrada dessas matrizes, e para o qual se busque um valor m\'inimo, ou seja,
\begin{equation}\label{fun:cortivo}
  \mathcal{J}\left(\mathbb{E}_t,\mathbb{W},\mathbb{B},\mathbb{A}\right)=\min\sum_{i=1}^{M}\sum_{j=1}^{T}\left|\left|{O}_{t_{ij}}-{O}_{n_{ij}}\right|\right|^2_2,
\end{equation}
em que $M$ representa o n\'umero total de neur\^onios na camada de sa\'ida, $T$ representa o n\'umero total de padr\~oes de treinamento, ${O}_{t_{ij}}$ e ${O}_{n_{ij}}$ representam cada entrada das matrizes $\mathbb{O}_{t}$ e $\mathbb{O}_{n}$, respectivamente. 

Note que \'e necess\'ario incluir restri\c{c}\~oes \`as vari\'aveis que est\~ao sendo otimizadas, especialmente \`as relacionadas com o par\^ametro das fun\c{c}\~oes de ativa\c{c}\~ao. Pela defini\c{c}\~ao das fun\c{c}\~oes sigm\'oide e tangente hiperb\'olica, estes par\^ametros devem ser positivos e, portanto, os ``valores \'otimos'' para esses par\^ametros %, os quais s\~ao atualizados durante o treinamento, 
devem satisfazer
\begin{equation}\label{res:cortivo:sigtan}
  \begin{array}{rcccr}
    0 & < & a^\ell & \leq & a^\ell_\textrm{max}
  \end{array}\!\!,
\end{equation}
em que $a^\ell_\textrm{max}$ \'e um valor m\'aximo pr\'e-definido, a fim de evitar que este par\^ametro atinja uma ordem de grandeza elevada, tornando a contribui\c{c}\~ao do termo exponencial desprez\'ivel, ou ent\~ao, gerar um \textit{underflow}. Se for utilizada a fun\c{c}\~ao de ativa\c{c}\~ao linear, a
restri\c{c}\~ao dada pela equa\c{c}\~ao (\ref{res:cortivo:sigtan}) pode ser substitu\'ida por
\begin{equation}\label{res:cortivo:lin}
  \begin{array}{rcccr}
  -a^\ell_\textrm{min} & \leq&  a^\ell & \leq&  a^\ell_\textrm{max}
  \end{array}\!\!, \quad a^\ell \neq 0,
\end{equation}
em que $a^\ell_\textrm{min}$ e $a^\ell_\textrm{max}$ s\~ao valores m\'inimos e m\'aximos, respectivamente, pr\'e-definidos a fim de evitar um  \textit{overflow}.

O treinamento da rede pode envolver uma fun\c{c}\~ao com m\'ultiplos m\'inimos locais, o que torna dif\'icil garantir que ser\'a encontrado um m\'inimo global. Diante disso, parece ser atraente a id\'eia de reduzir o espa\c{c}o de busca e, ent\~ao, buscar por um m\'inimo local dentro desse sub-espa\c{c}o gerado, desde que esse produza bons resultados. A redu\c{c}\~ao do espa\c{c}o de busca \'e obtido colocando restri\c{c}\~oes nas demais vari\'aveis a serem otimizadas, ou seja, nos pesos e nos vi\'es. Portanto, durante o processo de treinamento s\~ao buscados valores para a matriz $\mathbb{W}$ e para matriz/vetor $\mathbb{B}$ de modo que estes satisfa\c{c}am as restri\c{c}\~oes
\begin{equation}\label{res:cortivo:w:b}
  \begin{array}{rcccr}
    -w^k_\textrm{min} & \leq & w^k & \leq & w^k_\textrm{max}\\
    -b^l_\textrm{min} & \leq & b^l & \leq & b^l_\textrm{max}
  \end{array},
\end{equation}
em que $w^k_*$ est\'a associado \`as restri\c{c}\~oes aos pesos, $b^l_*$ est\'a associado \`as restri\c{c}\~oes aos vi\'es. Outra vantagem que surge com a inclus\~ao dessas restri\c{c}\~oes nos pesos e vi\'es, \'e o fato que \'e poss\'ivel evitar que esses par\^ametros assumam ordens de grandeza elevadas e, assim, evitar a satura\c{c}\~ao dos neur\^onios, fato esse n\~ao desejado pois prejudica o treinamento. Portanto, durante o treinamento da rede, o m\'etodo utilizado busca um m\'inimo para o funcional definido na equa\c{c}\~ao (\ref{fun:cortivo}), sujeito \`as condi\c{c}\~oes expressas pelas equa\c{c}\~oes (\ref{res:cortivo:sigtan}) e/ou (\ref{res:cortivo:lin}) e/ou (\ref{res:cortivo:w:b}).

Neste trabalho, para a minimiza\c{c}\~ao do funcional definido na equa\c{c}\~ao (\ref{fun:cortivo}), \'e utilizado o m\'etodo quasi-Newton implementado na sub-rotina E04UCF da biblioteca NAG, desenvolvida por \textit{Numerical Algorithms Group -- NAG} \cite{nag}. Optou-se pela utiliza\c{c}\~ao da biblioteca citada em fun\c{c}\~ao da robustez da mesma para solu\c{c}\~ao de problemas de otimiza\c{c}\~ao n\~ao-lineares, e pela possibilidade da inclus\~ao das restri\c{c}\~oes comentadas anteriormente, ver \cite{cortivoetal:2012, cortivoetal:2012:ijcnn}.

Para o treinamento, as vari\'aveis a serem otimizadas (pesos, vi\'es e par\^ametro das fun\c{c}\~oes de ativa\c{c}\~ao) s\~ao organizadas em um vetor $\pmb X=[\mathbb{W}\ \mathbb{B}\ \mathbb{A}]^T$. Durante esse processo, a biblioteca procura um valor $\pmb X^*$ para $\pmb X$, de modo que
\begin{equation}\label{grad:cortivo}
  \nabla\mathcal{J}\left(\,\cdot\,,\pmb X^*\right)=\pmb0,
\end{equation}
e ainda leva em considera\c{c}\~ao que $\pmb X^*$ satisfaz as condi\c{c}\~oes expressas pelas equa\c{c}\~oes (\ref{res:cortivo:sigtan}) e/ou (\ref{res:cortivo:lin}) e/ou (\ref{res:cortivo:w:b}). Agora, se \mbox{$\pmb X_{k+1}=\pmb X_k+\Delta\pmb X_k$} aproxima o ponto $\pmb X^*$ na \mbox{$(k+1)$-\'esima} itera\c{c}\~ao, ent\~ao, fazendo a aproxima\c{c}\~ao de primeira ordem em s\'erie de Taylor para a equa\c{c}\~ao (\ref{grad:cortivo}) em torno do ponto $\pmb X_{k+1}$, obt\'em-se $\pmb X_{k+1}=\pmb X_k+\mathbb{H}^{-1} \nabla\mathcal{J} \left(\,\cdot\,,\pmb X_k\right)$, em que $\mathbb{H}^{-1}$ \'e a matriz Hessiana inversa em \mbox{$\pmb X=\pmb X_k$}. Na pr\'atica, a inversa $\mathbb{H}^{-1}$ n\~ao \'e calculada de forma exata, e sim de uma forma aproximada. Para isso, considere que $\pmb X_k$ \'e um ponto inicial e $\mathbb{H}^{-1}_k$ \'e uma aproxima\c{c}\~ao da Hessiana inversa, e que respeita as condi\c{c}\~oes definidas em \cite{dennismore:1977}. Ent\~ao, primeiramente, o algoritmo calcula o gradiente de $\mathcal{J}$ em $\pmb X_k$, em segundo calcula uma dire\c{c}\~ao de busca definida pela express\~ao $d_k=-\mathbb{H}^{-1}_k \nabla\mathcal{J}(\,\cdot\,,\pmb X_k)$, posteriormente atualiza $\pmb X_k$ de modo que \mbox{$\pmb X_{k+1}=\pmb X_k+\alpha_kd_k$}, em que $\alpha_k$ \'e o tamanho do passo e, por fim, atualiza $\mathbb{H}^{-1}_k$ atrav\'es da express\~ao
\begin{equation*}
  \mathbb{H}^{-1}_{k+1}=\mathbb{H}^{-1}_k-\frac{\mathbb{H}^{-1}_k\pmb S_k\pmb S_k^T\mathbb{H}^{-1}_k}{\left\langle\pmb S_k,\mathbb{H}^{-1}_k\pmb S_k\right\rangle}+\frac{\pmb S_k\pmb S_k^T}{\left\langle\pmb Y_k,\pmb S_k\right\rangle},
\end{equation*}
em que \mbox{$\pmb S_k=\pmb X_{k+1}-\pmb X_k$} e \mbox{$\pmb Y_k=\nabla\mathcal{J}(\cdot,\pmb X_{k+1})-\nabla\mathcal{J}(\cdot,\pmb X_k)$}. Detalhes da biblioteca e do m\'etodo quasi-Newton podem ser encontrados em \cite{nag} e \cite{dennismore:1977}, respectivamente.

%*******************************************************************************************
%                                                                                                                                                      *
% Secao: Conjunto de Treinamento                                                                                         *
%                                                                                                                                                      *
%*******************************************************************************************
%
\section{Conjuntos de Treinamento, Valida\c{c}\~ao e Treinamento da Rede}\setcounter{equation}{0}
Nesta se\c{c}\~ao descreve-se como s\~ao gerados os conjuntos de treinamento e de valida\c{c}\~ao. Como o formalismo matem\'atico para a formula\c{c}\~ao do problema de treinamento foi descrito na se\c{c}\~ao anterior, aqui s\~ao abordados apenas os detalhes do procedimento de treinamento.

\subsection{Conjuntos de Treinamento e Valida\c{c}\~ao}
Ambos conjuntos, de treinamento e de valida\c{c}\~ao, utilizados neste trabalho, s\~ao obtidos a partir da resolu\c{c}\~ao do problema exposto na Se\c{c}\~ao~\ref{secao:2:cortivo}

Para este trabalho, adotou-se uma \'unica regi\~ao espacial e nessa regi\~ao (profundidade \'otica) considerou-se que o perfil da concentra\c{c}\~ao de clorofila $C$ \'e constante, ou seja, um valor m\'edio na regi\~ao. A partir do par\^ametro $C$, \'e poss\'ivel resolver o problema definido naquela se\c{c}\~ao, determinando a radia\c{c}\~ao emergente na superf\'icie ap\'os a intera\c{c}\~ao dessa com o meio, em dire\c{c}\~oes (co-seno do \^angulo polar) escolhidas \textit{a priori}. S\~ao esses valores da radia\c{c}\~ao emergente que constituir\~ao os padr\~oes de entrada para o treinamento e valida\c{c}\~ao/teste da rede. As dire\c{c}\~oes discretas adotadas correspondem a um total de dez igualmente espa\c{c}adas e pertencentes ao intervalo \mbox{$\theta\in[90^\circ,\,135^\circ]$}. Com rela\c c\~ao \`a concentra\c c\~ao de clorofila adotou-se \mbox{$C\in[0.01,\,10.0]$}.

Para gerar o conjunto de treinamento, esse intervalo foi discretizado como \mbox{$C=[0.01,\,0.02,\,0.03,\,\ldots\,,0.1,\,0.15,\,0.2,\,0.3,\,0.4,\,\ldots\,,9.8,\,9.9,\,10.0]$}, gerando 110 valores discretos\footnote{A diferen\c{c}a no tamanho do passo na discretiza\c{c}\~ao \'e devido a varia\c{c}\~ao significativa da raz\~ao $b(\,\cdot\,)/c(\,\cdot\,)$ para valores baixos de $C$.}. J\'a para gerar o conjunto de valida\c{c}\~ao, adotou-se uma discretiza\c{c}\~ao igualmente espa\c{c}ada com um tamanho de passo de \mbox{$\Delta_{C}=0.01$}, gerando 1000 valores discretos. Portanto, cada padr\~ao de entrada (solu\c{c}\~ao do problema para cada valor discreto de $C$) de ambos conjuntos (treinamento e valida\c{c}\~ao) \'e composto de dez entradas, e cada padr\~ao de sa\'ida \'e composto pelo respectivo valor de $C$ que gerou o padr\~ao de entrada. Note que o n\'umero total de padr\~oes no conjunto de treinamento \'e 110, e no conjunto de valida\c{c}\~ao \'e 1000.

Por fim, vale lembrar que cada valor de $C$ corresponde a um dado de entrada, e a radia\c{c}\~ao emergente, calculada pelo modelo, corresponde a sa\'ida (problema direto). J\'a para a rede, a radia\c{c}\~ao emergente passa a ser a entrada e o valor de $C$ passa a ser a sa\'ida (problema inverso).

\subsection{Treinamento da Rede}
Como se est\'a utilizando dados sint\'eticos para treinar a rede, \'e necess\'ario que os valores da radia\c{c}\~ao retornados pelo problema direto, sejam corrompidos com ru\'ido, a fim de simular poss\'iveis erros de medidas. Para isso, s\~ao considerados tr\^es n\'iveis de ru\'ido gaussiano: $N_1=5\%$, $N_2=10\%$ e $N_3=20\%$. Em seguida, os padr\~oes do conjunto de treinamento s\~ao colocados em ordem aleat\'oria e, ent\~ao, divididos em tr\^es grupos ($G_1$, $G_2$ e $G_3$) com a mesma quantidade de padr\~oes em cada grupo. Cada um desses grupos recebeu um dos n\'iveis de ru\'ido, sendo: $N_1$ para o $G_1$, $N_2$ para $G_2$ e $N_3$ para $G_3$. Durante o treinamento esses grupos s\~ao \mbox{apresentados \`a rede}.

O crit\'erio de parada adotado \'e o da valida\c{c}\~ao cruzada \cite{haykin:2001:pt}, sendo que a cada dez itera\c{c}\~oes da fun\c{c}\~ao objetivo o procedimento de treinamento \'e pausado, e todo o conjunto de valida\c{c}\~ao \'e apresentado \`a rede quatro vezes. Na primeira vez, todos os padr\~oes do conjunto de valida\c{c}\~ao s\~ao corrompidos com $N_1$ e, ent\~ao, apresentados \`a rede. O mesmo se deu na segunda, terceira e quarta vez, sendo que na \'ultima \'e utilizado um n\'ivel de ru\'ido $N_4=13\%$. Este n\'ivel, n\~ao presente no treinamento, \'e utilizado a fim de agregar \`a rede uma maior generaliza\c{c}\~ao. 

Cada vez que o processo de valida\c{c}\~ao \'e realizado, o desempenho da rede \'e testado e s\~ao armazenadas as vari\'aveis da rede, bem como o n\'umero de acertos e o valor total do erro relativo. Ao fim do processo, aquelas vari\'aveis que produziram o maior n\'umero de acertos e o menor erro relativo s\~ao recuperadas e adotadas como sendo vari\'aveis \'otimas.

Para a contagem das respostas corretas da rede, adotou-se o crit\'erio de que o valor de $C$ estimado pela rede deve estar no intervalo \mbox{$C-R\cdot C\leq C^r\leq C+R\cdot C$}, em que $R$ \'e o n\'ivel de ru\'ido nos dados de entrada e $C^r$ \'e o valor da concentra\c{c}\~ao de clorofila estimado pela rede. Al\'em disso, a rede utilizada \'e constitu\'ida de uma camada de entrada com dez neur\^onios, uma camada oculta com 13 neur\^onios e uma camada de sa\'ida com apenas um neur\^onio. A fun\c{c}\~ao de ativa\c{c}\~ao utilizada em todos os neur\^onios da camada oculta foi a fun\c{c}\~ao sigm\'oide \mbox{$\phi(v_i)=1/(1+\exp(-a_iv_i))$} e na camada de sa\'ida foi utilizada a fun\c{c}\~ao linear \mbox{$\phi(v_i)=a_iv_i$}. 

Para as restri\c{c}\~oes definidas na equa\c{c}\~ao (\ref{res:cortivo:w:b}), adotou-se {$w^k_\textrm{min} = b^l_\textrm{min} = w^k_\textrm{max} = b^l_\textrm{max} = 45$}, para a restri\c{c}\~ao (\ref{res:cortivo:sigtan}), adotou-se \mbox{$a^\ell_\textrm{max}=20$} e, por fim, para a restri\c{c}\~ao definida pela equa\c{c}\~ao (\ref{res:cortivo:lin}), adotou-se \mbox{$a^\ell_\textrm{min}= a^\ell_\textrm{max}= 20$}. Esses valores foram determinados durante o treinamento atrav\'es de experimentos, e s\~ao capazes de representar uma regi\~ao do espa\c{c}o de busca no qual \'e poss\'ivel obter boas respostas.

\section{Resultados}\setcounter{equation}{0}
Na resolu\c c\~ao do problema, foram considerados cinco valores para \mbox{$\lambda=500, 550,$} $ 600, 650, 700\,\textrm{nm}$, no entanto, por conveni\^encia, s\~ao apresentados apenas os resultados correspondentes \`a \mbox{$\lambda=600\,\textrm{nm}$}. Para \mbox{$\lambda=500\,\textrm{nm}$}, os resultados foram extremamente pobres e n\~ao expressaram nenhuma confian\c{c}a, e para \mbox{$\lambda=550\,\textrm{nm}$}, os resultados melhoraram um pouco, no entanto, a taxa de acerto ficou abaixo de 71\%. Apesar de comprimentos de onda $\lambda>600\,\textrm{nm}$ apresentarem bons resultados, estes n\~ao s\~ao adequados, pois o \'indice de absor\c{c}\~ao da \'agua aumenta consideravelmente \cite{mobley:1994}, fazendo com que a radia\c{c}\~ao eletromagn\'etica n\~ao penetre mais do que alguns poucos metros.

A dificuldade na obten\c{c}\~ao de bons resultados para comprimentos de onda abaixo de \mbox{$\lambda=600\,\textrm{nm}$} pode ser analisado na Figura~\ref{cortivo:rad}. A Figura~\ref{cortivo:rad500} mostra que h\'a uma ``separa\c{c}\~ao'' entre cada curva de radia\c{c}\~ao at\'e aproximadamente \mbox{$C=3$} e, ap\'os esse valor, as curvas de radia\c{c}\~ao praticamente se sobrep\~oe. Por outro lado, essa sobreposi\c{c}\~ao n\~ao ocorre na Figura~\ref{cortivo:rad600}, na qual \'e poss\'ivel observar que as curvas da radia\c{c}\~ao para cada valor de $C$ considerado s\~ao distintas. A n\~ao sobreposi\c{c}\~ao \'e o fator fundamental que contribui para a melhora no {desempenho da rede}.
\begin{figure}[!htb]\centering
  \subfigure[]{\label{cortivo:rad500}\epsfig{file=radexemplo500_g.eps,width=5.4cm,height=3.8cm}}\hspace*{0.5cm}
  \subfigure[]{\label{cortivo:rad600}\epsfig{file=radexemplo600_g.eps,width=5.4cm,height=3.8cm}}
  \caption{Radia\c{c}\~ao emergente na superf\'icie, sem a adi\c{c}\~ao de ru\'ido, para alguns valores de $C$, para dois comprimentos de onda: (a) $\lambda=500\,\textrm{nm}$; (b) $\lambda=600\,\textrm{nm}$.}\label{cortivo:rad}
\end{figure}

Na Tabela~\ref{tabcap5prob3} s\~ao apresentadas as taxas de acerto, sobre o conjunto de valida\c{c}\~ao, para cada n\'ivel de ru\'ido considerado e para os problemas associados aos comprimentos de onda \mbox{$\lambda=500, 550\ \text{e}\ 600\,\textrm{nm}$}. A melhora dos resultados para \mbox{$\lambda=600\,\textrm{nm}$} est\'a associada a dist\^ancia que h\'a entre cada curva. Esse fator evita a confus\~ao da rede durante a associa\c{c}\~ao do padr\~ao de entrada ao verdadeiro padr\~ao de sa\'ida.
\begin{table}[!htb]\centering
  \caption{Acertos obtidos sobre o conjunto de valida\c{c}\~ao para cada n\'ivel de ru\'ido.}
  \label{tabcap5prob3}
  \begin{tabular}{l|r|r|r|r|}
    \hline \multicolumn{1}{|l|}{N\'ivel de Ru\'ido} & 5.00\%&10.00\%&13.00\%&20.00\% \\
    \hline \multicolumn{1}{|l|}{Acertos para $\lambda=500$}& 19.70\%&31.90\%&33.30\%&35.70\%\\
    \hline \multicolumn{1}{|l|}{Acertos para $\lambda=550$}& 50.70\%&67.20\%&70.80\%&70.40\%\\
    \hline \multicolumn{1}{|l|}{Acertos para $\lambda=600$}& 83.00\% & 87.30\%& 90.20\%& 91.40\% \\\hline
  \end{tabular}
\end{table}

A Figura~\ref{cortivo:l60013} mostra os perfis de clorofila obtidos pela rede para o conjunto de valida\c{c}\~ao, para cada um dos n\'iveis de ru\'ido considerados. Nas figuras, as linhas tracejadas representam o limite de erro na estimativa de $C$ pela rede. A linha cheia representa cada perfil recuperado. Optou-se pela divis\~ao dos gr\'aficos a fim de melhorar a visualiza\c{c}\~ao dos resultados, principalmente para baixas \mbox{concentra\c{c}\~oes de $C$.}
\begin{figure}[h]\centering
   \subfigure[]{\epsfig{file=m_40_600_5_g.eps,width=6cm,height=3.9cm}}\hspace*{0.5cm}
   \subfigure[]{\epsfig{file=m_40_600_10_g.eps,width=6cm,height=3.9cm}}
   \subfigure[]{\epsfig{file=m_40_600_13_g.eps,width=6cm,height=3.9cm}}\hspace*{0.5cm}
   \subfigure[]{\epsfig{file=m_40_600_20_g.eps,width=6cm,height=3.9cm}}
   \caption{Perfis m\'edios recuperados para os diferentes n\'iveis de ru\'ido nos dados de entrada: (a) 5\% de ru\'ido; (b) 10\% de ru\'ido; (c) 13\% de ru\'ido; (d) 20\% de ru\'ido.}\label{cortivo:l60013}
\end{figure}

\section{Conclus\~oes}
\setcounter{equation}{0}
A utiliza\c{c}\~ao do par\^ametro das fun\c{c}\~oes de ativa\c{c}\~ao ajust\'aveis \'e uma t\'ecnica pouco abordada na literatura, e sua utiliza\c{c}\~ao tem se mostrado eficiente, pois cada neur\^onio pode se especializar em uma determinada regi\~ao do conjunto de treinamento. Isso melhora a capacidade de generaliza\c{c}\~ao da rede e a robustez a \mbox{dados ruidosos}.

Os bons resultados obtidos, um processamento r\'apido para a aplica\c{c}\~ao da rede treinada, aliado a um treinamento r\'apido (de baixo custo computacional), mostram que RNA \'e uma t\'ecnica promissora na resolu\c{c}\~ao de problema inversos em \'otica hidrol\'ogica.

F\'otons com comprimento de onda acima de 650 nm tem baixa penetra\c{c}\~ao no corpo de \'agua (s\~ao absorvidos em at\'e 5 m). A radi\^ancia para f\'otons abaixo de 550~nm, para diferentes concentra\c{c}\~oes de clorofila, colapsam em uma mesma curva (ver Figura~\ref{cortivo:rad500}). A fim de garantir uma certa penetra\c{c}\~ao da radia\c{c}\~ao, com distintas curvas de radi\^ancias para diferentes concentra\c{c}\~oes de clorofila, o intervalo de trabalho ser\'a de [550~nm,~650~nm].

%F\'otons com comprimentos de onda abaixo de 600 nm (banda do amarelo) tem uma penetra\c{c}\~ao maior na \'agua, podem atingir maiores profundidades, entretanto, esses n\~ao se mostram eficientes devido ao colapso que ocorre com a radia\c{c}\~ao emergente Fig.~\ref{cortivo:rad500}, pois tornam-se indistingu\'iveis para o processo de invers\~ao. Por outro lado, f\'otons com  comprimentos de onda $\lambda\geq 650\,\textrm{nm}$ evitam o colapso da radia\c{c}\~ao emergente Fig.~\ref{cortivo:rad600}, mas, com menor energia, a radia\c{c}\~ao penetra pouco no corpo d'\'agua.

O par\'agrafo acima ilustra a dificuldade intr\'inseca de estimativa de propriedades \'oticas em \'aguas naturais. A dificuldade apontada para o comprimento de onda $\lambda = 500$ nm est\'a associado ao colapso, ou ainda a baixa sensibilidade, da radia\c{c}\~ao emergente com a concentra\c{c}\~ao de clorofila. Esta \'e uma restri\c{c}\~ao associada \`a f\'isica do problema e  n\~ao da metodologia de invers\~ao. Para redes neurais, v\'arias configura\c{c}\~oes e diferentes valores iniciais para as vari\'aveis foram utilizadas, sendo que, em nenhuma dessas situa\c{c}\~oes, foi poss\'ivel melhorar os resultados apresentados na Tabela~\ref{tabcap5prob3}. J\'a, para o problema no qual foi considerado $\lambda = 600$ nm, o aprendizado da rede se deu de forma r\'apida, sendo pouco sens\'ivel ao n\'umero de neur\^onios na camada oculta e aos valores iniciais das vari\'aveis da rede. Em trabalhos futuros, pretende-se retomar o problema utilizando um fator de corre\c{c}\~ao para tentar atenuar o fator de decaimento exponencial da radia\c{c}\~ao (efeito da absor\c{c}\~ao) \cite{soutoetal:2004}. 

%O insucesso na resolu\c{c}\~ao do problema para comprimento de onda \mbox{$\lambda=500\,\textrm{nm}$} est\'a associado a satura\c{c}\~ao da radia\c{c}\~ao emergente, e n\~ao a falta de capacidade da RNA utilizada e do m\'etodo de treinamento adotado. Pois, durante o treinamento da rede, v\'arias configura\c{c}\~oes e diferentes valores iniciais para as vari\'aveis foram utilizadas, sendo que, em nenhuma dessas situa\c{c}\~oes, foi poss\'ivel melhorar os resultados apresentados na Tabela~\ref{tabcap5prob3}. J\'a, para o problema no qual foi considerado \mbox{$\lambda=600\,\textrm{nm}$}, o aprendizado da rede se deu de forma r\'apida, sendo pouco sens\'ivel ao n\'umero de neur\^onios na camada oculta e aos valores iniciais das vari\'aveis da rede.

\vspace*{.3cm}
%\noindent {\bf {\large Agradecimentos}}\  ({\em este item \'e facultativo})\\

\begin{abstract}
{\bf Abstract}. In this work the average profile of chlorophyll concentration is estimated from the emitted radiation at the surface of natural waters. This is performed through the use an Artificial Neural Network of Multilayer Perceptron type to act as the inverse operator. Bio-optical models are used to correlate the chlorophyll concentration with the absorption and scattering coefficients. The network training is formulated as an optimization problem, in which the update of the free variables of network (weights, vi\'eses and each slope of the activation functions) is performed through the quasi-Newton method.
\end{abstract}


\begin{thebibliography}{21}
\bibitem{chalhoub:1997} E.S. Chalhoub, ``O M\'etodo das Ordenadas Discretas na Solu\c{c}\~ao da Equa\c{c}\~ao de Transporte em Geometria Plana com Depend\^encia Azimutal'', Tese de Doutorado, IPEN, USP, S\~ao Paulo, SP, 1997.

\bibitem{chalhoub:2005} E.S. Chalhoub, Discrete-ordinates solution for uncoupled multi-wavelength radiative transfer problems, {\em J. Quant. Spec. Rad. Trans.}, {\bf 92} (2005), 335--349.

\bibitem{ezzatetal:2003} E.S. Chalhoub, H.F. Campos Velho, R.D.M. Garcia, M.T. Vilhena, A comparison of radiances generated by selected methods of solving the radiative-transfer equation, {\em Trans. Theory Stat. Phys.}, {\bf 32}, No. 5-7 (2003), 473--503.

\bibitem{chandrasekhar:1950} S. Chandrasekhar, ``Radiative Transfer'', Dover Publications, New York, 1950.

\bibitem{cortivoetal:2012} F. Dall Cortivo, E.S. Chalhoub, H.F. Campos Velho, Comparison of two learning strategies for a supervised neural network, em ``Uncertainties 2012'' -- Aceito.

%\bibitem{cortivoetal:2012} Uncertainties 2012 -- Aceito.

\bibitem{cortivoetal:2012:ijcnn} F. Dall Cortivo, E.S. Chalhoub, H.F. Campos Velho, A committee of MLP with adaptive slope parameter trained by the quasi-Newton method to solve problems in hydrologic optics, em ``IJCNN 2012'' -- Submetido.

%\bibitem{cortivoetal:2012:ijcnn}  International Joint Conference on Neural Networks (IJCNN 2012) -- Submetido.

\bibitem{cortivoetal:2010} F. Dall Cortivo, E.S. Chalhoub, J.D.S. Silva, H.F. Campos Velho, Estimativa do albedo de espalhamento simples usando uma rede neural de m\'ultiplas camadas, em ``Anais do XXXIII CNMAC'', pp. 411--417, SBMAC, 2010.

%\bibitem{cortivoetal:2010} Anais CNMAC 2010.

\bibitem{dennismore:1977} J.E. Dennis, J.J. Mor\'e, Quasi-Newton methods, motivation and theory, {\em SIAM Review}, {\bf 19}, No. 1 (1977), 46--89.

\bibitem{gordon:morel:1983} H.R. Gordon, A.Y. Morel, ``Remote Assessment of Ocean Color for Interpretation of Satellite Visible Imagery, A Review'', Springer-Verlag, New York, 1983.

\bibitem{grossetal:2000} L. Gross, S. Thiria, R. Frouin, B.G. Mitchell, Artificial neural networks for modeling the transfer function between marine reflectance and phytoplankton pigment concentration, {\em J. Geophys. Res.}, {\bf 105}, No. C2 (2000), 3483--3495.

\bibitem{haykin:2001:pt} S. Haykin, ``Redes Neurais'', Bookman, Porto Alegre, 2001.

\bibitem{helmutdoerffer:1999} S. Helmut, R. Doerffer, Neural network for emulation of an inverse model -- operational derivation of Case II water properties from MERIS data, {\em Int. J. Rem. Sens.}, {\bf 20}, No. 9 (1999), 1735--1746.

\bibitem{keinerbrown:1999} L.E. Keiner, C.W. Brown, Estimating oceanic chlorophyll concentrations with neural networks, {\em Int. J. Rem. Sens.}, {\bf 20}, No. 1 (1999), 189--194.

\bibitem{mobley:1994} C.D. Mobley, ``Light and Water'', Academic Press, California, 1994.

\bibitem{morel:1991} A.Y. Morel, Light and marine photosynthesis: a spectral model with geochemical and climatological implications, {\em Prog. Oceanogr.}, {\bf 26}, No. 3 (1991), 263--306.

\bibitem{morelprieur:1977} A.Y. Morel, L. Prieur, Analysis of variations in ocean color, {\em Limnol. Oceanogr.}, {\bf 22}, No. 4 (1977), 709--722.

\bibitem{nag} NAG, ``Fortran Library Manual'', Numerical Algorithms Group, Oxford, 1995.

\bibitem{oliveiraetal:2010} R.C. Oliveira, N.I.A. Acevedo, A.J. Silva Neto, L. Biondi Neto, Aplica\c{c}\~ao de um comit\^e de redes neurais artificiais para a solu\c{c}\~ao de problemas inversos em Transfer\^encia Radiativa, {\em TEMA -- Tend. Mat. Apl. Comput.}, {\bf 11}, No. 2 (2010), 171--182.

\bibitem{prieursathyendranath:1981} L. Prieur, S. Sathyendranath, An optical classification of coastal and oceanic waters based on the specific spectral absorption curves of phytoplankton pigments, dissolved organic matter, and other particulate materials, {\em Limnol. Oceanogr.}, {\bf 26}, No. 4 (1981), 671--689.

\bibitem{souto:2006} R.P. Souto, ``Recupera\c c\~ao de Perfis Verticais de Propriedade \'Oticas Inerentes a partir da Radia\c c\~ao Emergente da \'Agua'', Tese de Doutorado, CAP, INPE, S\~ao Jos\'e dos Campos, SP, 2006.

\bibitem{soutoetal:2004} R.P. Souto, H.F. Campos Velho, S. Stephany, Reconstruction of chlorophyll vertical profiles from in-situ radiances using the ant colony meta-heuristic, ``Iberian Latinamerican Congress on Computational Methods'', Anais do XXV CILAMCE, 2004. {\bf 1}, Recife (PE), Brasil (2004).

\bibitem{soutoetal:2008} R.P. Souto, H.F. Campos Velho, S. Stephany, M. Kampel, Chlorophyll concentration profiles from in situ radiances by ant colony optimization, {\em J. Phys.: Conf. Series}, {\bf 124}, No. 1 (2008). 

\end{thebibliography}

% simula\c{c}\~ao de escoamentos de fluidos com superf\'icies livres
% bidimensionais, em ``Seleta do XXII CNMAC'' (J.M. Balthazar, S.M.
% Gomes e A. Sri Ranga, eds.), TEMA -- Tend. Mat. Apl. Comput., Vol.
% 1, pp. 179--192, SBMAC, 2000.


% \bibitem{bokar:1999} J.C. Bokar, ``The estimation of spatially varying albedo and optical thickness in a radiating slab using artificial neural networks'', {\em International Communications in Heat and Mass Transfer}, {\bf 26}, No. 3 (1999), 359--367.
% \bibitem{c:velhoetal:2002} H.F. Campos Velho, M.R. Retamoso, M.T. Vilhena, ``Inverse problems for estimating bottom boundary conditions of natural waters'' {\em International Journal for Numerical Methods in Engineering}, {\bf 54}, No. 9 (2002), 1357--1368.
% \bibitem{c:velhoetal:2003} H.F. Campos Velho, M.T. Vilhena, M.R. Retamoso, R.P. Pazos, ``An application of the $LTSN$ method on an inverse problem in hydrologic optics'', {\em Progress in Nuclear Energy}, {\bf 42}, No. 4 (2003), 457 -- 468.
% \end{thebibliography}

%\bibliographystyle{plain}
%\bibliography{cortivo_FD}

\end{document}