16 | Outubro
SEAL - A metodologia que ensina IAs a aprenderem sozinhas
Os grandes modelos de linguagem (LLMs), a tecnologia por trás de muitas ferramentas de inteligência artificial, possuem uma capacidade impressionante de processar e gerar informações. No entanto, eles carregam uma limitação: após seu treinamento massivo, seu conhecimento se torna estático, como uma fotografia de um momento específico da internet.
Mas como isso é possível, se eles parecem aprender com o que dizemos em uma conversa?
Aprendizado temporário vs. permanente
É verdade que os LLMs se adaptam durante uma interação. Quando você conversa com uma IA generativa, ela utiliza as informações daquela sessão ou de pesquisas pontuais na internet, de acordo com a solicitação do usuário, para formular respostas mais precisas e contextuais. Isso cria a impressão de um aprendizado contínuo.
No entanto, esse aprendizado é de curto prazo. As informações da conversa ficam em uma memória temporária (o contexto) que é descartada ao final da sessão. O conhecimento fundamental do modelo, armazenado em seus "pesos" (parâmetros internos), não é alterado.
O aprendizado permanente, que modifica esses pesos, tradicionalmente exige um processo técnico chamado de “ajuste fino”, que normalmente acontece quando uma atualização da ferramenta é lançada. Temos então um desafio: como manter um modelo fundamentalmente estático relevante em um mundo onde novos dados surgem a cada instante?
Buscando uma solução para essa barreira, pesquisadores do MIT desenvolveram uma abordagem inovadora, detalhada no estudo "Self-Adapting Language Models" (Modelos de Linguagem Autoadaptáveis). Eles criaram uma metodologia chamada SEAL, representando as iniciais do próprio título do estudo, que capacita os modelos de linguagem a realizarem o aprendizado permanente de forma autônoma.
Como a SEAL funciona?
A grande inovação da SEAL é utilizar a própria inteligência do modelo para guiar sua evolução. O sistema funciona em um ciclo contínuo e sofisticado de duas etapas principais:

- Criação do "auto-edital": Ao receber uma nova informação, o modelo não a armazena passivamente. Em vez disso, ele gera um "auto-edital", que é um conjunto de instruções para si mesmo sobre a melhor forma de aprender aquele conteúdo. O estudo explora diferentes formatos para esse edital, descobrindo que alguns são mais eficazes que outros. Por exemplo, em vez de apenas reler um texto, o modelo pode ser instruído a gerar implicações lógicas, reescrever o conteúdo em diferentes formatos ou até mesmo criar um conjunto de perguntas e respostas sobre o tema. Em cenários mais complexos, o edital pode especificar parâmetros técnicos, como a taxa de aprendizado ideal para aquele tipo de dado específico.
- Aprendizado por reforço e recompensa: Após gerar o auto-edital, o modelo aplica essas instruções para atualizar seus parâmetros internos. Em seguida, ele é avaliado em uma tarefa relacionada ao novo conhecimento. Se o desempenho melhorar, o sistema recebe uma "recompensa" positiva. Esse feedback ensina o modelo a criar auto-editais cada vez mais eficazes. O método utilizado para isso é uma variação de um procedimento chamado ReSTEM, que funciona como uma clonagem de comportamento filtrada: o sistema gera várias opções para seus editais e reforça apenas aquelas que levaram a um resultado positivo, descartando as ineficazes. Trata-se de um ciclo de aprendizado por reforço onde a IA aprende, testa, mede o resultado e ajusta sua própria estratégia de aprendizado.
Dessa forma, o LLM deixa de ser uma ferramenta estática e se torna um sistema dinâmico, que otimiza ativamente seu próprio conhecimento.
Na prática
Para validar a abordagem, os pesquisadores testaram a SEAL em dois domínios práticos e exigentes, comparando-o com métodos de linha de base.
1. Incorporação de Novos Conhecimentos:
Neste teste, o desafio era fazer o modelo absorver informações factuais de um texto e responder a perguntas sobre ele, sem ter mais acesso ao texto original.
- Desempenho SEAL: O modelo que utilizou a metodologia SEAL alcançou uma precisão de 47,0% na tarefa de responder perguntas sem consultar o texto original. Em comparação, o mesmo modelo, quando treinado apenas com o texto bruto (sem a autoadaptação), obteve somente 33,5% de precisão, o que demonstra a ineficácia de apenas expor o modelo ao dado cru.
- Comparativo com o GPT-4.1: O resultado mais notável foi que a SEAL (com 47,0%) superou a performance de uma abordagem que usou o GPT-4.1 para gerar os dados de treinamento (que atingiu 46,3%). Isso indica que a habilidade do modelo de criar seu próprio material de aprendizado personalizado é mais eficiente do que usar dados sintéticos de um modelo externo, mesmo que este seja consideravelmente maior e mais potente.
2. Aprendizagem com poucos exemplos:
Aqui, o desafio era fazer o modelo aprender uma nova tarefa de raciocínio abstrato a partir de um número muito pequeno de exemplos. A SEAL foi configurada para decidir sozinha a melhor estratégia de aprendizado, incluindo quais ferramentas de aumento de dados usar e quais parâmetros técnicos aplicar. O teste mostrou que:
- Com a metodologia SEAL: O modelo alcançou uma expressiva taxa de sucesso de 72,5%.
- Com autoadaptação, mas sem o aprendizado da SEAL: Quando o modelo tentou se adaptar usando suas próprias instruções, mas sem o treinamento da SEAL para otimizá-las, o sucesso caiu drasticamente para 20%.
- Com o método padrão (aprendizado por contexto): Utilizando a abordagem convencional, onde o modelo apenas lê os exemplos e tenta resolver a tarefa sem se adaptar internamente, a taxa de sucesso foi de 0%.
Limitações atuais e a visão de futuro
Os autores do estudo são transparentes sobre os desafios que ainda precisam ser superados. Um dos principais é o "esquecimento catastrófico", um fenômeno onde o aprendizado de novas informações pode degradar conhecimentos previamente assimilados. Os testes mostraram que, embora a SEAL consiga realizar múltiplas atualizações sem um colapso total, o desempenho em tarefas mais antigas decai gradualmente.
Outro ponto é o alto custo computacional do processo de recompensa, que exige um ciclo de ajuste fino e avaliação para cada auto-edital gerado.
Ainda assim, a SEAL aponta para um futuro onde a IA não dependerá exclusivamente de dados gerados por humanos. Os pesquisadores preveem que em breve chegaremos a uma "muralha de dados", um ponto em que teremos esgotado os textos de alta qualidade disponíveis para treinar modelos ainda maiores. A partir daí, o avanço da IA dependerá de sua capacidade de gerar seu próprio material de aprendizado.
Este estudo representa um passo fundamental para IAs que evoluem, abrindo portas para sistemas que operam em interações de longo prazo e que se adaptam dinamicamente a objetivos em constante mudança, mantendo-se relevantes de forma contínua e autônoma.
Referência: Self-Adapting Language Models - Massachusetts Institute of Technology
Autores do estudo: Adam Zweiger, Jyothish Pari, Han Guo, Ekin Akyürek, Yoon Kim e Pulkit Agrawal.