A OpenAI, criadora do ChatGPT, desenvolveu um modelo de linguagem experimental de grande escala que é muito mais fácil de entender do que os modelos típicos.
Isso é muito importante, porque os modelos de lógica de aprendizagem (LLMs) atuais são caixas-pretas: ninguém entende completamente como eles funcionam. Construir um modelo mais transparente esclarece o funcionamento geral dos LLMs, ajudando os pesquisadores a descobrir por que os modelos apresentam alucinações, por que saem dos trilhos e até que ponto podemos confiar neles para tarefas críticas.
“À medida que esses sistemas de IA se tornam mais poderosos, eles serão integrados cada vez mais em domínios muito importantes”, disse Leo Gao, cientista pesquisador da OpenAI, à MIT Technology Review em uma prévia exclusiva do novo trabalho. “É muito importante garantir que eles sejam seguros.”
Esta pesquisa ainda está em fase inicial. O novo modelo, chamado de transformador com pesos esparsos, é muito menor e muito menos capaz do que os modelos de ponta disponíveis no mercado de massa, como o GPT-5 da própria OpenAI, o Claude da Anthropic e o Gemini do Google DeepMind. No máximo, ele é tão capaz quanto o GPT-1, um modelo que a OpenAI desenvolveu em 2018, afirma Gao (embora ele e seus colegas não tenham feito uma comparação direta).
Mas o objetivo não é competir com os melhores da categoria (pelo menos, não ainda). Em vez disso, ao analisar como esse modelo experimental funciona, a OpenAI espera aprender sobre os mecanismos ocultos dentro das versões maiores e melhores da tecnologia.
É uma pesquisa interessante, diz Elisenda Grigsby, matemática do Boston College que estuda o funcionamento dos LLMs e que não participou do projeto: “Tenho certeza de que os métodos que ela introduz terão um impacto significativo.”
Lee Sharkey, cientista pesquisador da startup de IA Goodfire, concorda. “Este trabalho visa o alvo certo e parece bem executado”, afirma.
Por que os modelos são tão difíceis de entender?
O trabalho da OpenAI faz parte de um novo e promissor campo de pesquisa conhecido como interpretabilidade mecanística, que busca mapear os mecanismos internos que os modelos utilizam ao executar diferentes tarefas.
Isso é mais difícil do que parece. Os LLMs são construídos a partir de redes neurais, que consistem em nós, chamados neurônios, organizados em camadas. Na maioria das redes, cada neurônio está conectado a todos os outros neurônios em suas camadas adjacentes. Tal rede é conhecida como rede densa.
Redes densas são relativamente eficientes para treinar e executar, mas espalham o que aprendem por uma vasta rede de conexões. O resultado é que conceitos ou funções simples podem ser divididos entre neurônios em diferentes partes de um modelo. Ao mesmo tempo, neurônios específicos também podem acabar representando múltiplas características diferentes, um fenômeno conhecido como superposição (um termo emprestado da física quântica). A consequência é que não é possível relacionar partes específicas de um modelo a conceitos específicos.
“As redes neurais são grandes, complicadas, intrincadas e muito difíceis de entender”, diz Dan Mossing, que lidera a equipe de interpretabilidade mecanística da OpenAI. “Então pensamos: ‘E se tentássemos mudar isso?’”
Em vez de construir um modelo usando uma rede densa, a OpenAI começou com um tipo de rede neural conhecida como transformador de pesos esparsos, na qual cada neurônio está conectado a apenas alguns outros neurônios. Isso forçou o modelo a representar características em agrupamentos localizados, em vez de espalhá-las.
O modelo deles é muito mais lento do que qualquer outro LLM disponível no mercado. Mas é mais fácil relacionar seus neurônios ou grupos de neurônios a conceitos e funções específicos. “Há uma diferença drástica na interpretabilidade do modelo”, afirma Gao.
Gao e seus colegas testaram o novo modelo com tarefas muito simples. Por exemplo, pediram que ele completasse um bloco de texto que começa com aspas, adicionando aspas correspondentes no final.
É um pedido trivial para um mestrado em direito. A questão é que descobrir como um modelo realiza até mesmo uma tarefa simples como essa envolve desvendar uma complexa rede de neurônios e conexões, diz Gao. Mas com o novo modelo, eles conseguiram seguir exatamente os passos que o modelo executou.
“Na verdade, encontramos um circuito que é exatamente o algoritmo que você pensaria em implementar manualmente, mas ele é totalmente aprendido pelo modelo”, diz ele. “Acho isso realmente incrível e empolgante.”
Para onde irá a pesquisa a seguir? Grigsby não está convencido de que a técnica possa ser aplicada a modelos maiores que precisam lidar com uma variedade de tarefas mais complexas.
Gao e Mossing reconhecem que essa é uma grande limitação do modelo que construíram até agora e concordam que a abordagem nunca levará a modelos que igualem o desempenho de produtos de ponta como o GPT-5. Mesmo assim, a OpenAI acredita que pode ser capaz de aprimorar a técnica o suficiente para construir um modelo transparente à altura do GPT-3, o inovador modelo de aprendizado de máquina (LLM) da empresa, lançado em 2021.
“Talvez dentro de alguns anos, possamos ter um GPT-3 totalmente interpretável, de forma que seja possível analisar cada parte dele e entender como ele realiza cada função”, diz Gao. “Se tivéssemos um sistema assim, aprenderíamos muito.”




No Comments