Embora ninguém tenha descoberto como lucrar com inteligência artificial generativa, isso não impediu o Google DeepMind de expandir os limites do que é possível com uma grande quantidade de inferência. As capacidades (e os custos) desses modelos têm apresentado uma trajetória ascendente impressionante, uma tendência exemplificada pela apresentação do Genie 3. Apenas sete meses após exibir o Genie 2, um “modelo de mundo fundamental” que já era uma melhoria significativa em relação ao seu antecessor, o Google agora apresenta o Genie 3.
Com o Genie 3, basta um comando ou imagem para criar um mundo interativo. Como o ambiente é gerado continuamente, ele pode ser alterado instantaneamente. É possível adicionar ou alterar objetos, modificar as condições climáticas ou inserir novos personagens — o DeepMind chama isso de “eventos acionáveis por comando”. A capacidade de criar ambientes 3D alteráveis pode tornar os jogos mais dinâmicos para os jogadores e oferecer aos desenvolvedores novas maneiras de testar conceitos e designs de níveis. No entanto, muitos na indústria de jogos expressaram dúvidas sobre a eficácia dessas ferramentas.
É tentador pensar no Genie 3 simplesmente como uma forma de criar jogos, mas a DeepMind também o vê como uma ferramenta de pesquisa. Os jogos desempenham um papel significativo no desenvolvimento da inteligência artificial porque proporcionam ambientes interativos e desafiadores com progresso mensurável. É por isso que a DeepMind já havia recorrido a jogos como Go e StarCraft para expandir os limites da IA.
Os modelos de mundo levam isso a um novo patamar, gerando um mundo interativo quadro a quadro. Isso oferece a oportunidade de refinar o comportamento dos modelos de IA — incluindo os chamados “agentes incorporados” — quando encontram situações do mundo real. Uma das principais limitações enfrentadas pelas empresas em busca da inteligência artificial geral (AGI) é a escassez de dados de treinamento confiáveis. Depois de praticamente todas as páginas da web e vídeos do planeta serem inseridos em modelos de IA, os pesquisadores estão se voltando para dados sintéticos para diversas aplicações. A DeepMind acredita que os modelos de mundo podem ser uma peça fundamental nesse esforço, pois podem ser usados para treinar agentes de IA com mundos interativos praticamente ilimitados.
A DeepMind afirma que o Genie 3 representa um avanço importante, pois oferece fidelidade visual muito superior à do Genie 2 e opera em tempo real. Utilizando o teclado, é possível navegar pelo mundo simulado em resolução 720p a 24 quadros por segundo. Talvez ainda mais importante, o Genie 3 consegue memorizar o mundo que cria.
A forma como os agentes de IA se integram aos modelos do mundo real também é limitada. Embora seja possível criar mundos e eventos interativos com condições realistas, os agentes não têm um papel nisso. Sua interação com o mundo simulado se limita a se movimentar dentro dele, já que os agentes atuais não possuem o raciocínio de alto nível necessário para alterar a simulação. A DeepMind também continua experimentando maneiras de permitir que vários agentes de IA interajam entre si em um ambiente compartilhado. Talvez vejamos isso no Genie 4 daqui a alguns meses?
Mesmo aqueles dispostos a pagar centenas de dólares por mês por assinaturas premium de IA descobriram que existem limites de uso para os modelos maiores e mais caros. O Genie 3, essencialmente, renderiza um vídeo muito longo tão rapidamente que parece interativo, o que certamente consome muita capacidade de processamento. O Google DeepMind não está oferecendo detalhes específicos sobre isso, mas o fato de não ser possível usá-lo diz muito.
O Genie 3 continua sendo uma ferramenta de pesquisa, mas com recursos que a DeepMind claramente quer demonstrar. A equipe planeja conceder acesso a um grupo de especialistas e pesquisadores que ajudarão a refinar o modelo. Eles sugerem, no entanto, que o plano é abrir o acesso aos modelos do Genie World para mais pessoas.




No Comments