AI GameStore: Um Novo Framework para Avaliação de AGI

Breaking News Tecnologia
A glowing digital screen displaying a colorful collage of many different video game worlds against a dark background.
4K Quality
À medida que os modelos de inteligência artificial saturam os benchmarks tradicionais, pesquisadores estão voltando o foco para um campo de testes mais dinâmico: a vasta e evolutiva biblioteca de jogos projetados para o entretenimento humano. O framework proposto 'AI GameStore' visa medir a verdadeira inteligência geral testando modelos em todo o 'Multiverso de Jogos Humanos' encontrado em plataformas como Steam e Apple App Store.

A busca pela Inteligência Artificial Geral (IAG) atingiu um gargalo crítico, à medida que os métodos tradicionais de avaliação não conseguem acompanhar o rápido avanço das capacidades dos modelos. Para enfrentar esse desafio, pesquisadores, incluindo José Hernández-Orallo, Joshua B. Tenenbaum e Samuel J. Gershman, introduziram o AI GameStore, uma estrutura escalável que testa a inteligência das máquinas contra o "Multiverso de Jogos Humanos". Ao aproveitar títulos de plataformas como Steam e a Apple App Store, esta plataforma de código aberto oferece um ambiente mais rigoroso e dinâmico do que os benchmarks estáticos, medindo a capacidade de um agente de aprender e se adaptar a diversas experiências humanas.

A Saturação dos Benchmarks Convencionais de IA

Os benchmarks convencionais de IA normalmente avaliam apenas capacidades limitadas e tornam-se rapidamente saturados à medida que os desenvolvedores otimizam os modelos para parâmetros de teste específicos. As avaliações tradicionais são frequentemente estáticas, o que significa que os modelos podem acabar "memorizando" ou sofrendo sobreajuste (overfitting) aos dados, levando a pontuações infladas que não refletem a verdadeira inteligência geral. Esse fenômeno cria uma falsa sensação de progresso, onde os modelos parecem altamente capazes em ambientes controlados, mas falham quando confrontados com a complexidade do mundo real e situações inéditas.

Ambientes estáticos carecem da abertura (open-endedness) necessária para simular a natureza imprevisível da vida humana. Quando um benchmark permanece inalterado por anos, ele deixa de ser uma medida de generalização e torna-se uma medida de otimização especializada. A equipe de pesquisa argumenta que, para uma máquina demonstrar IAG, ela deve mostrar proficiência em ambientes que nunca viu antes, exigindo uma transição de conjuntos de dados fixos para uma biblioteca vasta e em evolução de desafios interativos.

O que é o AI GameStore e como ele funciona?

O AI GameStore é uma plataforma escalável e aberta para avaliar a inteligência geral das máquinas usando jogos humanos, que são jogos projetados por humanos para humanos. Ele funciona empregando Grandes Modelos de Linguagem (LLMs) com a participação de humanos no circuito (human-in-the-loop) para sintetizar novos jogos representativos, extraindo e adaptando automaticamente variantes padronizadas e conteinerizadas de plataformas populares como a Apple App Store e a Steam.

O sistema opera identificando diversas mecânicas de jogo e traduzindo-as em ambientes com os quais Modelos de Visão e Linguagem (VLMs) podem interagir. Ao utilizar uma abordagem de "humano no circuito", os pesquisadores garantem que os jogos gerados mantenham a essência qualitativa do entretenimento humano, permanecendo computacionalmente acessíveis para agentes de IA. Esse processo permite a geração rápida de jogos humanos representativos, criando um campo de testes tão amplo quanto a própria imaginação humana.

Definindo o Multiverso de Jogos Humanos

O "Multiverso de Jogos Humanos" representa a soma total de todos os jogos criados por pessoas para serem desfrutados por pessoas, servindo como um substituto para a diversidade cognitiva humana. Ao contrário das tarefas sintéticas criadas especificamente para o treinamento de IA, esses jogos são construídos em torno da intuição humana, lógica social e senso comum físico. Isso os torna uma ferramenta exclusivamente eficaz para medir o quão bem uma IA pode navegar em um mundo projetado para a inteligência geral humana.

Em sua prova de conceito, os pesquisadores selecionaram 100 jogos baseados nos rankings da Steam e da Apple App Store. Esses jogos não foram simplificados para a IA; em vez disso, foram padronizados em ambientes conteinerizados para garantir a reprodutibilidade. Ao testar VLMs de fronteira nesses títulos, o estudo cria uma comparação direta entre o desempenho da máquina e a "média humana", revelando exatamente onde as arquiteturas atuais ficam aquém do raciocínio de nível humano.

Como o AI GameStore se compara ao ARC-AGI para medir a inteligência?

O AI GameStore avalia a IA em um amplo 'Multiverso de Jogos Humanos' de plataformas do mundo real, fornecendo benchmarks escaláveis e diversos além dos testes estáticos. Em contraste, o ARC-AGI concentra-se em tarefas de raciocínio abstrato, enquanto o AI GameStore testa habilidades práticas como aprendizado de modelo de mundo, memória e planejamento em ambientes de jogo dinâmicos. Os modelos de fronteira pontuam menos de 10% da média humana na maioria dos jogos do AI GameStore, destacando lacunas mais amplas do que o ARC-AGI poderia revelar.

Embora o ARC-AGI (Abstraction and Reasoning Corpus) seja altamente conceituado por seu foco na inteligência fluida, o AI GameStore oferece um teste de "senso comum" mais expansivo. Os jogos exigem mais do que apenas reconhecimento de padrões; eles exigem:

  • Memória de longo prazo para rastrear objetos e objetivos através dos níveis.
  • Raciocínio espacial para navegar em ambientes 2D e 3D.
  • Planejamento estratégico para gerenciar recursos e antecipar movimentos dos oponentes.
  • Inferência causal para entender como as diferentes mecânicas de jogo interagem.
Essa abordagem multidimensional garante que a IAG sendo medida seja funcional e fundamentada na realidade, em vez de puramente matemática.

Por que os modelos atuais de IA têm dificuldade com jogos que exigem aprendizado de modelo de mundo?

Os modelos atuais de IA têm dificuldade com jogos que exigem aprendizado de modelo de mundo porque carecem de habilidades robustas para construir representações internas da física do jogo, persistência de objetos e dinâmica ambiental. Avaliações nos jogos do AI GameStore mostram que esses modelos falham especialmente em tarefas que exigem retenção de memória entre episódios e planejamento de múltiplas etapas. Isso revela limitações para alcançar uma IAG semelhante à humana, já que os modelos apresentam desempenho significativamente abaixo das pontuações humanas.

Os pesquisadores descobriram que mesmo os Modelos de Visão e Linguagem mais avançados alcançaram menos de 10% da pontuação média humana na maioria dos 100 jogos de teste. O problema central reside na lacuna entre prever o próximo token e compreender causa e efeito. Em um ambiente de jogo, um agente deve prever como suas ações mudarão o estado do mundo. Sem um modelo de mundo sofisticado, a IA não consegue planejar seus movimentos de forma eficaz, levando a estratégias "alucinadas" que falham quando a física ou a lógica do jogo não correspondem às correlações estatísticas internas da IA.

O Futuro dos Testes de IAG e Escalabilidade

O futuro da avaliação de IAG reside na transição para uma realidade onde as máquinas sejam julgadas por sua capacidade de aprender qualquer tarefa, não apenas as pré-definidas. O AI GameStore fornece um roteiro para essa mudança, oferecendo uma plataforma que pode escalar junto com o desenvolvimento da IA. À medida que os modelos melhoram, a "loja" pode ser atualizada com jogos mais complexos, garantindo que o benchmark permaneça um "alvo móvel" que resiste à saturação e continua a impulsionar a inovação no aprendizado de máquina.

As implicações desta pesquisa vão além dos jogos. Ao usar o entretenimento humano como um padrão científico, a equipe identificou fraquezas arquitetônicas específicas nos modelos atuais, particularmente em relação à intuição física e ao planejamento de longo alcance. Abordar essas lacunas é essencial para o desenvolvimento de uma IAG que possa operar de forma segura e eficaz no mundo físico. No futuro, a equipe pretende expandir o AI GameStore para incluir gêneros ainda mais diversos, desafiando ainda mais os limites do que as máquinas podem entender e realizar.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q O que é a AI GameStore e como ela funciona?
A A AI GameStore é uma plataforma escalável e aberta para avaliar a inteligência geral de máquinas usando jogos humanos, que são jogos projetados por humanos para humanos. Ela funciona empregando grandes modelos de linguagem (LLMs) com humanos no circuito (humans-in-the-loop) para sintetizar novos jogos representativos, obtendo e adaptando automaticamente variantes padronizadas e conteinerizadas de plataformas populares como a Apple App Store e a Steam. Como prova de conceito, ela gerou 100 desses jogos e avaliou modelos de visão-linguagem de fronteira em episódios curtos de jogo.
Q Como a AI GameStore se compara ao ARC-AGI para medir a inteligência?
A A AI GameStore avalia a IA em um amplo 'Multiverso de Jogos Humanos' de plataformas do mundo real, fornecendo benchmarks escaláveis e diversos além dos testes estáticos. Em contraste, o ARC-AGI foca em tarefas de raciocínio abstrato, enquanto a AI GameStore testa habilidades práticas como aprendizagem de modelo de mundo, memória e planejamento em ambientes de jogo dinâmicos. Modelos de fronteira pontuam abaixo de 10% da média humana na maioria dos jogos da AI GameStore, destacando lacunas de inteligência mais amplas do que o ARC-AGI poderia revelar.
Q Por que os modelos atuais de IA têm dificuldade com jogos que exigem aprendizagem de modelo de mundo?
A Os modelos atuais de IA, particularmente os modelos de visão-linguagem, têm dificuldade com jogos que exigem aprendizagem de modelo de mundo porque lhes faltam habilidades robustas para construir representações internas da física do jogo, persistência de objetos e dinâmica ambiental. As avaliações nos jogos da AI GameStore mostram que esses modelos falham especialmente em tarefas que exigem retenção de memória entre episódios e planejamento em múltiplas etapas. Isso revela limitações no alcance de uma inteligência geral semelhante à humana, uma vez que eles apresentam desempenho inferior a 10% das pontuações humanas nesses jogos desafiadores.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!