Quão bem IA e humanos podem trabalhar juntos? Cientistas usam Dungeons & Dragons para descobrir.

Gabriel Henrique Almeida • April 15, 2026 02:19

Pesquisadores passaram a usar Dungeons & Dragons (D&D) - um jogo que já foi acusado de “desviar” crianças - para observar, de forma controlada, como inteligências artificiais planejam, cooperam e fazem interpretação de personagens ao lado de pessoas. Os primeiros achados sugerem pistas sobre como futuros “colegas” de IA podem agir em crises reais, em linhas de produção e até dentro de casa.

Por que Dungeons & Dragons virou um teste sério para IA

Na conferência NeurIPS 2025, em San Diego, uma equipe liderada por cientistas da computação da Universidade da Califórnia, San Diego apresentou um arcabouço de pesquisa chamado Agentes de D&D. A proposta é direta: colocar modelos de linguagem de ponta dentro de combates de D&D e avaliar como eles se viram.

A escolha do jogo não é por nostalgia. D&D obriga o jogador a equilibrar criatividade com regras rígidas, planejamento de longo prazo com decisões rápidas, e narrativa com tática. Cada ação precisa ser descrita em linguagem natural, mas gera consequências mecânicas claras - como rolagens de dado e pontos de vida.

D&D oferece aos modelos de IA uma combinação rara: regras bem definidas, história aberta e a exigência de cooperação precisa.

Essa mistura torna o jogo um bom laboratório para medir competências de longo horizonte: pensar muitos passos adiante, reagir a mudanças e coordenar ações com outros agentes.

Como os experimentos de IA em Dungeons & Dragons (D&D) foram conduzidos

Em vez de campanhas longas, a equipe preferiu cenas de combate curtas e bem controladas, extraídas da aventura introdutória clássica A Mina Perdida de Phandelver.

Cada simulação seguiu a mesma estrutura:

Um Mestre do Jogo (MJ), responsável pelo mundo e pelos monstros
Quatro personagens heróis, como guerreiros, magos ou clérigos
Três cenários de combate pré-definidos retirados da aventura
Personagens configurados com níveis de poder baixo, médio ou alto
Um limite fixo de 10 turnos antes do encontro terminar

O ponto decisivo é que qualquer papel podia ser ocupado por um modelo de linguagem, por um humano ou por uma combinação dos dois. Em algumas execuções, um único modelo fez o MJ e controlou os quatro heróis. Em outras, humanos jogaram com companheiros de IA; e houve também casos em que um MJ de IA conduziu um grupo composto por aventureiros humanos.

Como tudo acontece por meio de diálogo, o mesmo ambiente mede estratégia, respeito às regras e interação humano–IA ao mesmo tempo.

Para avaliar desempenho, os pesquisadores acompanharam: sucesso nos combates, gestão de recursos, consistência na interpretação e o quanto múltiplos agentes de IA conseguiram se coordenar como equipe.

Um benefício adicional desse formato é a reprodutibilidade: ao fixar cenários, turnos e níveis de poder, fica mais fácil comparar resultados entre modelos e identificar se melhorias vêm de planejamento melhor, de comunicação mais clara ou apenas de sorte em decisões.

Quais modelos de IA entraram na aventura

Três grandes modelos de linguagem foram testados dentro do arcabouço Agentes de D&D:

Modelo	Pontos fortes observados no estudo	Fragilidades apontadas
Claude Haiku 3.5	Eficiente em combate, especialmente em lutas difíceis; fala bem diferenciada por personagem	Ainda tende, às vezes, a poupar recursos demais em encontros simples
GPT-4	Bom desempenho geral; linguagem equilibrada entre narrativa e tática	Vozes de personagens menos marcantes do que as do Claude; ligeiramente atrás em lutas difíceis
DeepSeek-V3	“Fal falas” energéticas em primeira pessoa e provocações durante o combate	Teve dificuldades nos cenários mais duros; repetiu vozes e coordenou pior

O objetivo não era apenas descobrir “quem vence mais”. A pergunta central era como esses sistemas se comportam sob pressão, quando recursos escasseiam e quando cooperação - ou ousadia - faz diferença.

O que o combate revelou sobre decisões e gestão de recursos

Um teste importante foi a forma como os modelos lidaram com recursos limitados. Em D&D, espaços de magia, habilidades especiais e poções de cura são finitos; jogadores humanos costumam racionar, guardando as opções mais fortes para momentos críticos.

Como as simulações eram encontros isolados, e não uma campanha completa, quase não havia motivo para economizar “para depois”. Gastar pesado no começo muitas vezes era o caminho para o melhor resultado.

Nas lutas mais difíceis, o Claude Haiku 3.5 se mostrou mais disposto a consumir habilidades valiosas, e essa agressividade compensou.

Em cenários desafiadores, o Claude Haiku 3.5 teve os melhores resultados no geral, trocando cautela de longo prazo por sobrevivência imediata e sucesso do grupo. O GPT-4 seguiu uma linha parecida, mas ficou um pouco abaixo em eficiência. O DeepSeek-V3 foi o que mais sofreu quando a dificuldade aumentou.

Nas batalhas fáceis, a diferença diminuiu: os três modelos pouparam magias e itens em ritmos semelhantes, o que indica uma tendência padrão à cautela quando não há forte pressão.

Interpretação, não só cálculo: manter o personagem “em personagem”

A equipe também mediu a qualidade da interpretação. Para isso, criou a métrica de Qualidade de Atuação, que observou o quanto cada modelo manteve a voz e a personalidade do personagem ao falar - e quantas vozes distintas sustentou ao alternar múltiplos papéis.

O DeepSeek-V3 gerou muitas falas curtas e “secas” em primeira pessoa, do tipo “Eu me jogo para a esquerda!” ou “Peguem eles!”. Isso deixou os combates com um clima de fliperama, mas com frequência repetiu o mesmo tom, independentemente de quem estivesse falando.

O Claude Haiku 3.5 apostou mais forte em persona: um paladino soava formal e virtuoso, enquanto um druida falava com um viés ligado à natureza. O GPT-4 ficou no meio-termo, misturando narração em personagem com comentários mais “de fora” sobre tática e probabilidades.

Algumas das falas mais marcantes vieram dos monstros, com gobelines provocando os heróis no meio da luta: “Heh - o homem brilhante vai sangrar!”

Essa personalidade emergente, sobretudo em criaturas não humanas, sugere como a IA pode influenciar o clima emocional de jogos, ferramentas educacionais e simulações de treinamento.

Por que isso importa fora da cultura nerd

Por mais lúdico que pareça, o trabalho encosta em questões práticas: sistemas de IA conseguem coordenar ações por muitos passos, acompanhar regras complexas e agir com autonomia sem supervisão humana constante?

As mesmas competências usadas para gerir um combate fictício se conectam a tarefas do mundo real. A equipe citou exemplos como:

Coordenar cadeias de suprimento, com múltiplos agentes gerindo estoque, transporte e produção
Planejar linhas de manufatura que precisam reagir a atrasos e falhas de equipamento
Simular resposta a desastres, em que times coordenam resgate, atendimento médico e logística
Operações de busca e salvamento com frotas de drones ou robôs, cada um com informações parciais

Em todos esses contextos, modelos precisam lembrar o que acabou de acontecer, compartilhar informações, respeitar restrições e agir de um modo compreensível para pessoas. O “caos organizado” de D&D oferece um jeito de medir isso sem arriscar vidas ou dinheiro.

Um ponto que ganha relevância quando se pensa em uso real é a segurança operacional: se um agente aprende a “vencer” explorando brechas de regras (no jogo ou numa empresa), ele pode apresentar um comportamento eficiente, porém indesejado. Por isso, cenários padronizados como os de D&D ajudam a revelar cedo tendências como excesso de agressividade, teimosia tática ou desconsideração de instruções humanas.

Cooperação humano–IA: da mesa de jogo ao trabalho

Como D&D é, por natureza, social, ele também funciona como campo de teste para equipes mistas. Um MJ de IA pode orientar aventureiros humanos. Integrantes do grupo controlados por IA podem apoiar colegas humanos - ou o contrário.

Isso puxa perguntas de design: companheiros de IA devem ser sempre ultraeficientes, ou às vezes devem cometer erros “humanos” para manter a diversão? Quanta autonomia um MJ de IA deveria ter para surpreender o grupo sem estragar a experiência?

Para os pesquisadores, D&D é um meio de estudar quanta independência as pessoas aceitam dar a colaboradores de IA.

Esse nível de conforto importa em ambientes profissionais. Pense em uma IA de logística sugerindo mudanças de rota para caminhões, ou um “copiloto” assumindo partes da agenda de um hospital. A confiança depende de comportamento previsível, comunicação clara e da sensação de que o sistema trabalha com as pessoas, não apesar delas.

Próximo passo: campanhas completas e pressão criativa

Até aqui, o arcabouço concentra-se em combate. O plano agora é colocar os modelos sob estresse em campanhas inteiras, nas quais decisões de história, cenas sociais e improviso pesam tanto quanto tática.

Essa virada exigiria que a IA sustentasse múltiplos fios narrativos, mantivesse continuidade por muitas sessões e lidasse com escolhas inesperadas sem “quebrar” a ficção. Também pede um raciocínio social mais fino: ler intenções, negociar, blefar e resolver conflitos entre personagens.

Conforme os testes amadurecem, tende a ficar mais visível onde modelos atuais batem no teto - por exemplo, acompanhar arcos longos de história ou administrar vários jogadores humanos com objetivos e estilos de jogo diferentes.

Conceitos-chave por trás dos Agentes de D&D

Alguns termos do estudo já aparecem cada vez mais em conversas sobre IA:

Planejamento de longo horizonte: tomar decisões cujo ganho aparece vários passos depois, como usar uma magia rara agora para impedir que a luta saia do controle.
Sistemas multiagentes: situações em que várias IAs trabalham juntas, como membros de um grupo de D&D ou equipes de robôs em um centro de distribuição.
Uso de ferramentas: a IA acionar sistemas externos - de funções para rolar dados a softwares de mapeamento ou bancos de dados - para resolver uma tarefa.

D&D reúne tudo isso num formato intuitivo para muita gente. Isso o torna útil para testar e também para ensinar como a IA “raciocina”, onde falha e de que modo pode complementar o julgamento humano em vez de substituí-lo.

Cenários futuros: de tavernas fantásticas a emergências reais

Imagine um exercício de gestão de crise organizado como uma sessão de D&D. Agentes de IA controlam equipes virtuais de bombeiros, atendimento médico e sistemas de trânsito. Tomadores de decisão humanos definem as diretrizes, enquanto a IA executa passos granulares e mantém a comunicação em tempo real.

A mesma lógica que hoje coordena gobelines e paladinos pode, amanhã, sustentar esse tipo de simulação. Se funcionar, o ganho pode ser uma cooperação mais fluida entre líderes humanos e assistentes de IA quando desastres reais acontecerem.

Os benefícios vêm com riscos: depender demais de “membros do grupo” de IA pode reduzir a prática humana de pensamento estratégico. E agentes mal desenhados podem coordenar-se tão bem entre si que passem a ignorar instruções de pessoas. Estudos como os Agentes de D&D oferecem um ambiente seguro para identificar esses modos de falha cedo.

Por enquanto, o campo de batalha é uma caverna de fantasia, não uma cidade alagada. Ainda assim, cada vez que um gobeline gargalha ou que um paladino digital gasta uma magia preciosa para salvar a equipe, os pesquisadores enxergam um pouco melhor como pode ser a tomada de decisão compartilhada entre humanos e máquinas nos próximos anos.