A redação perfeita que soa vazia: o teste com o ChatGPT no baccalauréat de filosofia

Gabriel Henrique Almeida • April 18, 2026 04:48

O experimento parecia quase uma pegadinha: entregar ao chatbot da OpenAI uma questão oficial de redação do baccalauréat, passar o texto a um professor de verdade e esperar o resultado. A cópia devolvida vinha limpa, organizada e segura de si. A nota, porém, não combinou com a primeira impressão.

Uma redação perfeitamente formatada que soa vazia

O teste foi organizado pelo canal regional France 3 Hauts-de-France durante o baccalauréat de filosofia de 2025. Os jornalistas escolheram um tema real de prova: “A verdade é sempre convincente?” O ChatGPT recebeu a instrução de responder como se fosse um aluno francês do ensino médio tentando alcançar uma aprovação tranquila.

Na página, o resultado preenchia todos os requisitos formais. O chatbot entregou uma introdução bem amarrada, um desenvolvimento em três partes e uma conclusão. As frases eram fluentes. A ortografia estava impecável. Marcadores como “em primeiro lugar” e “por outro lado” apareciam exatamente onde um corretor esperaria encontrá-los.

Visto de longe, o papel do ChatGPT parecia a redação ideal de um candidato nervoso: caprichada, articulada e com uma estrutura tranquilizadora.

Depois disso, os jornalistas enviaram a redação anônima para um professor de filosofia, sem revelar que ela tinha sido produzida por IA. O texto foi avaliado como qualquer outro trabalho de fim de curso. Quando a caneta vermelha terminou a correção, a ilusão desmoronou: o ChatGPT recebeu apenas 8 de 20, bem abaixo da média normalmente necessária para aprovação.

Os comentários do professor miraram menos o estilo e mais o conteúdo. Sob a superfície polida, o raciocínio foi considerado raso, repetitivo e estranhamente mecânico. A redação dava a impressão de saber como uma dissertação de filosofia deve parecer, mas não o que realmente precisa dizer.

Quando a pergunta muda de sentido sem avisar

O primeiro problema apontado pelo corretor envolveu o tratamento da própria pergunta. O enunciado original - “A verdade é sempre convincente?” - quer saber se a verdade, por sua natureza, tem força para persuadir. O ChatGPT deslocou discretamente a questão para outro problema: “A verdade é suficiente para convencer?”

Essa pequena mudança pesa muito em um exame. Na correção da filosofia francesa, reformular a pergunta com precisão é quase metade do caminho. Isso mostra que o estudante captou a tensão escondida no enunciado.

Ao torcer a pergunta, o chatbot escapou de parte da dificuldade - e perdeu pontos por se afastar da intenção do examinador.

A partir do momento em que o tema muda, mesmo que pouco, o restante da redação segue na direção errada. Os argumentos deixam de responder exatamente ao que foi pedido. Em um aluno humano, esse tipo de deslize costuma vir acompanhado de uma percepção incômoda: ele sente que algo não encaixa. Um modelo de IA não experimenta esse desconforto; ele apenas continua gerando texto que “soa certo”.

Um plano visível e um raciocínio invisível

O professor também criticou a estrutura da redação. No papel, a organização era impecável: partes bem separadas, frases de ligação e uma conclusão com uma “abertura” para questões afins. Na prática, porém, o plano parecia um modelo aplicado de fora, e não o resultado de um pensamento em andamento.

Cada parágrafo soava como um bloco fechado em si mesmo, com pouca evolução real de uma ideia para outra. As passagens eram formais, mas não propriamente lógicas. O corretor descreveu uma sequência de pontos, e não um argumento em movimento.

Tese: a verdade deveria convencer por definição
Antítese: a verdade às vezes não consegue persuadir
Síntese: outros fatores também influenciam a persuasão

Essa estrutura clássica em três etapas costuma ser ensinada nas escolas francesas. O ChatGPT a reproduziu quase com fidelidade excessiva, como se estivesse marcando itens de uma lista. O que faltou, segundo o professor, foi o modo pessoal com que um aluno costuma torcer, reorganizar ou até contrariar esse esquema quando realmente enfrenta um problema.

Exemplos sem profundidade, conceitos sem definição

Outra fragilidade apareceu no tratamento das noções filosóficas. A redação citava ideias como “verdade”, “opinião” e “razão”, mas quase não as definia. Em uma prova de filosofia, esclarecer esses termos é uma tarefa central. Isso mostra que o candidato entende que conceitos não são apenas palavras, e sim instrumentos com contornos precisos.

A IA lançava referências e exemplos como quem faz citações de passagem, sem parar para explicar o que eles significavam ou como de fato sustentavam o argumento.

Na correção, os exemplos foram frequentemente julgados genéricos e, às vezes, batidos. Eles apareciam no fim dos parágrafos como uma prova decorativa, sem exame detalhado. Um estudante humano, mesmo com dificuldades, tende a se deter mais em um exemplo que tenha significado para ele - uma lembrança pessoal, uma notícia, um filme. Esse pequeno desvio pode dar um tom próprio à redação. Já o texto do chatbot parecia intercambiável com milhares de outros que ele poderia produzir sob demanda.

O que isso revela sobre os limites atuais da IA

Não é a primeira vez que sistemas de IA são colocados para fazer provas escolares. Modelos de linguagem já produziram redações para exames GCSE do Reino Unido, trabalhos acadêmicos universitários nos Estados Unidos e diferentes testes nacionais. Em geral, costumam atingir algo próximo da nota mínima em disciplinas que valorizam muito conteúdo e, às vezes, vão melhor quando a correção favorece clareza formal em vez de originalidade.

A filosofia, porém, oferece um teste mais duro. A disciplina premia a dúvida, a hesitação e a ousadia conceitual. Ela pede que o candidato questione a própria pergunta, aponte ambiguidades ou revele pressupostos escondidos. O ChatGPT consegue imitar essa postura com frases que parecem reflexivas, mas o professor que corrigiu a redação não sentiu nenhuma investigação genuína por trás das palavras.

O resultado deixa evidente um limite estrutural. Grandes modelos de linguagem são treinados em padrões de texto. Eles são especialistas em produzir sequências coerentes de frases. Essa habilidade combina bem com o “formato de redação”, mas não necessariamente com a atividade de pensar por trás dele. O modelo conecta expressões que costumam andar juntas nos dados de treinamento. Ele não verifica essas conexões contra uma experiência vivida de dúvida ou descoberta.

Em filosofia, isso faz diferença porque o raciocínio não se mede só pelo acabamento. A capacidade de levantar uma hipótese, voltar atrás, refinar um conceito e sustentar uma posição com precisão é parte essencial da nota. Um texto pode parecer muito bem montado e, ainda assim, não mostrar que alguém realmente atravessou o problema.

Por que escrever bem não basta em filosofia

O experimento também expõe uma tensão que os professores já conhecem bem quando corrigem alunos humanos: a distância entre estilo e pensamento. Alguns adolescentes dominam truques de retórica, transições e introduções. Sabem soar sérios. Mesmo assim, suas redações podem parecer vazias quando se passa da primeira página.

Professores de filosofia não avaliam apenas o quanto o estudante escreve bem; eles procuram um pensamento em ação - hesitando, se corrigindo e empurrando uma ideia além do ponto inicial.

O ChatGPT acertou a casca externa dessa performance, mas não o seu movimento interno. A redação entregou uma resposta segura e equilibrada, evitando afirmações fortes que pudessem estar erradas. Essa estratégia muitas vezes impede que a nota despencque, mas raramente leva às notas altas reservadas aos textos ousados e bem defendidos.

O professor que avaliou a IA sugeriu que um aluno mediano do ensino médio, mesmo ansioso, poderia ter se saído melhor. Um adolescente pode recorrer à intuição: aquela impressão vaga de que a pergunta “a verdade é sempre convincente?” entra em conflito com a experiência cotidiana de mentiras, manipulação ou negação obstinada. A partir daí, ele consegue construir argumentos moldados pelas próprias vivências. O chatbot não tem esse repertório; ele só dispõe dos textos que absorveu estatisticamente.

O que significa 8 de 20 no sistema francês

Para quem está fora da França, a nota merece uma explicação rápida. O baccalauréat é corrigido numa escala de 0 a 20. Um 10 costuma significar aprovação básica. Notas entre 12 e 14 são vistas como razoáveis. A partir de 16, entra-se no território das redações muito fortes.

Nota /20	Sentido aproximado na correção de filosofia
5 ou menos	A pergunta foi mal compreendida ou quase não há argumentação
8	Há alguma estrutura e algumas ideias, mas a questão foi pouco apreendida
10–12	Redação correta e convencional, com raciocínio claro, porém limitado
14–16	Análise forte, referências pertinentes e posição pessoal bem definida
17–20	Textos raros, que combinam rigor, originalidade e profundidade

Com 8, o ChatGPT provavelmente não reprovaria todo o exame, graças às compensações de outras matérias. Ainda assim, em filosofia - onde muitos estudantes miram pelo menos um 10 ou 12 respeitável - isso está longe de ser um sucesso.

Implicações para estudantes tentados a terceirizar a redação

O experimento da France 3 chega num momento delicado para as escolas. Professores de toda a Europa e da América do Norte já suspeitam que alguns alunos usam ferramentas de IA para fazer dever de casa ou até provas levadas para casa. A ideia de pedir a um chatbot que resolva uma redação de filosofia é compreensivelmente tentadora para um adolescente diante de uma página em branco.

Esse caso envia uma mensagem ambígua. Sim, o ChatGPT consegue produzir, em segundos, algo que parece uma redação decente. Não, isso não garante uma boa nota quando um especialista lê com atenção. Mais do que isso, depender desse tipo de ajuda traz riscos que vão além da avaliação.

Os estudantes podem deixar de praticar o trabalho lento e frustrante de construir argumentos próprios.
Podem perder confiança na própria capacidade de escrever textos imperfeitos, mas autênticos.
Os professores podem reagir reforçando a vigilância, o que corrói a confiança em sala de aula.

Alguns educadores propõem um meio-termo: tratar a IA como parceira de ideias, e não como autora fantasma. Um aluno pode pedir ao chatbot definições de “verdade” em diferentes tradições filosóficas e depois usar esse material de forma crítica, conferindo fontes e construindo sua própria posição. Nesse cenário, a nota refletiria a capacidade do estudante de selecionar, adaptar e questionar o que a ferramenta oferece.

Nas aulas de filosofia, o caminho até a versão final também costuma importar bastante. Rascunhos, reescritas e explicações orais ajudam o professor a perceber se a ideia realmente nasceu do estudante ou se foi montada por colagem. Quando o pensamento precisa ser defendido ao vivo, o texto deixa de ser apenas acabamento bonito e passa a revelar o processo que o produziu.

Além do bac: o que conta como “pensar” para as máquinas?

A nota modesta de 8 de 20 também alimenta um debate mais amplo sobre inteligência artificial. Quando alguém diz que “o ChatGPT pensa”, geralmente quer dizer que ele produz texto parecido com pensamento. A redação do baccalauréat lembra que parecer pensamento e pensar de fato não são a mesma coisa.

Para deixar essa distinção mais clara, alguns pesquisadores usam os termos “sintático” e “semântico”. As capacidades sintáticas dizem respeito à forma: gramática, estrutura, expressões típicas que parecem lógicas. As capacidades semânticas dizem respeito ao sentido: como as ideias se ligam à realidade, à experiência e à ação. Os modelos de linguagem são excelentes no plano sintático. Seu domínio semântico é mais frágil, especialmente em áreas como filosofia, nas quais a realidade não é apenas física, mas também conceitual.

Talvez os sistemas de IA do futuro reduzam essa distância, por exemplo ao integrar outros tipos de dados ou módulos de raciocínio. Por enquanto, um professor francês de filosofia em 2025, com uma pilha de redações à frente, ainda consegue distinguir entre um adolescente lutando com a questão e um chatbot organizando frases conhecidas. A caneta vermelha, ao menos por enquanto, continua teimosamente humana.