A farsa dos benchmarks da IA: quando as máquinas fingem ser humanas
Por Miguel Oliveira, coordenador do Programa PsicologIA na Transformação Social da Ordem dos Psicólogos Portugueses
Há décadas que medimos o progresso da inteligência artificial com números frios: precisão, velocidade, capacidade de processamento. Mas esta obsessão com métricas técnicas esconde uma realidade preocupante: estamos a ensinar as máquinas a fingir inteligência em vez de as tornar verdadeiramente sábias.
Os testes que não testam o essencial
Um benchmark é, no fundo, um exame para máquinas. Tal como os nossos estudantes fazem testes de matemática ou português, os sistemas de IA fazem conjuntos de tarefas padronizadas para provar o seu valor. O problema é que estes testes apenas medem competência técnica, ignorando completamente a compreensão humana.
Saber resolver um problema não é o mesmo que compreender o seu impacto social ou contexto ético. Se continuarmos a medir apenas a capacidade de acertar respostas, estaremos a criar uma geração de máquinas que parecem inteligentes mas agem sem sabedoria.
Esta lógica perversa já conhecemos bem do sistema educativo: quantos alunos tiram excelentes notas mas depois não sabem trabalhar em equipa, liderar pessoas ou tomar decisões éticas? Os testes medem memória e desempenho momentâneo, mas raramente avaliam empatia, pensamento crítico ou capacidade de colaboração.