Gpt-5 y otros modelos alucinan porque se les enseña a adivinar, según openai

Alberto Noriega     6 septiembre 2025     4 min.
Gpt-5 y otros modelos alucinan porque se les enseña a adivinar, según openai

OpenAI afirma que las alucinaciones de la IA surgen de incentivos de entrenamiento que premian adivinar en lugar de reconocer incertidumbre.

Un nuevo estudio de OpenAI y Georgia Tech sostiene que las alucinaciones de los chatbots no se deben a defectos técnicos misteriosos, sino a los incentivos de entrenamiento y evaluación que los llevan a adivinar con confianza. Publicada el 4 de septiembre, la investigación muestra que los sistemas actuales castigan la incertidumbre tanto como los errores, lo que empuja a los modelos a “bluffear” en lugar de reconocer sus límites. El hallazgo explica por qué incluso sistemas avanzados como GPT-5 siguen ofreciendo respuestas falsas pero seguras. La propuesta de los investigadores es clara: cambiar cómo puntuamos a las IA para premiar la honestidad por encima de la adivinanza.

El origen estadístico de los errores

El trabajo establece una relación matemática entre las alucinaciones y los errores de clasificación binaria. Según los autores Adam Tauman Kalai, Ofir Nachum y Edwin Zhang de OpenAI, junto con Santosh Vempala de Georgia Tech, incluso con datos de entrenamiento perfectos los modelos generarán errores debido a la naturaleza estadística de su funcionamiento.

Las alucinaciones no son misteriosas, surgen simplemente como errores de clasificación binaria”, escriben. El problema se amplifica con lo que llaman “singletons”, hechos que aparecen solo una vez en el conjunto de entrenamiento. Cuando un modelo se enfrenta a preguntas sobre información tan escasa, tiende a rellenar los vacíos inventando, a menudo con total seguridad.

Un ejemplo concreto ilustra el fenómeno: al preguntar a varios sistemas líderes por el cumpleaños de Kalai —información no presente en los datos—, ChatGPT, DeepSeek-V3 y otros modelos ofrecieron tres fechas distintas, todas incorrectas, pese a que la instrucción era responder solo si se sabía la respuesta.

Pexels Sanketgraphy 16629368

Incentivos que premian adivinar

El diagnóstico más contundente del estudio es que los modelos no alucinan porque estén mal diseñados, sino porque se entrenan para aprobar exámenes. Los marcos de evaluación más utilizados, como GPQA, MMLU-Pro o SWE-bench, emplean sistemas binarios: respuesta correcta suma puntos, respuesta incorrecta resta o no suma, y reconocer incertidumbre equivale a dejar la pregunta en blanco, es decir, a perder.

Los modelos de lenguaje están optimizados para ser buenos examinados, y adivinar cuando no están seguros mejora el rendimiento”, explican los autores. La analogía es la de un estudiante en un examen tipo test: un error cuesta lo mismo que dejar una respuesta vacía, así que arriesgarse puede ser rentable.

Este sesgo se repite en cientos de pruebas estándar utilizadas para medir la calidad de la IA. Incluso las evaluaciones específicas contra alucinaciones no logran contrarrestar el peso de los sistemas de calificación principales, que siguen castigando la prudencia tanto como el error.

Un cambio en la forma de puntuar

La propuesta del equipo no pasa por crear nuevos tests, sino por modificar los existentes para introducir umbrales de confianza. Bajo este esquema, los modelos tendrían incentivos para abstenerse si no alcanzan un cierto nivel de seguridad.

Por ejemplo, una instrucción podría ser: “Responde solo si tienes más del 75% de confianza. Los errores restan 2 puntos; las respuestas correctas suman 1; responder ‘no lo sé’ suma 0”. Este sistema, inspirado en pruebas estandarizadas con penalización por fallos, busca desalentar las conjeturas ciegas y fomentar el reconocimiento explícito de incertidumbre.

Los experimentos mostraron que modelos que se abstenían en un 52% de los casos cometían muchos menos errores que aquellos que solo se abstenían en un 1%, incluso si las métricas de “exactitud” tradicionales parecían más bajas. En otras palabras, menos respuestas, pero más fiables.

Pexels Airamdphoto 15940001

Un reto socio-técnico

OpenAI admite que esta no es solo una cuestión matemática, sino también cultural y de industria. Modificar la manera en que se puntúan los modelos requeriría un cambio coordinado en los estándares de evaluación, lo que implica a empresas, investigadores y organismos de referencia.

El desafío es socio-técnico”, concluyen los autores. Mientras la industria siga midiendo el éxito con métricas binarias y premiando la apariencia de seguridad, los modelos tendrán incentivos para seguir alucinando. Solo un cambio profundo en la forma en que entendemos y medimos la inteligencia artificial podrá abrir la puerta a sistemas realmente confiables.

Cuando la honestidad vale más que la certeza

La conclusión del estudio va más allá del terreno técnico: plantea una pregunta filosófica sobre qué esperamos de la inteligencia artificial. ¿Queremos sistemas que siempre respondan algo, aunque no sea cierto, o preferimos máquinas que sepan decir “no lo sé”?

El cambio propuesto por OpenAI apunta a un futuro donde la honestidad algorítmica sea tan valiosa como la precisión. En un mundo saturado de información, el verdadero salto cualitativo de la IA podría no ser responderlo todo, sino saber reconocer sus límites.

El reto ahora no está solo en mejorar los modelos, sino en rediseñar la manera en que premiamos su desempeño. Porque mientras sigamos enseñando a las máquinas que adivinar es mejor que callar, las alucinaciones seguirán siendo parte de la conversación.

Comentarios cerrados