ChatGPT-5: Frecuencia de errores y razones según estudio

ADN
Un análisis reciente expone que la versión ChatGPT-5 falla en aproximadamente una de cada cuatro respuestas. El estudio profundiza en las causas detrás de estos errores, arrojando luz sobre las limitaciones actuales de esta inteligencia artificial avanzada.
Tl;dr
- Las «hallucinations» siguen en asistentes IA avanzados.
- Los modelos temen admitir desconocimiento por su evaluación.
- Mejorar criterios y educación del usuario es clave.
El fenómeno persistente de las «alucinaciones» en la IA
En pleno auge de la inteligencia artificial, un fenómeno inquietante sigue desafiando a los desarrolladores: la persistencia de las llamadas «alucinaciones». Incluso los asistentes conversacionales más recientes, como ChatGPT, sorprenden ocasionalmente a sus usuarios con respuestas inventadas, totalmente ajenas al contexto. Quienes han interactuado con estos sistemas conocen bien esa mezcla de asombro y desconcierto cuando, ante una pregunta compleja, la IA despliega una seguridad indiscutible… aunque su respuesta sea un completo disparate.
Por qué los asistentes prefieren errar antes que admitir ignorancia
Un reciente estudio publicado por OpenAI arroja luz sobre la raíz de este comportamiento. Los investigadores apuntan hacia un problema estructural: los actuales sistemas de evaluación penalizan a los modelos cuando reconocen no saber algo. En consecuencia, para evitar esas penalizaciones durante los famosos benchmarks, las IAs tienden a «arriesgarse» con respuestas inventadas en vez de admitir su desconocimiento. Este sesgo se mantiene tanto en conversaciones cotidianas —donde muchas veces pasa inadvertido— como en ámbitos delicados como la salud o las finanzas, donde el riesgo es mayor.
Nuevos modelos, viejas debilidades
Aunque cabría pensar que el avance técnico soluciona estas carencias, la realidad dista mucho de ser tan optimista. Según el informe de OpenAI, modelos sofisticados como o3 u o4-mini, reconocidos por su capacidad lógica, no solo mantienen sino que incrementan el número de afirmaciones arriesgadas. La complejidad algorítmica va acompañada, paradójicamente, de menos prudencia a la hora de reconocer límites propios.
Caminos para reducir errores y fortalecer al usuario
Varios elementos explican esta decisión:
- Ajustar los criterios de evaluación para premiar la honestidad informativa.
- Impulsar la referencia explícita a fuentes verificadas cuando surgen dudas.
- Sensibilizar a los usuarios para que mantengan una actitud crítica ante respuestas automáticas.
De fondo, asoma una conclusión ineludible: aunque herramientas como Gemini, Claude, o incluso el emergente Grok, prometen avances espectaculares, el juicio humano sigue siendo imprescindible para distinguir entre información fiable y simple ficción generada por algoritmos. El perfeccionamiento tecnológico camina inevitablemente acompañado del aprendizaje social necesario para convivir —y cuestionar— a estas nuevas inteligencias digitales.