OpenAI evalúa si GPT-5 puede sustituir a los humanos

OpenAI / PR-ADN
OpenAI ha comenzado a evaluar si GPT-5 posee la capacidad de desempeñar tareas tradicionalmente realizadas por personas, explorando así el potencial de la inteligencia artificial para transformar funciones laborales específicas y redefinir el papel humano en distintos ámbitos.
Tl;dr
- OpenAI presenta GDPval, nuevo estándar para IA.
- Evalúa GPT-5 frente a profesionales en 44 sectores.
- La IA se acerca, pero no iguala aún al humano.
Un giro realista en la evaluación de la inteligencia artificial
El desarrollo acelerado de la inteligencia artificial generalizada (AGI) ha motivado a OpenAI a dar un paso decisivo: acaba de presentar GDPval, un estándar de evaluación que busca medir hasta qué punto los sistemas como ChatGPT, concretamente en su versión GPT-5, pueden aproximarse al desempeño de auténticos profesionales. El objetivo es, según la compañía, comparar directamente las capacidades de los modelos con expertos humanos en situaciones reales y no limitarse a pruebas académicas poco representativas.
Diversidad y exigencia: así funciona GDPval
Lejos de ejercicios teóricos, el método propuesto por OpenAI pone el acento en tareas laborales concretas. Para diseñar este banco de pruebas, se han seleccionado nada menos que 1.320 ejercicios especializados, validados por expertos con una media de catorce años de experiencia. Cada tarea se inspira en situaciones cotidianas del mundo profesional: desde la elaboración de un expediente jurídico hasta un plan de cuidados sanitarios o un análisis financiero.
La variedad resulta notable: el estándar abarca hasta 44 profesiones distribuidas entre nueve grandes industrias. Varios elementos explican el alcance de este enfoque:
- Salud: desde enfermeros hasta gestores médicos.
- Medios: periodistas, editores y técnicos audiovisuales.
- Derecho y finanzas: abogados, auditores y analistas financieros.
Aspiraciones y limitaciones del modelo GPT-5
Según los primeros resultados difundidos por la propia compañía, tanto el modelo GPT-5 como su competidor directo, Claude Opus 4.1 desarrollado por Anthropic, empiezan a aproximarse al rendimiento de especialistas humanos en varios sectores. Sin embargo, conviene matizar: las evaluaciones actuales se basan únicamente en respuestas individuales y no contemplan procesos complejos ni contextos ampliados. Además, persisten dificultades cuando se trata de captar matices propios del ejercicio profesional real.
Mundo laboral ante una transformación inevitable
La llegada masiva de sistemas inteligentes plantea interrogantes sobre el futuro del trabajo tal como lo conocemos. Si bien parece innegable que muchas funciones podrán ser delegadas a la máquina, siempre quedará margen para la creatividad humana y el juicio crítico. Así lo indica la propia comunicación oficial: las próximas fases incluirán pruebas más interactivas, capaces de reflejar la complejidad genuina del pensamiento profesional. Adaptarse será tan crucial como innovar tecnológicamente para afrontar este cambio radical que ya asoma en el horizonte.