GPT-5: ¿Revolución o decepción?
El esperado lanzamiento de GPT-5, la nueva generación del modelo de inteligencia artificial de OpenAI, prometía un salto cualitativo hacia una IA más potente, precisa y versátil. Sin embargo, la recepción no ha sido la que la compañía esperaba. Entre foros de Reddit saturados de quejas, titulares críticos y un visible malestar en redes sociales, el estreno ha estado marcado por una pregunta clave: ¿estamos ante una revolución tecnológica o ante un avance menor disfrazado de gran innovación?
Expectativas elevadas y una realidad diferente
Desde meses antes de su lanzamiento, GPT-5 se promocionó como un modelo con “razonamiento a nivel doctoral”, mayor precisión en programación y mejor comprensión multimodal (texto, imagen, audio y video). La realidad, según miles de usuarios, es que las mejoras se sienten más incrementales que revolucionarias. Muchos aseguran que simplemente GPT-5 trae consigo la unificación de sus otros modelos y que a su vez le dieron un poco más de potencia, pero nada comparable a lo que prometía ser.
Pero antes de entrar a la polémica, veamos que es lo que trae a grandes rasgos OpenAI con su nuevo modelo, el cual en sus palabras, prometía revolucionar el concepto que se tenía por inteligencia artificial.
GPT-5 y sus novedades
Según OpenAI, nos da los números de GPT‑5, donde explica que es mucho más inteligente en general, como lo refleja su rendimiento en pruebas de referencia académicas y evaluadas por personas, especialmente en matemáticas, programación, percepción visual y salud. Establece un nuevo estándar en matemáticas (94,6 % en AIME 2025 sin herramientas), programación práctica (74,9 % en SWE-bench Verified, 88 % en Aider Polyglot), comprensión multimodal (84,2 % en MMMU) y salud (46,2 % en HealthBench Hard) ; estas mejoras se reflejan en el uso diario. Gracias al razonamiento extendido de GPT‑5 pro, el modelo también establece un nuevo SOTA en GPQA , con una puntuación del 88,4 % sin herramientas.
Rendimiento de modelos GPT en el examen de preguntas de nivel experto
El gráfico muestra una comparativa del rendimiento de distintos modelos y configuraciones de inteligencia artificial frente al “Humanity’s Last Exam”, una prueba compuesta por preguntas de nivel experto en múltiples disciplinas. En él se evalúa la precisión de las respuestas en el primer intento, diferenciando entre el uso del modo de razonamiento profundo y las respuestas directas. Los resultados revelan que GPT-5 Pro con herramientas como Python y búsqueda web obtiene la mayor puntuación (42 %), mientras que las versiones sin herramientas o sin thinking muestran una caída significativa en el desempeño. Modelos como el ChatGPT agent con acceso a navegador y terminal también destacan, acercándose al rendimiento máximo. En el extremo opuesto, GPT-4o sin herramientas registra el resultado más bajo (5,3 %), evidenciando la importancia de combinar razonamiento avanzado y capacidades externas para enfrentar preguntas complejas. Esta comparación no solo mide el potencial técnico de cada modelo, sino que también ilustra cómo las configuraciones y recursos adicionales pueden marcar la diferencia en escenarios de alta exigencia intelectual.
Si bien es cierto, GPT-5 presenta una mejora considerable a sus predecesores, es evidente que comparado a lo que se especulaba con las declaraciones de Sam Altman, esto es insuficiente pues para muchos GPT-4o aún representa un modelo mucho más humanizado y adaptable a los requerimientos.

Pruebas realizadas en codificación a GPT-5
Razonamiento Multimodal
Mejoras significativas de GPT-5 en el análisis de recursos de video, esto permitirá un mayor rendimiento en su razonamiento de imágenes, ya sea para interpretar mapas, fotos, gráficas, etc.
Rapidez y eficacia en razonamiento
En evaluaciones realizadas por OpenAI, indican que GPT-5 se toma muy enserio su tarea, ya que, aprovecha cada segundo que emplea para reflexionar y analizar su respuesta. Provocando esto un mejor rendimiento, con entre 50 % y un 80 % menos de tokens de salida en todas sus capacidades, como razonamiento visual, codificación agencial y resolución de problemas científicos a nivel de posgrado.
Básicamente OpenAI nos dice que su nuevo modelo está a niveles superiores, casi doctorales, mientras que sus modelos antiguos se engloban simplemente en ser estudiantes de pregrado.
DATO: GPT‑5 se entrenó en supercomputadoras de inteligencia artificial de Microsoft Azure.
El cambio más polémico: el “router” de modelos
Una de las novedades más controvertidas es el sistema que elige automáticamente qué submodelo usar según la tarea. Aunque busca optimizar el rendimiento, muchos lo ven como una pérdida de control. Antes, el usuario podía decidir si quería la rapidez de GPT-4o o la precisión de otras versiones; ahora, GPT-5 toma esa decisión, y no siempre acierta.
Esta automatización ha generado que algunos usuarios sientan que están pagando por un servicio “cerrado” y menos personalizable, lo que contrasta con la tendencia de otras plataformas de IA que ofrecen más opciones de configuración.
Críticas por errores
El impacto negativo no proviene solo de cambios estructurales. Foros y grupos en Reddit evidencian el malestar que ha traído consigo GPT-5. Para muchos, esto contradice la narrativa de “inteligencia de nivel doctoral” que OpenAI usó en su marketing.
Usuarios de la comunidad de desarrolladores también han señalado que, aunque GPT-5 maneja mejor la programación en casos complejos, su capacidad de mantener hilos largos de conversación creativa se ha reducido, algo que para escritores y creadores de contenido es clave. Adicional a ello, presenta fallos recurrentes que le impiden poder acceder a enlaces que le envíes y sin poder analizar la información de la web que le compartas.
«El problema es que cuando intento abrir directamente los enlaces que me pasaste usando la herramienta de navegación, el servicio devuelve un error interno (500).», indica GPT-5.
Críticas comunes incluyen:
-
Respuestas más cortas y menos creativas que en GPT-4o. (Algo indicado por OpenAI que indicó que GPT-5 será más realista en sus respuestas, quizás esto explique la falta de originalidad y fantasía en sus respuestas).
-
Menor “calidez” en el tono de las interacciones.
-
Un modo “Thinking” con límite semanal de uso para usuarios Plus.
La respuesta de OpenAI
Sam Altman, CEO de OpenAI, reconoció que el lanzamiento tuvo un “inicio accidentado” y anunció la reintroducción de GPT-4o para usuarios Plus, buscando mitigar la frustración. También aceptó que el sistema de “router” no siempre se comportó como se esperaba en los primeros días.
Esto plantea un debate mayor: ¿deberían las empresas de IA priorizar la innovación técnica aunque afecte la experiencia del usuario? O, por el contrario, ¿deben mantener versiones antiguas para quienes valoran más la interacción y el control?
Por el momento ya es casi un hecho que el selector para poder cambiar de modelo a GPT-4o volverá, este hecho inminente remarca lo que en resumen es un traspié para OpenAI que no espero tanto hate por parte de la comunidad tan rápido.
¿Avance o retroceso?
GPT-5 sin duda introduce mejoras técnicas, especialmente en tareas complejas y razonamiento multimodal. No obstante, la percepción general es que el hype superó al producto final. La polémica radica en si OpenAI está priorizando la eficiencia operativa y la unificación de modelos por encima de la experiencia y control del usuario.