OpenAI prepara un nuevo generador de imágenes para frenar a Google

OpenAI se mueve “en las próximas semanas”.
No para lanzar otro chatbot, sino para atacar el punto donde Google ha hecho daño: la imagen.
La filtración habla de diagramas complejos y un acabado más natural.
El objetivo, en privado, suena casi a ultimátum.
Que el resultado deje de delatar a la máquina.

Jesse Degn

Actualizado: 20/04/26 | 22:31 | Tiempo de lectura: 5 min.

La noticia llega por la vía que más incomoda a Silicon Valley: la filtración bien colocada. The Information sostiene que OpenAI prepara un nuevo modelo de generación de imágenes con un salto evidente en composiciones complejas —incluidos diagramas— y que el despliegue podría producirse en las próximas semanas, según una persona conocedora del proyecto.

Lo relevante no es solo el “cuándo”, sino el “dónde”: la misma fuente apunta a testeo con usuarios de ChatGPT y apariciones en entornos comparativos bajo nombres en clave, un patrón clásico para medir rendimiento sin sesgos.

La promesa, resumida por quienes lo han visto de cerca, es sencilla: que el modelo construya piezas con muchas capas —y que el resultado no parezca “un render de IA”. Esa obsesión por la naturalidad marca el tono del lanzamiento, si finalmente se confirma.

Diagramas y texto: el cuello de botella que decide la utilidad

Generar una imagen vistosa ya no es diferencial; lo difícil es que sea útil. Ahí entran los diagramas, los flujos, las infografías y, sobre todo, el texto legible dentro de la imagen. El mercado ha penalizado durante años la misma carencia: escenas coherentes, sí; letras y estructuras densas, no. No es un detalle estético, es productividad.

OpenAI ya había intentado cerrar esa brecha con su ciclo reciente: desde la integración nativa en GPT-4o (marzo de 2025) hasta la actualización de ChatGPT Images con un modelo anunciado el 16 de diciembre de 2025, que presume de resultados más naturales y generación hasta 4× más rápida.

El problema es que, en entornos profesionales, el listón lo fijan los documentos: un organigrama, una slide, un esquema técnico. Si la herramienta falla ahí, se queda en juguete.

Google

Foto de Nathana Rebouças en Unsplash — Google Foto de Nathana Rebouças en Unsplash

El golpe de Google: Nano Banana convierte la imagen en producto

La urgencia tiene nombre de broma interna que acabó siendo marca: Nano Banana. Google lo ha empujado como generador y editor visual dentro de Gemini, y la versión Nano Banana 2 se vende ya como un salto en precisión y capacidad para crear infografías y diagramas apoyándose en búsqueda web y conocimiento del mundo.

Hay un dato que retrata la ambición: el rango de salida va de 512 px a 4K, con promesa de nitidez suficiente para usos “de verdad” y no solo para redes.

Ese avance tiene un efecto dominó: cuando el estándar incluye texto correcto, composición limpia y edición cómoda, la comparación deja de ser “arte” y pasa a ser “herramienta”. OpenAI no compite ya contra Midjourney; compite contra el flujo de trabajo de una oficina.

Altman aprieta: la guerra de interfaces, no de demos

El relato público habla de mejoras incrementales, pero el subtexto es competencia pura. La ofensiva visual de Google ha coincidido con un clima interno de aceleración en OpenAI, descrito en los últimos meses como un “code red” orientado a reforzar ChatGPT frente a rivales que ganaban tracción.

En ese contexto, el nuevo generador de imágenes no sería un añadido, sino una pieza estratégica: lo que retiene usuarios no es la promesa abstracta de la IA, sino la capacidad de resolver tareas completas —crear un diagrama, una infografía, una campaña— sin salir del chat.

Por eso el movimiento se interpreta como respuesta directa al éxito viral de Nano Banana. Otros medios especializados han ido más allá al afirmar que Altman habría pedido acelerar mejoras específicamente en imagen tras ver el impacto del modelo de Google.

Lo más grave, para OpenAI, sería perder la narrativa de “plataforma total” en el terreno donde la competencia se ha vuelto tangible.

Del asombro al margen: velocidad, precio y API como palancas

La batalla no se decide solo por calidad visual. Se decide por coste, latencia y facilidad de integración. OpenAI ya ha movido ficha en esa dirección: su modelo de imágenes de diciembre se comercializa también en API como GPT-Image-1.5, con una rebaja del 20% en entradas y salidas frente a la versión anterior, además del reclamo de velocidad 4×.

Esa combinación —más rápido y más barato— no es marketing: es intento de cerrar el paso a que las empresas “prueben” pero no “paguen”. Las imágenes, en 2026, son una línea de gasto seria: catálogos de e-commerce, creatividades, materiales de marca, prototipos. Y, sobre todo, automatización del trabajo intermedio que nadie presume de hacer.

Si el nuevo modelo cumple con diagramas complejos, su valor se multiplicaría donde más duele: consultoría, producto, marketing y formación interna. Ahí es donde una imagen deja de ser “bonita” y pasa a ser “facturable”.

Realismo, confianza y el precio de que no “cante” a IA

La búsqueda de un acabado más natural trae un coste: cuanto más realista, más fácil es confundir. El salto en fotorealismo convierte cada mejora en una discusión sobre trazabilidad, marca de agua, autoría y fraude. Y eso ocurre en un momento en el que Google empuja generación apoyada en datos del mundo y OpenAI presume de edición precisa que preserva detalles y coherencia.

El riesgo reputacional no es un apunte al pie: una herramienta que produce imágenes “creíbles” obliga a reforzar salvaguardas, porque el mercado —y los reguladores— no separan el laboratorio del uso masivo. En paralelo, la presión competitiva no permite frenar: si uno baja el ritmo por prudencia, el otro gana cuota por inercia.

En esa tensión se entiende el movimiento: OpenAI necesita que la imagen sea infraestructura, no feature. Y necesita demostrarlo pronto, antes de que Nano Banana deje de ser tendencia y se convierta en hábito.

Etiquetas: