La IA de Google ahora es un estudio de diseño: así es "Nano-banana"", el modelo que edita fotos y conversa con el usuario

By pontecool 2025-08-27 14:44:12 Tecnologia

Tras una semana asomando en las clasificaciones de varias pruebas, Google ha confirmado que "Nano-banana" es el nombre en clave de su nuevo motor generativo, capaz de permitir la edición fotográfica mediante el diálogo. Hace unos días, un misterioso modelo de inteligencia artificial generativa comenzó a aparecer en los primeros puestos de varias pruebas de habilidad. ¿Su nombre? "Nano-banana". Nadie sabía muy bien quién podría estar detrás aunque en los últimos días la hipótesis de que se trataba de un nuevo modelo de Google cobró bastante fuerza. Ha resultado ser cierto. "Nano-banana" es un nuevo modelo generativo de Google que oficialmente se conocerá como Gemini 2.5 Flash Image y que no solo soluciona una de las grandes frustraciones de la IA, la capacidad de generar imágenes siempre coherentes, sino que llega junto a un revolucionario paradigma de edición conversacional. El usuario puede dialogar con una imagen, pidiendo cambios y ajustes como si estuviera dirigiendo a un diseñador humano.

Es un ataque en dos frentes que pone en jaque tanto a generadores puros como Midjourney como a Photoshop.

El primer gran hito de Gemini 2.5 Flash Image es la superación de muchos de los problemas de coherencia que suelen tener otros modelos. Pedirle a un sistema como DALL-E 3 o Midjourney que modifique una fotografía no garantizaba siempre que la persona protagonista siguiese siendo la misma en el resultado o que no aparecieran deformaciones o inconsistencias en la iluminación o la perspectiva. Las últimas versiones de estos modelos han comenzado a solucionarlo pero el nuevo modelo de Google integra la coherencia de las diferentes partes de la imagen a un nivel mucho más profundo.

A esto hay que sumar la simplicidad de la interacción. Google ha transformado el proceso de creación en una conversación continua. En lugar de empezar de cero con cada nueva idea, los usuarios pueden refinar una imagen generada mediante órdenes en lenguaje natural. Frases como "haz el cielo más dramático", "añade un perro sentado en ese banco" o "cambia el color del coche a rojo" son ahora instrucciones

Fuente: https://www.elmundo.es/tecnologia/2025/08/26/68ae092ee9cf4acf568b459c.html

Artículos Relacionados