Dall-E fue una de las primeras IA de texto a imagen que conocimos y una que nos asombró hace ya unos cuantos años. Mucho ha llovido desde entonces y, actualmente, encontramos muchísimas opciones: desde la tercera generación de Dall-E que puedes probar en Bing Image Creator hasta algunas muy artísticas como Stable Diffusion.
Sin embargo, la reina para muchos sigue siendo Midjourney debido a que su última versión es capaz de generar humanos hiperrealistas (con el número correcto de dedos y todo) o escenarios de fantasía. Hay una alternativa gratuita que puedes usar fácilmente desde el móvil y tiene detrás a expertos de IA de Google. Se trata de Ideogram y tiene cositas interesantes.
Una IA gratuita para generar imágenes
Ideogram es, básicamente, una IA generativa de texto a imagen. Se lanzó en agosto en su versión 0.1 y está creada por un equipo compuesto por investigadores de diferentes universidades, pero también por algunos expertos en IA que trabajaron en Google Brain.
Gracias a diferentes inversores, han recaudado un total de 16,5 millones de dólares para el desarrollo del modelo y se encuentran contratando ingenieros, investigadores y expertos en diseño y operaciones.
Hechas las presentaciones, si hay algo en lo que se especializa esta inteligencia artificial generativa es en la correcta interpretación de los textos en las propias imágenes y en ser capaz de escribir teniendo en cuenta órdenes tipográficas.
He estado unas cuantas horas probando esta IA generativa y lo cierto es que es interesante, pero debes saber jugar con sus posibilidades, conocer los límites de la versión actual y tener en cuenta que, aunque puede generar imágenes realistas, lo que mejor se le da es tanto la generación de texto como las imágenes más artísticas.
Es algo que queda clarísimo en cuanto entramos a la página principal, con multitud de personajes 'chibi' y texto. Pero bueno, tú lo que quieres es empezar a crear imágenes y puedes hacerlo registrándote con tu cuenta de Google y empezando a escribir.
Aquí, tengo que decir que hay una cosa buena y una mala: la buena es que puedes hacer el 'prompt' tanto en inglés como en español. Reconoce bien ambos idiomas, he duplicado una imagen usando una orden en ambos idiomas y los resultados son extremadamente similares.
Lo malo es que no es tan avanzada como otras IA generativas y detalles como los dedos se les siguen resistiendo. Dicho esto, parece que esta inteligencia sí está conectada a internet, sabe perfectamente qué es un iPhone, quiénes son personajes del día a día, marcas y creaciones como Hello Kittie, Naruto, Goku o Mickey Mouse.
De hecho, para probar, simplemente he puesto "David Beckham", sin ninguna orden adicional, y me ha creado esto:
¿Por qué lo ha puesto como en una peli de superhéroes o de acción? Por las categorías. Cuando queremos generar una imagen, podemos escribir órdenes como "estilo cyberpunk" o "realista 4K", pero también es importante que seleccionemos la categoría correspondiente.
Por ejemplo, he puesto únicamente "iPhone" en las categorías 'Product' y 'Photo' y me ha generado esto:
Como ves, la primera no tiene nada que ver y las demás son... correctas, aunque queda muchísimo camino por delante. Pero bueno, atiende a las órdenes de 'producto' y 'photo' y me gusta que tienen no sólo fondos de pantallas de iPhone, sino que los iconos son los de los móviles de Apple.
Cuando quieras empezar a usar esta IA, puedes hacerlo con una de estas categorías que, simplemente, seleccionas al momento de generar la imagen:
- Cinematic
- Vibrant
- Photo
- Poster
- 3d render
- Typography
- Painting
- Fashion
- Product
- Illustration
- Anime
- Architecture
- Dark Fantasy
- Graffiti
- Portrait Photography
- Wildlife Photography
- Conceptual art
- Ukiyo-e
Hay veces que ajusta más o menos lo que quieres dentro de la categoría seleccionada, pero debo decir que suele acertar. Sobre el supuesto punto fuerte de esta IA generativa, la representación del texto, también hay cosas negativas y positivas.
Lo primero es que no se suele llevar bien con los acentos, al menos por mi experiencia. Los cuenta como apóstrofes o comillas, pero tras dos o tres intentos, suele generar un texto adecuado.
El botón 'remix'
Practicando es como encontrarás los puntos fuertes y débiles de esta IA e irás pillando el tranquillo al sistema, pero uno de los puntos que me han gustado es el del botón 'Remix'.
Y es que, todas las imágenes tienen ese botón de 'Remix' que te permite generar una nueva imagen a partir de una de un usuario, modificando el 'prompt', pero indicando al sistema que tome como referencia esa imagen que quieres 'remixear'.
Más que para coger el 'prompt' de otro, lo veo genial para ir practicando con tus imágenes y si das con un estilo que te gusta, puedes iterar a partir de él, pero con nuevas ideas.
De hecho, puedes seleccionar el peso que tendrá en la nueva creación la imagen de la que quieres hacer el remix. De esta forma tiene más o menos en cuenta esa imagen inicial.
Una especie de red social
Aparte de la vertiente creativa, Ideogram es una red social. Tiene pestañas para ver las últimas creaciones de los usuarios, las tendencias, las imágenes mejor valoradas y un apartado para los creadores que sigas. Puedes valorar las imágenes y te digo desde ya que es una pesadilla navegar por esta red.
El motivo es que casi la totalidad de las imágenes son personajes chibi, personajes de disney -chibi-, imágenes de personas -chibi- con nombres y ese tipo de creaciones. También hay otras (evidentemente son las mejores) con unos 'prompts' extremadamente desarrollados.
Nos puede servir para hacer remixes, pero también para aprender cómo realizar mejores órdenes para este tipo de inteligencias artificiales.
Ahora, sólo queda ver cómo evoluciona la herramienta porque tiene detalles como que las imágenes sean 10:16, 1:1 o 16:9 y esa vertiente de red social, pero no podemos subir imágenes para usarlas como referencia, algo que sería muy interesante.
Pero bueno, como decimos, es gratuita con tu cuenta de Google, no hemos detectado límite de creaciones y, aparte de para crear fondos de pantalla, me está gustando para aprender a desarrollar los 'prompts'.
Imagen de portada | Xataka
En Xataka Móvil | ChatGPT dice adiós a su principal límite: ahora navegará por Internet para respondernos con información actualizada