Dall-e y la evolución de la Inteligencia Artificial: generar imágenes partiendo de descripciones

07 Marzo 2023 Por Julia Cuesta del Hoyo

Dall-e 2 es un generador de imágenes en abierto que funciona a través de Inteligencia Artificial. El funcionamiento del programa se basa en la introducción de una descripción en lenguaje natural por parte del usuario de forma que, a través de esta IA, el programa procesa la información y genera una imagen acorde a esta. Lo verdaderamente sorprendente de Dall-e no es tanto su capacidad de generar imágenes sino la precisión con la que lo hace, siendo capaz de identificar todos los elementos incluidos en la descripción aportada y crear una imagen que los combine. Cuantos más detalles se aporten, más fiel será la imagen resultante. Cabe destacar que Dall-e no solo es capaz de representar los elementos indicados por el usuario, también su distribución e incluso el estilo de la imagen, sea esta realista, acuarela, impresionista, imagen analógica, etc. A esto se suma su capacidad de entender y procesar las descripciones aportadas en lenguaje natural, sin necesidad de código html o uso de etiquetas. A través de frases como “pintura realista de un mono con sombrero de copa en un cabaret de época con paredes rosas”, la herramienta será capaz de entender la información y generar las siguientes cuatro imágenes:ilustracion1

¿Cómo es capaz Dall-e de entender una descripción y generar una imagen?

Esta inteligencia artificial funciona a través del modelo de lenguaje GPT-3. Este, gracias a un aprendizaje profundo, es capaz de simular y reconocer la redacción humana a través de un entrenamiento exhaustivo de los parámetros y fórmulas del lenguaje natural. Es decir, la aplicación es literalmente capaz de entender y responder a la petición realizada.

A esto se suma el acceso de la inteligencia artificial a una extensísima biblioteca de recursos fotográficos y artísticos, combinándolos y extrayendo la información necesaria para poder generar la imagen solicitada.

De forma simplificada se podría resumir el funcionamiento de Dall-e de la siguiente forma: el programa lee e interpreta la descripción introducida en el cuadro de texto, “piensa” en los elementos que necesita para crear la imagen y “dibuja” o genera esos elementos en formato visual. Así, da como resultado cuatro opciones para que se seleccione la que más se adecúe a la idea original. Este proceso es en parte aleatorio y se inicia de 0 cada vez que se pincha en “generar”, por lo que si no se ha quedado satisfecho con los resultados pueda intentarse de nuevo hasta dar con la imagen buscada.

Esta aplicación está todavía en fase beta y sigue desarrollándose. Sin embargo, en su última actualización, ha incluido nuevas funcionalidades que pueden resultar muy útiles. Una de ellas es, más allá de la generación de imágenes de 0, la edición o modificación de imágenes ya existentes. Así la web permite cargar archivos propios y editarlos añadiendo o borrando elementos. Por ejemplo, en la siguiente imagen se ha partido de la ilustración de un bosque para añadir una continuación de esta en el lado derecho y un sol entre copas de árboles en la parte superior.ilustracion2

¿Es Dall-e asequible para todo el mundo?

Aunque esta herramienta todavía está en proceso de desarrollo, es asequible a cualquier usuario con acceso a internet, aunque con limitaciones. Para poder utilizar este programa es necesario registrarse. Así, mediante la creación de un perfil, la web pone a disposición del usuario un total de 50 créditos durante el primer mes y 15 durante los meses siguientes. Cabe señalar que estos solo pueden utilizarse a lo largo del mes en cuestión, dado que luego expiran. A medida que se van generando o modificando imágenes los créditos se van consumiendo. Si fuese necesario obtener más créditos para seguir utilizando el programa existe la posibilidad de comprarlos por paquetes a través de la misma web.

En conclusión, aunque Dall-e es una herramienta que todavía se encuentra en desarrollo, ofrece al usuario la posibilidad de generar y modificar imágenes sin requerir de ningún esfuerzo ni conocimiento específico, más allá de introducir una descripción en una barra de texto. Esto implica un antes y un después en el desarrollo de la ilustración y el fotomontaje, además de generar nuevas cuestiones acerca de las dimensiones de la cada vez más popular Inteligencia Artificial, ¿será este el futuro de la ilustración?

Ampliación Edif. Rectorado
Campus de Móstoles
Calle Tulipán s/n.
28933 Móstoles. Madrid

cied@urjc.es

Recibe inspiración