'Imagen', el proyecto de IA de Google que crea imágenes a partir de textos

Google ha presentado su proyecto de IA como un modelo de difusión de texto a imagen, el cual plantea una alternativa a la IA de OpenAI, Dalle-2 , que es el nombre de este proyecto, ofrece la oportunidad de crear imágenes fotorrealistas a partir de textos descriptivos.

Imagen está construido a partir de grandes modelos lingüísticos para lograr el profundo entendimiento del lenguaje que alcanza su tecnología. Así mismo, trabaja en conjunto con modelos de difusión para la creación de imágenes con un mayor nivel de fidelidad. Es decir, imágenes que se adecúen con mayor eficiencia a las descripciones realizadas en el texto.

De acuerdo con las declaraciones de Google, uno de los principales descubrimientos que han realizado en el desarrollo de Imagen, es que la integración de amplios modelos de lenguaje aumenta la fidelidad y la alineación imagen-texto, mucho más que el aumentar el tamaño del modelo de difusión de imágenes. Así, los modelos de lenguaje genéricos de gran tamaño, los cuales están pre entrenados en la interpretación de corpus de textos (serie de fragmentos de lenguaje estructurados), son ideales para las funciones de este proyecto de IA. Además, permiten conseguir imágenes de alta calidad y relación con el texto como las que hemos visto.

Por otro lado, junto con la presentación de estos resultados de investigación que hemos mencionado, Google también publicó un Draw Bench. Su finalidad es servir de guía y comparativa, siendo un punto de referencia de la aceptación de Imagen, frente a los otros motores de IA para la creación de imágenes a partir de texto en el mercado, como Dalle-2 y VQ-GAN+CLIP. Según informa Google, los resultados de esta comparación revelan que los evaluadores humanos prefieren Imagen sobre estos otros modelos, tanto en lo relativo a la calidad de la imagen como a la alineación texto-imagen.