Google presenta 'Gemini', un nuevo modelo de IA más avanzado

La Redacción

07/dic./23 - 09:56 Actualizado: 07/dic./23 - 09:56

Google ha anunciado una serie de anuncios importantes de IA; han lanzado un modelo de IA más grande y capaz: Gemini. El anuncio incluye avances dentro del mundo de los desarrolladores, empresas y consumidores por lo que creemos que es relevante destacar los principales hitos y recursos disponibles a continuación:

¿Qué anuncian?

Gemini— es el lenguaje de IA más capaz que hemos desarrollado hasta el momento. Es el resultado de un trabajo colaborativo a escala de múltiples equipos en Google, incluídos DeepMind y Google Research. Por ello han optimizado Gemini 1.0, su primera versión del modelo, en tres diferentes tamaños:

Gemini Ultra – un modelo más potente y de mayor tamaño, para tareas de gran complejidad.
Gemini Pro – un mejor modelo para escalar en una amplia gama de tareas.
Gemini Nano – un modelo más eficiente para ejecutar tareas directamente en un dispositivo.

Qué es Gemini

Gemini es un modelo de IA multimodal, lo que significa que puede generalizar y comprender, operar y combinar a la perfección distintos tipos de información, como texto, imágenes, audio, vídeo y lenguajes de código.

"También es nuestro modelo más flexible hasta el momento, capaz de ejecutarse de manera eficiente en todo, desde dispositivos móviles hasta centros de datos. Gemini mejorará significativamente la forma en que los desarrolladores y clientes empresariales construyen y escalan con IA", afirman desde Google.

Construido sobre capacidades de próxima generación

Hasta ahora, el enfoque para crear modelos multimodales implicaba entrenar componentes separados para diferentes modalidades y luego unirlos para imitar parte de dichas funcionalidades. A veces, estos modelos pueden ser buenos para realizar determinadas tareas, como describir imágenes, pero tienen dificultades con un razonamiento más conceptual y complejo.

"Por eso, diseñamos Gemini para que fuera multimodal de forma nativa: entrenado desde el principio en diferentes modalidades. Luego lo perfeccionamos con datos multimodales adicionales para perfeccionar aún más su eficacia. Esto ayuda a Gemini a comprender y razonar perfectamente sobre todo tipo de entradas desde cero, mucho mejor que los modelos multimodales existentes, y sus capacidades son de última generación en casi todos los dominios", destacan desde la compañía.

Pruebas comparativas

Desde Google declaran: "Hemos estado probando rigurosamente nuestros modelos Gemini y evaluando su desempeño en una amplia variedad de tareas. Desde la comprensión de imágenes naturales, audio y video hasta el razonamiento matemático; el desempeño de Gemini Ultra supera los resultados actuales de última generación en 30 de los 32 puntos de referencia académicos, ampliamente utilizados en la investigación y en el desarrollo de grandes modelos de lenguaje."