Descubre la nueva herramienta de IA de Meta que facilita a los investigadores el análisis de fotos

La Redacción

11/abr./23 - 09:46 Actualizado: 11/abr./23 - 09:47

Editar fotos, analizar grabaciones de vigilancia y comprender las partes de una célula. Estas tareas tienen algo en común: hay que ser capaz de identificar y separar los distintos objetos de una imagen. Tradicionalmente, los investigadores han tenido que empezar de cero cada vez que querían analizar una nueva parte de una imagen.

Meta pretende cambiar este laborioso proceso convirtiéndose en la ventanilla única para investigadores y desarrolladores web que trabajan en este tipo de problemas. El pasado miércoles, la empresa presentó un modelo de IA, llamado «Segment Anything Model» o «SAM», mediante el cual los usuarios pueden crear «recortes» o segmentos de cualquier elemento de una imagen haciendo clic en un punto o dibujando un recuadro alrededor del objeto. La herramienta puede utilizarse con fines de investigación, para la edición creativa o incluso para dar sentido a los objetos mientras se llevan puestos unos auriculares de realidad virtual, ya que hace más rápido y eficaz tallar las distintas partes de una imagen.

La empresa tecnológica ha puesto a disposición del público la herramienta basada en navegador y también ha abierto su modelo de visión por ordenador, que afirma haber entrenado con «el mayor conjunto de datos de segmentación», compuesto por 1.100 millones de máscaras de segmentación (las «máscaras» son las distintas partes de una imagen) y 11 millones de imágenes cedidas por una gran empresa fotográfica. Meta no ha revelado de qué empresa ha obtenido la licencia de las imágenes.

Meta AI, la rama de investigación en inteligencia artificial del gigante de las redes sociales, trabajó con 130 anotadores humanos con sede en Kenia para crear el conjunto de datos, que se hizo mediante una combinación de etiquetado manual y automático de mil millones de partes de millones de imágenes.

Las tecnologías de reconocimiento de objetos y visión por ordenador existen desde hace años y ya están integradas en diversos dispositivos, como cámaras de vigilancia y drones. Las tiendas de Amazon, por ejemplo, utilizan el reconocimiento de objetos para detectar los artículos que se introducen en la cesta y los vehículos autónomos lo emplean para percibir su entorno. Startups contemporáneas como Runway e incumbentes como Adobe han comercializado su capacidad de utilizar la IA para detectar y seleccionar diferentes objetos dentro de una imagen para sus usuarios creativos. A medida que han ido surgiendo ingeniosos chatbots generativos de IA, el objetivo de los investigadores de Meta era fusionar los avances en los modelos fundacionales de la IA con el ámbito latente de las tecnologías de visión por ordenador.

"Yo no diría que se trata de una nueva tecnología. La segmentación de objetos ya existe, así que no diría que se trata de una nueva capacidad. Fundamentalmente, creo que su planteamiento de utilizar modelos fundacionales es nuevo y el tamaño del conjunto de datos con el que se están entrenando podría ser novedoso", afirma Paul Powers, CEO y fundador de Physna, un motor de búsqueda de objetos en 3D.