El modelo de aprendizaje automático puede identificar la acción en un videoclip y etiquetarlo, sin la ayuda de humanos
Los humanos observamos el mundo a través de una combinación de diferentes modalidades, como la visión, el oído y nuestra comprensión del lenguaje. Las máquinas, por otro lado, interpretan el mundo a través de datos que los algoritmos pueden procesar.
Entonces, cuando una máquina «ve» una foto, debe codificar esa foto en datos que pueda usar para realizar una tarea como la clasificación de imágenes. Este proceso se vuelve más complicado cuando las entradas vienen en múltiples formatos, como videos, clips de audio e imágenes.
«El principal desafío aquí es, ¿cómo puede una máquina alinear esas diferentes modalidades? Como humanos, esto es fácil para nosotros. Vemos un automóvil y luego escuchamos el sonido de un automóvil que pasa, y sabemos que son lo mismo. Pero para el aprendizaje automático, no es tan sencillo», dice Alexander Liu, estudiante graduado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y primer autor de un artículo que aborda este problema.
Liu y sus colaboradores desarrollaron una técnica de inteligencia artificial que aprende a representar datos de una manera que captura conceptos que se comparten entre las modalidades visuales y de audio. Por ejemplo, su método puede aprender que la acción de un bebé llorando en un video está relacionada con la palabra hablada «llorando» en un clip de audio.
Usando este conocimiento, su modelo de aprendizaje automático puede identificar dónde se lleva a cabo una determinada acción en un video y etiquetarla.
Funciona mejor que otros métodos de aprendizaje automático en tareas de recuperación multimodal, que implican encontrar un dato, como un video, que coincida con la consulta de un usuario dada en otra forma, como el lenguaje hablado. Su modelo también facilita que los usuarios vean por qué la máquina cree que el video que recuperó coincide con su consulta.
Esta técnica podría utilizarse algún día para ayudar a los robots a aprender sobre conceptos en el mundo a través de la percepción, más como lo hacen los humanos.
Junto a Liu en el artículo están el posdoctorado de CSAIL, SouYoung Jin; los estudiantes de posgrado Cheng-I Jeff Lai y Andrew Rouditchenko; Aude Oliva, científica investigadora sénior en CSAIL y directora del MIT-IBM Watson AI Lab del MIT; y el autor principal James Glass, científico investigador principal y director del Grupo de Sistemas de Lenguaje Hablado en CSAIL. La investigación se presentará en la Reunión Anual de la Asociación de Lingüística Computacional.