OpenAI entrena a su IA a través de millones de videos de YouTube

La semana pasada, Google acusó a OpenAI de usar videos de YouTube para entrenar a Sora. Según una investigación publicada por The New York Times, OpenAI también ha utilizado más de un millón de horas de videos de YouTube para capacitar a Whisper, su IA que transforma el sonido en texto.

Como era de esperar, Google no ha obtenido éxito debido a que OpenAI es su principal competidor en el campo de la inteligencia artificial, además de ser propiedad de sus datos.

Veremos si este caso se lleva a juicio o si se llega a un acuerdo entre las empresas para que ambas ganen.

Para mejorar, la IA necesita datos del mundo real. Y más datos son necesarios debido a la perfección de esta IA.

Según The Verge, las principales empresas de IA han utilizado tanto los datos públicos disponibles para entrenar a la IA como las colecciones privadas con las que han llegado a un acuerdo, según el periódico The New York Times.

Según la investigación, los datos de OpenAI se perdieron en 2021. Por lo tanto, a pesar de estar en “una zona gris” de la ley, sus ejecutivos discutieron sobre usar videos de YouTube, podcast y audiolibros.

Finalmente, decidieron usar aproximadamente un millón de horas de videos de YouTube para extraer el audio y entrenar a Whisper, su IA que convierte la voz en texto. Al usar solo una pequeña parte de las cientos de miles de millones de horas de videos disponibles en YouTube, se acogerían al término “uso razonable”.

Se cree que Greg Brockman, el presidente de OpenAI, estuvo involucrado en la adquisición de esos videos.

Matt Bryant, el portavoz de Google, confirma en The Verge que ha “visto informes no confirmados” sobre la actividad de OpenAI. Además, afirma que “tanto nuestros archivos robots.txt como las condiciones del servicio prohíben el scraping o la descarga no autorizada de contenido de YouTube”.

Según la investigación de The New York Times, Meta se quedó sin información hace tiempo y consideró la posibilidad de licenciar libros e incluso adquirir una editorial importante.

Algunos expertos predicen que para 2028, las empresas de IA necesitarán más datos de los que puedan generar.

La solución consiste en utilizar modelos de entrenamiento alternativos que no requieren tantos datos, o crear datos sintéticos, es decir, diseñados artificialmente para usar con la IA. Sin embargo, hasta el momento, ninguna de estas medidas ha tenido éxito.