Muchas IA de vídeo están aprendiendo a imitar el mundo. Y todo apunta a un “saqueo” sin precedentes a YouTube – El diario andino

Una plaza, turistas, un camarero moviéndose entre las mesas, una bicicleta pasando al fondo o un periodista en un plató. Las IA de vídeo ahora pueden generar escenas en un instante. El resultado sorprende, pero también abre una pregunta que hasta hace poco apenas se planteaba: ¿de dónde han salido todas esas imágenes que han salido? permitido aprender a imitar el mundo? Según El AtlánticoParte de la respuesta apunta a millones de vídeos extraídos de plataformas como YouTube sin un consentimiento claro.
La euforia por la IA generativa ha avanzado tan rápido que muchas preguntas han quedado atrás. En sólo dos años hemos pasado de pequeños experimentos curiosos a modelos que producen vídeos casi indistinguibles de los reales. Y mientras el foco estaba en las manifestaciones, otro tema iba ganando peso: la transparencia. OpenAI, por ejemplo, ha explicado que Sora se entrena con datos “disponibles públicamente”, pero no ha detallado cuáles.
Un entrenamiento masivo que apunta a YouTube
La pieza de Atlantic da una pista clara de lo que sucedía detrás de escena. Hablamos de más de 15 millones de vídeos recopilados para entrenar modelos de IA, con una enorme cantidad viniendo de youtube sin autorización formal. Entre las iniciativas citadas se encuentran conjuntos de datos asociados a varias empresas, diseñados para mejorar el rendimiento de los generadores de vídeo. Según el medio, este proceso se llevó a cabo sin notificar a los creadores que publicaron originalmente ese contenido.
Uno de los aspectos más llamativos del hallazgo es el perfil del material afectado. No se trataba sólo de vídeos anónimos o grabaciones caseras, sino de contenidos informativos y producciones profesionales. Los medios comprobaron que miles de artículos procedían de canales pertenecientes a publicaciones como The New York Times, BBC, The Guardian, The Washington Post o Al Jazeera. En conjunto, estamos hablando de un enorme volumen de periodismo que habría acabado alimentando sistemas de IA sin acuerdo previo con sus propietarios.
Runway, una de las empresas que más impulso ha dado al vídeo generativo, destaca en los conjuntos de datos revisados. Según los documentos citados, sus modelos habrían aprendido con clips organizados por tipo de escena y contexto: entrevistas, explicativas, piezas con gráfica, planos de cocina, planos de recursos. La idea es clara: si la IA debe reproducir situaciones humanas y narrativas audiovisuales, necesita referencias reales que abarquen desde los gestos hasta los ritmos de edición.
Además de Runway, la investigación menciona conjuntos de datos utilizados en laboratorios de grandes plataformas tecnológicas como Meta o ByteDance en la investigación y desarrollo de sus modelos. La dinámica fue similar: enormes volúmenes de vídeos recopilados en Internet y compartidos entre equipos de investigación para mejorar las capacidades audiovisuales.
La postura oficial de YouTube no deja mucho margen de interpretación. Su normativa prohíbe descargar vídeos para entrenar modelosy su director general, Neal Mohan, lo ha reiterado en público. Las expectativas de los creadores, subrayó, pasan por que sus contenidos sean utilizados dentro de las reglas del servicio. La aparición de millones de vídeos en bases de datos de IA ha puesto en primer plano ese marco legal y ha intensificado la presión sobre las plataformas involucradas en el desarrollo de modelos generativos.
La reacción del sector mediático ha seguido dos caminos. Por un lado, empresas como Vox Media o Prisa han cerrado acuerdos para licenciar sus contenidos a plataformas de inteligencia artificial, buscando un marco claro y una compensación económica. Por otro lado, algunos medios de comunicación han optado por dar la cara: The New York Times ha demandado a OpenAI y Microsoft por el uso no autorizado de sus materiales, subrayando que también protegerá el contenido de vídeo que distribuye.
El terreno legal sigue sin estar claro. La legislación actual no estaba destinada a modelos que procesan millones de vídeos en paralelo, y los tribunales todavía están empezando a trazar los límites. Para algunos expertos, publicar abiertamente no equivale a transferir derechos de formaciónmientras que las empresas de IA defienden que la indexación y el uso de material público son parte del avance tecnológico. Esta tensión, aún sin resolver, mantiene a medios y desarrolladores en un constante juego de equilibrio.
Lo que tenemos ante nosotros es el inicio de una conversación que va mucho más allá de la tecnología. Entrenar modelos de IA con material disponible en Internet es una práctica generalizada desde hace años, y ahora llega el momento de decidir dónde están los límites. Las empresas prometen acuerdos y transparencia, los medios piden garantías y los creadores exigen control. La próxima etapa será tan tecnológica como política: cómo se alimenta la inteligencia artificial definirá quién se beneficia de ella.
Imágenes | con Géminis 2.5
En | Todas las grandes IA han ignorado las leyes de derechos de autor. Lo sorprendente es que todavía no hay consecuencias.


