Ciencia y tecnología

Muchas IA de vídeo aprenden a imitar el mundo. Y todo apunta a un “saqueo” sin precedentes a YouTube – Al Día cr

Una plaza, turistas, un camarero moviéndose entre las mesas, una bicicleta pasando al fondo o un periodista en plató. Las IA de vídeo ahora pueden generar escenas a la velocidad del rayo. El resultado es sorprendente, pero también plantea una pregunta que rara vez se planteaba hasta hace poco: ¿de dónde proceden todas las imágenes que se crearon aquí? permite aprender a imitar el mundo? Según El AtlánticoParte de la respuesta sugiere que se accedió a millones de vídeos desde plataformas como YouTube sin un consentimiento claro.

La euforia en torno a la IA generativa se ha desarrollado tan rápidamente que muchas preguntas han quedado atrás. En apenas dos años hemos pasado de pequeños experimentos curiosos a modelos que producen vídeos casi indistinguibles de la realidad. Y si bien las manifestaciones ocuparon un lugar central, otro tema cobró más importancia: la transparencia. Por ejemplo, OpenAI ha declarado que Sora está entrenado utilizando datos «disponibles públicamente», pero no ha dado más detalles sobre cuáles.

Un entrenamiento masivo que hace referencia a YouTube.

El Atlantic Post da una clara indicación de lo que sucedía detrás de escena. Hablamos de más de 15 millones de vídeos recopilados para entrenar modelos de IA, una cantidad enorme Viene de youtube sin aprobación formal. Las iniciativas mencionadas incluyen conjuntos de datos de varias empresas destinados a mejorar el rendimiento de los generadores de vídeo. Según el medio, esta operación se realizó sin notificar a los creadores que publicaron originalmente este contenido.

Uno de los aspectos más llamativos del descubrimiento es el perfil del material involucrado. No se trataba sólo de vídeos anónimos o grabaciones caseras, sino más bien de contenidos informativos y producciones profesionales. Los medios señalaron que miles de publicaciones procedían de medios afiliados a publicaciones como el New York Times, la BBC, The Guardian, el Washington Post y Al Jazeera. En general, estamos hablando de una enorme cantidad de periodismo que, en última instancia, habría resultado en alimentar sistemas de inteligencia artificial sin el consentimiento previo de sus propietarios.

Runway, una de las empresas que más ha sido pionera en el vídeo generativo, se destaca en los conjuntos de datos revisados. Según los documentos citados, sus modelos aprendieron con clips organizados por tipo de escena y contexto: Entrevistas, explicaciones, artículos con gráficos, planos de cocina, planos de recursos.. La idea es clara: si la IA necesita reproducir situaciones humanas y narrativas audiovisuales, necesita referencias reales que abarquen desde los gestos hasta los ritmos de edición.

Fragmentos de un vídeo creado con la herramienta Runway

Además de Runway, el estudio también menciona conjuntos de datos que se utilizan en los laboratorios de grandes plataformas tecnológicas como Meta o ByteDance en la investigación y desarrollo de sus modelos. La dinámica fue similar: se recopilaron enormes cantidades de vídeos en Internet y se compartieron entre equipos de investigación para mejorar las habilidades audiovisuales.

La postura oficial de YouTube no deja mucho margen de interpretación. La normativa prohíbe descargar vídeos para entrenar modelosy su director general, Neal Mohan, lo ha afirmado públicamente. Destacó que las expectativas de los creadores son que su contenido se utilice dentro de las reglas del servicio. La aparición de millones de vídeos en bases de datos de IA ha puesto en primer plano este marco legal y ha aumentado la presión sobre las plataformas involucradas en el desarrollo de modelos generativos.

La reacción del sector de los medios fue doble. Por un lado, empresas como Vox Media y Prisa han firmado acuerdos para licenciar sus contenidos a plataformas de inteligencia artificial y luchan por conseguir unas condiciones marco claras y una compensación económica. Por otro lado, algunos medios de comunicación han decidido tomar medidas: The New York Times ha demandado a OpenAI y Microsoft por el uso no autorizado de sus materiales, subrayando que la empresa también protegerá el contenido de vídeo que distribuye.

El terreno legal sigue sin estar claro. La legislación actual no estaba destinada a modelos que procesan millones de vídeos en paralelo, y los tribunales todavía están empezando a trazar la línea. Para algunos expertos La publicación abierta no es lo mismo que la cesión de derechos de formaciónmientras que las empresas de IA defienden que la indexación y el uso de material público es parte del progreso tecnológico. Esta tensión aún no resuelta mantiene a los medios y a los desarrolladores en un constante juego de equilibrio.

Lo que tenemos ante nosotros es el inicio de una conversación que va mucho más allá de la tecnología. Entrenar modelos de IA con materiales disponibles en Internet ha sido una práctica generalizada durante años, y ahora ha llegado el momento de decidir cuáles son los límites. Las empresas prometen acuerdos y transparencia, los medios exigen garantías y los autores exigen control. La próxima etapa será tan tecnológica como política: cómo se alimente la inteligencia artificial determinará quién se beneficiará de ella.

Imágenes | con Géminis 2.5

En | Todas las principales IA han ignorado las leyes de derechos de autor. Lo sorprendente es que todavía no hay consecuencias.