La IA no deja de robar contenido de Internet para mejorar. Y Internet ha hinchado las narices – El diario andino


Ese Reddit bloquea la acción al archivo de Internet es una tragedia. Y también una forma de detener un voraz e implacable
El precio a pagar por tener IA es el saqueo de todo el contenido de Internet. En Reddit lo saben bien, y acaban de tomar una medida extrema contra esos robos indiscriminados: no es que ya bloqueen el acceso a su contenido a los ‘raspadores’ de las empresas de IA directamente. Ahora también los bloquean si estas compañías intentan acceder con Rodeos. ¿La fiesta lesionada? Archivo de Internet.
Qué pasó. Reddit, que siempre ha sido muy proactivo al proteger «sus» contenidos (que, por cierto, han sido generados por usuarios voluntariamente y libres), se ha dado cuenta de algo: los estaban robando. Pero no directamente, sino a través de versiones anteriores almacenadas en esa gigantesca hemeroteca digital llamado Archivo de Internet.
Wayback Machine sin acceso. Wayback Machine es la «máquina a tiempo» del archivo de Internet, y permite el acceso a versiones antiguas de cualquier sitio web. Pero para evitar más robo de contenido, Reddit ha prohibido esta plataforma para indexar la gran mayoría del contenido de Reddit. Solo la página de inicio de Reddit.com se puede indexar.
Argumento de Reddit. Tim Rathschmidt, portavoz de Reddit, explicó Al borde Que aunque Internet Archive es un servicio dirigido a la web abierta, habían descubierto «casos en los que las compañías de inteligencia artificial violan las políticas de la plataforma, incluida la nuestra, y extraen datos de Wayback Machine». Además, señaló lo siguiente:
«Hasta que puedan defender su sitio y cumplir con las políticas de la plataforma (por ejemplo, respetar la privacidad de los usuarios, en relación con la eliminación del contenido eliminado), estamos limitando parte de su acceso a los datos de Reddit para proteger a los usuarios de Reddit».
Si quieres nuestro contenido, pague. Ese mensaje del portavoz es razonable, pero como poco está incompleto. Especialmente desde que Reddit ha perseguido ese tipo de saqueo de las compañías de IA. Él ha tratado de bloquear a los que lo hicieron con medios técnicos, y el objetivo antes y ahora era el mismo: que las compañías pagan por su contenido.
Es algo que ha logrado con los acuerdos que han alcanzado desde que comenzaron este tipo de procesos. Lo primero que hizo fue cerrar su API, un desastre para todo Internet. Luego terminó llegando a un Acuerdo de Google, que paga 60 millones de dólares al año para poder acceder a esos contenidos. Y lo mismo terminó haciendo con OpenAi, con el que selló un pacto cuyos detalles económicos no se han revelado, pero eso da acceso a los contenidos de Reddit a los modelos que mejoran el chatgpt.
Mi contenido es mío (más o menos). Las plataformas sociales han estado alimentando el contenido de los usuarios durante años. Hasta ahora, el modelo de negocio se centró en la publicidad, pero la llegada de IA nos ha permitido tener un modelo alternativo interesante: que las empresas de IA pagan por poder acceder a esos contenidos.
Los usuarios apenas ganan, reddit y redes sociales. Contenido afirmando que son suyos, como Reddit, que en junio Él demandó al antrópico– Pero eso en realidad creó a los usuarios de estas plataformas, que sin darse cuenta se han convertido en esclavos de estas redes sociales: no dejan de producir contenido que otros consumen, y lo hacen sin cobrar un euro.
Estas plataformas son intermediarios que proporcionan la infraestructura necesaria para que este contenido esté disponible de forma gratuita, pero casi no hay ninguna consideración para los creadores. Solo unos pocos pueden ganarse la vida en YouTube, Tiktok o Instagram, por ejemplo. En Reddit existir Alguna remuneración metálica para los «contribuyentes» que más crean para la plataforma.
Cloudflare y bloqueos de contenido. Las compañías de contenido comienzan a actuar de manera similar, y en los últimos dos años hemos visto cómo algunos grupos editoriales, incluidos los acuerdos de apuro, alcanzan las compañías de IA para que puedan usar sus contenidos.
¡No debe pasar! Sin embargo, hay empresas que van más allá. Tenemos un ejemplo claro para Cloudflare, quien ha creado un sistema para empresas que usan sus servicios para bloquear los «rastreadores de IA» que intentan robar sus contenidos. Si es un cliente de CloudFlare, puede activar ese bloque, evitando así el problema o al menos ponerlo Mucho más difícil a las compañías de IA que intentan capacitar a sus modelos con sus datos. Los medios y plataformas como Associated Press, Fortune, Time o Stack Overflow son algunas de las compañías que ya están utilizando dicho sistema.
Compensación. Este juego de gatos y ratones es especialmente llamativo para todo el segmento de la creación de contenido, porque las compañías de IA usan todos los atajos que pueden capturarse (y robar), tener o no derechos de autor. Lo que plantea Reddit es un modelo en el que los creadores compensan que la IA tome esos datos. O más que creadores, plataformas que sirven como su reunión y exhibición. Los grupos de medios y los productores de contenido audiovisual tienen una oportunidad interesante aquí frente al posible colapso del tráfico causado por soluciones como las descripciones de Google AI.
En | La «descomposición digital»: cómo el 38% de los sitios web que existieron en 2013 han desaparecido de Internet