Solo el 27% de los principales medios de comunicación en España bloquea a OpenAI

Destaca especialmente el caso de Estados Unidos, donde hasta el 79% de los medios estudiados utiliza bloqueadores para evitar el rastreo de OpenAI…

Durante el pasado año medios de comunicación en todo el mundo comenzaron a habilitar bloqueos para evitar que los rastreadores de contenido de los modelos de IA accedieran a sus noticias. Los datos que maneja el Instituto Reuters de la Universidad de Oxford, publicados en su Digital News Report, nos dicen, tras analizar las 15 principales webs de noticias con mayor difusión en España, que un 27% utiliza estos bloqueadores ante OpenAI y un 7% frente a Google AI.

Asesoramiento experto gratuito en cambio de CMS

¡Cambia a un nuevo CMS, con inteligencia artificial, e incluso ahorra!

Unas cifras que se alejan considerablemente de lo registrado en otros países analizados, como Estados Unidos, Dinamarca, India, Noruega o Reino Unido, con porcentajes que superan el 50%.

Destaca especialmente el caso de Estados Unidos, donde hasta el 79% de los medios estudiados utiliza bloqueadores para evitar el rastreo de OpenAI y el 36% el de Google AI (en estos porcentajes no se incluye el Washington Post).

Los países con el menor uso de bloqueadores respecto a OpenAI son México y Polonia, ambos con un 20%, y Brasil con un 33%. Como vemos, España entraría en este grupo.

En cuanto al crawler de la inteligencia artificial de Google, es en Alemania donde el 60% de los medios digitales más leídos utilizan bloqueadores para impedir su acceso – el mismo porcentaje que ante OpenAI.

Desde el Instituto Reuters apuntan varias razones para los menores porcentajes de uso de los bloqueadores ante GoogleAI: “Podría deberse a que ChatGPT destaca y es más utilizado que Bard/Gemini, o a que el rastreador OpenAI se lanzó primero. También es posible que los editores sean más cautelosos a la hora de bloquear a Google para que no afecte a su relevancia en los resultados de búsqueda, a pesar de que hay rastreadores independientes para la búsqueda y la IA”.

Obtención de información en tiempo real

Recordemos que los bots que utiliza OpenAI para su ChatGPT o Google para Gemini no solo extraen datos de las webs para entrenar sus LLM, también se utilizan para obtener información en tiempo real en respuesta a las solicitudes de los usuarios. En el momento de utilizar los bloqueadores se impide el acceso y esto repercute directamente en la calidad de las respuestas y en su capacidad para recuperar información.

El Instituto Reuters en su análisis ha visto cómo de media el 48% de los sitios web de noticias con mayor difusión cerraban el paso a los rastreadores de OpenAI y un número menor, un 24% de media, hacía lo mismo con la inteligencia artificial de Google. Es más, casi todas las webs que optaron por bloquear el de Google hicieron lo mismo con los de OpenAI y ninguno de los sitios revocó su decisión una vez tomada.

Cómo funcionan los rastreadores y cómo bloquearlos

El uso de rastreadores no es nuevo, de hecho, los bots o arañas escrutan automáticamente la web para recopilar datos de forma sistemática para, por ejemplo, indexar páginas en los motores de búsqueda.

Ahora, su uso y finalidad se ha extendido con la llegada de la IA generativa, ya que rastrean los datos de la web para entrenar los modelos de inteligencia artificial generativa. Los LLM necesitan grandes volúmenes de datos y qué mejor que buscarlos en Internet.

Sin embargo, se están topando con una barrera debido a los derechos de autor. Es el caso de los medios británicos que ya han pedido a su gobierno que actúe para evitar el uso de sus contenidos sin un acuerdo de licencia previo.

También el New York Times se ha posicionado en esa línea y demanda una compensación financiera por el uso de sus noticias para el entrenamiento de estos modelos de inteligencia artificial generativa.

Hay otros, como el grupo editorial Axel Springer que ya han cerrado acuerdos con OpenAI para responder a las consultas de los usuarios y contribuir activamente al desarrollo de los nuevos modelos.

La forma de bloquear el acceso es incluir código en el archivo robots.txt en el sitio web. De hecho, cuando OpenAI lanzó sus últimos bots en agosto del pasado año, también dio las instrucciones de cómo bloquearlo.

El informe también hace una apreciación y es que este panorama puede cambiar si los medios y los grupos editoriales comienzan a llegar a acuerdos para el uso de su contenido.

Autor: Jorge Mediavilla Martínez es licenciado en Periodismo por la Universidad Complutense de Madrid y lleva ejerciendo más de 20 años como editor de noticias, primero, y posteriormente como Product / Project Manager en empresas tan prestigiosas como ya.com, Yahoo!, acierto.com, Wunderman Thompson (grupo WPP) o grupo PRISA, entre otros. Además colabora con la URJC. Síguele en LinkedIN o Twitter. Contacto

Consigue el libro de CMS MAG

Todo sobre migración, taxonomías, analítica, roles y permisos y, en general, todo lo que debes saber para trabajar con gestores de contenidos para gran tráfico.

Por solo 29,95€ en Amazon o gratis con tu suscripción a CMS MAG

🔥Popular ahora:

Comentarios: ¿Tienes algo que aportar?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Nota: Todos los comentarios son estrictamente moderados antes de su publicación. Si el tuyo no aparece, puede que sea irrespetuoso, contenga insultos, algo ilegal, parezca spam o sea poco constructivo.