Expertos digitales en CMS y DXP desde 2018



Ya puedes bloquear a la inteligencia artificial de Google sin afectar a Search

Te ofrecemos una regla que impide que el bot de IA de Google rastree, pero no impide que otros de sus bots lo sigan haciendo, por lo que no veremos ningún cambio en Google Search, News, Discover y otros productos.

En anteriores capítulos ya hablamos sobre cómo bloquear al bot de OpenAI (chatGPT) en robots.txt para que no coja “prestados” tus contenidos. Ahora por fin Google ha anunciado una forma de hacer lo propio con su inteligencia artificial (IA) de forma que podremos indicarle claramente que no queremos que use nuestros contenidos para entrenarse sin pagar un euro.

Los contenidos siempre han sido la base del negocio de Google y ahora de nuevo los necesita para entrenar a su inteligencia artificial, una tecnología que amenazaba con proveer las respuestas directamente, sin ni siquiera enviar tráfico a las mismas webs que les sirven de sustento, aunque esto está cambiando con las presiones de los grandes creadores de contenidos.

Algo a tener muy en cuenta es que esta regla impide que el bot de IA de Google rastree, pero no impide que otros de sus bots lo sigan haciendo, por lo que no veremos ningún cambio en Google Search, News, Discover y otros productos. Para realizar el bloqueo, solo tenemos que añadir al archivo robots.txt estas dos líneas:

User-agent: Google-Extended

Disallow: /

También recomendamos, además de bloquear a chatGPT, bloquear este otro bot muy utilizado por diversas IA:

User-agent: CCBot

Disallow: /

Y ya que nos ponemos, bloqueemo también éstos, aunque no está claro si van a atacar nuestra decisión o no:

User-agent: anthropic-ai

Disallow: /

‍User-agent: Claude-Web

Disallow: /

Glide Publishing Platform, en una de sus últimas noticias, nos propone dos bloqueos más para sacar matrícula de honor en para los pies a las IA:

User-agent: cohere-ai

Disallow: /

User-agent: ia_archiver

Disallow: /

Hay que recordar que añadir estas líneas es una declaración de intenciones por parte del webmaster que las grandes compañías suelen respetar, pero tampoco hay nada que les obligue a ello. Otras compañías de IA podrían ignorarlo sin consecuencias. Es por ello que este método no es el método definitivo y hace falta que las nuevas leyes en cuanto a IA que salgan del Gobierno de España y la Unión Europea sepan proteger los contenidos adecuadamente y establecer penalizaciones.

Algo también interesante es incluir este aspecto en las condiciones del servicio, como ha hecho ya algún gran medio, especificando ahí que no consienten expresamente que su contenido sea usado para cualquier actividad relacionada con la inteligencia artificial. Después de lo que hemos vivido con Google, el consentimiento tácito ya no es aceptable.

Es el momento, creo, de actuar por parte de las autoridades, ya sean Españolas o europeas, para proteger nuestros contenidos de una capacidades técnicas que ya son absolutamente delirantes. Coger primero el contenido y pedir permiso después no es lo que yo llamaría actuar de buena fe precisamente.


Actualización del 16-05-2024: Te dejo una lista de las IAs que estoy bloqueando yo e incluyo el archivo de Internet:

User-agent: OpenAI
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Omgilibot
Disallow: /
User-agent: Omgili
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Claude
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: AI-crawler
Disallow: /

Si sabes de alguna más, por favor usa los comentarios. ¡Gracias!

CMS MAG, en vídeo

Disponible en:

Autor: Jorge Mediavilla Martínez es licenciado en Periodismo por la Universidad Complutense de Madrid y lleva ejerciendo más de 20 años como editor de noticias, primero, y posteriormente como Product / Project Manager en empresas tan prestigiosas como ya.com, Yahoo!, acierto.com, Wunderman Thompson (grupo WPP) o grupo PRISA, entre otros. Además colabora con la URJC. Síguele en LinkedIN o Twitter. Contacto

Newsletter gratuita ‘Tu dosis 💊 de CMS MAG’

➊ Apúntate gratis y únete a más de 1.300 profesionales.

➋ Newsletter escrita personalmente por el director de CMS MAG.

➌ Recibe artículos de calidad de periodismo, CMS, DXP, SEO, IA, GfK…

¡Apúntate y recibe la primera el viernes! Sin compromiso y gratis total:

* Al suscribirte, confirmas que aceptas recibir la newsletter semanal de mejorCMS.com y las Condiciones de uso y Política de privacidad de mejorCMS.com, así como las de Mailchimp.

🔥Popular ahora:

Consigue el libro de CMS MAG gratis

¿Estás preparando una migración? ¿Deseas saber más sobre taxonomía? ¿O cómo debería estar la IA integrada en el CMS? Esto y mucho más en nuestro libro «Gestores de contenidos (CMS) para audiencias masivas en 2025».

Disponible por solo 29.95€ en Amazon o gratis con tu suscripción a CMS MAG:

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Nota: Todos los comentarios son estrictamente moderados antes de su publicación. Si el tuyo no aparece, puede que sea irrespetuoso, contenga insultos, algo ilegal, parezca spam o sea poco constructivo.