En anteriores capítulos ya hablamos sobre cómo bloquear al bot de OpenAI (chatGPT) en robots.txt para que no coja “prestados” tus contenidos. Ahora por fin Google ha anunciado una forma de hacer lo propio con su inteligencia artificial (IA) de forma que podremos indicarle claramente que no queremos que use nuestros contenidos para entrenarse sin pagar un euro.
Cambia de CMS gratis con expertos

¿Tu CMS te tiene desesperado?
Cambia a un nuevo CMS, con inteligencia artificial (IA), e incluso ahorra. Los expertos de CMS MAG te asesoran gratis:
Los contenidos siempre han sido la base del negocio de Google y ahora de nuevo los necesita para entrenar a su inteligencia artificial, una tecnología que amenazaba con proveer las respuestas directamente, sin ni siquiera enviar tráfico a las mismas webs que les sirven de sustento, aunque esto está cambiando con las presiones de los grandes creadores de contenidos.
Noticias relacionadas: Inteligencia artificial (IA)
Algo a tener muy en cuenta es que esta regla impide que el bot de IA de Google rastree, pero no impide que otros de sus bots lo sigan haciendo, por lo que no veremos ningún cambio en Google Search, News, Discover y otros productos. Para realizar el bloqueo, solo tenemos que añadir al archivo robots.txt estas dos líneas:
User-agent: Google-Extended
Disallow: /
También recomendamos, además de bloquear a chatGPT, bloquear este otro bot muy utilizado por diversas IA:
User-agent: CCBot
Disallow: /
Y ya que nos ponemos, bloqueemo también éstos, aunque no está claro si van a atacar nuestra decisión o no:
User-agent: anthropic-ai
Disallow: /
User-agent: Claude-Web
Disallow: /
Glide Publishing Platform, en una de sus últimas noticias, nos propone dos bloqueos más para sacar matrícula de honor en para los pies a las IA:
User-agent: cohere-ai
Disallow: /
User-agent: ia_archiver
Disallow: /
Hay que recordar que añadir estas líneas es una declaración de intenciones por parte del webmaster que las grandes compañías suelen respetar, pero tampoco hay nada que les obligue a ello. Otras compañías de IA podrían ignorarlo sin consecuencias. Es por ello que este método no es el método definitivo y hace falta que las nuevas leyes en cuanto a IA que salgan del Gobierno de España y la Unión Europea sepan proteger los contenidos adecuadamente y establecer penalizaciones.
Algo también interesante es incluir este aspecto en las condiciones del servicio, como ha hecho ya algún gran medio, especificando ahí que no consienten expresamente que su contenido sea usado para cualquier actividad relacionada con la inteligencia artificial. Después de lo que hemos vivido con Google, el consentimiento tácito ya no es aceptable.
Es el momento, creo, de actuar por parte de las autoridades, ya sean Españolas o europeas, para proteger nuestros contenidos de una capacidades técnicas que ya son absolutamente delirantes. Coger primero el contenido y pedir permiso después no es lo que yo llamaría actuar de buena fe precisamente.
Actualización del 16-05-2024: Te dejo una lista de las IAs que estoy bloqueando yo e incluyo el archivo de Internet:
User-agent: OpenAI
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Omgilibot
Disallow: /
User-agent: Omgili
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Claude
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: AI-crawler
Disallow: /
Si sabes de alguna más, por favor usa los comentarios. ¡Gracias!
CMS MAG, en vídeo
Disfruta del último programa de nuestro pódcast en vídeo La Hora de CMS MAG:

Suscríbete y recuerda que siempre dejamos los momentos más divertidos en forma de Shorts.
Disponible en:
Últimas noticias:

Autor: Jorge Mediavilla Martínez es licenciado en Periodismo por la Universidad Complutense de Madrid y lleva ejerciendo más de 20 años como editor de noticias, primero, y posteriormente como Product / Project Manager en empresas tan prestigiosas como ya.com, Yahoo!, acierto.com, Wunderman Thompson (grupo WPP) o grupo PRISA, entre otros. Además colabora con la URJC. Síguele en LinkedIN o Twitter. Contacto













Deja una respuesta