La IA consume datos masivamente y los editores son los que mejor los generan

Ahora hay más preguntas que certezas, pero lo que parece claro es que la clave está en el contenido de alto valor…

08/04/2024

|

Lectura:

2–3 minutos

Siempre es interesante leer los artículos que publica Rob Corbidge de Glide. Hace poco hablaba de que la IA se estaba comiendo Internet y ahora, en su último artículo, considera que son los editores los que tienen la solución a este problema. Sobre todo, porque considera que los datos de los medios serán aún más valiosos.

Cambia de CMS gratis con expertos

Cambia a un nuevo CMS más rápido y seguro, con inteligencia artificial (IA) integrada e incluso consigue ahorro. ¡Es posible!

Asesoramiento experto gratis para ti

Tal y como explica Corbidge, los futuros modelos de inteligencia artificial generativa podrían requerir una cantidad de datos tan ingente como todo internet para entrenarlos. Hace referencia a una entrevista al investigador Pablo Villalobos del Instituto Epoch en el Wall Street Journal: “un sistema de IA como GPT-5 necesitaría entre 60 billones y 100 billones de tokens de datos” si se continuara con el crecimiento actual.

De hecho, Villalobos aseguraba ante el WSJ que “aprovechar todos los datos de lenguaje e imágenes de alta calidad disponibles aún dejaría un déficit de entre 10 billones a 20 billones de tokens o más”, y lo peor: “que no está claro cómo cerrar esa brecha”.

Pero todo esto no es algo que preocupe a los editores. Es más, se convierten en la posible solución porque son aquellos capaces de generar todos esos datos. Corbidge lo explica de manera muy gráfica: “esto es una fiebre del oro y los editores producen mucho oro”.

Relacionado: Noticias de Glide

Si lo editores quieren convertirse en “mercenarios” esta es su oportunidad, porque pueden ver su contenido “en términos de los relucientes tokens de alta calidad” que empresas como OpenAI necesitan para “alimentar sus voraces sistemas”.

“Debe haber un buen precio para este material si su valor es tan alto. Si funciona para las compañías mineras de litio que alimentan la revolución energética, entonces seguramente debe ser para los editores que alimentan la revolución de la IA. Especialmente porque son una de las principales fuentes del 10% de datos de alta calidad que los modelos de entrenamiento valoran tanto”, explica claramente.

Es tal el valor y la necesidad de estos datos que – apunta Corbidge – algunas compañías de IA están tratando de generar datos sintéticos (aunque tampoco está claro qué son).

Relacionado: Noticias de inteligencia artificial

Ahora la cuestión es cómo crear ese mercado de datos, cómo atribuir el precio o cuál sería el modelo de pago. Parece que OpenAI ya está trabajando en ello para saber cómo calcular cuánto valor tiene cada dato individual en el modelo final entrenado y cuánto se debe pagar al proveedor de ese contenido.

Teniendo en cuenta que el mercado editorial está o en pie de guerra o llegando a acuerdos con OpenAI, la hipótesis lanzada por Corbidge tiene su razón de ser: “esto es una indicación de un cambio de actitud en torno a la recopilación de datos para el entrenamiento de IA y del valor que tienen esos datos”.

Ahora hay más preguntas que certezas, pero lo que parece claro es que la clave está en el contenido de alto valor.

🔔 Recuerda: Si tienes problemas con tu proyecto digital:

Contacta ahora

Últimas noticias:

Apúntate gratis al boletín semanal:

Al suscribirte, confirmas que aceptas recibir la newsletter semanal de mejorCMS.com y las Condiciones de uso y Política de privacidad de mejorCMS.com, así como las de Mailchimp.