Si te preocupa que los bots de IA raspen el contenido de tu sitio web para entrenar IA, Cloudflare puede ayudarte a combatirlo.
La empresa, que afirma hacer de proxy para aproximadamente el 20% de la web, ha introducido una nueva herramienta que bloquea a todos los bots de IA para que no raspen el texto de un sitio. Cloudflare dice que la herramienta está disponible para todos los clientes, incluso aquellos en el plan gratuito.
Con el aumento de la IA generativa, las empresas necesitan contenido para entrenar chatbots. Muchas están recurriendo a los raspadores web que extraen texto de los sitios para análisis (como está haciendo ChatGPT con tus publicaciones en Reddit). Algunas empresas son directas y honestas sobre los bots de raspado web, pero otras no lo son.
Cloudflare lanzó una función en septiembre pasado para que los usuarios bloquearan a los «malos» rastreadores web de IA, o aquellos que raspaban sitios sin permiso. Naturalmente, algunas empresas encontraron una forma de evadir esto al tener raspadores que se hacen pasar por auténticos. Por eso, esta nueva herramienta bloquea a todos los rastreadores de IA, incluso aquellos que siguen el protocolo adecuado para el raspado.
Para junio de 2024, los bots de IA accedieron a alrededor del 39% de las principales un millón de «propiedades de internet» que usan Cloudflare, según la empresa. Menos del 3% de esas propiedades tomaron medidas para bloquear a los bots de IA. Según Cloudflare, los cuatro principales bots que raspaban sus sitios eran Bytespider, Amazonbot, ClaudeBot y GPTBot.
Bytespider, propiedad de Bytedance, la empresa que posee TikTok, se usa para recopilar datos de entrenamiento para sus modelos de lenguaje grandes, incluido el competidor de ChatGPT, Doubao. Amazonbot se utiliza para entrenar la parte de preguntas y respuestas de Alexa, ClaudeBot entrena a Claude AI, y GPTBot entrena a ChatGPT.
Si eres usuario de Cloudflare, usar la herramienta es simple. Solo dirígete a la sección de configuraciones de tu panel, luego haz clic en «Seguridad» y «Bots.» Desde allí, verás un botón de alternancia etiquetado como «Raspadores y rastreadores de IA.» Actívalo, y los bots de IA ya no tendrán acceso a tu contenido.
Por supuesto, los bots de IA están en constante evolución. Cloudflare dice que esta función también evolucionará automáticamente a medida que detecte las «huellas digitales» de los bots infractores.
La nueva herramienta está disponible ahora para todos los usuarios de Cloudflare a partir de hoy.
La nueva herramienta gratuita de Cloudflare detiene a los bots de colectar el contenido de tu sitio web para entrenar IA.
Si te preocupa que los bots de IA raspen el contenido de tu sitio web para entrenar IA, Cloudflare puede ayudarte a combatirlo.
La empresa, que afirma hacer de proxy para aproximadamente el 20% de la web, ha introducido una nueva herramienta que bloquea a todos los bots de IA para que no raspen el texto de un sitio. Cloudflare dice que la herramienta está disponible para todos los clientes, incluso aquellos en el plan gratuito.
Con el aumento de la IA generativa, las empresas necesitan contenido para entrenar chatbots. Muchas están recurriendo a los raspadores web que extraen texto de los sitios para análisis (como está haciendo ChatGPT con tus publicaciones en Reddit). Algunas empresas son directas y honestas sobre los bots de raspado web, pero otras no lo son.
Cloudflare lanzó una función en septiembre pasado para que los usuarios bloquearan a los «malos» rastreadores web de IA, o aquellos que raspaban sitios sin permiso. Naturalmente, algunas empresas encontraron una forma de evadir esto al tener raspadores que se hacen pasar por auténticos. Por eso, esta nueva herramienta bloquea a todos los rastreadores de IA, incluso aquellos que siguen el protocolo adecuado para el raspado.
Para junio de 2024, los bots de IA accedieron a alrededor del 39% de las principales un millón de «propiedades de internet» que usan Cloudflare, según la empresa. Menos del 3% de esas propiedades tomaron medidas para bloquear a los bots de IA. Según Cloudflare, los cuatro principales bots que raspaban sus sitios eran Bytespider, Amazonbot, ClaudeBot y GPTBot.
Bytespider, propiedad de Bytedance, la empresa que posee TikTok, se usa para recopilar datos de entrenamiento para sus modelos de lenguaje grandes, incluido el competidor de ChatGPT, Doubao. Amazonbot se utiliza para entrenar la parte de preguntas y respuestas de Alexa, ClaudeBot entrena a Claude AI, y GPTBot entrena a ChatGPT.
Si eres usuario de Cloudflare, usar la herramienta es simple. Solo dirígete a la sección de configuraciones de tu panel, luego haz clic en «Seguridad» y «Bots.» Desde allí, verás un botón de alternancia etiquetado como «Raspadores y rastreadores de IA.» Actívalo, y los bots de IA ya no tendrán acceso a tu contenido.
Por supuesto, los bots de IA están en constante evolución. Cloudflare dice que esta función también evolucionará automáticamente a medida que detecte las «huellas digitales» de los bots infractores.
La nueva herramienta está disponible ahora para todos los usuarios de Cloudflare a partir de hoy.
[Traducido por Gigatech MSP]
[Articulo original por MSN]
Recent Posts
Recent Post
La nueva herramienta gratuita de Cloudflare detiene
septiembre 10, 2024El dispositivo «accesorio para el hogar» rumoreado
septiembre 6, 2024Cómo los distritos K-12 pueden prepararse para
septiembre 5, 2024Tags