El proveedor de servicios en la nube que cotiza en bolsa, Cloudflare, ha lanzado una nueva herramienta gratuita para evitar que los bots extraigan datos de sitios web alojados en su plataforma para entrenar modelos de IA.

Algunos proveedores de IA, incluidos Google, OpenAI y Apple, permiten a los propietarios de sitios web bloquear los robots utilizados para la extracción de datos y el entrenamiento de modelos modificando el archivo robots.txt de su sitio, un archivo de texto que les dice a los robots a qué páginas del sitio web se puede acceder. Pero, como señala Cloudflare en un artículo Correo Si bien anuncian sus herramientas de lucha contra bots, no todos los raspadores de IA las respetan.

«Los clientes no quieren que los robots de inteligencia artificial visiten sus sitios web, especialmente aquellos que lo hacen de manera deshonesta», escribe la compañía en su blog oficial. «Tememos que algunas empresas de inteligencia artificial que intentan eludir las reglas para acceder al contenido se adapten continuamente para evitar la detección de bots».

Entonces, en un esfuerzo por resolver este problema, Cloudflare analizó el tráfico de rastreadores y robots de IA para ajustar su modelo automatizado de detección de bots. Los modelos consideran, entre otros factores, si un robot de IA intenta evitar la detección imitando la apariencia y el comportamiento de alguien que utiliza un navegador web.

«Cuando los delincuentes intentan rastrear sitios web a escala, normalmente utilizan herramientas y marcos que podemos identificar», escribe Cloudflare. «Con base en estas señales, nuestros modelos[son]capaces de marcar adecuadamente el tráfico de robots de IA poco fiables como robots».

Cloudflare ha creado un formulario para que los hosts informen sobre robots y rastreadores de IA sospechosos y dijo que continuará incluyendo manualmente los robots de IA en la lista negra con el tiempo.

El problema de los robots de IA se ha vuelto más evidente a medida que el auge de la IA generativa ha aumentado la demanda de datos de entrenamiento de modelos.

Muchos sitios desconfían de los proveedores de IA que entrenan modelos en su contenido sin previo aviso ni compensación, por lo que han optado por bloquear los raspadores y rastreadores de IA. Según un informe, alrededor del 26% de los 1.000 sitios principales de la web han bloqueado el bot de OpenAI. Estudiar, uno mas Se descubrió que más de 600 editores de noticias habían bloqueado el robot.

Sin embargo, el bloqueo no es una protección infalible. Como se informó anteriormente, algunos proveedores parecen ignorar las reglas estándar de exclusión de bots para obtener una ventaja competitiva en la carrera de la IA. El motor de búsqueda de IA Perplexity fue acusado recientemente de hacerse pasar por visitantes legítimos para extraer contenido de sitios web, y OpenAI y Anthropic han sido acusados ​​de hacer lo mismo varias veces. ignorado reglas robots.txt.

uno en Carta escrita a los editores el mes pasadoLa startup de licencias de contenido Tolbit dijo que, de hecho, ve «muchos agentes de IA» ignorando el estándar robots.txt.

Herramientas como Cloudflare pueden ayudar, pero solo si se demuestra que son precisas para detectar robots de IA encubiertos. y ellos no lo haré Abordar el problema más difícil de cómo los editores corren el riesgo de sacrificar el tráfico de referencia proviene de herramientas de inteligencia artificial como AI Overview de Google, que excluye sitios de la inclusión si bloquean rastreadores de inteligencia artificial específicos.

Source link