reddit Anunciado El martes, la compañía dijo que estaba actualizando su protocolo de exclusión de robots (el archivo robots.txt), que indica a los robots web automatizados si pueden rastrear un sitio.

Históricamente, el archivo robots.txt se utilizaba para permitir a los motores de búsqueda rastrear un sitio y luego dirigir a las personas al contenido. Sin embargo, con el auge de la IA, los sitios web se están eliminando y utilizando para entrenar modelos sin reconocer la fuente real del contenido.

Con el archivo robots.txt actualizado, Reddit continuará limitando la velocidad y bloqueando el acceso de bots y rastreadores desconocidos a su plataforma. La compañía le dijo a TechCrunch que los bots y rastreadores tendrán una tarifa limitada o se bloquearán si no siguen la política de contenido público de Reddit y no tienen un acuerdo con la plataforma.

Reddit dice que esta actualización no debería afectar a la mayoría de los usuarios ni a los actores de buena fe, como investigadores y organizaciones como Internet Archive. En cambio, esta actualización está diseñada para evitar que las empresas de inteligencia artificial entrenen sus modelos lingüísticos más amplios en el contenido de Reddit. Por supuesto, los rastreadores de IA pueden ignorar el archivo robots.txt de Reddit.

Este anuncio llega unos días después de un incidente. sonda cableada Se descubrió que Perplexity, una startup de búsqueda impulsada por inteligencia artificial, estaba robando contenido y extrayéndolo. Wired descubrió que Perplexity ignoró las solicitudes de no eliminar su sitio web, a pesar de que bloqueó el inicio en su archivo robots.txt. CEO de Perplejidad Arvind Srinivas respondió Negó estas afirmaciones y dijo que el archivo robots.txt no es un marco legal.

Los próximos cambios de Reddit no afectarán a las empresas con las que tiene acuerdos. Por ejemplo, Reddit tiene un Acuerdo de 60 millones de dólares con Google Esto permite al gigante de las búsquedas entrenar sus modelos de inteligencia artificial en contenido de plataformas sociales. Con estos cambios, Reddit está indicando a otras empresas que quieran utilizar los datos de Reddit para el entrenamiento de IA que tendrán que pagar.

«Cualquier persona que acceda al contenido de Reddit debe seguir nuestras políticas, incluidas las implementadas para proteger a los Redditors», dijo Reddit en una publicación de blog. «Somos selectivos en cuanto a con quién trabajamos y en quién confiamos para acceder al contenido de Reddit a escala».

Este anuncio no es sorprendente, ya que Reddit lanzó una nueva política hace unas semanas diseñada para guiar cómo las entidades comerciales y otros socios acceden y utilizan los datos de Reddit.

Source link