En la era de la IA generativa, cuando los chatbots pueden proporcionar respuestas detalladas a preguntas basadas en contenido extraído de Internet, la línea entre el uso legítimo y el plagio, y entre el web scraping rutinario y los resúmenes poco éticos, sigue siendo muy delgada.

Perplexity AI es una startup que combina un motor de búsqueda con un modelo de lenguaje grande para generar respuestas detalladas en lugar de solo enlaces. A diferencia de ChatGPT de OpenAI y Cloud de Anthropic, Perplexity no entrena sus propios modelos de IA subyacentes, sino que utiliza modelos abiertos o disponibles comercialmente para tomar información recopilada de Internet y traducirla en respuestas.

Pero una serie de acusaciones hechas en junio muestran que el enfoque de la startup no es ético. Forbes culpó a Perplexity por supuestamente copiar uno de sus artículos de noticias en la función beta Perplexity Pages de la startup. Y Wired culpa a la perplejidad Su sitio web, junto con otros sitios, también ha sido acusado de scraping ilegal.

Perplexity, que está trabajando para recaudar 250 millones de dólares con una valoración cercana a los 3.000 millones de dólares para abril, dice que no ha hecho nada malo. La compañía, respaldada por Nvidia y Jeff Bezos, dice que ha respetado las solicitudes de los editores de no extraer contenido y que está trabajando dentro de los límites de las leyes de derechos de autor de uso legítimo.

La situación es compleja. En esencia, hay matices en torno a dos conceptos. El primero es el Protocolo de exclusión de robots, que es un estándar utilizado por los sitios web para indicar que no quieren que los rastreadores web accedan a su contenido ni lo utilicen. El segundo es el uso legítimo en la ley de derechos de autor, que crea un marco legal para permitir el uso de material protegido por derechos de autor sin permiso ni pago en determinadas circunstancias.

Eliminación de contenido web en secreto

rastreador malicioso de internet
Credito de imagen: imágenes falsas

Un artículo del 19 de junio en Wired afirmaba que Perplexity pasó por alto los protocolos de exclusión de robots y eliminó en secreto áreas de sitios web a los que los editores no quieren que accedan los robots. Wired informó que vio una máquina vinculada a Perplexity haciendo lo mismo en su propio sitio de noticias, así como en otras publicaciones de su empresa matriz, Condé Nast.

El informe afirma que el desarrollador Rob Knight también hizo un experimento similar. Y llegó a la misma conclusión.

Para probar sus sospechas, tanto el reportero de Wired como Knight pidieron a Perplexity un resumen de varias URL y luego miraron el lado del servidor para ver cómo las direcciones IP asociadas con Perplexity visitaban esos sitios. Luego, Perplexity «resumió» el texto de esas URL, aunque en el caso de un sitio web ficticio con contenido limitado que Wired creó para este propósito, devolvió el texto de la página palabra por palabra.

Aquí es donde entran en juego los matices del protocolo de exclusión de robots.

raspado web técnicamente Cuando piezas de software automatizadas conocidas como rastreadores rastrean la web para indexar y recopilar información de los sitios web. Los motores de búsqueda como Google hacen esto para que las páginas web puedan incluirse en los resultados de búsqueda. Otras empresas e investigadores utilizan rastreadores para recopilar datos de Internet para análisis de mercado, investigaciones académicas y, como hemos aprendido, entrenar modelos de aprendizaje automático.

Los web scrapers que cumplen con este protocolo primero buscarán un archivo “robots.txt” en el código fuente del sitio para ver qué está permitido y qué no; hoy en día, lo que no está permitido generalmente es el sitio del editor. El scraping es crear enormes conjuntos de datos de entrenamiento. para IA. Los motores de búsqueda y las empresas de inteligencia artificial, incluida Perplexity, han dicho que cumplen con el protocolo, pero no están legalmente obligados a hacerlo.

Dmitry Shevelenko, jefe de negocios de Perplexity, dijo a TechCrunch que resumir URL no es lo mismo que rastrear. «Rastrear es cuando simplemente absorbes información y la agregas a tu índice», dijo Shevelenko. Dijo que la IP de Perplexity puede ser visible para un visitante de un sitio web que «de otro modo estaría restringido por robots.txt» sólo si un usuario ingresa la URL en su consulta, que «no cumple con la definición de rastreo».

«Estamos respondiendo a una solicitud directa y específica del usuario para ir a esa URL», dijo Shevelenko.

En otras palabras, si un usuario proporciona manualmente una URL a una IA, Perplexity dice que su IA no actúa como un rastreador web, sino que recupera y procesa la información solicitada por el usuario y actúa como una herramienta para ayudar.

Pero para Wired y muchos otros editores, esto no importa, porque visitar una URL y extraer información de ella para crear un resumen del texto ciertamente parece un raspado, si se hace miles de veces al día.

(Wired también informó que uno de los proveedores de servicios en la nube de Perplexity, Amazon Web Services investigación de inicio Ignorar el protocolo robots.txt para extraer las páginas web citadas por los usuarios en su mensaje. AWS le dijo a TechCrunch que el informe de Wired es inexacto y le dijo al medio que está procesando su consulta de medios de la misma manera que procesa cualquier otro informe que alegue abuso del servicio).

¿Plagio o uso legítimo?

Captura de pantalla de la página Perplejidad
Forbes acusó a Perplexity de plagiar sus noticias sobre el desarrollo de drones de combate impulsados ​​por inteligencia artificial del ex director ejecutivo de Google, Eric Schmidt.
Credito de imagen: Enredo/Captura de pantalla

Wired y Forbes también han acusado a Perplexity de plagio. Irónicamente, Wired dice Perplexity ha copiado el mismo artículo. Lo que culpó a la startup por eliminar subrepticiamente su contenido web.

Los reporteros de Wired dijeron que el chatbot Perplexity «generó un artículo de seis párrafos, texto de 287 palabras Resumir detalladamente las conclusiones de la historia y la evidencia utilizada para llegar a ellas.» Una oración repite exactamente una oración de la historia original; Wired dice que esto es plagio. Directrices del Instituto Poynter Si el autor (o AI) ha utilizado siete palabras consecutivas del trabajo original, puede constituir plagio.

Forbes también acusó a Perplexity de plagio. El sitio de noticias publicó un artículo. reporte de investigación A principios de junio hubo rumores sobre cómo la nueva empresa del CEO de Google, Eric Schmidt, está contratando y probando drones impulsados ​​por inteligencia artificial con aplicaciones militares. Al día siguiente, el editor de Forbes, John Paczkowski Publicado en diciendo que hubo confusión republicó la primicia Esto es parte de su función beta, Perplexity Pages.

paginas confusasLa cual sólo está disponible para algunos clientes de Perplexity en este momento, es una nueva herramienta que promete ayudar a los usuarios a convertir la investigación en «contenido completo y visualmente impresionante», según Perplexity. Ejemplos de dicho contenido en el sitio provienen de empleados de empresas emergentes e incluyen artículos como «Una guía para principiantes sobre la batería» o «Steve Jobs: CEO visionario».

“Se roba la mayor parte de nuestros informes”, escribió Paczkowski. «Nos cita a nosotros y a algunas de las personas que nos publican como fuentes de la manera más fácil de ignorar posible».

Forbes dijo Muchas de las publicaciones seleccionadas por el equipo de Perplexity «son sorprendentemente similares a historias originales de varias publicaciones, incluidas Forbes, CNBC y Bloomberg». Forbes dijo que la publicación fue vista decenas de miles de veces y no mencionó ninguna publicación por su nombre en el texto del artículo. En cambio, los artículos de Perplexity incluían créditos en forma de «pequeños logotipos que fácilmente se pasan por alto y que los vinculan».

Además, Forbes dijo que la publicación sobre Schmidt contenía «redacción prácticamente idéntica» a la historia de Forbes. La agregación también incluyó una imagen creada por el equipo de diseño de Forbes que parecía haber sido ligeramente modificada por Perplexity.

El director ejecutivo de Perplexity, Arvind Srinivas, respondió a Forbes en ese momento, diciendo que la startup citaría fuentes de manera más destacada en el futuro, una solución que no es del todo confiable, ya que las citas mismas enfrentan dificultades técnicas. ChatGPT y otros modelos contienen enlaces engañososY dado que Perplexity utiliza modelos OpenAI, es probable que sea vulnerable a tales falacias. De hecho, Wired informó que vio que la perplejidad paralizaba historias enteras.

Además de señalar los «defectos» de Perplexity, Srinivas y compañía han afirmado en gran medida el derecho de Perplexity a utilizar dicho material para resúmenes.

Aquí es donde entran en juego los matices del uso adecuado. El plagio, aunque inaceptable, no es técnicamente ilegal.

De acuerdo a Oficina de derechos de autor de EE. UU.Es legal utilizar partes limitadas de una obra, incluidas citas, para fines tales como comentarios, críticas, informes de noticias y reportajes académicos. Las empresas de inteligencia artificial como Perplexity creen que proporcionar un resumen de un artículo está dentro de los límites del uso legítimo.

«Nadie tiene el monopolio de los hechos», afirmó Shevelenko. «Cuando los hechos se hacen públicos, están ahí para que todos los utilicen».

Shevelenko comparó los resúmenes de Perplexity con la forma en que los periodistas suelen utilizar información de otras fuentes de noticias para fortalecer sus informes.

Mark McKenna, profesor de derecho en el Instituto de Tecnología, Derecho y Política de UCLA, dijo a TechCrunch que esta situación no es fácil de resolver. En un caso de uso legítimo, los tribunales considerarán si el resumen utiliza demasiada expresión del artículo original o simplemente las ideas. También podrán comprobar si leer el resumen puede ser una alternativa a la lectura del artículo.

«No hay una línea clara», dijo McKenna. «Por lo tanto (perplejidad) decir objetivamente lo que dice o informa el artículo sería utilizar aspectos del trabajo que no están protegidos por derechos de autor. Eso sería solo hechos e ideas. Pero cuanto más expresiones y textos reales se incluyan en el resumen», más se parecerá una reproducción más que un mero resumen.»

Desafortunadamente para los editores, a menos que Perplexity utilice expresiones completas (y aparentemente, en algunos casos lo hace), sus resúmenes no pueden considerarse una violación del uso legítimo.

¿Cómo quiere protegerse la perplejidad?

Empresas de inteligencia artificial como OpenAI han firmado acuerdos de medios con muchos editores de noticias, dándoles acceso a su contenido existente y pasado sobre el cual pueden entrenar sus algoritmos. A cambio, OpenAI promete publicar artículos de noticias de esos editores en respuesta a las consultas de los usuarios en ChatGPTT. (Incluso entonces Tiene algunos fallos en los que hay que trabajar(Como informó el Nieman Lab la semana pasada).

Perplexity ha evitado anunciar muchos de sus acuerdos con los medios, tal vez esperando que se enfríen las acusaciones en su contra. Pero la compañía está «a toda velocidad» en una serie de acuerdos de reparto de ingresos publicitarios con editores.

La idea es que Perplexity comience a incluir anuncios junto con las respuestas a las consultas, y los editores que tengan contenido citado en cualquier respuesta obtendrán una parte de los ingresos publicitarios correspondientes. Shevelenko dijo que Perplexity también está trabajando para brindar a los editores acceso a su tecnología para que puedan crear experiencias de preguntas y respuestas y potenciar cosas como preguntas contextuales de forma nativa dentro de sus sitios y productos.

¿Pero es esto sólo una excusa para el robo sistémico de propiedad intelectual? Perplexity no es el único chatbot que amenaza con resumir el contenido de manera tan completa que los lectores no comprenden la necesidad de hacer clic para acceder al contenido original.

Y si estos raspadores de IA continúan tomando el trabajo de los editores y reutilizándolo para sus propios negocios, a los editores les resultará difícil ganar dinero en publicidad. Esto significa que, en última instancia, habrá menos material para desechar. Cuando ya no quede contenido para extraer, los sistemas de IA generativa pasarán al entrenamiento con datos sintéticos, lo que podría conducir a un ciclo de retroalimentación catastrófico de contenido sesgado e inexacto.

Source link