Jordan Meyer y Matthew Dryhurst fundaron Spawning AI para crear herramientas que ayuden a los artistas a tener más control sobre cómo se utiliza su trabajo en línea. fuente.plustiene como objetivo seleccionar medios «no infractores» para el entrenamiento de modelos de IA.

La primera iniciativa del proyecto Source.Plus es un conjunto de datos con aproximadamente 40 millones de imágenes de dominio público y sus imágenes subyacentes. Licencia Creative Commons CC0Lo que permite a los creadores renunciar a casi todo interés jurídico sobre sus obras. Meyer afirma que, a pesar de que es sustancialmente más pequeño que Algunos otros conjuntos de datos de entrenamiento de IA generativa Allí, el conjunto de datos de Source.Plus ya tiene suficiente «alta calidad» para entrenar modelos de generación de imágenes de última generación.

«Con Source.Plus, estamos creando una plataforma universal de participación», dijo Mayer. «Nuestro objetivo es facilitar a los titulares de derechos la oferta de sus medios para su uso en la formación en IA generativa (en sus propios términos) y facilitar a los desarrolladores la incorporación de esos medios en sus flujos de trabajo de formación».

Gestión de Derechos

El debate sobre la ética del entrenamiento de modelos generativos de IA, especialmente modelos generadores de arte como Stable Diffusion y DALL-E 3 de OpenAI, continúa sin cesar y tiene amplias implicaciones para los artistas, incluso después de que el polvo se haya calmado.

Los modelos de IA generativa “aprenden” a producir sus resultados (por ejemplo, arte fotorrealista) entrenándose con una gran cantidad de datos relevantes (en ese caso, imágenes). Algunos desarrolladores de estos modelos argumentan que el uso legítimo les otorga el derecho de extraer datos de fuentes públicas, independientemente del estado de los derechos de autor de esos datos. Otros han intentado compensar o al menos dar crédito a los propietarios de contenidos por sus contribuciones al conjunto de formación.

Mayer, director ejecutivo de Spawning, cree que todavía nadie se ha puesto de acuerdo sobre el mejor enfoque.

«El entrenamiento de IA a menudo utiliza por defecto los datos más fáciles de usar, que no siempre son los más imparciales o los más responsables», dijo a TechCrunch en una entrevista. «Los artistas y los titulares de derechos tienen poco control sobre cómo se utilizan sus datos para la capacitación en IA, y los desarrolladores no tienen opciones de alta calidad que faciliten el respeto de los derechos sobre los datos».

Source.Plus, disponible en versión beta limitada, se basa en las herramientas existentes de Spawning para la gestión de derechos de uso y procedencia del arte.

En 2022, Spawning creó un sitio web llamado HaveIBeenTrends que permite a los creadores optar por no participar en los conjuntos de datos de entrenamiento utilizados por los proveedores asociados con Spawning, incluidos Hugging Face y Stability AI. Después de recaudar 3 millones de dólares en capital de riesgo de inversores como True Ventures y Seed Club Ventures, Spawning lanzó ai.text, una forma para que los sitios web «establezcan permisos» para la IA y se protejan contra los robots de extracción de datos. Hay un sistema – Kuduru –. para.

Source.Plus es el primer intento de Spawning de crear una biblioteca multimedia y de curarla internamente. El conjunto de datos de imágenes inicial, PD/CC0, se puede utilizar para aplicaciones comerciales o de investigación, afirma Meyer.

Fuente de desove.Plus
Biblioteca Source.Plus.
Credito de imagen: El productor

Añadió: «Source.Plus no es sólo un depósito de datos de capacitación; es una plataforma de enriquecimiento con herramientas para respaldar el proceso de capacitación». «Nuestro objetivo es tener un conjunto de datos CC0 de alta calidad y no infractor, capaz de respaldar un potente modelo base de IA disponible dentro de un año».

Organizaciones como Getty Images, Adobe, Shutterstock y la startup de IA Bria afirman utilizar únicamente datos obtenidos de forma imparcial para la formación de modelos. (Getty llega incluso a llamar a sus productos de IA generativa “comercialmente seguros”). Pero Meyer dice que el propósito de Spawning es establecer un “estándar más alto” para los datos obtenidos de manera imparcial.

Source.Plus filtra imágenes para “exclusión voluntaria” y otras preferencias de formación de artistas, revelando cómo y dónde se obtuvieron las imágenes. También excluye imágenes que no tienen licencia CC0, incluidas aquellas que tienen licencia Licencia Creative Commons BY 1.0Para lo cual es necesario el crédito. Y Spawning dice que está monitoreando los desafíos de derechos de autor de fuentes donde alguien distinto a los creadores es responsable de indicar el estado de los derechos de autor de una obra, como Wikimedia Commons.

«Verificamos cuidadosamente las licencias reportadas de las imágenes recopiladas y se excluyó cualquier licencia sospechosa, un paso que muchos conjuntos de datos ‘imparciales’ no toman», dijo Mayer.

Históricamente, las imágenes problemáticas (incluidas imágenes personales violentas, pornográficas y sensibles) han dominado los conjuntos de datos de capacitación tanto abiertos como comerciales.

Los mantenedores del conjunto de datos LAION se vieron obligados a desconectar una biblioteca después de que se expusiera un informe historial médico Y representación de la pedofilia, Sólo esta semana, Estudiar Human Rights Watch descubrió que uno de los archivos de LAION incluía rostros de niños brasileños sin el consentimiento o conocimiento de esos niños. Por otro lado, también se incluyó la biblioteca de medios de Adobe, Adobe Stock, que la compañía utiliza para entrenar sus modelos generativos de IA, incluido el modelo de imágenes Firefly generador de arte. Imágenes generadas por IA encontradas en De rivales como Midjorn.

Fuente de desove.Plus
Ilustraciones en la galería Source.Plus.
Credito de imagen: El productor

La solución de Spawning es un modelo clasificador entrenado para detectar desnudez, sangre, información de identificación personal y otros fragmentos indeseables en las imágenes. Al reconocer que ningún clasificador es perfecto, Spawning planea permitir a los usuarios filtrar el conjunto de datos Source.Plus de manera «flexible» ajustando el umbral de detección del clasificador, dice Meyer.

«Nombramos moderadores para verificar la propiedad de los datos», dijo Mayer. «También tenemos funciones de reparación, donde los usuarios pueden señalar acciones objetables o potencialmente infractoras, y un seguimiento de auditoría de cómo se utilizaron esos datos».

Compensación

A la mayoría de los programas para compensar a los creadores por sus contribuciones de datos de entrenamiento de IA generativa no les ha ido muy bien. Algunos programas se basan en métricas opacas para calcular los pagos a los creadores, mientras que otros pagan cantidades que los artistas consideran injustamente bajas.

Tomemos como ejemplo Shutterstock. Stock Media Library, que ha cerrado acuerdos multimillonarios con proveedores de IA, paga en un “fondo de contribuyentes” las obras de arte que utiliza para entrenar sus modelos generativos de IA o las otorga licencias a desarrolladores externos. Pero Shutterstock no es transparente sobre lo que los artistas pueden esperar ganar, ni les permite fijar sus propios precios y condiciones; Una estimación de terceros sitúa las ganancias en 15 dólares por 2.000 imágenes, lo que no es exactamente una cantidad enorme.

Cuando Source.Plus salga de la versión beta a finales de este año y se expanda a conjuntos de datos más allá de PD/CC0, adoptará un enfoque diferente al de otras plataformas, permitiendo a los artistas y titulares de derechos establecer sus propios precios por descarga. El desove cobrará tarifas, pero sólo una tarifa fija: “una décima parte de un centavo”, dice Meyer.

Los clientes también pueden optar por pagar a Spawning $10 por mes por la curación de Source.Plus, más una tarifa de descarga por imagen, que es un plan de suscripción que les permite administrar de forma privada su colección de imágenes mensualmente. hasta 10.000 veces y proporciona acceso temprano a nuevas funciones como archivos «premium» y enriquecimiento de datos.

Fuente de desove.Plus
Credito de imagen: El productor

«Brindaremos orientación y recomendaciones basadas en estándares industriales existentes y métricas internas, pero en última instancia, quienes contribuyen al conjunto de datos determinarán qué es significativo para ellos», dijo Mayer. “Elegimos intencionalmente este modelo de precios para brindar a los artistas una mayor proporción de los ingresos y permitirles establecer sus propios términos de participación. Creemos que esta división de ingresos es mejor que la división porcentual de ingresos más común para los artistas. Estados Unidos, y conducirá a mayores pagos y mayor transparencia».

Si Source.Plus recibe la popularidad que espera Spawning, Spawning pretende expandirlo más allá de las imágenes a otros tipos de medios, incluidos audio y video. Spawning está en conversaciones con empresas anónimas para que sus datos estén disponibles en Source.Plus. Y, dice Meyer, Spawning puede construir sus propios modelos de IA generativa utilizando datos del conjunto de datos Source.Plus.

«Esperamos que los titulares de derechos que quieran participar en la economía generativa de la IA tengan la oportunidad de hacerlo y reciban una compensación justa», dijo Mayer. «También esperamos que los artistas y desarrolladores que puedan haberse sentido en conflicto acerca de interactuar con la IA tengan la oportunidad de hacerlo de una manera respetuosa con otros creativos».

Sin duda, el desove tiene aquí un lugar especial. Source.Plus parece ser uno de los esfuerzos más prometedores para involucrar a los artistas en el proceso de desarrollo de la IA generativa y permitirles compartir las ganancias de su trabajo.

Como escribió recientemente mi colega Amanda Silberling, el auge de aplicaciones como la comunidad de alojamiento de arte Cara, cuyo uso creció rápidamente después de que Meta anunció que entrenaría su IA generativa en contenido de Instagram, incluido el contenido de artistas, podría, muestra que la comunidad creativa ha llegado al punto de ruptura. Están desesperados por encontrar alternativas a las empresas y plataformas que consideran ladrones, y Source.Plus podría ser una alternativa viable.

Pero si Spawning siempre funciona en beneficio de los artistas (esto es un gran problema, ya que Spawning es un negocio respaldado por capital de riesgo), me pregunto si Source.Plus puede avanzar con tanto éxito como Mayer imagina. Si las redes sociales nos han enseñado algo es que la moderación (especialmente de millones de contenidos generados por los usuarios) es un problema difícil.

Lo sabremos pronto.

Source link