Anthropic está lanzando un Programa Financiar el desarrollo de nuevos tipos de puntos de referencia capaces de evaluar el rendimiento y el impacto de los modelos de IA, incluidos los modelos generativos como la nube.

El programa de Anthropic, lanzado el lunes, otorgará subvenciones a organizaciones de terceros que, como dijo la compañía en una publicación de blog, «puedan escalar efectivamente capacidades avanzadas en modelos de IA». Las personas interesadas pueden presentar solicitudes de evaluación de forma continua.

«Nuestra inversión en estas evaluaciones tiene como objetivo elevar todo el campo de la seguridad de la IA, proporcionando herramientas valiosas que beneficien a todo el ecosistema», escribió Anthropic en su blog oficial. «El desarrollo de evaluaciones de alta calidad y relevantes para la seguridad sigue siendo un desafío y la demanda está superando la oferta».

Como mencionamos anteriormente, la IA tiene un problema de evaluación comparativa. Los puntos de referencia más comúnmente citados para la IA en la actualidad son muy deficientes a la hora de comprender cómo la persona promedio usa realmente el sistema que se está probando. También hay dudas sobre si algunos puntos de referencia, en particular los publicados antes del surgimiento de la IA generativa moderna, miden siquiera lo que afirman, dada su antigüedad.

Las soluciones más rigurosas y de muy alto nivel propuestas por Anthropic están creando estándares desafiantes al tiempo que se centran en la seguridad de la IA y las implicaciones sociales a través de nuevas herramientas, infraestructura y métodos.

La empresa busca específicamente pruebas que realicen tareas como llevar a cabo ataques cibernéticos, «mejorar» armas de destrucción masiva (como las armas nucleares) y manipular o engañar a las personas (por ejemplo, mediante deepfakes o desinformación) para evaluar la capacidad del modelo. En cuanto a los riesgos de la IA relacionados con la seguridad y la defensa nacional, Anthropic dice que está comprometido a desarrollar una especie de «sistema de alerta temprana» para identificar y evaluar los riesgos, aunque no especifica por qué en la publicación del blog. incluir.

Anthropic también ha dicho que su nuevo programa tiene como objetivo comparar y apoyar la investigación en tareas «de un extremo a otro» que pueden ayudar a los estudios científicos, interactuar en múltiples idiomas y reducir los sesgos implícitos, así como la autocensura examina el potencial de la IA para toxicidad.

Para lograr todo esto, Anthropic imagina una nueva plataforma que permita a los expertos en la materia desarrollar sus propias evaluaciones y modelos de prueba a escala que involucren a «miles» de usuarios. La compañía dice que ha contratado a un coordinador de tiempo completo para el programa y que puede comprar o ampliar proyectos que cree que tienen potencial de expansión.

«Ofrecemos una variedad de opciones de financiación según las necesidades y la etapa de cada proyecto», escribió Anthropic en la publicación, aunque un portavoz de Anthropic se negó a proporcionar más detalles sobre esas opciones. «Los equipos tendrán la oportunidad de interactuar directamente con los expertos en dominios de Anthropic del Frontier Red Team, ajuste, confianza y seguridad, y otros equipos relevantes».

El esfuerzo de Anthropic para respaldar nuevos puntos de referencia de IA es encomiable, suponiendo, por supuesto, que tenga suficiente dinero y mano de obra detrás. Pero dadas las ambiciones comerciales de la empresa en la carrera de la IA, puede resultar difícil confiar completamente en ella.

En la publicación del blog, Anthropic es bastante transparente sobre el hecho de que quiere que algunas de las evaluaciones que financia estén a la altura de los estándares. Clasificación de seguridad de la IA él avanzado (Con algunas aportaciones de terceros, como la organización de investigación de IA sin fines de lucro METR). Esto es prerrogativa de la empresa. Pero podría obligar a los solicitantes del programa a aceptar definiciones de IA «segura» o «arriesgada» con las que tal vez no estén totalmente de acuerdo.

Parte de la comunidad de IA también puede objetar las referencias de Anthropic a riesgos de IA «desastrosos» y «engañosos», como el riesgo de armas nucleares. muchos expertos Dicho esto, hay poca evidencia de que la IA, tal como la conocemos, alguna vez alcance capacidades que acaben con el mundo y derroten a los humanos. Estos expertos dicen que las afirmaciones de una inminente «superinteligencia» sólo sirven para desviar la atención de las apremiantes cuestiones regulatorias de la IA del momento, como las tendencias engañosas de la IA.

En su publicación, Anthropic escribe que espera que su programa «sirva como catalizador para el progreso hacia un futuro donde la evaluación integral de la IA será un estándar de la industria». Esta es una misión que mucha gente ve abiertamente, no afiliado corporativo Los esfuerzos por crear mejores puntos de referencia de IA pueden conducir a la identificación. Pero queda por ver si esos esfuerzos están dispuestos a asociarse con un proveedor de IA cuya lealtad recae en última instancia en los accionistas.

Source link