Los investigadores han desarrollado una plataforma para la evaluación interactiva de chatbots impulsados ​​por inteligencia artificial, como ChatGPT.

Un equipo de informáticos, ingenieros, matemáticos y científicos cognitivos dirigido por la Universidad de Cambridge desarrolló CheckMate, una plataforma de evaluación de código abierto que permite a los usuarios interactuar y evaluar el rendimiento de grandes modelos de lenguaje (LLM).

Los investigadores probaron CheckMate en un experimento en el que las personas utilizaron tres LLM (InstructGPT, ChatGPT y GPT-4) como asistentes para resolver problemas matemáticos de nivel universitario.

El equipo estudió qué tan bien el LLM podría ayudar a los participantes a resolver problemas. A pesar de la correlación generalmente positiva entre la corrección del chatbot y la utilidad percibida, los investigadores también encontraron casos en los que el LLM era incorrecto pero aún así era útil para los participantes. Sin embargo, los participantes creían que algunos resultados incorrectos del LLM eran correctos. Esto fue más destacado en los LLM optimizados para chat.

Los investigadores proponen modelos que comunican incertidumbre, responden bien a las correcciones de los usuarios y pueden proporcionar justificaciones concisas para sus recomendaciones, lo que los convierte en mejores asistentes. Para los usuarios de LLM, las personas deben verificar cuidadosamente sus resultados a la luz de sus deficiencias actuales.

Resultados reportados Actas de la Academia Nacional de Ciencias (PNAS)podría ser útil tanto para informar la capacitación en alfabetización en IA como para ayudar a los desarrolladores a mejorar el LLM para una gama más amplia de aplicaciones.

Aunque los LLM son cada vez más potentes, también pueden cometer errores y proporcionar información incorrecta, lo que puede tener consecuencias negativas a medida que estos sistemas se integren cada vez más en nuestra vida diaria.

«Los LLM se han vuelto muy populares y es importante medir su desempeño de manera cuantitativa, pero también necesitamos evaluar qué tan bien funcionan estos sistemas y pueden ayudar a las personas», dijo el coautor Albert Jiang del Departamento de Ciencias de la Computación de Cambridge. y Tecnología. «Aún no tenemos formas integrales de medir el desempeño de LLM en las interacciones humanas».

La forma estándar de evaluar los LLM se basa en pares estáticos de entrada y salida, lo que ignora la naturaleza interactiva de los chatbots y cómo esto cambia su utilidad en diferentes escenarios. Los investigadores desarrollaron CheckMate para ayudar a responder estas preguntas, diseñado para aplicaciones matemáticas, pero no limitado a eso.

«Cuando hablan con matemáticos sobre los LLM, muchos de ellos caen en uno de dos campos principales: o piensan que los LLM pueden producir pruebas matemáticas complejas por sí solos, o que los LLM no pueden hacer aritmética simple», dijo la coautora Katie Collins. del Departamento de Ingeniería. «Por supuesto, la verdad probablemente esté en algún punto intermedio, pero queríamos encontrar una manera de evaluar qué tareas son adecuadas para LLM y cuáles no».

Los investigadores reclutaron a 25 matemáticos, desde estudiantes universitarios hasta profesores experimentados, para interactuar con tres LLM diferentes (InstructGPT, ChatGPT y GPT-4) y evaluar su desempeño utilizando CheckMate. Los participantes trabajaron en teoremas matemáticos de pregrado con la ayuda del LLM y se les pidió que calificaran la exactitud y utilidad de cada respuesta del LLM. Los participantes no sabían con qué LLM estaban interactuando.

Los investigadores registraron los tipos de preguntas que hicieron los participantes, cómo reaccionaron los participantes cuando se les dio una respuesta total o parcialmente incorrecta, si intentaron corregir el LLM y cómo, o si pidieron una aclaración. Los participantes tenían distintos niveles de experiencia en la redacción de instrucciones efectivas para el LLM, y esto a menudo afectó la calidad de las respuestas proporcionadas para el LLM.

Un ejemplo de un mensaje eficaz es «¿cuál es la definición de X» (X es el concepto del problema) porque los chatbots son muy buenos para recuperar conceptos que conocen y explicárselos al usuario.

«Una de las cosas que encontramos es la asombrosa falibilidad de estos modelos», dijo Collins. «A veces, estos LLM serán realmente buenos en matemáticas de nivel superior y luego fallarán en algo mucho más simple. Esto demuestra que es realmente importante pensar detenidamente sobre cómo utilizar los LLM de manera efectiva y adecuada».

Sin embargo, al igual que el LLM, los participantes humanos también cometieron errores. Los investigadores pidieron a los participantes que calificaran su confianza en su capacidad para resolver el problema para el que estaban utilizando el LLM. En los casos en que el participante tenía menos confianza en sus habilidades, era más probable que calificara como correctas las generaciones incorrectas después del LLM.

«Este tipo es un gran desafío para evaluar los LLM porque son tan buenos en producir un lenguaje natural agradable y aparentemente correcto que es fácil engañar sus respuestas», dijo Jiang. «También muestra que, si bien la evaluación humana es útil e importante, tiene matices y, a veces, es errónea. Cualquiera que utilice LLM para cualquier aplicación siempre debe prestar atención al resultado y comprobarlo por sí mismo».

Con base en los resultados de CheckMate, los investigadores argumentan que las nuevas generaciones de LLM son cada vez más capaces de interactuar de manera útil y correcta con los usuarios en problemas matemáticos de nivel universitario, siempre que el usuario pueda evaluar la exactitud de las respuestas generadas por el LLM. Aunque las respuestas se pueden memorizar y encontrar en algún lugar de Internet, los LLM tienen la ventaja de la flexibilidad en términos de entrada y salida en comparación con los motores de búsqueda tradicionales (aunque no deberían reemplazar a los motores de búsqueda en su forma actual).

Si bien CheckMate se probó en problemas matemáticos, los investigadores dicen que su plataforma podría adaptarse a una variedad de campos. En el futuro, este tipo de retroalimentación podría incorporarse a los propios LLM, aunque ninguno de los comentarios de CheckMate del estudio actual se alimentó a los modelos.

«Este tipo de herramientas pueden ayudar a la comunidad investigadora a comprender mejor las fortalezas y debilidades de estos modelos», afirmó Collins. «No los usaríamos como herramientas para resolver problemas matemáticos complejos por sí solos, pero pueden ser ayudas útiles si los usuarios saben cómo usarlos».

La investigación fue apoyada en parte por la Comisión Marshall, Cambridge Trust, Peterhouse, Cambridge, el Instituto Alan Turing, el Consejo Europeo de Investigación y el Consejo de Investigación en Ingeniería y Ciencias Físicas (EPSRC), parte de Investigación e Innovación del Reino Unido (UKRI). .



Source link