Uno de los puntos de venta de los modelos insignia de IA generativa de Google, Gemini 1.5 Pro y 1.5 Flash, es la cantidad de datos que, según se informa, pueden procesar y analizar. Google ha afirmado repetidamente en conferencias de prensa y demostraciones que los modelos pueden realizar tareas que antes eran imposibles gracias a su «largo contexto», como por ejemplo resumir documentos de varios cientos de páginas o buscar escenas en imágenes de películas.

Pero una nueva investigación muestra que estos modelos en realidad no son muy buenos en estas cosas.

Dos aparte estudios Se investigó qué tan bien el modelo Gemini de Google y otros modelos dan sentido a grandes cantidades de datos; piense en los trabajos de «Guerra y paz». Ambos descubrieron que Gemini 1.5 Pro y 1.5 Flash tienen dificultades para responder correctamente preguntas sobre grandes conjuntos de datos; En una serie de pruebas basadas en documentos, el modelo dio la respuesta correcta sólo entre el 40% y el 50% de las veces.

«Si bien modelos como Gemini 1.5 Pro técnicamente pueden procesar contextos más largos, hemos visto varios casos que demuestran que los modelos en realidad no ‘entienden’ el contenido», dijo David A., becario postdoctoral en UMass Amherst y uno de los autores del estudio. Marzena Karpińska, coautora del estudio, dijo a TechCrunch.

Falta la ventana de referencia de Géminis

El contexto del modelo, o ventana de contexto, se refiere a los datos de entrada (por ejemplo, texto) que el modelo considera antes de generar resultados (por ejemplo, texto adicional). Una pregunta sencilla: «¿Quién ganó las elecciones presidenciales estadounidenses de 2020?» – Puede servir como referencia, como el guión de una película, un programa o un clip de audio. Y a medida que crece la ventana contextual, también crece el tamaño de los documentos que caben en ella.

La última versión de Gemini puede tomar más de 2 millones de tokens como referencia. («Los tokens» son bits subdivididos de datos sin procesar, como las sílabas «fan», «tass» y «tick» en la palabra «fantástico»). Esto equivale aproximadamente a 1,4 millones de palabras, dos horas de vídeo o 22 horas de audio – La mayor referencia de cualquier modelo disponible comercialmente.

En una sesión informativa a principios de este año, Google mostró varias demostraciones pregrabadas para mostrar el potencial de las capacidades de contexto largo de Gemini. En una demostración, Gemini 1.5 Pro buscó en la transcripción de la transmisión por televisión del alunizaje del Apolo 11 (aproximadamente 402 páginas) citas que contenían chistes y luego encontró una escena en la transmisión que parecía un boceto a lápiz.

Oriol Viñales, vicepresidente de investigación de Google DeepMind, que dirigió la sesión informativa, describió el modelo como «mágico».

«(1.5 Pro) aplica este tipo de lógica en cada página, en cada palabra», dijo.

Esto puede ser una exageración.

En uno de los estudios anteriores que comparan estas habilidades, Karpińska colaboró ​​con investigadores del Instituto Allen de IA y Princeton para pedir a modelos que evaluaran afirmaciones verdadero/falso sobre libros de ficción escritos en inglés. Los investigadores eligieron obras escritas recientemente para que los modelos no pudieran «hacer trampa» basándose en conocimientos previos, y llenaron las narrativas con detalles específicos y referencias a puntos de la trama que serían imposibles de entender sin leer los libros en su totalidad.

Ante una declaración como «Usando sus habilidades como Apoth, Nusis es capaz de realizar ingeniería inversa al tipo de portal abierto por la llave de los reactivos que se encuentran en el cofre de madera de Rona», Gemini 1.5 Pro y 1.5 Flash – Luego de tragarse el libro en cuestión – Tenía que indicar si la afirmación era verdadera o falsa y explicar su razonamiento.

Credito de imagen: umass amherst

Cuando se probó en un libro de aproximadamente 260.000 palabras (~520 páginas), los investigadores encontraron que 1.5 Pro respondió correctamente a las afirmaciones de verdadero/falso el 46,7% de las veces, mientras que Flash respondió correctamente sólo el 20% de las veces. Esto significa que Coin responde significativamente mejor preguntas sobre el libro que el último modelo de aprendizaje automático de Google. Al promediar todos los resultados de las pruebas comparativas, ningún modelo logró superar el azar en términos de precisión de preguntas y respuestas.

Karpińska dijo: «Observamos que los modelos tienen más dificultades para verificar afirmaciones que requieren considerar grandes porciones de un libro o el libro completo, en comparación con afirmaciones que pueden verificarse obteniendo evidencia a nivel de oración». «Cualitativamente, también observamos que los modelos luchan por verificar afirmaciones sobre información implícita que es obvia para un lector humano pero que no se expresa explícitamente en el texto».

El segundo de dos estudios, coescrito por investigadores de UC Santa Barbara, probó la capacidad de Gemini 1.5 Flash (pero no 1.5 Pro) para razonar sobre videos, es decir, realizar búsquedas y responder preguntas sobre el contenido que contienen.

Los coautores crearon un conjunto de datos de imágenes (por ejemplo, una foto de un pastel de cumpleaños) que se combinaron con preguntas para que el modelo respondiera sobre los objetos representados en las imágenes (por ejemplo, «¿Qué caricatura hay en este pastel?» ¿un personaje?»). Para evaluar los modelos, eligieron al azar una de las imágenes e insertaron imágenes que «distraen» antes y después para crear imágenes similares a una presentación de diapositivas.

Flash no funcionó tan bien. En una prueba en la que el modelo tuvo que transcribir seis dígitos escritos a mano de una «presentación de diapositivas» de 25 imágenes, Flash realizó alrededor del 50% de transcripciones correctas. Con ocho dígitos, la precisión se redujo a aproximadamente el 30%.

«En tareas reales de respuesta a preguntas sobre imágenes, esto parece ser particularmente difícil para todos los modelos que probamos», dijo a TechCrunch Michael Saxon, estudiante de doctorado en UC Santa Barbara y uno de los coautores del estudio. «Esa pequeña cantidad de lógica (reconocer que un número está en un marco y leerlo) podría ser lo que rompa el modelo».

Google promete demasiado con Gemini

Ninguno de estos estudios está revisado por pares ni examina el lanzamiento de Gemini 1.5 Pro y 1.5 Flash con 2 millones de referencias simbólicas. (Ambos probaron la versión de referencia de 1 millón de tokens). Y Flash no es tan capaz como el Pro en términos de rendimiento; Google lo anuncia como una opción de bajo costo.

Aún así, ambos refuerzan el hecho de que Google ha sido demasiado prometedor (y poco prometedor) con Gemini desde el principio. Ninguno de los modelos probados por los investigadores, incluido el GPT-4o de OpenAI y el Cloud 3.5 Sonnet de Anthropic, funcionó bien. Pero Google es el único proveedor de modelos que ha otorgado la primera posición a la ventana contextual en sus anuncios.

«No hay nada de malo en la simple afirmación de que ‘nuestro modelo puede generar

En términos generales, la IA generativa está siendo objeto de un mayor escrutinio a medida que las empresas (y los inversores) se sienten cada vez más frustrados por las limitaciones de la tecnología.

En encuestas recientes realizadas por Boston Consulting Group, casi la mitad de los encuestados (todos ejecutivos de alta dirección) dijeron que no esperan ningún aumento significativo en la productividad de la IA generativa y que les preocupan los errores que pueden cometer las herramientas impulsadas por la IA generativa. hacer. Preocupado por la posibilidad de que los datos se vean comprometidos. PitchBook recientemente informado de Durante dos trimestres consecutivos, los acuerdos de IA generativa en las primeras etapas han disminuido, cayendo un 76% desde el pico del tercer trimestre de 2023.

Frente a los chatbots que resumen reuniones y presentan perfiles ficticios sobre personas y a las plataformas de búsqueda de inteligencia artificial que son básicamente el equivalente a generadores de plagio, los clientes buscan diferenciadores prometedores. Google –que a veces ha corrido torpemente para alcanzar a sus rivales de IA generativa– estaba desesperado por hacer de la referencia de Gemini uno de esos diferenciadores.

Pero parece que esta apuesta se hizo prematuramente.

Karpińska dijo: «Realmente no hemos encontrado una manera de mostrar que el ‘razonamiento’ o la ‘comprensión’ se están produciendo en documentos extensos, y básicamente cada grupo que publica estos modelos utiliza sus propias herramientas para hacer estas afirmaciones. evaluaciones hoc de uno mismo.» «Sin información sobre cuánto tiempo se implementa el procesamiento de contexto (y las empresas no comparten estos detalles) es difícil decir qué tan realistas son estas afirmaciones».

Google no respondió a una solicitud de comentarios.

Tanto Saxon como Karpińska creen que el antídoto a las afirmaciones exageradas sobre la IA generativa son mejores puntos de referencia y, de manera similar, un mayor énfasis en las críticas de terceros. Saxon señala que una de las pruebas más comunes para contexto largo (citada generosamente por Google en sus materiales de marketing), la «Aguja en el pajar», solo mide la capacidad del modelo para extraer información específica, como nombres y números, de un conjunto de datos. .Es – No responde preguntas complejas sobre esa información.

Saxon dijo: «Todos los científicos y la mayoría de los ingenieros que utilizan estos modelos esencialmente están de acuerdo en que nuestra cultura de referencia actual no funciona, por lo que es importante que el público comprenda que números como ‘inteligencia común en los puntos de referencia’. Estos voluminosos informes deben tomarse con mucho escepticismo. «.

Source link