Al lado de una cama hay una bombilla que ilumina el modo de dormir.
Hogar/Amazonía

Los grandes modelos de lenguaje que impulsan los chatbots actuales como ChatGPT, Gemini y Claude son sistemas de inteligencia artificial generativa muy poderosos y, además, consumen mucha energía.

Como aparentemente no tienen por qué serlo Investigación reciente de la Universidad de California, Santa Cruz demostró que los LLM modernos con miles de millones de parámetros pueden funcionar Sólo 13 vatios de potencia sin pérdida de rendimiento. Esto es aproximadamente el consumo de una bombilla de 100 W, y Una mejora de 50 veces Más de 700 W que utiliza una GPU Nvidia H100.

«Obtuvimos el mismo rendimiento a un costo menor; todo lo que teníamos que hacer era cambiar fundamentalmente la forma en que funcionaban las redes neuronales», dijo el autor principal del artículo, Jason Eshraghian. «Luego dimos un paso más y creamos hardware personalizado». Lo hicieron eliminando la matriz de multiplicación de la red neuronal.

La multiplicación de matrices es la base de los algoritmos que impulsan los LLM de hoy Las palabras se representan como números y luego se organizan en matrices donde se ponderan y multiplican entre sí para producir resultados lingüísticos basados ​​en la importancia de palabras particulares y su relación con otras palabras en una oración o párrafo.

Estas matrices se almacenan en cientos de GPU físicamente separadas y se recuperan con cada nueva consulta u operación. El proceso de transferir datos que deben multiplicarse a través de una multitud de matrices consume cantidades significativas de energía eléctrica y, por tanto, de dinero.

Para resolver este problema, el equipo de UC Santa Cruz forzó los números de la matriz a un estado ternario: cada número tenía un valor negativo, cero o positivo. Esto permite a los procesadores simplemente sumar números en lugar de multiplicarlos, un cambio que no supone ninguna diferencia en el algoritmo pero ahorra una enorme cantidad de costes en términos de hardware. Para mantener el rendimiento a pesar del número reducido de operaciones, el equipo introdujo computación basada en el tiempo en el sistema, creando efectivamente una «memoria» para la red, aumentando la velocidad a la que podía procesar las operaciones reducidas.

«Desde el punto de vista de un diseñador de circuitos, no es necesario el costo de multiplicación, que genera el costo total», dijo Eshraghian. Y aunque el equipo implementó su nueva red en hardware FGPA personalizado, confían en que se pueden realizar muchas mejoras de eficiencia en los modelos existentes utilizando software de código abierto y modificaciones menores de hardware. Incluso en GPU estándar, el equipo logró una reducción de 10 veces en el consumo de memoria y mejoró la velocidad operativa en un 25 %.

A medida que los fabricantes de chips como Nvidia y AMD continúan superando los límites del rendimiento de los procesadores GPU, las demandas eléctricas (y sus costos financieros asociados) para los centros de datos que albergan estos sistemas han aumentado en los últimos años. A medida que aumenta la potencia informática, también aumenta la cantidad de calor residual que generan los chips, calor residual que ahora requiere sistemas de refrigeración líquida que consumen muchos recursos para eliminarlo por completo.

René Haas, director ejecutivo de Arm advirtió El Registro en abril Que los centros de datos de IA podrían consumir hasta el 20-25% de toda la producción eléctrica de EE. UU. para finales de esta década si no se toman medidas correctivas, y con rapidez.

Recomendaciones de los editores






Source link