DEPSEC-R 1: Desafíos presupuestarios para la implementación en el precio
5 min read
Hasta ahora, los líderes de TI deben considerar los riesgos de protección cibernética que permitan a los usuarios acceder a modelos de idiomas grandes (LLM) directamente a través del CHATGPT directamente a través de la nube. La alternativa es utilizar Open Source LLM que se puede alojar en Primeis o acceder a través de una nube privada.
Se requiere modelo de inteligencia artificial (IA) Memoria Y, al usar la Unidad de Procesamiento de Gráficos (GPU) para la aceleración de AI, significa que debe considerarse los gastos relacionados con los bancos de compra de GPU para crear suficiente memoria para mantener todo el modelo de los líderes.
Aceleración de AI de alta gama NVIDIA La memoria GPU, H11, de los ejes aleatorios (RAM) se ha configurado con 80 gitis y su especificación muestra que tiene una clasificación de 350 W para uso de energía.
El DipSec chino ha podido demostrar que su R1 LLM puede competir sin la necesidad de recurrir al último hardware de GPU. Sin embargo, se beneficia de la aceleración de AI basada en GPU.
Sin embargo, configurar una versión personal de DIPSC todavía requiere una inversión de hardware significativa. Ejecutar todo el modelo DEPSEC-R 1, que contiene 671 mil millones de parámetros, en la memoria, requiere una memoria de 768 GB. NVIDIA con H1 100 GPU, que se configuran con cada tarjeta de memoria de video de 80 GB, necesitan 10 para garantizar 10 modelo completo DEPSEC-R1 en la memoria.
Los líderes de TI pueden discutir el descuento de volumen, pero el único costo de aceleración de IA del hardware es de aproximadamente $ 250,000 para funcionar.
La GPU menos potente se puede usar, lo que puede ayudar a reducir esta imagen. Sin embargo, pagar los precios actuales de la GPU, un servidor capaz de operar un modelo completo de 670 mil millones de parámetros DEPSEC-R1 en memoria está a punto de gastar más de $ 100,000.
El servidor se puede ejecutar Infraestructura de la nube públicaEl Por ejemplo, ofertas en Azure NVIDIA H 100 Acceso a $ 27.167 por hora con 900 GBYTS Memoria, que debería poder operar fácilmente el modelo DEPSEC-R 1 de 671 mil millones de parámetros en papel.
Si este modelo se usa en cada día del día de trabajo, y 35 horas a la semana y cuatro vacaciones y tiempo de inactividad, la factura anual de Azur será de aproximadamente $ 46,000 al año. Nuevamente, esta imagen puede reducirse significativamente a $ 16.63 ($ 23,000) por hora si hay una promesa de tres años.
Las GPU menos potentes definitivamente costarán menos, pero cuesta la memoria que lo prohíbe. Por ejemplo, mirando el presente Prisión de la nube de GoogleNVIDIA T4 GPU con un precio de $ 0.35 por hora, y hasta cuatro GPU, proporciona un total de $ 64 GBY Memoria por hora, y DEPSEC -1 671 mil millones de fondos requerirá 12 para adaptarse al modelo de parámetros completamente memoria, que es de $ 16.80 por hora. Con un compromiso de tres años, esta cifra cae $ 7.68, que solo funciona por debajo de $ 13,000 por año.
Un enfoque barato
Los líderes de TI pueden evitar por completo las GPU caras y reducir el costo dependiendo completamente de las unidades de procesamiento central informadas generales (CPU). Esta configuración solo es adecuada cuando el DEPSEC-R 1 AII se usa perfectamente para suponer.
Un tweet reciente de Mathew CariganEl ingeniero de aprendizaje automático abrazado, sugiere que este sistema nacional se puede crear utilizando dos procesadores de servidores EPYC AMD y 768 GBWYTES de memoria rápida. El sistema que presentó en múltiples tweets se puede mantener juntos por aproximadamente $ 6,000.
Respondiendo al comentario sobre la configuración, Carigan dijo que el procesador instalado y la velocidad de la memoria dependían de la velocidad de la memoria, pudo alcanzar las tasas de procesamiento de seis a ocho tokens por segundo. También depende de la longitud de la pregunta del lenguaje natural, pero su tweet incluye una configuración de EPYC Dual AMD y el hardware que creó en función de la memoria 768 GBT incluye un video que pide DEPSEC-R1 1.
Carigan admite que las GPU ganarán a velocidad, pero son caros. En su serie de tweets, menciona que la cantidad de memoria instalada tiene un impacto directo en el rendimiento. Esto se debe a “recordar” las preguntas anteriores al DEPSEC para obtener respuestas profundas. El truco se llama Captura de claves de claves (KV)El
“En el largo contexto de la prueba, KV Cache es más grande que yo”, dijo, “indica la consulta.
Dependiendo del procesador y la configuración de la memoria, comprar un servidor Prepbilt Dell, HPE o Lenovo probablemente puede ser más caro para hacer algo específico.
Formas separadas para resolver los costos de la memoria
El método que se puede tomar para reducir el costo de la memoria es usar múltiples capas de memoria controladas por un chip personalizado. Esta es la startup de California, Sambanova utiliza su Unidad DataPho Reconfigurable SN 40L (RDU) y una arquitectura DataPho propias para la memoria de tres niveles.
“Depsec-R 1 es uno de los modelos AI fronterizos más avanzados disponibles, pero su potencial completo ha estado limitado por la ineficiencia de las GPU”, dice el CEO de Sambanovar, Rodrigo Liang.
El antiguo Sun/Oracle Engineers, un grupo fundado en 2017 y el Departamento de Ingeniería Eléctrica de la Universidad de Stanford, afirmó que los requisitos de hardware para el chip RDU de 40 bastidores se han colapsado eficientemente. Rack 16 está configurado con RDU.
A principios de este mes, la Conferencia Lip 2021 en Riad firmó un acuerdo para presentar la primera plataforma de nube soberana de Arabia Saudita. Sauda Alshiraihi, vicepresidenta de las soluciones digitales de la compañía de telecomunicaciones sauditas, dice: “Esta cooperación con Sambanova ha identificado un hito importante en nuestro viaje para empoderar a la iniciativa saudita con el poder soberano de IA. Estamos permitidos para desbloquear sus datos controlando completamente las empresas proponiendo una plataforma de servicio de infierno seguro y esquelético. “
Este acuerdo con los proveedores de telecomunicaciones de Arabia Saudita explica que los gobiernos deberían considerar todas las alternativas al crear capacidades de IA soberana. DIPSEC ha demostrado que existen enfoques alternativos que pueden ser tan efectivos como tratar de implementar una gama infinita y costosa de GPU y probarse.
E incluso si es realmente mejor, cuando el hardware de IA con exceso de GPU está presente, lo que Sambava afirma es DEPSEC-R1 1 On-Primex, en la memoria también tiene una forma alternativa de lograr el mismo rendimiento, sin el costo de alcanzar el Las GPU equipadas con la memoria requerida del modelo.