𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

📅3 hours ago⏱1 min read

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗲𝗻 𝘂𝗻 𝗫𝗲𝗼𝗻 𝗱𝗲 𝟮𝟬𝟬𝟴: 𝗟𝗮 𝗥𝗔𝗠 𝗶𝗺𝗽𝗼𝗿𝘁𝗮 𝗺𝗮́𝘀 𝗾𝘂𝗲 𝗹𝗮 𝗩𝗥𝗔𝗠

Intenté ejecutar un modelo de 20 GB en mi portátil de trabajo. El portátil tiene una RTX 4070 y 16 GB de RAM. Falló. El sistema se congeló por completo.

En su lugar, decidí probar un viejo servidor de 2008. El servidor tiene dos CPUs Intel Xeon E5440 y 64 GB de RAM. No tiene GPU.

El objetivo era sencillo. ¿Puede un hardware antiguo con suficiente memoria ejecutar un modelo grande que mi portátil no puede?

Así es como se compara el hardware:

Laptop:

CPU: Portátil moderno
RAM: 16 GB
GPU: 8 GB de VRAM
Resultado: El sistema se congela

Server:

CPU: 2x Xeon E5440
RAM: 64 GB
GPU: Ninguna
Resultado: Funciona

El servidor es lento. Genera aproximadamente 0.01 tokens por segundo. Comencé la prueba a medianoche y la revisé por la mañana.

El modelo intentó escribir código en Forth. Produjo dos versiones diferentes después de varias horas. Ambas versiones fallaron al ejecutarse.

Aprendí dos cosas de esto:

El volumen de RAM importa. 64 GB de RAM del sistema te permiten ejecutar modelos que 24 GB de VRAM y RAM combinadas no pueden. Sin embargo, 0.01 tokens por segundo no es práctico para el trabajo.
Los modelos grandes no son mágicos. Un modelo grande no puede programar en un lenguaje de nicho como Forth si no fue entrenado en él. Para obtener código funcional, necesitas un proceso mejor. Necesitas algoritmos, transpiladores deterministas y mejores herramientas.

No compres hardware caro para probar una idea. Ejecuta tus experimentos primero con lo que ya tienes. La inferencia lenta sigue siendo inferencia. Me dio la respuesta que necesitaba sin una factura masiva.

Source: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

Optional learning community: https://t.me/GyaanSetuAi

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

Hacia un servicio eficiente de LLM

𝗥𝗔𝗠 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗚𝗣𝗨

Ejecutar dos modelos en una sola GPU: La matemática detrás de los LLM locales