DeepSeek acaba de lanzar su cuarta generación de modelos insignia con DeepSeek-V4-Pro y DeepSeek-V4-Flash, ambos orientados a permitir una inferencia de contexto de millones de tokens altamente eficiente.

DeepSeek-V4-Pro es el modelo más grande de la familia, con 1.6 billones (1.6T) de parámetros totales y 49 mil millones (49B) de parámetros activos. DeepSeek-V4-Flash es un modelo más pequeño de 284 mil millones (284B) de parámetros con 13 mil millones (13B) de parámetros activos, diseñado para cargas de trabajo de mayor velocidad y eficiencia. Ambos modelos admiten una ventana de contexto de hasta 1 millón de tokens, abriendo nuevas posibilidades para la programación con contexto largo, análisis de documentos, recuperación y flujos de trabajo de IA agéntica.

Innovaciones arquitectónicas para la inferencia de contexto largo

La familia V4 se basa en la arquitectura MoE de DeepSeek, con un mayor enfoque en la optimización del componente de atención de la arquitectura transformer. Estas innovaciones están diseñadas para lograr una reducción del 73% en los FLOPs de inferencia por token y una reducción del 90% en la carga de memoria del caché KV en comparación con DeepSeek-V3.2.

Eso es importante porque el contexto largo se está convirtiendo en un requisito central para las aplicaciones agénticas. Los agentes almacenan más que un simple prompt y su respuesta. Llevan instrucciones del sistema, salidas de herramientas, contexto recuperado, código, registros, memoria y trazas de razonamiento de múltiples pasos a lo largo de un flujo de trabajo. A medida que crecen las ventanas de contexto, la atención y el caché KV se convierten en importantes cuellos de botella.

Figura 1. Descripción general de la arquitectura Hybrid Attention de DeepSeek-V4. Al combinar CSA, DSA y HCA, el modelo logra una reducción significativa en la huella de memoria del caché KV y la sobrecarga computacional.
Figura 1. Descripción general de la arquitectura Hybrid Attention de DeepSeek-V4. Al combinar CSA, DSA y HCA, el modelo logra una reducción significativa en la huella de memoria del caché KV y la sobrecarga computacional.

La solución arquitectónica central para estos desafíos es la atención híbrida (hybrid attention), que combina:

  • Atención dispersa comprimida (Compressed Sparse Attention o CSA): Aprovecha la compresión dinámica de secuencias para comprimir las entradas KV con el fin de reducir la huella de memoria del caché KV, y luego aplica la Atención Dispersa de DeepSeek (DSA) para hacer más dispersas las matrices de atención y reducir la sobrecarga computacional.
  • Atención fuertemente comprimida (Heavily Compressed Attention o HCA): Aplica una compresión mucho más agresiva al consolidar las entradas KV a través de conjuntos de tokens en una sola entrada comprimida, lo que resulta en una reducción significativa en el tamaño del caché KV.

Las innovaciones arquitectónicas de DeepSeek-V4 señalan un cambio desde el chat básico hacia la inferencia de múltiples turnos y contexto largo, y sistemas agénticos. Este nuevo paradigma presiona toda la pila (software, memoria, cómputo y redes), alterando fundamentalmente la dinámica de la economía de la inferencia. A medida que los modelos abiertos alcanzan la frontera de la inteligencia, el enfoque empresarial está pivotando desde la selección de modelos hacia la estrategia de infraestructura. En este panorama, la ventaja competitiva definitiva es la capacidad de implementar (deployment) y escalar estos modelos de alto rendimiento al menor costo por token.

Datos de rendimiento listos para usar con NVIDIA Blackwell

Ya sea que los desarrolladores estén implementando el modelo Pro de 1.6T para razonamiento avanzado o el modelo Flash de 284B para eficiencia de alta velocidad, Blackwell proporciona la escala y el rendimiento de baja latencia requeridos para una nueva era de inferencia de contexto largo de 1M y de inteligencia de billones de parámetros.

La plataforma NVIDIA Blackwell está construida para esta clase de cargas de trabajo. Las pruebas listas para usar (out-of-the-box) de DeepSeek-V4-Pro en NVIDIA GB200 NVL72 demuestran más de 150 tokens/segundo/usuario. Además de estas pruebas iniciales, el equipo de NVIDIA aprovechó la receta del Día 0 de NVIDIA Blackwell B300 de vLLM para producir una instantánea del rendimiento listo para usar en todo el frente de Pareto (Figura 2).

Figura 2. Rendimiento listo para usar de DeepSeek-V4-Pro en NVIDIA Blackwell B300. Los resultados se basan en una configuración ISL/OSL de 1K/1K utilizando el formato MXFP4 nativo del modelo.
Figura 2. Rendimiento listo para usar de DeepSeek-V4-Pro en NVIDIA Blackwell B300. Los resultados se basan en una configuración ISL/OSL de 1K/1K utilizando el formato MXFP4 nativo del modelo.

Se espera que este rendimiento aumente aún más a medida que optimicemos toda nuestra pila de codiseño extremo: Dynamo, NVFP4, kernels CUDA optimizados, técnicas avanzadas de paralelización y más.

Construye con endpoints acelerados por GPU de NVIDIA

Los desarrolladores pueden comenzar a construir con DeepSeek V4 a través de endpoints acelerados por GPU de NVIDIA en build.nvidia.com como parte del NVIDIA Developer Program. Los endpoints alojados proporcionan una forma rápida de crear prototipos con los modelos más recientes antes de pasar a rutas de implementación autoalojadas.

DeepSeek V4 también está disponible para descargar el día 0 con NVIDIA NIM, de modo que se puede implementar para construir programación de contexto largo, análisis de documentos y flujos de trabajo agénticos utilizando patrones de API familiares.

Implementación con SGLang

SGLang ofrece tres recetas principales de servicio para DeepSeek‑V4 en NVIDIA Blackwell y Hopper, cada una ajustada para un perfil diferente de latencia/rendimiento (baja latencia, equilibrado y rendimiento máximo), junto con recetas especializadas para cargas de trabajo de contexto largo y para la desagregación de prefill/decode.

Implementación con vLLM

vLLM proporciona recetas de servicio de un solo nodo y multinodo de DeepSeek‑V4 para NVIDIA Blackwell y Hopper, incluyendo recetas de desagregación de prefill/decode multinodo que escalan hasta más de 100 GPUs, con soporte para llamadas a herramientas (tool calling), razonamiento y decodificación especulativa.

Impulsando flujos de trabajo agénticos

DeepSeek V4 es especialmente excelente para agentes, ya que sobresale en la orquestación de contexto largo, razonamiento y llamadas a herramientas. Para comenzar, los desarrolladores pueden configurar DeepSeek V4 como el LLM:

  • NVIDIA NemoClaw: Ejecuta OpenClaw en un entorno seguro OpenShell para crear un asistente personal de ejecución prolongada impulsado por DeepSeek V4 para tareas como generación de código, asistente personal, soporte autónomo y más. Ejecuta nemoclaw onboard y durante el paso 3, ingresa la URL de tu proveedor de DeepSeek V4 y el nombre de su modelo DeepSeek V4.
  • NVIDIA Data Explorer Agent: El agente ganó el 1er lugar en el benchmark DABstep; sobresale en análisis de datos, ciencia de datos e investigación tabular. El agente está escrito con el NeMo Agent Toolkit, lo que facilita cambiar para usar DeepSeek V4.

La mejor parte de usar entornos de agentes abiertos y modelos abiertos es que siempre puedes probar nuevos modelos para estar a la vanguardia.

Comienza con DeepSeek

Desde implementaciones en centros de datos con NVIDIA Blackwell hasta microservicios gestionados NIM y flujos de trabajo de fine-tuning, NVIDIA proporciona una gama de opciones para integrar DeepSeek y otros modelos abiertos en diferentes etapas de desarrollo e implementación. NVIDIA es un contribuyente activo al ecosistema open-source y ha lanzado varios cientos de proyectos bajo licencias de código abierto. NVIDIA está comprometida con la optimización del software comunitario, y los modelos abiertos permiten a los usuarios compartir ampliamente el trabajo en seguridad y resiliencia de IA.

Para comenzar, revisa DeepSeek-V4 en Hugging Face o prueba la versión pro en build.nvidia.com.

Vía NVIDIA Developer.