Punto clave de esta nota

Step 3.7 Flash es un VLM Mixture-of-Experts de 198B parámetros con 11B activos por paso y contexto de 256K tokens.

Punto clave de esta nota

StepFun publica los pesos abiertos en Hugging Face con cuantización NVFP4 para bajar el consumo de memoria.

Punto clave de esta nota

NVIDIA lo integra mediante NIM, TensorRT-LLM, vLLM, SGLang y receta NeMo con LoRA a 600 tokens por segundo en H100.

StepFun lanza Step 3.7 Flash, VLM MoE de 198B en NVIDIA

Al grano

Step 3.7 Flash es un VLM Mixture-of-Experts de 198B parámetros con 11B activos por paso y contexto de 256K tokens.
StepFun publica los pesos abiertos en Hugging Face con cuantización NVFP4 para bajar el consumo de memoria.
NVIDIA lo integra mediante NIM, TensorRT-LLM, vLLM, SGLang y receta NeMo con LoRA a 600 tokens por segundo en H100.

StepFun publicó Step 3.7 Flash, un modelo de lenguaje visual (VLM) de 198 mil millones de parámetros con arquitectura Mixture-of-Experts y unos 11 mil millones activos por paso de inferencia. NVIDIA lo integra a su stack empresarial mediante NIM, el framework NeMo y los endpoints de build.nvidia.com, dando a los desarrolladores opciones desde prototipado hasta despliegue productivo.

Las aplicaciones de IA están dejando atrás la simple generación de texto y avanzan hacia sistemas multimodales que perciben, buscan y razonan a través de imágenes, documentos, video y lenguaje en tiempo real. El objetivo es convertir información fragmentada en decisiones accionables.

Step 3.7 Flash, la última versión de StepFun, llega a escala empresarial sobre infraestructura acelerada por NVIDIA. El modelo soporta entrada nativa de imagen y video, tres niveles configurables de razonamiento (bajo, medio y alto) y una ventana de contexto de 256K tokens. StepFun apunta a casos de uso como análisis financiero, agentes de programación concurrentes y otros pipelines multimodales de alto throughput. Los desarrolladores pueden usar el checkpoint cuantizado en NVFP4 disponible en Hugging Face para acelerar la inferencia al reducir el ancho de banda de memoria y los requisitos de almacenamiento.

Diagrama de los componentes de Step 3.7 Flash para procesamiento de texto y visión

Step 3.7 Flash se puede desplegar con frameworks abiertos como SGLang, TensorRT-LLM y vLLM, aprovechando kernels optimizados para hardware NVIDIA.

¿Cómo se prototipa con los endpoints de NVIDIA?

Los desarrolladores pueden usar los endpoints acelerados por GPU disponibles en build.nvidia.com para prototipar y evaluar Step 3.7 Flash sin tener que provisionar hardware propio. NVIDIA publicó un notebook de demostración que combina Step 3.7 Flash con NVIDIA Nemotron Parse. El pipeline multi-paso de inteligencia documental extrae datos estructurados desde reportes financieros, presentaciones y papers científicos en PDF, incluidos los bounding boxes de los elementos detectados.

Despliegue productivo con NVIDIA NIM

NVIDIA NIM empaqueta Step 3.7 Flash como microservicio containerizado de inferencia con APIs estandarizadas. La unidad puede correr on-premises, en la nube o en entornos híbridos, y expone una interfaz compatible con el cliente de OpenAI para los requests entrantes.

Descargar el contenedor NIM desde el catálogo NGC de NVIDIA (requiere licencia empresarial).
Iniciar un servidor con un cliente compatible OpenAI.
Enviar entrada de texto o imagen al endpoint.

Código

from openai import OpenAI

client = OpenAI(
  base_url = "http://0.0.0.0:8000/v1",
  api_key="no-key-required"
)

completion = client.chat.completions.create(
  model="stepfun/step-3.7-flash",
  messages=[{"role":"user","content":"Explain particle physics?"}],
  temperature=0.5,
  top_p=1,
  max_tokens=1024,
  stream=True
)

for chunk in completion:
  if chunk.choices[0].delta.content is not None:
    print(chunk.choices[0].delta.content, end="")

¿Y el fine-tuning Day 0 con NeMo?

Step 3.7 Flash se puede personalizar con datos de dominio mediante librerías abiertas del NVIDIA NeMo Framework. La librería NeMo Automodel combina paralelismos n-D nativos de PyTorch con optimizaciones de performance y permite fine-tuning Day 0 directamente desde checkpoints de Hugging Face, sin necesidad de conversión. La receta de fine-tuning para Step 3.7 incluye técnicas como SFT y LoRA eficiente en memoria, alcanzando 600 tokens/seg en GPUs Hopper.

Para entrenamiento a gran escala los equipos también pueden usar la receta basada en NeMo Megatron-Bridge, que entrega optimizaciones adicionales de rendimiento.

Desde despliegues en datacenter sobre NVIDIA Blackwell, pasando por desktops NVIDIA DGX Station hasta microservicios NIM administrados y workflows de fine-tuning Day 0, NVIDIA ofrece opciones para integrar Step 3.7 Flash en distintas etapas de desarrollo. Con 748 GB de memoria coherente, DGX Station puede correr Step 3.7 Flash con margen para el contexto completo de 256K y permite iteración local más rápida.

¿Dónde se ubica Step 3.7 Flash frente a otros VLM abiertos?

El modelo se sitúa en la franja "open-weights MoE multimodal" junto a Llama 4 Scout (109B totales con 17B activos), DeepSeek-VL2 (236B totales con 21B activos) y Pixtral Large (124B densos). Step 3.7 Flash juega con un perfil más austero en parámetros activos (11B vs 17-21B de competidores cercanos), lo que se traduce en menor costo de inferencia por token. Para lectores chilenos que ya operan inferencia en GPUs locales, la cuantización NVFP4 baja los requisitos a una sola H100 SXM (80 GB) para correr el contexto completo de 256K, en lugar de necesitar un nodo multi-GPU.

NVIDIA es contribuyente activo del ecosistema abierto y ha publicado varios cientos de proyectos bajo licencias open source. Para empezar, Step 3.7 Flash está disponible en Hugging Face, en build.nvidia.com con datos propios o de manera local en DGX Station mediante el vLLM Playbook.

StepFun lanza Step 3.7 Flash, VLM MoE de 198B en NVIDIA

Al grano

Por qué importa

¿Cómo se prototipa con los endpoints de NVIDIA?

Despliegue productivo con NVIDIA NIM

¿Y el fine-tuning Day 0 con NeMo?

¿Dónde se ubica Step 3.7 Flash frente a otros VLM abiertos?

Seguir leyendo

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

NVIDIA lanza Nemotron 3 Nano Omni, modelo omnimodal para agentes de IA

NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo

NVIDIA verifica skills de agentes con firma criptográfica

→Al grano

✦Por qué importa

¿Cómo se prototipa con los endpoints de NVIDIA?

Despliegue productivo con NVIDIA NIM

¿Y el fine-tuning Day 0 con NeMo?

¿Dónde se ubica Step 3.7 Flash frente a otros VLM abiertos?

Seguir leyendo

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

NVIDIA lanza Nemotron 3 Nano Omni, modelo omnimodal para agentes de IA

NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo

NVIDIA verifica skills de agentes con firma criptográfica

Al grano

Por qué importa