DeepSeek V4 Flash en VM0. El modelo más barato
El modelo más barato del catálogo. 50× menos que Sonnet 4.6. Sorprendentemente capaz para su nivel. SWE-bench Verified reportado por el proveedor a 1,6 puntos de V4 Pro.
1M tokens · Text / Code · Prompt cache
DeepSeek V4 Flash es el líder en costo de la generación V4, diseñado para el costo unitario más bajo absoluto del catálogo. Es bueno en trabajo de un solo paso donde el prompt hace la mayor parte del trabajo: etiquetar un millón de tickets, extraer campos estructurados de backlogs de correo, puntuar reseñas, prefiltrar registros antes de que los casos difíciles vayan a un modelo más fuerte. SWE-bench Verified reportado por el proveedor es 79,0% (a 1,6 puntos de V4 Pro), pero Terminal-Bench 2.0 se queda atrás por 11 puntos — ahí es donde Flash pierde: en cadenas largas de herramientas multi-paso.
El precio de lista del proveedor es $0,14 / $0,28 por 1M tokens con lecturas de caché a $0,028 / 1M y escrituras de caché gratuitas. No pongas Flash en un rol de planificador; para eso, V4 Pro o Sonnet 4.6. En cualquier otro lugar donde el costo domina, nada compite.
¿Qué es DeepSeek V4 Flash?
24 de abril de 2026 · Líder en costo de la familia DeepSeek V4. Emparejado con V4 Pro para razonamiento.
DeepSeek V4 Flash es el líder en costo de la generación V4 de DeepSeek, lanzado el 24 de abril de 2026 junto con V4 Pro. Donde V4 Pro está posicionado para razonamiento, Flash está posicionado para el costo unitario más bajo absoluto. Un modelo que puedes ejecutar a volúmenes muy altos sin pensar en el presupuesto.
Flash es un MoE de 284B parámetros con 13B activos por token (vs 1,6T / 49B de Pro). Ambos comparten el conjunto de características idéntico de la familia V4: contexto de 1M tokens, 384K de salida máxima, tres modos de esfuerzo de razonamiento, salida JSON y llamadas a herramientas.
En VM0 tiene un multiplicador de crédito ×0,02. El más bajo de todo el catálogo Built-in. Esto lo convierte en el predeterminado para clasificación masiva, etiquetado, extracción y cargas de trabajo de prefiltrado donde el prompt hace la mayor parte del trabajo y el modelo solo necesita seguir instrucciones de manera fiable. Comparte la economía de caché de escritura gratuita de la familia V4: solo se facturan las lecturas de caché.
Qué destaca de DeepSeek V4 Flash
Características principales de arquitectura y capacidades.
V4 Flash es un modelo Mixture-of-Experts con 284B parámetros totales y 13B activos por token, con una ventana de contexto de 1M tokens y 384K de salida máxima. Expone tres modos de esfuerzo de razonamiento (standard, think y think-max), factura solo lecturas de caché (las escrituras de caché son gratuitas) y se publica bajo la Licencia MIT con pesos abiertos.
Especificaciones rápidas
Benchmarks de DeepSeek V4 Flash
Puntuaciones reportadas por el proveedor del lanzamiento de V4 de DeepSeek. Flash iguala a Pro en benchmarks más simples pero pierde terreno en uso de herramientas multi-paso (Terminal-Bench) y recuperación factual (SimpleQA). Exactamente lo que esperarías del MoE más pequeño.
Precios de DeepSeek V4 Flash
Precio de lista del proveedor, por 1M de tokens.
Cómo se comporta DeepSeek V4 Flash en la práctica
Comportamiento observado en ejecuciones de agentes en producción.
Costo
De lejos el costo más bajo del catálogo Built-in. La opción correcta cuando el costo unitario domina la decisión.
Precisión en un solo paso
Buena cuando el prompt es explícito y la tarea cabe en uno o dos turnos. Cae notablemente cuando se le pide planificar, ramificar y recordar a través de muchos pasos.
Uso de herramientas multi-paso
Terminal-Bench 2.0 reportado por el proveedor es 56,9% (vs 67,9% de V4 Pro). Significativamente por detrás en flujos complejos de herramientas multi-paso. No pongas V4 Flash en un rol de planificador.
Ventana de contexto
1M tokens. Igual que V4 Pro y mucho más grande que Anthropic Haiku (200K).
Mejores tareas para DeepSeek V4 Flash
El clasificador que se ejecuta en cada registro sin pestañear
Etiqueta un millón de tickets por categoría, enruta formularios entrantes al equipo correcto, puntúa cada reseña en las dimensiones que importan. El costo por registro en Flash es fracciones de centavo, que es lo que hace que los flujos de trabajo de "clasificar todo a medida que llega" sean realmente sostenibles en lugar de limitarse a una muestra.
El prefiltro delante de un modelo más fuerte
Ejecuta V4 Flash en cada registro primero, luego enruta el 5% superior (o los casos en los que Flash no tiene confianza) a V4 Pro o Sonnet 4.6. Los pipelines de dos etapas superan a los de un solo modelo en costo total casi siempre — Flash maneja el 95% fácil, el modelo más fuerte solo ve el 5% difícil, y tu factura escala con la necesidad de razonamiento en lugar del volumen total.
El trabajo de extracción masiva que obtiene datos estructurados de cualquier lugar
Backlogs de correo, PDFs, transcripciones de reuniones, facturas escaneadas — cualquier lugar donde haya un prompt de sistema fijo pidiendo la misma forma JSON. Flash factura lecturas de caché pero no escrituras, por lo que el largo prefijo fijo que define el esquema de salida se paga una vez y se amortiza en todo el lote, llevando el costo marginal por documento cerca de cero.
La Q&A de un solo paso sobre documentos largos
Carga un libro entero, un contrato de 200 páginas o un código base en la ventana de contexto de 1M tokens y haz una sola pregunta dirigida. Flash responde en un solo paso a fracciones de centavo por llamada — más que suficientemente rápido para responder "¿este documento menciona X?" a través de un documento largo a escala, que es uno de los flujos de trabajo donde los bucles agénticos genuinamente no ayudan.
Cuándo evitar DeepSeek V4 Flash
Evita V4 Flash en bucles de agente multi-paso donde se desvía en cadenas largas de herramientas, y en razonamiento difícil, ediciones de código o roles de planificador donde V4 Pro o Sonnet 4.6 es la opción correcta.
DeepSeek V4 Flash vs otros modelos
DeepSeek V4 Flash vs DeepSeek V4 Pro
Mismo proveedor; V4 Pro (×0,3) hace el razonamiento, V4 Flash (×0,02) hace el volumen. La división clásica: Flash como prefiltro, Pro como escalador. SWE-bench Verified reportado por el proveedor está a 1,6 puntos (79,0 vs 80,6); Terminal-Bench 2.0 favorece a Pro por 11 puntos (67,9 vs 56,9).
DeepSeek V4 Flash vs Claude Haiku 4.5
Haiku 4.5 (×0,3) es más fiable en enrutamiento multi-herramienta y más rápido en flujos interactivos. V4 Flash (×0,02) gana en costo bruto y tamaño de contexto. Elige Flash para trabajos por lotes; elige Haiku para respuestas interactivas estilo Slack.
DeepSeek V4 Flash vs MiniMax M2.7
M2.7 (×0,1) es más fuerte en razonamiento multilingüe y tiene un timeout de 50 minutos para pensamiento largo. V4 Flash (×0,02) es más rápido y mucho más barato para trabajo de un solo paso.
Conclusión: ¿deberías usar DeepSeek V4 Flash?
El modelo más barato del catálogo. Correcto para etiquetado masivo, extracción y prefiltrado; incorrecto para roles de planificador o bucles de agente largos.
Preguntas frecuentes
¿Cuándo se lanzó DeepSeek V4 Flash?
DeepSeek lanzó V4 Flash y V4 Pro juntos el 24 de abril de 2026 bajo la Licencia MIT con pesos abiertos.
¿Debería ejecutar todo mi agente en V4 Flash?
Probablemente no. Flash es excelente en tareas de un solo paso pero se desvía en bucles largos multi-paso (Terminal-Bench 2.0 reportado por el proveedor está 11 puntos por detrás de V4 Pro). El patrón estándar es usarlo como prefiltro y escalar los casos difíciles a V4 Pro o Sonnet 4.6.
¿Las escrituras de caché son realmente gratuitas?
Sí. DeepSeek no factura la porción de escritura de caché. Solo las lecturas de caché facturan, a $0,028 por 1M tokens.
¿Es V4 Flash de código abierto?
Sí. Los pesos se publican bajo la Licencia MIT (284B total / 13B activos MoE). La API alojada de DeepSeek es la ruta de producción para VM0.
¿Cuál es la ventana de contexto de V4 Flash?
1 millón de tokens. Idéntica a V4 Pro. Útil para Q&A de un solo paso sobre documentos largos incluso en el nivel más barato.
Alternativas
Usar DeepSeek V4 Flash en VM0
Dos formas de acceder a DeepSeek V4 Flash en VM0
VM0 admite DeepSeek V4 Flash como modelo Built-in facturado en créditos VM0, y mediante bring-your-own con una DeepSeek API key. La ruta Built-in usa enrutamiento gestionado de VM0 y el multiplicador de créditos explicado abajo; la ruta bring-your-own te factura directamente con el proveedor upstream y omite la conversión de créditos VM0.
Recomendación de VM0
VM0 posiciona DeepSeek V4 Flash como una opción de ahorro en lugar de un modelo principal de agente. Úsalo para optimizar el coste unitario en trabajo no principal, como clasificación masiva, prefiltros, respuestas cortas con requisitos de latencia o agentes heredados fijos, manteniendo Claude Opus 4.7, Claude Opus 4.6 o Claude Sonnet 4.6 en los pasos que deciden la ejecución.
Créditos y el multiplicador ×0.02
Cada modelo Built-in en VM0 se valora como un múltiplo de Claude Sonnet 4.6, que establece la base de ×1 crédito. DeepSeek V4 Flash factura a ×0.02 créditos. El multiplicador es lo que aparece en tu factura de VM0; el precio de lista del proveedor en la tabla de arriba es lo que cobra el proveedor upstream antes de que VM0 lo convierta en créditos.
DeepSeek V4 Flash factura a ×0.02, lo que significa que un paso aquí cuesta solo 0.02× los créditos de un paso equivalente en Sonnet 4.6 (la base ×1). Esto lo sitúa en el nivel más barato del catálogo Built-in y lo convierte en la opción obvia cuando el coste unitario domina la decisión y la carga de trabajo es mayoritariamente de un solo paso.
Disponible en VM0 desde April 24, 2026.