Atualizado e verificado em 17 de abril de 2026. Esta página foi reestruturada para tratar o DeepSeek V3.2-Exp como uma referência histórica e técnica do ecossistema DeepSeek AI. Ele foi uma versão experimental anunciada em 29 de setembro de 2025 para validar o DeepSeek Sparse Attention (DSA), melhorias de eficiência em contexto longo e caminhos técnicos que depois foram consolidados no DeepSeek V3.2.
Para novas integrações, produtos, automações e uso em produção, a recomendação editorial desta página é clara: comece pelos IDs atuais da API, deepseek-chat e deepseek-reasoner, que a documentação oficial associa ao DeepSeek-V3.2 com limite de contexto de 128K tokens. O V3.2-Exp continua relevante para estudo de arquitetura, comparação histórica, pesquisa sobre atenção esparsa e execução local dos pesos publicados, mas não deve ser apresentado como o modelo principal atual da API.
Nota editorial importante: o V3.2-Exp não deve ser tratado nesta página como “o melhor modelo para começar hoje”. Ele foi um passo experimental entre o V3.1-Terminus e o V3.2. Em 2026, esta página deve servir como arquivo técnico: explica o que o V3.2-Exp testou, por que foi importante e como ele se relaciona com o DeepSeek V3.2 atual.
Resumo rápido do status do DeepSeek V3.2-Exp
| Item | Status correto em 17 de abril de 2026 |
|---|---|
| Natureza | Versão experimental e intermediária da família DeepSeek. |
| Lançamento | 29 de setembro de 2025. |
| Base técnica | Construído sobre o V3.1-Terminus para testar o DeepSeek Sparse Attention (DSA). |
| Principal contribuição | Validação de atenção esparsa para melhorar eficiência de treino e inferência em contextos longos. |
| Status atual | Histórico/técnico. Não é o foco recomendado para novas integrações via API pública. |
| Sucessor oficial | DeepSeek V3.2, anunciado em 1º de dezembro de 2025. |
| API pública atual | deepseek-chat e deepseek-reasoner correspondem ao DeepSeek-V3.2, segundo Models & Pricing da DeepSeek. |
| Uso recomendado hoje | Pesquisa, comparação histórica, estudo de DSA, reprodução técnica e análise da evolução da arquitetura. |
O que foi o DeepSeek V3.2-Exp?
O DeepSeek V3.2-Exp foi uma versão experimental criada para testar uma direção arquitetural: tornar modelos de linguagem grandes mais eficientes em tarefas de contexto longo. A própria DeepSeek descreveu essa versão como um passo intermediário rumo a uma arquitetura de próxima geração, construída sobre o V3.1-Terminus e focada em validar o DeepSeek Sparse Attention.
Na época do lançamento, a DeepSeek afirmou que o V3.2-Exp estava disponível em App, Web e API, e que a atualização trazia redução de preços na API. Esse ponto deve ser entendido como uma fotografia histórica de setembro de 2025. Hoje, a página oficial de Models & Pricing informa que os IDs deepseek-chat e deepseek-reasoner correspondem ao DeepSeek-V3.2, não ao V3.2-Exp.
Portanto, a forma correta de apresentar esta página é: V3.2-Exp foi importante porque testou o caminho técnico que levou ao V3.2; porém, quando um desenvolvedor quer criar uma integração nova em 2026, ele deve usar a documentação atual da DeepSeek API e a página de preços, em vez de tratar o V3.2-Exp como alvo principal.
Linha do tempo técnica
| Data | Evento | Impacto |
|---|---|---|
| 22 de setembro de 2025 | Atualização V3.1-Terminus | Base imediatamente anterior usada como referência para comparação. |
| 29 de setembro de 2025 | Lançamento do DeepSeek V3.2-Exp | Introdução pública do DSA para validar eficiência em contexto longo. |
| 17 de novembro de 2025 | Correção no código demo de inferência | A DeepSeek relatou ajuste relacionado ao RoPE no módulo indexer do demo de inferência. |
| 1º de dezembro de 2025 | Lançamento do DeepSeek V3.2 | O V3.2 foi apresentado como sucessor oficial do V3.2-Exp. |
| 17 de abril de 2026 | Status editorial desta página | V3.2-Exp deve ser lido como referência histórica/técnica; V3.2 é o caminho recomendado para novas integrações. |
DeepSeek Sparse Attention: a contribuição central
A principal inovação associada ao DeepSeek V3.2-Exp foi o DeepSeek Sparse Attention, ou DSA. Em modelos de linguagem tradicionais, o custo de atenção em contextos longos cresce rapidamente conforme a sequência aumenta. A proposta do DSA foi reduzir essa carga ao selecionar partes relevantes do contexto, em vez de calcular atenção densa sobre tudo o tempo inteiro.
De forma simples, o DSA tenta responder a uma pergunta prática: como permitir que um modelo trabalhe com textos muito longos sem tornar cada chamada lenta e cara demais? O V3.2-Exp serviu como experimento público para testar essa ideia em grande escala e medir se a eficiência poderia melhorar sem perda relevante de qualidade em benchmarks.

Contexto longo e limite de 128K tokens
O tema de contexto longo é central para entender por que o V3.2-Exp foi relevante. A documentação atual de Models & Pricing da DeepSeek informa contexto de 128K tokens para os IDs deepseek-chat e deepseek-reasoner associados ao DeepSeek-V3.2. No caso do V3.2-Exp, a importância histórica está no fato de ele ter testado a eficiência necessária para tornar esse tipo de contexto mais prático em tarefas reais.
Em aplicações como análise de contratos, leitura de documentação extensa, revisão de código, auditoria de logs e perguntas sobre bases de conhecimento, uma janela grande ajuda o modelo a receber mais informação em uma única requisição. Porém, contexto longo não elimina a necessidade de boa arquitetura: ainda é recomendável selecionar trechos relevantes, resumir histórico desnecessário, controlar custo e evitar enviar dados sensíveis sem necessidade.
Benchmarks e leitura correta dos resultados
Segundo o repositório oficial, a DeepSeek alinhou a configuração de treinamento do V3.2-Exp com o V3.1-Terminus para avaliar o impacto da atenção esparsa. Em benchmarks públicos, o objetivo declarado era mostrar desempenho comparável ao V3.1-Terminus enquanto se ganhava eficiência em contexto longo. Isso significa que a leitura correta do V3.2-Exp não é “um novo campeão definitivo”, mas sim “um experimento técnico bem-sucedido para validar eficiência”.

Por que esta página não deve recomendar V3.2-Exp para novas integrações?
Existem três razões principais. Primeiro, a DeepSeek lançou o DeepSeek V3.2 em dezembro de 2025 e o descreveu como sucessor oficial do V3.2-Exp. Segundo, a página atual de Models & Pricing informa que os IDs de modelo/modo da API pública, deepseek-chat e deepseek-reasoner, correspondem ao DeepSeek-V3.2. Terceiro, páginas antigas que chamam o V3.2-Exp de opção principal podem confundir usuários e criar contradição com páginas atuais de DeepSeek V3.2, API e preços.
A melhor solução editorial é manter a página, mas mudar seu propósito. Em vez de apagar o conteúdo, ela deve explicar a evolução histórica da família DeepSeek, preservar a autoridade técnica do site e direcionar o leitor para o modelo atual quando o objetivo for integração, automação ou produto em produção.
API atual: use deepseek-chat ou deepseek-reasoner
Na API pública atual, deepseek-chat e deepseek-reasoner são IDs de modelo/modo, não endpoints separados. O endpoint de chat continua sendo /chat/completions, com base URL https://api.deepseek.com. O modo deepseek-chat representa o DeepSeek-V3.2 em modo sem pensamento explícito, enquanto deepseek-reasoner representa o modo com raciocínio.
from openai import OpenAI
client = OpenAI(
api_key="<DeepSeek API Key>",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-chat",
messages=[
{"role": "system", "content": "Responda em português do Brasil com precisão."},
{"role": "user", "content": "Explique o papel histórico do DeepSeek V3.2-Exp."}
]
)
print(response.choices[0].message.content)
Esse exemplo usa a API atual. Ele não está chamando “V3.2-Exp” como modelo ativo; está usando o DeepSeek-V3.2 por meio do ID deepseek-chat. Essa distinção evita a principal confusão que páginas antigas costumam criar.
Thinking Mode e parâmetros: cuidado com recomendações antigas
O modo de raciocínio atual pode ser usado com deepseek-reasoner ou com o parâmetro thinking habilitado. A documentação oficial informa que o Thinking Mode pode retornar reasoning_content, content e tool_calls. Ela também informa que alguns parâmetros comuns não devem ser tratados como controles efetivos nesse modo: temperature, top_p, presence_penalty e frequency_penalty não têm efeito; logprobs e top_logprobs podem gerar erro.
Por isso, se esta página mencionar parâmetros como temperature = 1.0 e top_p = 0.95, a frase deve ficar restrita ao contexto de execução local descrito nos repositórios de modelos, e não ao Thinking Mode da API. Misturar esses contextos pode levar desenvolvedores a configurar a API de forma incorreta.
Tool calls: o modelo não executa ferramentas sozinho
O DeepSeek V3.2 atual suporta tool calls tanto no modo sem pensamento quanto no Thinking Mode. No entanto, a regra operacional continua a mesma: o modelo retorna uma chamada estruturada, mas a aplicação é quem executa a ferramenta real. Se o modelo solicita get_weather, consulta a um CRM, busca em uma base interna ou execução de uma função, o backend precisa validar, executar e devolver o resultado ao modelo.
Essa distinção é importante para segurança. Nunca descreva o DeepSeek como se ele acessasse sistemas externos automaticamente sem controle. Em produção, defina schemas claros, valide argumentos, limite permissões, registre eventos e use aprovação humana em ações sensíveis.
Conversas multi-turno: a API é stateless
A documentação oficial da DeepSeek explica que a API /chat/completions é stateless: o servidor não registra automaticamente o histórico das requisições do usuário. Para manter uma conversa multi-turno, sua aplicação deve reenviar o histórico necessário no campo messages em cada chamada.
Esse ponto corrige outro erro comum em conteúdos antigos: dizer que o modelo “lembra” por si só do histórico. Na prática, a memória da conversa é uma responsabilidade da aplicação. Para produtos reais, isso significa controlar o tamanho do histórico, resumir conversas longas, proteger dados pessoais e considerar impacto de custo.
Context caching e custo
A DeepSeek informa que o Context Caching está habilitado por padrão para usuários da API. Quando uma nova requisição repete prefixos de contexto de requisições anteriores, a parte repetida pode contar como cache hit. Isso pode reduzir custo em fluxos com documentos longos, exemplos few-shot, bases de conhecimento e conversas com prefixos recorrentes.
Mesmo assim, cache não deve ser apresentado como garantia absoluta de economia. Ele depende de prefixos repetidos e do comportamento do cache. Para uma visão atual dos valores, consulte a página de preços do DeepSeek e a documentação oficial de Models & Pricing.

Execução local e estudo dos pesos publicados
O repositório oficial do DeepSeek V3.2-Exp no Hugging Face indica licença MIT e descreve caminhos de execução local com código de inferência, SGLang e vLLM. Isso é útil para pesquisadores e equipes com infraestrutura de GPU adequada. Porém, não deve ser vendido como uma opção simples para qualquer usuário: modelos desse porte exigem planejamento de hardware, memória, inferência distribuída, otimização, observabilidade e segurança.
# Exemplo conceitual inspirado no repositório oficial.
# Consulte sempre as instruções atuais do Hugging Face/GitHub antes de executar.
python -m sglang.launch_server \
--model deepseek-ai/DeepSeek-V3.2-Exp \
--tp 8 \
--dp 8 \
--enable-dp-attention
Para equipes que não precisam reproduzir o V3.2-Exp localmente, a API atual costuma ser o caminho mais simples. Para equipes que precisam estudar a arquitetura, comparar resultados históricos ou adaptar inferência, o V3.2-Exp continua sendo uma referência técnica valiosa.
Casos de uso adequados para esta página histórica
- Pesquisa sobre atenção esparsa: entender como DSA foi apresentado e quais problemas buscava resolver.
- Comparação entre versões: analisar a transição de V3.1-Terminus para V3.2-Exp e depois para V3.2.
- Estudo de contexto longo: compreender desafios de custo, latência e seleção de informação em janelas grandes.
- Reprodução técnica: testar pesos publicados, código de inferência, SGLang, vLLM e kernels associados.
- SEO e autoridade temática: manter uma página explicativa sobre a evolução dos modelos DeepSeek, sem confundir o usuário sobre qual modelo usar hoje.
Casos em que você deve ir direto para DeepSeek V3.2
- Construir chatbot, assistente, automação ou integração nova via API.
- Usar tool calls em produção.
- Implementar Thinking Mode com
deepseek-reasoner. - Planejar custos atuais com base em tokens e cache.
- Criar documentação de produto para usuários finais.
- Testar o DeepSeek em português no chat ou no app oficial.
Para esses cenários, leia primeiro: DeepSeek V3.2, DeepSeek API em português, preços da API DeepSeek e FAQ.
Correções editoriais aplicadas nesta versão
- Removida a chamada para “experimentar agora” o V3.2-Exp como se fosse o modelo principal atual.
- Corrigida a distinção entre endpoint e ID de modelo/modo:
deepseek-chatedeepseek-reasonersão valores do campomodel, não endpoints separados. - Adicionado aviso de que a página é histórica/técnica e que novas integrações devem começar pelo DeepSeek V3.2.
- Corrigida a explicação de multi-turno: a API é stateless e a aplicação precisa reenviar histórico.
- Corrigida a explicação de tool calls: o modelo solicita a ferramenta, mas o backend executa.
- Separada a recomendação de parâmetros para execução local das regras do Thinking Mode na API.
- Marcadas imagens de preço e benchmark como registros históricos, não como fonte primária para decisões atuais.
- Reforçado o link interno para páginas atuais de modelos, API, preços, app, chat e FAQ.
Perguntas frequentes sobre DeepSeek V3.2-Exp
O DeepSeek V3.2-Exp ainda é o modelo atual da API?
Não. A página atual de Models & Pricing da DeepSeek informa que deepseek-chat e deepseek-reasoner correspondem ao DeepSeek-V3.2. O V3.2-Exp deve ser tratado como referência histórica e técnica.
Posso usar V3.2-Exp para pesquisa?
Sim. O repositório do modelo no Hugging Face e os materiais oficiais continuam úteis para estudar DSA, execução local, inferência distribuída e evolução da arquitetura. Apenas não apresente isso como o caminho padrão de API para novos produtos.
Qual é a principal diferença entre V3.2-Exp e V3.2?
O V3.2-Exp foi uma versão experimental para validar eficiência, especialmente com DSA. O V3.2 foi anunciado depois como sucessor oficial e é a versão associada aos principais IDs da API pública atual.
A página deve ser removida do site?
Não. Para SEO e autoridade temática, é melhor mantê-la como página histórica/técnica, com links claros para DeepSeek V3.2, API, preços e modelos atuais. Isso evita conteúdo órfão e melhora a coerência do cluster sobre DeepSeek AI.
Fontes oficiais e leitura complementar
- DeepSeek API Docs — Introducing DeepSeek-V3.2-Exp
- DeepSeek API Docs — DeepSeek-V3.2 Release
- DeepSeek API Docs — Models & Pricing
- DeepSeek API Docs — Thinking Mode
- DeepSeek API Docs — Multi-round Conversation
- DeepSeek API Docs — Tool Calls
- DeepSeek API Docs — Context Caching
- Hugging Face — deepseek-ai/DeepSeek-V3.2-Exp
- GitHub — deepseek-ai/DeepSeek-V3.2-Exp
Conclusão
O DeepSeek V3.2-Exp foi uma etapa importante na evolução técnica da DeepSeek AI. Seu valor está em ter validado o DeepSeek Sparse Attention, melhorias de eficiência em contextos longos e a transição para modelos mais adequados a tarefas complexas. Porém, em 2026, ele deve ser apresentado como página histórica e técnica.
Para novas integrações, use deepseek-chat ou deepseek-reasoner conforme a necessidade do produto, consulte a documentação atual da API e confirme preços antes de estimar custos. Para estudo técnico, pesquisa e comparação histórica, o V3.2-Exp continua sendo uma referência útil dentro da trajetória que levou ao DeepSeek V3.2.