Preços do DeepSeek

Última verificação: 17 de abril de 2026 — dados conferidos diretamente na página oficial de Models & Pricing, na documentação de First API Call e no guia oficial de Thinking Mode.

Escopo desta página: esta página cobre a API pública da DeepSeek. A própria documentação informa que a versão da API difere da APP/WEB. Para uso em produção, trate a página oficial de preços como fonte final de verdade.

Na API pública atual, os dois IDs principais de modelo/modo são deepseek-chat e deepseek-reasoner. Ambos correspondem ao DeepSeek-V3.2 com contexto de 128K tokens. O endpoint principal para chamadas de chat é /chat/completions; para listar os modelos disponíveis, use GET /models.

Tabela de preços oficial

Tipo de tokenPreço por 1M tokens (USD)
Entrada — cache hitUS$ 0,028
Entrada — cache missUS$ 0,28
SaídaUS$ 0,42

Esses valores se aplicam igualmente ao deepseek-chat e ao deepseek-reasoner. Na documentação oficial consultada nesta data, não há diferenciação de tarifa por token entre os dois modos.

Detalhes oficiais dos modos disponíveis

deepseek-chatdeepseek-reasoner
Versão do modeloDeepSeek-V3.2 (non-thinking)DeepSeek-V3.2 (thinking)
Contexto128K tokens128K tokens
Saída padrão4K tokens32K tokens
Saída máxima8K tokens64K tokens
JSON OutputSimSim
Tool CallsSimSim
Chat Prefix Completion (Beta)SimSim
FIM Completion (Beta)SimNão

No deepseek-reasoner, a API pode retornar reasoning_content além do conteúdo final. Segundo o guia oficial de Thinking Mode, o limite de max_tokens inclui a parte de raciocínio, então tarefas com thinking costumam consumir mais tokens de saída do que tarefas simples — mesmo com a mesma tarifa por token.

Também vale observar que, no guia oficial de Thinking Mode, parâmetros como temperature, top_p, presence_penalty e frequency_penalty podem ser aceitos por compatibilidade, mas não têm efeito nesse modo; logprobs e top_logprobs geram erro.

Como a cobrança funciona

A regra oficial é direta: despesa = número de tokens × preço. A documentação informa que as cobranças são deduzidas do topped-up balance (saldo recarregado) ou do granted balance (saldo concedido), com preferência por consumir o granted balance quando ambos estiverem disponíveis.

Na prática, para estimar custo por chamada:

custo total = (tokens de entrada em cache hit × 0,028/M) + (tokens de entrada em cache miss × 0,28/M) + (tokens de saída × 0,42/M)

Ao auditar custos, verifique os campos de uso retornados pela própria API, como prompt_cache_hit_tokens, prompt_cache_miss_tokens, completion_tokens e, quando aplicável, completion_tokens_details.reasoning_tokens.

O que são tokens

Tokens são as unidades básicas usadas pelo modelo para representar texto natural e também as unidades usadas para cobrança. A documentação da DeepSeek explica que um token pode corresponder a uma palavra, um número, um símbolo ou parte de texto, dependendo do tokenizador.

A própria documentação fornece exemplos de conversão apenas como aproximações gerais: 1 caractere em inglês ≈ 0,3 token e 1 caractere em chinês ≈ 0,6 token. Como a tokenização varia, o número real de tokens deve ser lido no retorno de uso da API ou calculado com o tokenizer oficial quando necessário.

Cache de contexto e redução de custo

A DeepSeek documenta que o Context Caching fica ativado por padrão para todos os usuários. Quando duas chamadas compartilham o mesmo prefixo desde o início da entrada, a parte repetida pode ser cobrada como cache hit, reduzindo o custo de entrada de US$ 0,28/M para US$ 0,028/M.

Em termos práticos, isso representa 90% de economia sobre a porção de entrada reaproveitada. O ponto importante é que apenas o prefixo repetido aciona cache hit; similaridades no meio do prompt não bastam.

Exemplo simples de cache

Se você envia um documento longo com as mesmas instruções de sistema e faz várias perguntas diferentes sobre esse mesmo documento, a primeira chamada tende a pagar o preço cheio da entrada (cache miss), enquanto as chamadas seguintes podem reaproveitar o prefixo compartilhado como cache hit. Isso é especialmente útil em Q&A sobre documentos longos, análise de código e conversas multi-turn com contexto extenso.

Saldo concedido, recarga e expiração

A documentação oficial usa os termos granted balance e topped-up balance. O FAQ informa que o saldo recarregado não expira; já a expiração do saldo concedido, quando existir, pode ser verificada na página de Billing.

Por isso, esta página não trata saldo concedido como crédito gratuito universal garantido para toda nova conta. Antes de depender de qualquer valor promocional, confirme no painel da DeepSeek ou via endpoint GET /user/balance se há granted_balance disponível e qual é sua validade.

Segundo o FAQ oficial, a plataforma aceita recarga por PayPal, cartão bancário, Alipay e WeChat Pay, sempre sujeita à disponibilidade do método no painel.

Exemplos práticos de custo

Os cálculos abaixo usam o preço oficial atual de entrada em cache miss (US$ 0,28/M) e saída (US$ 0,42/M). Quando parte da entrada vira cache hit, substitua o componente correspondente por US$ 0,028/M.

Uma consulta típica

Prompt de 800 tokens + resposta de 400 tokens = 1.200 tokens no total. Custo estimado: (0,0008 × 0,28) + (0,0004 × 0,42) = US$ 0,000392.

Aplicação SaaS pequena

1.000 consultas por dia, média de 2.000 tokens por consulta. Em ~30 dias, isso dá cerca de 60 milhões de tokens. Se assumirmos 30M de entrada (cache miss) e 30M de saída, o custo estimado é (30 × 0,28) + (30 × 0,42) = ~US$ 21. Se parte relevante da entrada virar cache hit, o total cai proporcionalmente.

Chatbot corporativo

10.000 interações por dia, média de 1.000 tokens por interação. Em ~30 dias, isso dá cerca de 300 milhões de tokens. Se assumirmos 150M de entrada (cache miss) e 150M de saída, o custo estimado é (150 × 0,28) + (150 × 0,42) = ~US$ 105. Se o sistema reaproveitar instruções e contexto de forma consistente, o custo de entrada pode cair de forma relevante graças ao cache hit.

A API do DeepSeek é gratuita?

Para a API, a referência oficial consultada nesta data é de cobrança por uso em tokens, conforme a tabela acima. Já o site oficial da DeepSeek promove a experiência de web/app com a mensagem “Free access to DeepSeek”, mas a própria documentação ressalta que a versão da API difere da APP/WEB.

Em outras palavras: não misture preços da API com a experiência do produto web/app. Esta página trata apenas da API pública e de sua cobrança oficial.

Compatibilidade com o formato OpenAI

A documentação oficial afirma que a API da DeepSeek é compatível com o formato da API da OpenAI. Em muitas integrações, basta trocar a base_url para https://api.deepseek.com e usar sua chave de API. Para compatibilidade, a documentação também aceita https://api.deepseek.com/v1, mas esclarece que esse v1 não tem relação com a versão do modelo.

Onde consultar preços atualizados

A referência final para preços, limites e recursos suportados é sempre a página oficial de Models & Pricing. Para detalhes técnicos de integração, consulte também:

Para contexto geral sobre a plataforma, visite nossa página principal, a página do DeepSeek-V3.2 e a FAQ. Para informações institucionais do site, consulte também a página de Aviso Legal, os Termos de Uso e a Política de Privacidade.

deepseek-portugues.chat é um projeto independente, sem afiliação oficial com a DeepSeek. Os preços, limites e descrições desta página foram alinhados à documentação oficial consultada em 17 de abril de 2026, mas a DeepSeek pode alterar preços, saldos, disponibilidade de modelos e regras de billing a qualquer momento. Antes de decisões financeiras, técnicas ou de produção, confirme sempre diretamente na documentação oficial e no painel da sua conta.