DeepSeek API em português: modelos, preços e exemplos

A DeepSeek API permite integrar os modelos hospedados da DeepSeek a backends, chatbots, agentes, produtos SaaS e automações. Este guia em português brasileiro reúne o que você precisa confirmar antes de implementar: modelos atuais, endpoint, autenticação, Thinking Mode, preços, cache, limites e a migração correta dos nomes antigos.

Atualização verificada em 19 de julho de 2026: os IDs atuais da API hospedada são deepseek-v4-flash e deepseek-v4-pro. O alias legado deepseek-reasoner corresponde temporariamente ao deepseek-v4-flash com Thinking Mode — não ao V4 Pro.

Este é um guia independente em português. Não somos a DeepSeek e não representamos um canal oficial da empresa. Para decisões de produção, confirme mudanças na documentação oficial da DeepSeek API.

Resumo rápido da DeepSeek API

Item	Valor atual
Base URL no formato OpenAI	`https://api.deepseek.com`
Base URL no formato Anthropic	`https://api.deepseek.com/anthropic`
Endpoint principal	`POST /chat/completions`
Modelos hospedados atuais	`deepseek-v4-flash` e `deepseek-v4-pro`
Autenticação	Bearer token no header `Authorization`
Thinking Mode	Suportado nos dois modelos e ativado por padrão
Contexto	Até 1 milhão de tokens
Saída máxima anunciada	Até 384 mil tokens, respeitando o contexto total
Recursos	Streaming, JSON Output, Tool Calls, Context Caching e modos Thinking/Non-Thinking

O que é a DeepSeek API?

A API é a interface programática da DeepSeek. Em vez de conversar manualmente pelo site ou aplicativo, seu servidor envia uma requisição com instruções e mensagens e recebe uma resposta estruturada. Isso permite incluir geração de texto e raciocínio em um produto próprio, mantendo autenticação, permissões, histórico e regras de negócio sob controle do seu backend.

O formato principal é compatível com Chat Completions. Quem já trabalha com clientes compatíveis com OpenAI pode trocar a URL base, informar uma chave da DeepSeek e escolher um dos modelos V4. A DeepSeek também oferece uma interface no formato Anthropic para ferramentas compatíveis.

Modelos atuais: V4 Flash ou V4 Pro?

Critério	`deepseek-v4-flash`	`deepseek-v4-pro`
Posicionamento	Rápido, econômico e adequado a alto volume	Modelo mais forte para tarefas complexas
Parâmetros anunciados	284B totais / 13B ativos	1,6T totais / 49B ativos
Contexto	1M tokens	1M tokens
Thinking Mode	Sim	Sim
Uso inicial recomendado	Chat, classificação, resumo, extração e escala	Raciocínio avançado, coding e agentes complexos
Concorrência por conta	2.500 conexões	500 conexões

Comece com o V4 Flash e meça qualidade, latência e custo no seu conjunto de testes. Adote o V4 Pro quando o ganho de qualidade justificar o custo maior. O Pro é uma atualização opcional; ele não deve ser apresentado como substituto automático do antigo deepseek-reasoner.

Migração correta de deepseek-chat e deepseek-reasoner

Os IDs deepseek-chat e deepseek-reasoner são aliases legados e estão programados para ficar inacessíveis depois de 24 de julho de 2026, às 15:59 UTC. Durante o período de compatibilidade, o roteamento oficial é o seguinte:

Código legado	Equivalente oficial temporário	Configuração nova explícita
`deepseek-chat`	V4 Flash em Non-Thinking Mode	`deepseek-v4-flash` + `thinking.type = disabled`
`deepseek-reasoner`	V4 Flash em Thinking Mode	`deepseek-v4-flash` + `thinking.type = enabled`

Exemplo de substituição explícita para deepseek-reasoner:

{
  "model": "deepseek-v4-flash",
  "messages": [
    {"role": "user", "content": "Analise este problema passo a passo."}
  ],
  "thinking": {"type": "enabled"},
  "reasoning_effort": "high"
}

Se os seus testes mostrarem que a tarefa precisa de mais capacidade, você pode trocar o modelo para deepseek-v4-pro. Isso é uma decisão de qualidade e custo, não uma equivalência de migração.

DeepSeek R1 ainda é um ID da API?

Não. DeepSeek-R1 é uma família de modelos e checkpoints, mas não é um ID atual da API hospedada da DeepSeek. Em 2025, a documentação associava o R1 ao ID deepseek-reasoner. Hoje esse nome é apenas um alias legado que aponta temporariamente para V4 Flash com Thinking Mode. Não use deepseek-r1 no campo model de exemplos atuais.

Para entender os checkpoints, versões distilled e opções de execução própria, consulte o nosso guia do DeepSeek R1.

Como criar uma chave de API com segurança

Acesse a área oficial de API keys.
Crie uma chave para o ambiente correto.
Guarde-a em uma variável de ambiente ou gerenciador de segredos.
Faça a chamada somente no backend, em uma função serverless ou em outro ambiente confiável.
Rotacione imediatamente qualquer chave exposta.

Nunca coloque a API key em JavaScript entregue ao navegador, aplicativo distribuído sem proteção, repositório público, print, log ou mensagem de erro.

Primeira chamada com cURL

O exemplo abaixo usa o V4 Flash em Non-Thinking Mode para produzir uma resposta curta. A variável DEEPSEEK_API_KEY deve existir no ambiente do terminal.

curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${DEEPSEEK_API_KEY}" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "Responda em português brasileiro."},
      {"role": "user", "content": "Explique a DeepSeek API em duas frases."}
    ],
    "thinking": {"type": "disabled"},
    "max_tokens": 300,
    "stream": false
  }'

Para um tutorial detalhado sobre mensagens, resposta, streaming e SDKs, leia DeepSeek Chat Completions API. Para um projeto completo com frontend e backend, avance para como construir um aplicativo com a DeepSeek API.

Thinking Mode: ativação e parâmetros

O Thinking Mode está ativado por padrão. No formato OpenAI, use {"thinking":{"type":"enabled"}} ou {"thinking":{"type":"disabled"}}. Quando o pensamento estiver ativo, reasoning_effort aceita high ou max.

Atenção: em Thinking Mode, temperature, top_p, presence_penalty e frequency_penalty não produzem efeito. A API pode aceitá-los por compatibilidade, sem erro, mas eles não alteram a resposta.

O raciocínio é retornado no campo reasoning_content e a resposta final em content. Quando uma rodada de Thinking Mode inclui Tool Calls, preserve o reasoning_content ao reenviar a mensagem do assistente; do contrário, a API pode retornar erro 400. Veja o guia específico do Thinking Mode.

JSON Output, Tool Calls, streaming e cache

JSON Output

Use response_format: {"type":"json_object"} quando o backend precisar analisar um JSON válido. Inclua a palavra “json” e um formato esperado no prompt, defina max_tokens suficiente e valide o objeto recebido antes de salvar ou executar qualquer ação.

Tool Calls

O modelo pode solicitar uma função, mas não a executa. Seu backend deve validar o nome da ferramenta, argumentos, permissões e impacto da ação. Use allowlists e confirmação humana para operações sensíveis. Consulte o guia de DeepSeek Tool Calls.

Streaming

Com stream: true, a API envia eventos SSE parciais e encerra com data: [DONE]. Streaming melhora a percepção de velocidade em chats, mas respostas estruturadas costumam ser mais simples de validar sem streaming.

Context Caching

O cache em disco está ativado automaticamente e reaproveita unidades persistidas de prefixos de entrada. Ele não reutiliza uma resposta pronta. Meça acertos e falhas em usage.prompt_cache_hit_tokens e usage.prompt_cache_miss_tokens. O comportamento é de melhor esforço; veja o nosso guia de DeepSeek Context Caching.

Preços atuais da API

Os valores abaixo foram conferidos em 19 de julho de 2026 e são cobrados em dólares por 1 milhão de tokens. Não são apresentados como promoção: use a tabela vigente na data da sua recarga.

Modelo	Entrada com cache hit	Entrada com cache miss	Saída
`deepseek-v4-flash`	US$ 0,0028	US$ 0,14	US$ 0,28
`deepseek-v4-pro`	US$ 0,003625	US$ 0,435	US$ 0,87

Preços podem mudar. Antes de estimar orçamento ou recarregar saldo, confira Models & Pricing na documentação oficial.

Rate limits e isolamento por usuário

A documentação atual informa limite de concorrência de 2.500 conexões por conta para V4 Flash e 500 para V4 Pro. O cálculo é feito no nível da conta, independentemente de quantas API keys existam. Ao ultrapassar o limite, a resposta é HTTP 429.

Implemente fila e limite de concorrência no seu backend.
Use retry com exponential backoff e jitter apenas para falhas transitórias.
Defina timeout e trate conexões keep-alive.
Monitore 429, 500, 503, latência e custo por tarefa.
Se usar user_id, envie um identificador pseudônimo com até 512 caracteres e nunca inclua dados pessoais.

Privacidade, segurança e responsabilidade

Quem cria um produto com a API é responsável pelo que coleta de seus próprios usuários. Os termos da Open Platform esclarecem que a política de privacidade da DeepSeek para o titular da conta não cobre automaticamente as regras de tratamento de dados dos usuários do seu aplicativo. Publique sua própria política, informe fornecedores e finalidades, minimize dados e ofereça os direitos aplicáveis.

Não envie senhas, chaves, segredos ou dados pessoais desnecessários.
Redija ou anonimize conteúdo sensível antes da chamada.
Não prometa “zero logs”, “zero treinamento” ou retenção inexistente sem um compromisso contratual verificável.
Valide respostas e mantenha revisão humana em decisões de alto impacto.
Não apresente seu produto como oficial, autorizado ou endossado pela DeepSeek.

Leia os Termos da DeepSeek Open Platform e mantenha a política de privacidade do seu serviço coerente com a implementação real.

Checklist antes de publicar

Use deepseek-v4-flash ou deepseek-v4-pro, sem novos projetos em aliases legados.
Se estiver migrando de deepseek-reasoner, teste primeiro V4 Flash com Thinking ativado.
Mantenha a chave exclusivamente no servidor.
Valide entrada, saída, JSON e argumentos de ferramentas.
Defina limites de tamanho, custo, tempo e concorrência.
Registre métricas sem gravar conteúdo sensível por padrão.
Teste qualidade em português brasileiro com dados representativos.
Confirme modelos, preços e termos oficiais na data do lançamento.

Perguntas frequentes

Qual é o modelo padrão para uma nova integração?

Para a maioria dos protótipos e tarefas de alto volume, comece com deepseek-v4-flash. Compare com deepseek-v4-pro quando a tarefa exigir qualidade adicional.

Deepseek-reasoner foi substituído pelo V4 Pro?

Não. O equivalente oficial temporário é V4 Flash com Thinking Mode ativado. V4 Pro é uma atualização opcional, não uma substituição equivalente automática.

DeepSeek R1 é um model ID atual?

Não na API hospedada atual da DeepSeek. R1 continua relevante como família e checkpoints abertos, mas os IDs hospedados vigentes são V4 Flash e V4 Pro.

Temperature funciona no Thinking Mode?

Não. temperature, top_p, presence_penalty e frequency_penalty são ignorados no Thinking Mode atual, embora possam ser aceitos sem erro por compatibilidade.

A API é gratuita?

A API é cobrada por tokens. Eventual saldo concedido deve ser conferido no painel da conta; não existe nesta página uma promessa de crédito gratuito universal.

Fontes oficiais consultadas

Última verificação editorial: 19 de julho de 2026. Modelos, preços, limites e termos podem mudar.