DeepSeek V2: arquitetura MoE, variantes e uso local

Status do DeepSeek V2 na API hospedada

Verificado em 19 de julho de 2026: DeepSeek-V2 não é um identificador disponível na API hospedada da DeepSeek. Os IDs documentados para novas integrações são deepseek-v4-flash e deepseek-v4-pro. Consulte a tabela oficial de modelos e preços antes de implementar. Esta página trata o V2 como um modelo histórico com pesos publicados, não como o serviço de API vigente.

DeepSeek V2 é a forma sem hífen pela qual muitas pessoas procuram o DeepSeek-V2, modelo de linguagem Mixture-of-Experts apresentado pela DeepSeek em maio de 2024. Ele marcou a adoção conjunta de duas técnicas que continuaram nas gerações seguintes: Multi-head Latent Attention (MLA), voltada a reduzir o custo do cache de atenção, e DeepSeekMoE, que distribui o processamento entre especialistas selecionados para cada token.

O modelo principal foi documentado com 236 bilhões de parâmetros totais, 21 bilhões ativados por token e janela de contexto de 128 mil tokens. Esses números descrevem o checkpoint publicado em 2024; não devem ser transferidos para os modelos hospedados pela API, que têm documentação e características próprias.

Característica	DeepSeek-V2 principal
Arquitetura	Transformer Mixture-of-Experts com MLA e DeepSeekMoE
Parâmetros totais	236B
Parâmetros ativados por token	21B
Contexto documentado	128K tokens
Dados de pré-treinamento reportados	8,1 trilhões de tokens
Publicação	Maio de 2024
Status operacional	Pesos disponíveis para implantação própria; não é um ID da API hospedada

O que é DeepSeek V2?

O DeepSeek-V2 é uma família de modelos de linguagem com checkpoints base e ajustados para conversa. “Base” significa que o checkpoint preserva o comportamento de pré-treinamento e é mais apropriado para pesquisa, avaliação ou ajuste posterior. As versões “Chat” receberam pós-treinamento para seguir instruções e responder em formato conversacional.

Ele não é uma interface, um aplicativo ou um plano de assinatura. Também não é sinônimo de “DeepSeek API”. Os pesos podem ser baixados e executados em infraestrutura própria, respeitando a licença, enquanto a API hospedada expõe apenas os modelos que constam em sua documentação operacional.

O relatório técnico do DeepSeek-V2 descreve o pré-treinamento em um corpus de múltiplas fontes com 8,1 trilhões de tokens, seguido de Supervised Fine-Tuning e Reinforcement Learning. O relatório não publica o conjunto integral de dados, portanto não é possível auditar apenas com os artefatos públicos cada documento usado no treinamento.

Por que parâmetros totais e ativos são diferentes?

Em um modelo denso, todas as camadas principais participam do processamento de cada token. Em um Mixture-of-Experts, as camadas MoE contêm vários blocos especializados, mas um roteador seleciona apenas parte deles para cada token. Por isso, o DeepSeek-V2 pode ter 236B parâmetros no conjunto completo e ativar aproximadamente 21B durante uma etapa de processamento.

Essa ativação esparsa reduz computação em comparação com um modelo denso de 236B parâmetros, mas não transforma o V2 em um modelo pequeno. Todos os pesos ainda precisam ser armazenados e distribuídos, e a inferência exige memória, largura de banda e paralelismo adequados.

Como funciona a Multi-head Latent Attention?

Durante a geração, um Transformer mantém representações de keys e values dos tokens anteriores no chamado KV cache. Quanto maior a sequência, mais memória esse cache tende a consumir. A MLA comprime conjuntamente essas representações em um espaço latente de dimensão menor e as reconstrói quando necessário para a atenção.

A DeepSeek reportou, em comparação interna com o DeepSeek 67B, redução de 93,3% no KV cache e throughput máximo de geração 5,76 vezes maior. Também reportou economia de 42,5% no custo de treinamento. São resultados dos autores sob as condições descritas no trabalho, não garantias de economia ou velocidade em qualquer GPU, framework, quantização ou carga de produção.

O que o DeepSeekMoE acrescenta?

O DeepSeekMoE atua nas redes feed-forward. Sua proposta combina segmentação de especialistas com especialistas compartilhados: parte da capacidade é roteada conforme o token, enquanto outra parte captura conhecimento mais geral. O objetivo é especializar a computação sem replicar desnecessariamente padrões comuns em muitos especialistas.

O roteamento precisa equilibrar qualidade e infraestrutura. Se muitos tokens escolherem sempre os mesmos especialistas, alguns dispositivos podem ficar sobrecarregados. Em implantações distribuídas, o desenho do paralelismo e a comunicação entre GPUs são tão importantes quanto a quantidade nominal de parâmetros ativos.

Variantes publicadas do DeepSeek V2

Checkpoint	Total / ativo	Contexto	Finalidade
DeepSeek-V2-Lite	16B / 2,4B	32K	Modelo base menor para pesquisa e ajustes
DeepSeek-V2-Lite-Chat	16B / 2,4B	32K	Variante Lite ajustada para instruções
DeepSeek-V2	236B / 21B	128K	Modelo base de grande escala
DeepSeek-V2-Chat	236B / 21B	128K	Variante conversacional com pós-treinamento

A tabela de downloads arredonda o V2-Lite para 16B. O detalhamento do model card informa 15,7B parâmetros totais e 2,4B ativados; não há contradição relevante, apenas níveis diferentes de arredondamento. O Lite foi pré-treinado do zero em 5,7 trilhões de tokens e estendido para contexto de 32K antes do ajuste conversacional.

Os checkpoints e suas fichas estão reunidos no repositório oficial do DeepSeek-V2. Para conversar, use a variante Chat; para pesquisa de representação ou fine-tuning, avalie primeiro a variante Base. O modelo completo e o Lite não têm o mesmo custo de implantação.

Capacidades e limites práticos

As avaliações publicadas abrangem conhecimento geral, inglês, chinês, matemática, código e contexto longo. Entre os conjuntos citados estão MMLU, BBH, C-Eval, CMMLU, HumanEval, MBPP, GSM8K, MATH e Needle in a Haystack. Eles são úteis para comparar checkpoints sob um protocolo, mas não comprovam precisão em português brasileiro, em documentos privados ou em um fluxo específico.

Texto e instruções: o checkpoint Chat pode resumir, explicar, reescrever e organizar informações, mas pode inventar fatos.
Código: pode gerar e explicar código, mas toda saída deve passar por testes, análise estática e revisão.
Matemática: resultados em benchmarks não dispensam a verificação de cálculos e premissas.
Contexto longo: aceitar 128K tokens não significa recuperar ou interpretar corretamente cada detalhe.
Português: a qualidade deve ser medida com prompts e documentos representativos do Brasil ou de Portugal, conforme o público do projeto.

Como planejar uma execução local

O caminho mais realista para um primeiro teste é o DeepSeek-V2-Lite-Chat no Hugging Face. A documentação original indica uma GPU de 40 GB para inferência BF16 do Lite. Para o DeepSeek-V2 completo em BF16, o repositório informa oito GPUs de 80 GB. Essas referências não incluem toda a margem necessária para contexto longo, concorrência, cache, servidor e picos de memória.

Etapa	O que verificar
Escolha do checkpoint	Base ou Chat; Lite ou completo; contexto realmente necessário
Integridade	Organização oficial, hash/revisão imutável dos arquivos e origem da quantização
Licença	Permissões, restrições e obrigações para o uso pretendido
Infraestrutura	VRAM, RAM, armazenamento, interconexão, CUDA e paralelismo
Runtime	Versões compatíveis de PyTorch, Transformers ou servidor de inferência
Validação	Qualidade em português, latência, throughput, consumo e taxa de falhas
Segurança	Isolamento do processo, controle de acesso, logs e tratamento de dados

Os exemplos antigos do model card usam trust_remote_code=True. Essa opção permite executar código Python fornecido pelo repositório do modelo. Não a habilite automaticamente em um servidor sensível: revise os arquivos, fixe uma revisão imutável que tenha sido auditada e execute em ambiente isolado com permissões mínimas. Como este guia não fixa uma revisão específica, ele não reproduz um snippet que executaria código remoto da branch principal.

Quantizações criadas por terceiros podem reduzir memória, mas alteram precisão, velocidade e superfície de confiança. Confirme quem produziu os arquivos, qual checkpoint foi usado, o método de quantização e os hashes. A disponibilidade de um arquivo GGUF não significa que ele seja um artefato oficial da DeepSeek.

DeepSeek V2, Coder V2 e V2.5 não são a mesma coisa

Linha	Relação	Uso principal
DeepSeek-V2	Família geral que introduziu a combinação MLA + DeepSeekMoE em grande escala	Pesquisa de linguagem, MoE, contexto longo e inferência
DeepSeek-Coder-V2	Modelo de código treinado a partir de um checkpoint intermediário do V2, com treinamento adicional	Programação e tarefas de desenvolvimento
DeepSeek-V2.5	Linha posterior que combinou capacidades do V2-Chat e do Coder-V2-Instruct	Conversa geral e código no mesmo checkpoint
DeepSeek-V3	Sucessor arquitetural que manteve MLA e DeepSeekMoE e ampliou a escala	Estudo da evolução técnica da família MoE

Para uma visão da geração seguinte, consulte o guia do DeepSeek V3. Para decidir entre famílias e serviços, use o hub de modelos DeepSeek. Nenhum desses nomes deve ser colocado em uma chamada de API sem confirmação na lista oficial de modelos hospedados.

Licença: código e pesos têm regras diferentes

O repositório de código do DeepSeek-V2 usa licença MIT. Os modelos Base e Chat seguem uma licença de modelo própria; o repositório declara suporte a uso comercial dentro desses termos. Portanto, “pesos publicados” é uma descrição mais precisa do que presumir que todos os artefatos têm a mesma licença.

Antes de redistribuir, oferecer um serviço, criar uma derivação ou empacotar uma quantização, leia a versão aplicável da licença e registre o checkpoint usado. Licença de pesos, licença do código do runtime, licença da quantização e termos de uma plataforma de hospedagem podem ser diferentes.

Quando o DeepSeek V2 ainda faz sentido?

O V2 continua útil para estudar a origem da MLA na linha DeepSeek, comparar roteamento MoE, medir custo de KV cache e reproduzir avaliações acadêmicas. O Lite é especialmente relevante quando o objetivo é examinar a arquitetura sem a infraestrutura exigida pelo checkpoint completo.

Ele não é a opção adequada para quem procura apenas um endpoint mantido pela DeepSeek, uma instalação simples em notebook comum ou um modelo com garantia de precisão. Para uma integração hospedada, consulte a página sobre DeepSeek V4 e confirme os parâmetros diretamente na documentação oficial antes de publicar código.

Perguntas frequentes sobre o DeepSeek V2

DeepSeek V2 está disponível na API oficial?

Não como um ID de modelo hospedado. Em 19 de julho de 2026, os IDs documentados para novas integrações são deepseek-v4-flash e deepseek-v4-pro. O V2 permanece relevante como família de checkpoints com pesos publicados.

DeepSeek-V2 é igual ao DeepSeek-V2-Chat?

Não. DeepSeek-V2 é o checkpoint base; DeepSeek-V2-Chat recebeu pós-treinamento para seguir instruções e conversar. A mesma distinção existe entre as variantes Lite base e Chat.

Por que o V2 tem 236B parâmetros, mas ativa 21B?

Porque é um modelo Mixture-of-Experts. Os 236B representam a capacidade total, enquanto o roteador seleciona uma fração dos especialistas para processar cada token.

É possível executar o DeepSeek V2 em um computador pessoal?

O checkpoint completo em BF16 está fora do alcance de um computador pessoal comum; a referência oficial é oito GPUs de 80 GB. O V2-Lite é menor, mas a referência BF16 ainda é uma GPU de 40 GB. Quantizações de terceiros podem reduzir o requisito, com possíveis perdas e riscos adicionais.

Os pesos do DeepSeek V2 podem ser usados comercialmente?

O repositório declara que a série V2 suporta uso comercial, mas os pesos seguem a licença de modelo própria. Leia os termos aplicáveis ao checkpoint e ao tipo de distribuição ou serviço pretendido.

Conclusão

O DeepSeek-V2 é uma referência histórica importante na evolução dos modelos MoE da DeepSeek. Sua combinação de 236B parâmetros totais, 21B ativados por token, contexto de 128K, MLA e DeepSeekMoE mostrou como aumentar a capacidade total sem ativar toda a rede a cada token.

Seu uso prático exige separar três coisas: o checkpoint que será executado, a infraestrutura que o hospedará e a licença de cada artefato. O nome V2 não identifica um modelo da API hospedada, e resultados de benchmark não substituem testes próprios, revisão humana ou controles de segurança.

Conteúdo independente, sem afiliação com a DeepSeek. Informações técnicas verificadas em fontes primárias em 19 de julho de 2026.