DeepSeek vs modelos open source: Qwen, Gemma e Llama

Comparar o DeepSeek com modelos open source exige separar duas decisões diferentes: usar uma API hospedada ou executar pesos abertos na sua própria infraestrutura. O DeepSeek oferece as duas possibilidades, mas elas não têm o mesmo custo, privacidade, compatibilidade nem responsabilidade operacional. Qwen 3.6, Gemma 4 e Llama 4 também disponibilizam pesos, porém com tamanhos, modalidades e licenças distintas.

Resposta curta: a API hospedada do DeepSeek reduz o trabalho de implantação e oferece um contexto documentado de 1 milhão de tokens. Para um computador pessoal ou uma workstation, variantes menores de Gemma 4 e Qwen 3.6 tendem a ser projetos mais viáveis do que carregar os pesos completos do DeepSeek V4. Llama 4 acrescenta multimodalidade e contextos extensos, mas usa uma licença própria da Meta. Não existe um vencedor universal: a escolha depende do hardware, dos dados, da modalidade de entrada e dos termos que a organização pode aceitar.

Verificação editorial: 19 de julho de 2026. Esta página usa fichas de modelo, repositórios e documentação dos próprios desenvolvedores. Números de benchmarks publicados pelos fornecedores não foram convertidos em uma classificação, porque os testes usam configurações, prompts e ambientes diferentes.

Escopo e metodologia da comparação

Foram comparadas as versões nomeadas abaixo, não marcas abstratas. Para cada família, verificamos: arquitetura e parâmetros, contexto declarado, modalidades, licença dos pesos, opções de execução e requisitos mínimos derivados da precisão. Não realizamos um benchmark próprio nesta página e, por isso, não afirmamos que um modelo “ganha” em programação, raciocínio ou português.

DeepSeek: DeepSeek-V4-Flash e DeepSeek-V4-Pro, além dos IDs correspondentes na API oficial.
Qwen: Qwen3.6-27B e Qwen3.6-35B-A3B.
Gemma: família Gemma 4 nos tamanhos E2B, E4B, 12B, 26B A4B e 31B.
Llama: Llama 4 Scout e Llama 4 Maverick.

“Open source” é uma expressão de busca útil, mas pesos abertos é o termo mais preciso para esta comparação. A possibilidade de baixar parâmetros não significa que todas as famílias usem a mesma licença, que todo o processo de treinamento esteja reproduzível ou que qualquer utilização comercial esteja automaticamente autorizada.

Comparação rápida para decidir

Família verificada	Pesos e licença	Contexto declarado	Entrada	Escala local
DeepSeek V4 Flash	Pesos abertos; MIT	1M	Texto	284B totais, 13B ativos; servidor ou cluster
DeepSeek V4 Pro	Pesos abertos; MIT	1M	Texto	1,6T total, 49B ativos; infraestrutura de grande porte
Qwen 3.6 27B / 35B-A3B	Pesos abertos; Apache 2.0	262.144 nativos; extensão documentada por RoPE	Texto, imagem e vídeo conforme o runtime	Workstation ou múltiplas GPUs, conforme precisão e contexto
Gemma 4	Pesos abertos; Apache 2.0 na ficha verificada	128K ou 256K, conforme tamanho	Texto e imagem; áudio em E2B, E4B e 12B	Do dispositivo móvel ao servidor, conforme variante
Llama 4 Scout	Pesos abertos; licença comunitária própria	10M	Texto e imagem	109B totais, 17B ativos; Int4 em uma H100 segundo a Meta
Llama 4 Maverick	Pesos abertos; licença comunitária própria	1M	Texto e imagem	400B totais, 17B ativos; host de servidor

Contexto declarado não equivale a contexto barato ou garantido em qualquer runtime. Memória de KV cache, número de usuários, tamanho do lote e implementação podem limitar o valor utilizável.

DeepSeek V4: API hospedada e pesos não são o mesmo produto

O DeepSeek V4 Preview foi publicado em 24 de abril de 2026 em duas variantes MoE. O Flash tem 284 bilhões de parâmetros totais e 13 bilhões ativados por token; o Pro tem 1,6 trilhão no total e 49 bilhões ativos. Ambos declaram contexto de 1 milhão de tokens. Os checkpoints de instrução oficiais usam precisão mista: parâmetros dos especialistas MoE em FP4 e a maior parte dos demais parâmetros em FP8.

Na API oficial, os IDs documentados são deepseek-v4-flash e deepseek-v4-pro. Ambos aceitam modos Thinking e Non-Thinking, saída JSON e tool calls; a documentação de preços registra saída máxima de 384K. A DeepSeek marcou os aliases deepseek-chat e deepseek-reasoner para retirada em 24 de julho de 2026 às 15:59 UTC; na documentação verificada em 19 de julho, eles ainda apontavam para V4 Flash sem e com Thinking.

Escolher a API evita baixar centenas de gigabytes de pesos, preparar GPUs, manter um servidor de inferência e administrar filas. Em contrapartida, prompts e respostas saem da infraestrutura do cliente e são processados pelo fornecedor. Consulte os detalhes do DeepSeek V4 e a página de preços da API DeepSeek antes de estimar o custo.

Qwen 3.6: opções menores e multimodais

O Qwen3.6-27B é um modelo denso de 27 bilhões de parâmetros. O Qwen3.6-35B-A3B é MoE, com 35 bilhões totais e 3 bilhões ativados. As fichas oficiais classificam ambos como modelos com codificador visual, mostram entradas de texto e imagem e documentam vídeo em runtimes que fazem a amostragem de frames. Os pesos são publicados sob Apache 2.0. O contexto nativo informado é 262.144 tokens, com extensão documentada até aproximadamente 1,01 milhão mediante técnicas de escalonamento RoPE.

Essa extensão não deve ser tratada como equivalente automático ao contexto nativo. A própria ficha alerta que contextos longos podem provocar falta de memória e sugere reduzir a janela quando necessário. Framework, precisão, GPU, KV cache e tarefa alteram a qualidade e o throughput. A família pode fazer sentido quando o projeto precisa de visão, código e pesos menores do que DeepSeek V4, desde que a equipe teste português brasileiro e português europeu com dados reais e conjuntos separados.

Gemma 4: cinco tamanhos, incluindo 12B

A família Gemma 4 inclui E2B, E4B, 12B Unified, 26B A4B e 31B. O tamanho 12B faz parte da linha e não deve ser omitido. E2B, E4B, 12B e 31B são variantes densas; 26B A4B é MoE com 25,2 bilhões de parâmetros totais e 3,8 bilhões ativos segundo a ficha do Google.

E2B e E4B oferecem contexto de 128K. 12B, 26B A4B e 31B oferecem 256K. Todas as variantes processam texto e imagem; E2B, E4B e 12B também aceitam áudio e geram texto. A ficha verificada identifica a licença como Apache 2.0. A variedade de tamanhos torna Gemma particularmente relevante para protótipos em dispositivos e workstations, mas “funciona em um laptop” não significa que toda combinação de precisão, contexto e multimodalidade caberá em qualquer laptop.

Llama 4: contexto amplo com licença própria

Llama 4 Scout e Maverick são modelos MoE multimodais com 17 bilhões de parâmetros ativados. Scout tem 109 bilhões totais e contexto declarado de 10 milhões; Maverick tem 400 bilhões totais e contexto de 1 milhão. A Meta informa pesos BF16 para Scout e código de quantização Int4 em tempo de carregamento; para Maverick, também há checkpoint FP8.

A licença não é MIT nem Apache 2.0. É o Llama 4 Community License Agreement, acompanhado de uma política de uso. Há ainda uma restrição específica: os direitos da licença para os modelos multimodais não são concedidos a pessoas domiciliadas ou empresas com sede principal na União Europeia; a política exclui dessa restrição os usuários finais de um produto que incorpore esses modelos. Uma organização em Portugal deve analisar esse texto antes de baixar ou implantar os pesos, em vez de assumir que “open weights” significa uso irrestrito.

Quanta RAM ou VRAM é necessária?

A tabela abaixo mostra somente o armazenamento teórico dos pesos, em gigabytes decimais, pela fórmula parâmetros × bits ÷ 8. Não é uma recomendação de hardware. Um runtime também precisa de KV cache, buffers, ativações, sistema operacional e margem. Quantização adiciona metadados e pode afetar qualidade e compatibilidade. Nos modelos MoE, poucos parâmetros são calculados por token, mas todos os especialistas ainda precisam estar acessíveis na memória ou em armazenamento com offload.

Modelo	Parâmetros totais	16-bit teórico	8-bit teórico	4-bit teórico
Gemma 4 12B	11,95B	23,9 GB	12,0 GB	6,0 GB
Qwen3.6-27B	27B	54 GB	27 GB	13,5 GB
Gemma 4 31B	30,7B	61,4 GB	30,7 GB	15,4 GB
Qwen3.6-35B-A3B	35B	70 GB	35 GB	17,5 GB
Llama 4 Scout	109B	218 GB	109 GB	54,5 GB
DeepSeek V4 Flash	284B	568 GB	284 GB	142 GB
Llama 4 Maverick	400B	800 GB	400 GB	200 GB
DeepSeek V4 Pro	1,6T	3,2 TB	1,6 TB	800 GB

Estimativas matemáticas de pesos, não consumo medido. Os checkpoints DeepSeek V4 de instrução usam uma mistura oficial de FP4 e FP8; portanto, a coluna 4-bit não representa o tamanho exato desses arquivos.

Carregar Gemma 4 12B em 4-bit, por exemplo, começa perto de 6 GB apenas para pesos, não em 6 GB de memória total. Ativar uma janela de 256K, processar imagens ou atender várias pessoas pode aumentar bastante o consumo. Da mesma forma, os 13B “ativos” do DeepSeek V4 Flash não o transformam em um arquivo de 13B: os 284B totais continuam a compor o checkpoint.

Se pretende experimentar quantizações em vez dos checkpoints completos, consulte o guia para executar DeepSeek no LM Studio. Confirme sempre o autor do arquivo, a quantização, o hash quando fornecido e a licença; uma quantização comunitária não é necessariamente publicada ou suportada pelo desenvolvedor original.

Licença: o que pode mudar a decisão

Família	Licença verificada	Ponto de atenção
DeepSeek V4	MIT	Preserve o aviso da licença; confirme também termos de marcas, serviço e dados quando usar API ou nome comercial.
Qwen 3.6	Apache 2.0	Cumpra avisos e condições da licença; serviços de terceiros podem impor termos adicionais.
Gemma 4	Apache 2.0 na ficha oficial	Verifique a licença do checkpoint exato e de componentes, adaptadores ou datasets adicionados.
Llama 4	Llama 4 Community License	Termos próprios, política de uso e restrição territorial para os pesos multimodais na UE.

A licença do modelo não resolve, por si só, direitos sobre dados de entrada, imagens, outputs, marcas ou conjuntos usados no fine-tuning. Um produto comercial deve guardar uma cópia da licença aplicável, registrar a versão do checkpoint e revisar dependências. Esta página informa; não substitui assessoria jurídica.

Privacidade: API hospedada vs execução própria

Self-hosting pode permitir que prompts permaneçam na infraestrutura controlada pela organização, mas não cria privacidade automaticamente. Logs do servidor, telemetria, plugins, armazenamento de conversas, backups, ferramentas externas e permissões da equipe continuam a processar dados. É preciso configurar retenção, acesso, criptografia, exclusão e resposta a incidentes.

Na API hospedada, a organização troca essa operação por processamento externo e deve avaliar política de privacidade, termos, localização, retenção e contrato do fornecedor. Não apresente a política do chatbot de consumo como se ela cobrisse automaticamente um aplicativo criado por um desenvolvedor. Para uma análise específica, leia DeepSeek é seguro?.

Qual opção faz sentido em cada cenário?

Aplicativo de texto sem gerenciar GPUs

A API DeepSeek reduz o tempo de infraestrutura e fornece IDs, faturamento por tokens, cache e limites definidos. É uma opção a testar quando o produto aceita processamento externo e precisa de texto, JSON ou ferramentas. O custo deve ser calculado com entradas, saídas, cache, tentativas e volume de Thinking — não apenas com uma chamada curta.

Modelo local em um computador ou workstation

Comece pelo hardware e pela precisão, não pelo nome da família. Gemma 4 E2B, E4B ou 12B e quantizações adequadas de Qwen oferecem pontos de entrada menores. Teste qualidade, velocidade, contexto e temperatura no equipamento real. DeepSeek V4 Flash e Pro completos pertencem a outra escala de armazenamento e serviço.

Imagens, áudio ou documentos visuais

Gemma 4 oferece imagem em todos os tamanhos e áudio em E2B, E4B e 12B. Qwen 3.6 27B e 35B-A3B aceitam texto e imagem e documentam vídeo por meio de runtimes compatíveis. Llama 4 aceita texto e imagem, sujeito à licença própria. A API DeepSeek V4 documentada nesta comparação é uma interface de texto; não atribua a ela as capacidades visuais do app DeepSeek ou de outra família.

Dados sensíveis e controle operacional

Uma implantação própria pode ser apropriada quando os dados não podem sair de um ambiente aprovado. A equipe, porém, passa a responder por segurança, atualizações, observabilidade, capacidade, moderação e qualidade. Se o requisito for apenas pseudonimizar dados antes da chamada, uma API acompanhada de um gateway de redação pode ser mais simples; a decisão depende da avaliação de risco.

Como testar sem inventar um “vencedor”

Crie 30 a 100 tarefas reais em português, separando PT-BR e PT-PT quando ambos forem públicos-alvo.
Defina critérios antes do teste: correção factual, cumprimento de instruções, formato, latência, custo e taxa de revisão humana.
Fixe versões, quantização, prompt de sistema, temperatura, limite de saída e ferramentas.
Use os mesmos dados permitidos para cada modelo e remova informações pessoais desnecessárias.
Registre respostas completas e falhas, não apenas exemplos favoráveis.
Faça avaliação cega por mais de uma pessoa e reporte intervalos ou contagens, não adjetivos.
Repita o teste depois de alterar runtime, quantização ou contexto; essas mudanças podem alterar o resultado.

Consulte também o guia de modelos DeepSeek para não confundir modelos históricos, IDs da API e pesos disponíveis para download.

Perguntas frequentes

DeepSeek V4 é open source?

O DeepSeek publica pesos de V4 Flash e Pro e identifica os repositórios verificados com licença MIT. “Open source” ainda pode ser ambíguo no contexto de modelos; por isso, esta página distingue pesos, licença, documentação e serviço hospedado.

Posso executar DeepSeek V4 em um laptop?

Os checkpoints completos têm 284B e 1,6T parâmetros totais. Mesmo uma conta teórica de 4 bits representa cerca de 142 GB e 800 GB somente para pesos, antes de overhead e contexto. Offload e quantizações comunitárias podem mudar o método, mas não transformam esses modelos em uma carga convencional de laptop.

13B ativos significa que V4 Flash usa memória de um modelo 13B?

Não. O número ativo descreve a fração usada no cálculo por token. O sistema ainda precisa disponibilizar os 284B totais, embora técnicas de distribuição e offload possam repartir onde eles ficam.

Gemma 4 tem uma versão 12B?

Sim. Gemma 4 12B Unified é uma das cinco variantes listadas pelo Google, junto com E2B, E4B, 26B A4B e 31B. A versão 12B aceita texto, imagem e áudio, gera texto e declara contexto de 256K.

Um contexto de 1M ou 10M funciona em qualquer computador?

Não. O limite arquitetural não garante que o runtime, a memória e o orçamento consigam utilizá-lo. KV cache cresce com contexto e carga; alguns modelos usam extensão posicional que também deve ser configurada e validada.

Self-hosting impede que dados sejam enviados a terceiros?

Somente se toda a arquitetura for configurada dessa forma. Telemetria, ferramentas, observabilidade, backups e serviços ligados ao modelo podem transmitir ou conservar dados. Audite o sistema completo.

Qual modelo é superior em português?

As fichas declaram suporte multilíngue, mas isso não estabelece o desempenho na terminologia, ortografia e cultura do seu caso. Avalie separadamente português brasileiro e europeu com prompts reais e revisão humana.

Fontes oficiais consultadas

Nota de independência: DeepSeek-Português.chat é um guia independente e não é operado, patrocinado ou aprovado pela DeepSeek, Alibaba/Qwen, Google ou Meta. As marcas pertencem aos respectivos titulares. Especificações e termos podem mudar; confirme a fonte indicada antes de uma implantação.