DeepSeek V3.1: guia completo do modelo híbrido

DeepSeek V3.1 é um modelo de linguagem híbrido da família DeepSeek V3, lançado em 21 de agosto de 2025. Na documentação técnica, o nome aparece como DeepSeek-V3.1. Seu principal diferencial é combinar thinking mode e non-thinking mode em um único modelo, com contexto de 128K e recursos voltados a raciocínio, ferramentas e agentes.

Este guia explica as especificações do modelo, o papel do DeepSeek-V3.1-Base, o uso via API, Hugging Face, ModelScope, vLLM, provedores gerenciados, benchmarks, diferenças para DeepSeek V3, R1 e V3.1-Terminus, além dos cuidados para projetos em português do Brasil.

Resposta direta: O DeepSeek V3.1 é um modelo de linguagem híbrido da família DeepSeek, lançado em 21 de agosto de 2025. Ele combina thinking mode e non-thinking mode em um único modelo, oferece contexto de 128K e foi apresentado com foco em raciocínio, uso de ferramentas e tarefas com agentes.

O que é o DeepSeek V3.1?

DeepSeek V3.1 é um modelo de linguagem de grande porte criado para responder perguntas, analisar textos, gerar código, auxiliar em planejamento, lidar com documentos longos e participar de fluxos com agentes. Ele faz parte da linhagem DeepSeek V3, uma família baseada em arquitetura Mixture-of-Experts.

A forma DeepSeek V3.1 é adequada para títulos, buscas e conteúdo editorial. A forma DeepSeek-V3.1 é a grafia técnica usada em repositórios, páginas de modelo, documentos de API e guias de implantação. Usar as duas formas ajuda leitores comuns e desenvolvedores a reconhecerem o mesmo modelo.

O ponto mais importante é que ele não deve ser entendido apenas como troca de nome dentro da família DeepSeek. O modelo marcou uma etapa técnica por reunir dois estilos de funcionamento: um modo mais direto, sem raciocínio estendido, e outro voltado a tarefas que exigem análise mais profunda.

Isso não transforma o DeepSeek V3.1 em escolha automática para todo projeto. A decisão deve considerar latência, custo, privacidade, qualidade em português do Brasil, suporte do provedor, estabilidade da API e complexidade da implantação.

Por que o DeepSeek V3.1 foi importante?

DeepSeek V3.1 foi apresentado como uma etapa importante na evolução da família DeepSeek por unir thinking mode e non-thinking mode em um único modelo. Essa abordagem permite escolher entre respostas mais diretas e respostas com raciocínio mais elaborado, sem depender de modelos completamente separados para cada estilo de tarefa.

Na prática, isso aumenta a flexibilidade para assistentes, agentes, ferramentas de suporte, revisores de código e sistemas de análise de documentos. Uma pergunta factual pode usar respostas curtas; uma tarefa com múltiplas etapas pode acionar um modo mais adequado a raciocínio.

Outro ponto relevante foi o foco em uso de ferramentas. A documentação da DeepSeek destaca melhorias em tarefas com agentes, tool calling e raciocínio de múltiplas etapas. Para aplicações reais, isso importa porque muitos fluxos de IA precisam consultar sistemas externos, processar dados, chamar APIs e validar resultados.

O contexto de 128K também colocou o DeepSeek V3.1 em uma categoria útil para análise de documentos extensos, bases de conhecimento e interações longas. Mesmo assim, contexto longo não dispensa boas práticas como RAG, filtragem de trechos, validação de fontes e testes com dados reais.

Ficha técnica do DeepSeek V3.1

A ficha abaixo reúne os dados técnicos mais relevantes para entender o DeepSeek V3.1 antes de compará-lo com outras versões da família ou antes de planejar um teste de integração.

Item	Informação
Nome oficial	DeepSeek-V3.1
Palavra-chave editorial	DeepSeek V3.1
Data de lançamento	21 de agosto de 2025
Família	DeepSeek V3
Tipo	Modelo híbrido de linguagem
Arquitetura	Mixture-of-Experts na linhagem DeepSeek V3
Parâmetros totais	671B
Parâmetros ativados por token	37B
Context length oficial	128K
Modos	Thinking mode e non-thinking mode
Base	DeepSeek-V3.1-Base, construída sobre o checkpoint base do V3
Treinamento adicional	Continued pretraining para extensão de contexto longo
Distribuição	Hugging Face, ModelScope e API no anúncio de lançamento
Licença dos pesos/repositório	MIT License
Foco técnico	Raciocínio, contexto longo, uso de ferramentas e agentes
Cuidado principal	Aliases de API e limites variam por provedor

Limites de contexto, disponibilidade, nomes de modelo, preços e parâmetros de API podem variar por provedor. Antes de projetar uma aplicação, consulte a documentação do endpoint escolhido.

Thinking mode e non-thinking mode: como funcionam?

O DeepSeek V3.1 é chamado de modelo híbrido porque permite alternar entre dois modos de comportamento. A escolha pode ser feita por chat template, interface, parâmetro do provedor ou configuração do endpoint usado na aplicação.

Non-thinking mode

O non-thinking mode é voltado a respostas mais diretas. Ele costuma fazer sentido para perguntas factuais, resumos simples, suporte ao cliente, classificação de mensagens, transformação de texto, explicações curtas e interações em que a latência importa mais do que uma análise longa.

Exemplos comuns incluem responder uma dúvida objetiva sobre um produto, resumir um parágrafo, transformar uma lista em tabela, reescrever uma mensagem ou gerar uma resposta de atendimento com tom padronizado.

Thinking mode

O thinking mode é voltado a tarefas que se beneficiam de raciocínio mais elaborado. Ele pode ser útil em matemática, código, planejamento, análise de contrato, avaliação de documentos extensos, decomposição de problemas, revisão técnica e fluxos com várias etapas.

Isso não significa que a aplicação deva expor raciocínio interno ao usuário. Em produtos reais, o recomendado é pedir respostas claras, justificativas verificáveis e resultados auditáveis, sem depender da exibição de passos internos do modelo.

Como escolher entre os modos

A escolha entre thinking mode e non-thinking mode afeta latência, consumo de tokens, tamanho da resposta e qualidade percebida. Para perguntas rápidas, o non-thinking mode tende a ser suficiente. Para tarefas complexas, o thinking mode pode entregar respostas mais úteis, mas com maior consumo de recursos.

Tarefa	Modo que tende a fazer sentido	Observação prática
Pergunta factual	Non-thinking mode	Use quando a resposta esperada é curta e objetiva.
Análise de contrato	Thinking mode	Combine com validação humana, especialmente em temas jurídicos.
Revisão de código	Thinking mode	Peça explicação objetiva, riscos e sugestões testáveis.
Busca assistida	Thinking mode com ferramentas	Valide fontes, datas e contexto antes de publicar conclusões.
Planejamento de agente	Thinking mode	Defina limites de ação, logs e critérios de parada.

DeepSeek V3.1 Base vs DeepSeek V3.1

DeepSeek-V3.1-Base e DeepSeek-V3.1 não têm o mesmo papel. A versão Base é mais adequada para pesquisa, estudo técnico e possíveis trabalhos de ajuste. O DeepSeek-V3.1 post-trained é mais adequado para chat, agentes e aplicações voltadas a usuários.

Critério	DeepSeek-V3.1-Base	DeepSeek-V3.1	Leitura prática
Papel	Checkpoint base com extensão de contexto longo.	Modelo post-trained para interação e aplicações.	Base serve melhor a pesquisa; V3.1 serve melhor a uso aplicado.
Treinamento	Construído sobre o checkpoint base do V3, com continued pretraining.	Treinado sobre o DeepSeek-V3.1-Base com pós-treinamento.	O pós-treinamento melhora comportamento conversacional e uso prático.
Uso esperado	Estudo de arquitetura, fine-tuning e pesquisa.	Chat, agentes, tool calling e produtos.	Para um produto de chat, a opção post-trained é mais adequada.
Chat template	Exige maior cuidado técnico.	Documentado para thinking e non-thinking.	O template correto evita comportamento inconsistente.
Adequação para usuários finais	Baixa sem adaptação adicional.	Maior, desde que testado no domínio da aplicação.	Não trate Base como escolha ideal para usuário comum.
Adequação para pesquisa	Alta.	Alta para avaliação aplicada.	A escolha depende do objetivo do experimento.
Cuidado	Requer experiência para uso correto.	Requer validação de API, template, custos e segurança.	Ambas exigem testes antes de uso sensível.

DeepSeek V3.1 vs DeepSeek V3, R1 e V3.1-Terminus

Nomes parecidos podem gerar confusão. O DeepSeek V3.1 deve ser analisado como parte da evolução da família DeepSeek, mas sem transformar o artigo em uma comparação ampla com todas as versões.

Modelo	Papel na família	Ponto forte	Quando considerar	Cuidado
DeepSeek-V3	Base da linhagem, modelo MoE geral.	Arquitetura de grande porte com 671B parâmetros e 37B ativados por token.	Quando o objetivo é entender a base técnica da família V3.	Não oferece a mesma proposta híbrida descrita para o V3.1.
DeepSeek-R1-0528	Referência de raciocínio forte, separada do V3.1.	Desempenho forte em raciocínio e matemática.	Quando a prioridade é avaliar tarefas de raciocínio profundo.	Não deve ser confundido com a arquitetura híbrida do V3.1.
DeepSeek-V3.1	Modelo híbrido com thinking e non-thinking.	Contexto 128K, agentes, tool calling e flexibilidade de modo.	Quando o projeto precisa alternar entre respostas diretas e tarefas complexas.	Exige verificação de aliases, template e limites do provedor.
DeepSeek-V3.1-Terminus	Revisão posterior construída sobre V3.1.	Mais estabilidade de linguagem e melhorias em agentes.	Quando a comparação exige entender a evolução após V3.1.	Este artigo mantém o foco no V3.1, não no Terminus.
DeepSeek-V3.2-Exp	Etapa experimental posterior baseada em V3.1-Terminus.	Introdução de DeepSeek Sparse Attention para eficiência em contexto longo.	Quando o interesse é estudar DSA e eficiência de atenção.	Não deve deslocar o foco de uma página sobre DeepSeek V3.1.

Este artigo mantém o foco em DeepSeek V3.1. Outros modelos aparecem apenas para explicar a evolução da família e evitar confusão entre nomes parecidos.

Benchmarks do DeepSeek V3.1: como interpretar

Benchmarks ajudam a entender tendências, mas não substituem testes com dados reais, prompts reais e restrições reais de custo, latência e privacidade. A tabela abaixo resume resultados informados na documentação do modelo.

Benchmark	DeepSeek V3.1 Non-Thinking	DeepSeek V3 0324	DeepSeek V3.1 Thinking	DeepSeek R1 0528	Leitura prática
MMLU-Redux	91.8	90.5	93.7	93.4	Indica desempenho forte em conhecimento geral, com ganho no modo thinking.
MMLU-Pro	83.7	81.2	84.8	85.0	Mostra proximidade entre V3.1 Thinking e R1 em avaliação mais exigente.
GPQA-Diamond	74.9	68.4	80.1	81.0	O modo thinking se aproxima de modelos focados em raciocínio.
LiveCodeBench	56.4	43.0	74.8	73.3	Thinking mode se destaca em tarefas de código mais complexas.
Aider-Polyglot	68.4	55.1	76.3	71.6	Resultado útil para revisão e edição de código em múltiplas linguagens.
SWE Verified	66.0	45.4	sem valor	44.6	Avaliação de agente de código; exige cuidado ao comparar ambientes.
SWE-bench Multilingual	54.5	29.3	sem valor	30.5	Útil para avaliar agentes em tarefas de software multilíngues.
Terminal-bench	31.3	13.3	sem valor	5.7	Mostra ganhos em cenários de agente com terminal, mas depende do framework.
AIME 2025	49.8	51.3	88.4	87.5	Thinking mode é muito mais adequado para matemática competitiva.
HMMT 2025	33.5	29.2	84.2	79.4	Reforça a diferença entre modo direto e modo com raciocínio.

Esses números sugerem que o V3.1 Thinking se destaca em tarefas de raciocínio, matemática e código, enquanto o V3.1 Non-Thinking é mais adequado para respostas rápidas e tarefas menos complexas. A própria documentação observa que resultados de search agents e code agents dependem de frameworks internos, por isso não devem ser tratados como teste independente direto.

Como usar o DeepSeek V3.1

Existem diferentes formas de acessar ou estudar o DeepSeek V3.1. A escolha depende do tipo de aplicação, orçamento, exigências de privacidade, experiência técnica e disponibilidade do provedor.

Via interface web ou aplicativo

Para testes manuais, uma interface web ou aplicativo pode ser suficiente para avaliar estilo de resposta, qualidade em português, capacidade de resumo, comportamento em perguntas técnicas e diferença entre respostas diretas e respostas com raciocínio mais elaborado.

Algumas interfaces podem exibir opções como DeepThink ou controles semelhantes, mas nomes de botões e modos variam conforme a plataforma. Por isso, a forma mais segura é ler a descrição do provedor e executar testes simples antes de avaliar resultados mais complexos.

Via API

No anúncio de lançamento, deepseek-chat correspondia ao non-thinking mode e deepseek-reasoner correspondia ao thinking mode do DeepSeek-V3.1. Essa informação é importante para entender o histórico da API, mas não deve ser usada como garantia permanente de acesso ao V3.1.

Aliases de API podem mudar com o tempo. Antes de integrar um produto, confirme o changelog, o identificador do modelo, o endpoint, a região, o tamanho de saída, o limite de contexto, a política de dados, os custos e as regras do provedor. Alguns serviços oferecem API compatível com OpenAI, mas detalhes de autenticação, parâmetros e comportamento ainda podem variar.

Evite copiar exemplos de API sem conferir o model ID. Em aplicações comerciais, registre a versão usada, monitore respostas, configure limites de consumo e mantenha testes de regressão para detectar mudanças de comportamento.

Via Hugging Face e ModelScope

Hugging Face e ModelScope são úteis para estudar pesos, licença, chat template, tokenizer config, benchmarks, arquivos técnicos e diferenças entre DeepSeek-V3.1-Base e DeepSeek-V3.1. Também ajudam equipes de pesquisa a entender como os modos de conversa são formatados.

O repositório informa licença MIT para pesos e arquivos. Mesmo assim, baixar pesos não significa que a execução local será simples. O tamanho do modelo exige planejamento de infraestrutura, otimização de inferência e conhecimento de frameworks de serving.

Via vLLM, SGLang ou implantação local

A execução local é possível tecnicamente, mas exige infraestrutura robusta. Guias de vLLM citam exemplos de serving em 8xH200 ou H20 GPUs, o que coloca esse tipo de implantação no campo de equipes com acesso a hardware de alto custo ou ambientes de data center.

Self-hosting pode fazer sentido para quem precisa de controle, pesquisa, privacidade, testes de arquitetura e integração profunda com sistemas próprios. O lado negativo é a complexidade: provisionamento, memória de GPU, paralelismo, observabilidade, escalabilidade e custo operacional.

Quantizações e versões adaptadas podem reduzir requisitos, mas trazem trade-offs em qualidade, velocidade, compatibilidade e janela de contexto. Elas não devem ser tratadas como equivalentes diretas ao modelo completo rodando em hardware de data center.

Via provedores gerenciados

Provedores gerenciados podem oferecer endpoints prontos, autenticação, monitoramento, cotas, suporte a function calling e structured output. Essa opção reduz a carga operacional, mas cria dependência das regras, regiões, limites e custos de cada plataforma.

Um exemplo é o endpoint deepseek-v3.1-maas no Vertex AI. A documentação do Google Cloud descreve esse endpoint gerenciado com entradas de texto e documentos, saída em texto, suporte a function calling e structured output, além de limites como context length 163.840 e max output 32.768 em us-central1. Esses números pertencem ao endpoint do provedor e não devem ser tratados como especificação geral do modelo original.

DeepSeek V3.1 funciona bem em português do Brasil?

O DeepSeek V3.1 pode ser usado em tarefas em português do Brasil, como resumo, análise, explicação técnica, atendimento, geração de conteúdo, transformação de texto e apoio à programação. A qualidade depende do prompt, do tipo de tarefa, do provedor de inferência e dos dados usados na aplicação.

Para avaliar uso em PT-BR, crie um conjunto de exemplos reais: perguntas de clientes brasileiros, documentos do setor, termos regionais, nomes de produtos, mensagens de suporte e textos com o tom de voz esperado. Depois, compare respostas nos dois modos e meça precisão, consistência, fluência e aderência às instruções.

Também vale considerar que o DeepSeek-V3.1-Terminus foi criado depois para melhorar pontos como consistência de linguagem e agentes. Isso não invalida o DeepSeek V3.1, mas reforça a necessidade de teste próprio em qualquer cenário linguístico sensível.

Casos de uso recomendados

O DeepSeek V3.1 faz mais sentido quando o projeto precisa combinar contexto longo, modos de resposta, agentes e possível uso de ferramentas. A tabela abaixo mostra cenários úteis e situações em que é melhor evitar a escolha sem validação adicional.

Caso de uso	Quando faz sentido	Quando evitar
Análise de documentos longos	Quando relatórios, contratos, manuais ou bases técnicas exigem leitura de grande volume de texto.	Quando documentos contêm dados sensíveis sem revisão de privacidade e controle de acesso.
Assistentes internos	Quando equipes precisam consultar políticas, processos, documentação e respostas padronizadas.	Quando a base interna está desorganizada ou sem governança mínima.
Agentes com ferramentas	Quando o fluxo exige chamadas de API, banco de dados, cálculo, busca ou múltiplas etapas.	Quando não há logs, validação de ações, limites de execução ou critérios de parada.
Busca assistida	Quando a aplicação precisa combinar raciocínio com consulta a fontes externas.	Quando fontes, datas e evidências não são verificadas antes da publicação.
Revisão e geração de código	Quando desenvolvedores querem apoio para explicar, revisar, refatorar ou criar testes.	Quando o código contém segredos, credenciais ou componentes críticos sem ambiente seguro.
Pesquisa acadêmica com PDFs	Quando o objetivo é resumir, comparar argumentos e extrair pontos principais.	Quando o trabalho exige citação exata e a aplicação não valida páginas, autores e trechos.
Suporte técnico com base de conhecimento	Quando existe documentação de produto bem estruturada e respostas revisadas.	Quando erros podem gerar prejuízo operacional sem revisão humana.
Comparação de múltiplos documentos	Quando o contexto 128K ajuda a analisar versões, cláusulas ou relatórios relacionados.	Quando documentos têm formatos ruins ou informações contraditórias sem curadoria.
Protótipos com modelos open-weight	Quando a equipe quer estudar pesos abertos, licença e comportamento do modelo.	Quando há expectativa de implantação local barata sem infraestrutura adequada.
Automação de tarefas multi-etapas	Quando o agente precisa planejar, chamar ferramentas e consolidar resultados.	Quando a automação pode executar ações irreversíveis sem aprovação ou monitoramento.

Limitações e cuidados antes de usar

Como qualquer modelo de linguagem, o DeepSeek V3.1 precisa ser testado no contexto real da aplicação. Especificações técnicas e benchmarks são úteis, mas não resolvem sozinhos requisitos de segurança, qualidade e custo.

Aliases de API podem mudar: confirme o changelog e o endpoint antes de integrar um produto.
Benchmarks não substituem validação real: teste prompts, dados, idioma, latência e custo no seu cenário.
Contexto 128K não garante resposta correta: documentos longos ainda exigem curadoria, RAG e checagem.
Thinking mode pode aumentar consumo: tarefas complexas tendem a gerar respostas mais longas e maior uso de tokens.
Non-thinking mode pode ser insuficiente: problemas matemáticos, jurídicos, técnicos ou multi-etapas podem exigir raciocínio mais robusto.
Tool calling exige validação: use schemas, permissões, logs, monitoramento e bloqueios para ações sensíveis.
Search agent depende de fontes: a qualidade da resposta depende das ferramentas externas e das páginas consultadas.
Custos e limites variam por provedor: preço, região, cotas, tamanho de saída e contexto podem mudar por endpoint.
Dados sensíveis exigem revisão: privacidade, compliance e segurança devem ser avaliados antes de enviar dados ao modelo.
Execução local exige hardware avançado: o tamanho do modelo demanda infraestrutura especializada.
Quantizações têm trade-offs: menor consumo pode vir com perda de qualidade, mudanças de latência ou limitações de contexto.
V3.1-Terminus explica parte da evolução: essa revisão posterior foi criada para melhorar consistência de linguagem e agentes.
Modelos posteriores mudam o contexto de escolha: isso não torna uma página técnica sobre V3.1 inútil, mas exige explicar bem o papel histórico e técnico do modelo.

DeepSeek V3.1 vale a pena?

DeepSeek V3.1 vale a pena para estudar modelos híbridos, comparar thinking e non-thinking, trabalhar com contexto longo, testar agentes e avaliar modelos open-weight em projetos técnicos. Ele é especialmente útil quando a equipe quer entender a transição da família DeepSeek para fluxos com ferramentas e tarefas multi-etapas.

Pode não valer a pena como escolha inicial para equipes que precisam de integração simples, SLA previsível, custo estável, suporte totalmente gerenciado ou implantação local barata. Nesses casos, um provedor gerenciado ou um modelo menor pode ser mais adequado.

A decisão deve partir do caso de uso: quais tarefas serão resolvidas, quais dados serão usados, qual nível de risco existe, quanto custa cada resposta, qual modo entrega melhor resultado e como a equipe validará erros antes da produção.

Perguntas frequentes sobre DeepSeek V3.1

O que é DeepSeek V3.1?

DeepSeek V3.1 é um modelo de linguagem híbrido da família DeepSeek V3, lançado em 21 de agosto de 2025. Ele combina thinking mode e non-thinking mode em um único modelo, com foco em raciocínio, contexto longo, ferramentas e agentes.

Quando o DeepSeek V3.1 foi lançado?

O DeepSeek V3.1 foi lançado em 21 de agosto de 2025. A documentação da DeepSeek apresenta o modelo como uma etapa voltada à era de agentes, com melhorias em raciocínio, uso de ferramentas e tarefas multi-etapas.

O que significa modelo híbrido no DeepSeek V3.1?

Modelo híbrido significa que o DeepSeek V3.1 pode operar em thinking mode e non-thinking mode dentro do mesmo modelo. Essa flexibilidade permite escolher entre respostas diretas e respostas mais apropriadas para tarefas complexas.

Qual é a diferença entre thinking mode e non-thinking mode?

Non-thinking mode é mais direto e tende a servir melhor para tarefas simples. Thinking mode é voltado a raciocínio mais elaborado, como matemática, código, planejamento, análise de documentos e fluxos com agentes.

Qual é a janela de contexto do DeepSeek V3.1?

A documentação do modelo informa contexto de 128K para DeepSeek-V3.1 e DeepSeek-V3.1-Base. Provedores gerenciados podem apresentar limites próprios, por isso o endpoint escolhido deve ser verificado.

DeepSeek V3.1 é open source?

O repositório e os pesos do DeepSeek-V3.1 são disponibilizados sob MIT License. Em APIs e plataformas de inferência, o uso também fica sujeito aos termos, preços e políticas do provedor.

Qual é a diferença entre DeepSeek-V3.1-Base e DeepSeek-V3.1?

DeepSeek-V3.1-Base é o checkpoint base com extensão de contexto longo, mais indicado para pesquisa e estudo técnico. DeepSeek-V3.1 é a versão post-trained mais adequada para chat, agentes e aplicações.

DeepSeek V3.1 tem API?

Sim. No anúncio de lançamento, o modelo foi associado à API da DeepSeek. Porém, aliases e identificadores podem mudar com o tempo, então o desenvolvedor deve verificar o changelog e a documentação do provedor antes de integrar.

Posso rodar DeepSeek V3.1 localmente?

É possível tecnicamente, mas não é uma tarefa simples. O modelo tem grande porte, e guias de serving citam hardware como 8xH200 ou H20 GPUs. Para muitos projetos, um endpoint gerenciado pode ser mais viável.

DeepSeek V3.1 funciona em português do Brasil?

O modelo pode ser usado em tarefas em português do Brasil, como resumo, atendimento, análise e código. A qualidade deve ser validada com exemplos reais do público brasileiro, do setor e do tom de voz esperado.

Qual é a diferença entre DeepSeek V3.1 e V3.1-Terminus?

DeepSeek-V3.1-Terminus foi anunciado em 22 de setembro de 2025 como revisão posterior construída sobre V3.1, com foco em consistência de linguagem e melhorias em Code Agent e Search Agent.

DeepSeek V3.1 é indicado para empresas?

Pode ser indicado para empresas que precisam de contexto longo, agentes, tool calling e flexibilidade entre modos de resposta. Antes de adotar, é necessário validar privacidade, custo, latência, segurança e qualidade em dados reais.

Conclusão

DeepSeek V3.1 é uma etapa importante da família DeepSeek por combinar modos de raciocínio, contexto longo e recursos voltados a agentes em um único modelo. Sua ficha técnica mostra 671B parâmetros totais, 37B parâmetros ativados por token, contexto de 128K e licença MIT para pesos e repositório.

O valor do modelo aparece melhor quando a equipe compara thinking e non-thinking em tarefas reais, avalia custos, verifica endpoints e mede qualidade em português do Brasil. Para produção, o caminho mais seguro é testar prompts reais, comparar modos, verificar limites do provedor e validar privacidade antes de escalar a aplicação.