O DeepSeek VL foi um modelo vision-language open source lançado pela DeepSeek em 2024 para estudar a combinação entre visão computacional e linguagem natural. Seu papel correto hoje é histórico: ele ajuda a entender como a DeepSeek entrou na linha de modelos multimodais capazes de receber imagem e texto no mesmo fluxo de inferência, mas não deve ser confundido com a camada pública atual da DeepSeek API, que documenta principalmente deepseek-chat e deepseek-reasoner como modos do DeepSeek‑V3.2.
Resumo rápido: DeepSeek VL é uma referência técnica importante para visão‑linguagem, especialmente para VQA, OCR, compreensão de documentos, diagramas e imagens naturais. Porém, para uso atual, trate esta página como material de estudo, reprodução local e comparação histórica. Para projetos novos, verifique DeepSeek‑VL2 quando o foco for multimodal open source e DeepSeek‑V3.2 quando o foco for API pública de texto/raciocínio.
O que foi o DeepSeek VL?
O DeepSeek VL foi apresentado oficialmente como um modelo Vision‑Language para aplicações do mundo real. A proposta era permitir que um único sistema processasse imagens e linguagem natural de forma integrada, cobrindo cenários como diagramas lógicos, páginas web, fórmulas científicas, literatura acadêmica, documentos, gráficos e fotografias comuns.
Em termos editoriais, a melhor forma de descrever o DeepSeek VL hoje é: um marco inicial da família multimodal da DeepSeek. Ele não substitui páginas atuais sobre o DeepSeek como plataforma, não deve competir com a página de DeepSeek V3.2 e não deve prometer recursos de imagem na API pública atual sem fonte oficial explícita.
Linha do tempo: de DeepSeek VL a VL2 e API V3.2
| Data | Evento | Como interpretar hoje |
|---|---|---|
| 11 de março de 2024 | Lançamento da família DeepSeek‑VL, com variantes 1.3B e 7B, base e chat. | Marco histórico inicial da linha vision-language da DeepSeek. |
| 14 de março de 2024 | Disponibilização de demo do DeepSeek‑VL‑7B no Hugging Face. | Útil para experimentação e estudo, não como prova de disponibilidade na API pública atual. |
| 13 de dezembro de 2024 | Lançamento da família DeepSeek‑VL2: tiny, small e VL2. | VL2 sucede e melhora o DeepSeek VL original em tarefas multimodais. |
| 20 de outubro de 2025 | Publicação do DeepSeek‑OCR como linha separada de pesquisa em compressão visual/textual. | Mostra continuidade de pesquisa visual, mas não transforma DeepSeek VL em API de imagem. |
| 1º de dezembro de 2025 | DeepSeek‑V3.2 passa a ser a referência da API pública para deepseek-chat e deepseek-reasoner. | Para integrações novas via API, direcione o leitor para V3.2, API, preços e FAQ. |
| 18 de abril de 2026 | Status editorial desta página. | DeepSeek VL deve ser mantido como página histórica/técnica, com aviso claro sobre seu lugar no ecossistema. |
Arquitetura técnica do DeepSeek VL
A arquitetura do DeepSeek VL combinava encoders visuais, um adaptador visão‑linguagem e um modelo de linguagem. O objetivo era converter imagem em representações compatíveis com o fluxo de tokens do modelo textual, permitindo que a resposta final fosse gerada em linguagem natural.
- Encoders visuais híbridos: a documentação do modelo descreve o uso de SigLIP‑L e SAM‑B como encoders de visão, com suporte a entrada visual de até 1024 × 1024 pixels na variante 7B base. Essa combinação buscava capturar tanto contexto global quanto detalhes visuais finos.
- Base linguística: o DeepSeek‑VL‑7B foi construído sobre o DeepSeek‑LLM‑7B. O model card informa que a base textual havia sido treinada em aproximadamente 2 trilhões de tokens de texto.
- Treinamento multimodal: após a integração entre visão e linguagem, o modelo foi treinado com cerca de 400 bilhões de tokens vision‑language, segundo o material oficial do modelo.
- Variantes públicas: a família original incluiu DeepSeek‑VL‑1.3B‑base, DeepSeek‑VL‑1.3B‑chat, DeepSeek‑VL‑7B‑base e DeepSeek‑VL‑7B‑chat, todas com contexto de sequência de 4096 tokens no repositório original.

Capacidades estudadas pelo DeepSeek VL
O DeepSeek VL foi relevante porque reuniu, em um único fluxo, várias tarefas clássicas de visão e linguagem. Em uma página histórica, essas capacidades devem ser apresentadas como objetivos e demonstrações técnicas do modelo original, não como garantias de produção para qualquer caso de uso.
- Descrição de imagens: geração de legendas e descrições sobre objetos, cenas, relações espaciais e elementos visuais principais.
- Visual Question Answering: resposta a perguntas sobre uma imagem fornecida, combinando pergunta textual com evidência visual.
- OCR e leitura visual: interpretação de texto presente em imagens, documentos e capturas de tela, com limitações naturais em casos de baixa resolução, distorção ou fontes complexas.
- Compreensão de documentos, tabelas e gráficos: análise de estruturas visuais mais densas, como páginas, tabelas, gráficos e diagramas.
- Visual grounding: associação entre instruções textuais e regiões ou objetos específicos da imagem.
- Conversas multimodais: uso da variante chat para interações orientadas por instruções envolvendo imagem e texto.
Essa combinação explica por que o DeepSeek VL ainda tem valor como referência técnica: ele mostra uma etapa concreta da evolução da DeepSeek em visão‑linguagem. A página, porém, deve evitar frases como “use via API cloud” ou “suporte multimodal completo em breve” quando não houver confirmação oficial atual.
DeepSeek VL, DeepSeek‑VL2 e DeepSeek API atual: diferenças
| Item | DeepSeek VL | DeepSeek‑VL2 | DeepSeek API atual |
|---|---|---|---|
| Natureza | Modelo vision-language open source de 2024. | Sucessor multimodal baseado em Mixture‑of‑Experts. | API pública compatível com formato OpenAI. |
| Uso editorial correto | Arquivo histórico/técnico. | Referência mais atual dentro da linha VL open source. | Caminho recomendado para integrações novas de texto, raciocínio, JSON e tool calls. |
| Modelos/IDs relevantes | DeepSeek‑VL‑1.3B e 7B, base/chat. | DeepSeek‑VL2‑Tiny, DeepSeek‑VL2‑Small e DeepSeek‑VL2. | deepseek-chat e deepseek-reasoner. |
| Contexto informado nas fontes | 4096 tokens nas variantes listadas no repositório original. | 4096 tokens nas variantes listadas no repositório VL2. | 128K tokens para DeepSeek‑V3.2 na API pública. |
| Onde usar | Pesquisa, estudo, reprodução local e comparação histórica. | Pesquisa multimodal mais recente e testes locais. | Produtos, backends, chatbots, agentes textuais e integrações atuais. |
| Alerta | Não apresentar como recurso atual da API pública. | Não misturar código e dependências com o VL original. | Não inferir suporte a imagens a partir da existência do VL/VL2. |
Como usar esta página sem criar conflito com o restante do site
Esta página deve funcionar como um nó histórico dentro do cluster de modelos. Ela pode manter autoridade para a palavra-chave “DeepSeek VL”, mas precisa apontar claramente para páginas atuais quando o leitor quer usar o DeepSeek hoje.
- Para integração via API, envie o leitor para DeepSeek API.
- Para modelo atual de texto/raciocínio na API, envie para DeepSeek V3.2.
- Para custo e limites atuais, envie para Preços do DeepSeek.
- Para dúvidas gerais, envie para FAQ do DeepSeek.
- Para multimodal open source, apresente DeepSeek‑VL2 como sucessor técnico do DeepSeek VL original.
Exemplo técnico local do DeepSeek VL
O exemplo abaixo deve ser lido como reprodução local histórica baseada no repositório oficial. Ele não é um exemplo de chamada para a DeepSeek API pública atual. Em produção, confirme dependências, VRAM, versões de CUDA/PyTorch/Transformers e termos de licença do modelo.
# Arquivo técnico: exemplo local baseado no repositório DeepSeek-VL.
# Verifique GPU, versões de PyTorch/Transformers e licença antes de usar em produção.
git clone https://github.com/deepseek-ai/DeepSeek-VL
cd DeepSeek-VL
pip install -e .
Depois de instalar o projeto, um teste local simplificado com a variante chat pode seguir a estrutura abaixo:
import torch
from transformers import AutoModelForCausalLM
from deepseek_vl.models import VLChatProcessor, MultiModalityCausalLM
from deepseek_vl.utils.io import load_pil_images
model_path = "deepseek-ai/deepseek-vl-7b-chat"
vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer
vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(
model_path,
trust_remote_code=True
)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()
conversation = [
{
"role": "User",
"content": "<image_placeholder>Descreva os elementos principais desta imagem e indique se há texto visível.",
"images": ["./images/exemplo.jpg"],
},
{"role": "Assistant", "content": ""},
]
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
conversations=conversation,
images=pil_images,
force_batchify=True
).to(vl_gpt.device)
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)
outputs = vl_gpt.language_model.generate(
inputs_embeds=inputs_embeds,
attention_mask=prepare_inputs.attention_mask,
pad_token_id=tokenizer.eos_token_id,
bos_token_id=tokenizer.bos_token_id,
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=512,
do_sample=False,
use_cache=True,
)
answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
print(answer)
Esse fluxo mostra a lógica do modelo original: carregar processador e modelo, associar uma imagem ao prompt, transformar a imagem em embeddings visuais e gerar a resposta pelo componente linguístico. Para testes novos, compare também com o DeepSeek‑VL2, porque ele é o sucessor técnico documentado da linha VL.
# Para novos testes multimodais, compare também com DeepSeek-VL2.
# O repositório oficial do VL2 usa classes e tokens diferentes,
# portanto não misture o código do VL original com o código do VL2.

Boas práticas para leitura técnica
- Separe pesquisa de produto: DeepSeek VL e VL2 são úteis para pesquisa multimodal e execução local; DeepSeek‑V3.2 é o ponto de partida correto para API pública atual.
- Não prometa suporte de imagem na API sem fonte oficial: a existência de modelos VL open source não significa que o endpoint público
/chat/completionsaceite imagens. - Declare limites de hardware: modelos vision‑language exigem GPU, memória e dependências específicas. A experiência local pode variar muito.
- Teste OCR e documentos no seu domínio: resultados com texto pequeno, imagens comprimidas, tabelas densas e capturas ruins podem variar.
- Evite decisões críticas sem revisão humana: em saúde, jurídico, segurança, manutenção industrial e compliance, use como apoio técnico, não como autoridade final.
- Verifique licenças por modelo: código, pesos e variantes podem ter termos diferentes. Leia sempre o repositório e o model card correspondente.
O que foi removido ou corrigido nesta revisão
- Removida a apresentação do DeepSeek VL como “referência visual mais atual”.
- Removida a recomendação de integração via “API cloud” para DeepSeek VL sem documentação oficial atual.
- Adicionado aviso claro de que a API pública atual documenta
deepseek-chatedeepseek-reasonercomo modos do DeepSeek‑V3.2. - Reposicionada a página como material histórico, técnico e comparativo.
- Adicionado link interno para páginas atuais do site: API, V3.2, preços e FAQ.
- Reescritos os casos de uso para não soar como promessa comercial atual.
- Atualizada a seção de código para deixar claro que se trata de execução local baseada no repositório original.
Perguntas frequentes sobre DeepSeek VL
O DeepSeek VL ainda é o modelo visual principal da DeepSeek?
Não. O DeepSeek VL deve ser tratado como marco histórico e técnico. A referência pública mais recente dentro da linha vision-language open source é o DeepSeek‑VL2, enquanto a API pública atual documenta principalmente deepseek-chat e deepseek-reasoner como modos do DeepSeek‑V3.2.
Posso usar DeepSeek VL pela DeepSeek API pública atual?
Esta página não deve afirmar isso. A documentação pública atual da DeepSeek API apresenta a base https://api.deepseek.com e os modelos deepseek-chat e deepseek-reasoner. DeepSeek VL e VL2 aparecem como modelos open source para estudo e execução local, não como IDs principais da API pública atual.
Qual é a diferença entre DeepSeek VL e DeepSeek‑VL2?
DeepSeek VL foi a primeira família vision-language lançada em 2024, com variantes 1.3B e 7B. DeepSeek‑VL2 veio depois como uma série Mixture‑of‑Experts que melhora o predecessor em tarefas como VQA, OCR, compreensão de documentos, tabelas, gráficos e visual grounding.
Esta página deve ser removida do site?
Não. Ela pode continuar útil para SEO, histórico técnico e arquitetura multimodal. O importante é deixar claro que é uma página de referência histórica e direcionar o leitor para DeepSeek API, DeepSeek V3.2, preços e FAQ quando o objetivo for uso atual.
DeepSeek VL é indicado para projetos em produção?
Ele pode ser estudado e executado localmente por equipes técnicas, mas a decisão de produção exige testes próprios, análise de licença, infraestrutura de GPU, avaliação de segurança e comparação com alternativas mais recentes como DeepSeek‑VL2.
Fontes oficiais verificadas
- GitHub — DeepSeek‑VL: Towards Real‑World Vision‑Language Understanding
- Hugging Face — deepseek-ai/deepseek-vl-7b-base
- GitHub — DeepSeek‑VL2
- Hugging Face — deepseek-ai/deepseek-vl2
- DeepSeek API Docs — Your First API Call
- DeepSeek API Docs — Models & Pricing
- DeepSeek API Docs — Lists Models
- GitHub — DeepSeek‑OCR
Conclusão
O DeepSeek VL continua sendo uma página valiosa quando apresentado como história técnica: ele documenta uma etapa importante da evolução multimodal da DeepSeek e ajuda leitores a entenderem como modelos vision‑language combinam imagem e texto. Porém, em 2026, a página não deve vender o DeepSeek VL como produto atual de API nem como caminho padrão para novas integrações.
A recomendação editorial correta é manter esta URL como arquivo técnico sobre DeepSeek VL, reforçar a relação com DeepSeek‑VL2 como sucessor multimodal e enviar usuários que querem construir produtos atuais para DeepSeek API, DeepSeek V3.2, Preços e FAQ.