DeepSeek VL: página histórica e técnica

O DeepSeek VL foi um modelo vision-language open source lançado pela DeepSeek em 2024 para estudar a combinação entre visão computacional e linguagem natural. Seu papel correto hoje é histórico: ele ajuda a entender como a DeepSeek entrou na linha de modelos multimodais capazes de receber imagem e texto no mesmo fluxo de inferência, mas não deve ser confundido com a camada pública atual da DeepSeek API, que documenta principalmente deepseek-chat e deepseek-reasoner como modos do DeepSeek‑V3.2.

Resumo rápido: DeepSeek VL é uma referência técnica importante para visão‑linguagem, especialmente para VQA, OCR, compreensão de documentos, diagramas e imagens naturais. Porém, para uso atual, trate esta página como material de estudo, reprodução local e comparação histórica. Para projetos novos, verifique DeepSeek‑VL2 quando o foco for multimodal open source e DeepSeek‑V3.2 quando o foco for API pública de texto/raciocínio.

O que foi o DeepSeek VL?

O DeepSeek VL foi apresentado oficialmente como um modelo Vision‑Language para aplicações do mundo real. A proposta era permitir que um único sistema processasse imagens e linguagem natural de forma integrada, cobrindo cenários como diagramas lógicos, páginas web, fórmulas científicas, literatura acadêmica, documentos, gráficos e fotografias comuns.

Em termos editoriais, a melhor forma de descrever o DeepSeek VL hoje é: um marco inicial da família multimodal da DeepSeek. Ele não substitui páginas atuais sobre o DeepSeek como plataforma, não deve competir com a página de DeepSeek V3.2 e não deve prometer recursos de imagem na API pública atual sem fonte oficial explícita.

Linha do tempo: de DeepSeek VL a VL2 e API V3.2

DataEventoComo interpretar hoje
11 de março de 2024Lançamento da família DeepSeek‑VL, com variantes 1.3B e 7B, base e chat.Marco histórico inicial da linha vision-language da DeepSeek.
14 de março de 2024Disponibilização de demo do DeepSeek‑VL‑7B no Hugging Face.Útil para experimentação e estudo, não como prova de disponibilidade na API pública atual.
13 de dezembro de 2024Lançamento da família DeepSeek‑VL2: tiny, small e VL2.VL2 sucede e melhora o DeepSeek VL original em tarefas multimodais.
20 de outubro de 2025Publicação do DeepSeek‑OCR como linha separada de pesquisa em compressão visual/textual.Mostra continuidade de pesquisa visual, mas não transforma DeepSeek VL em API de imagem.
1º de dezembro de 2025DeepSeek‑V3.2 passa a ser a referência da API pública para deepseek-chat e deepseek-reasoner.Para integrações novas via API, direcione o leitor para V3.2, API, preços e FAQ.
18 de abril de 2026Status editorial desta página.DeepSeek VL deve ser mantido como página histórica/técnica, com aviso claro sobre seu lugar no ecossistema.

Arquitetura técnica do DeepSeek VL

A arquitetura do DeepSeek VL combinava encoders visuais, um adaptador visão‑linguagem e um modelo de linguagem. O objetivo era converter imagem em representações compatíveis com o fluxo de tokens do modelo textual, permitindo que a resposta final fosse gerada em linguagem natural.

  • Encoders visuais híbridos: a documentação do modelo descreve o uso de SigLIP‑L e SAM‑B como encoders de visão, com suporte a entrada visual de até 1024 × 1024 pixels na variante 7B base. Essa combinação buscava capturar tanto contexto global quanto detalhes visuais finos.
  • Base linguística: o DeepSeek‑VL‑7B foi construído sobre o DeepSeek‑LLM‑7B. O model card informa que a base textual havia sido treinada em aproximadamente 2 trilhões de tokens de texto.
  • Treinamento multimodal: após a integração entre visão e linguagem, o modelo foi treinado com cerca de 400 bilhões de tokens vision‑language, segundo o material oficial do modelo.
  • Variantes públicas: a família original incluiu DeepSeek‑VL‑1.3B‑base, DeepSeek‑VL‑1.3B‑chat, DeepSeek‑VL‑7B‑base e DeepSeek‑VL‑7B‑chat, todas com contexto de sequência de 4096 tokens no repositório original.
Exemplos históricos de prompts multimodais do DeepSeek VL
Imagem histórica usada para ilustrar capacidades multimodais do DeepSeek‑VL. Use esta figura como referência técnica da época, não como promessa de disponibilidade na API pública atual.

Capacidades estudadas pelo DeepSeek VL

O DeepSeek VL foi relevante porque reuniu, em um único fluxo, várias tarefas clássicas de visão e linguagem. Em uma página histórica, essas capacidades devem ser apresentadas como objetivos e demonstrações técnicas do modelo original, não como garantias de produção para qualquer caso de uso.

  • Descrição de imagens: geração de legendas e descrições sobre objetos, cenas, relações espaciais e elementos visuais principais.
  • Visual Question Answering: resposta a perguntas sobre uma imagem fornecida, combinando pergunta textual com evidência visual.
  • OCR e leitura visual: interpretação de texto presente em imagens, documentos e capturas de tela, com limitações naturais em casos de baixa resolução, distorção ou fontes complexas.
  • Compreensão de documentos, tabelas e gráficos: análise de estruturas visuais mais densas, como páginas, tabelas, gráficos e diagramas.
  • Visual grounding: associação entre instruções textuais e regiões ou objetos específicos da imagem.
  • Conversas multimodais: uso da variante chat para interações orientadas por instruções envolvendo imagem e texto.

Essa combinação explica por que o DeepSeek VL ainda tem valor como referência técnica: ele mostra uma etapa concreta da evolução da DeepSeek em visão‑linguagem. A página, porém, deve evitar frases como “use via API cloud” ou “suporte multimodal completo em breve” quando não houver confirmação oficial atual.

DeepSeek VL, DeepSeek‑VL2 e DeepSeek API atual: diferenças

ItemDeepSeek VLDeepSeek‑VL2DeepSeek API atual
NaturezaModelo vision-language open source de 2024.Sucessor multimodal baseado em Mixture‑of‑Experts.API pública compatível com formato OpenAI.
Uso editorial corretoArquivo histórico/técnico.Referência mais atual dentro da linha VL open source.Caminho recomendado para integrações novas de texto, raciocínio, JSON e tool calls.
Modelos/IDs relevantesDeepSeek‑VL‑1.3B e 7B, base/chat.DeepSeek‑VL2‑Tiny, DeepSeek‑VL2‑Small e DeepSeek‑VL2.deepseek-chat e deepseek-reasoner.
Contexto informado nas fontes4096 tokens nas variantes listadas no repositório original.4096 tokens nas variantes listadas no repositório VL2.128K tokens para DeepSeek‑V3.2 na API pública.
Onde usarPesquisa, estudo, reprodução local e comparação histórica.Pesquisa multimodal mais recente e testes locais.Produtos, backends, chatbots, agentes textuais e integrações atuais.
AlertaNão apresentar como recurso atual da API pública.Não misturar código e dependências com o VL original.Não inferir suporte a imagens a partir da existência do VL/VL2.

Como usar esta página sem criar conflito com o restante do site

Esta página deve funcionar como um nó histórico dentro do cluster de modelos. Ela pode manter autoridade para a palavra-chave “DeepSeek VL”, mas precisa apontar claramente para páginas atuais quando o leitor quer usar o DeepSeek hoje.

  • Para integração via API, envie o leitor para DeepSeek API.
  • Para modelo atual de texto/raciocínio na API, envie para DeepSeek V3.2.
  • Para custo e limites atuais, envie para Preços do DeepSeek.
  • Para dúvidas gerais, envie para FAQ do DeepSeek.
  • Para multimodal open source, apresente DeepSeek‑VL2 como sucessor técnico do DeepSeek VL original.

Exemplo técnico local do DeepSeek VL

O exemplo abaixo deve ser lido como reprodução local histórica baseada no repositório oficial. Ele não é um exemplo de chamada para a DeepSeek API pública atual. Em produção, confirme dependências, VRAM, versões de CUDA/PyTorch/Transformers e termos de licença do modelo.

# Arquivo técnico: exemplo local baseado no repositório DeepSeek-VL.
# Verifique GPU, versões de PyTorch/Transformers e licença antes de usar em produção.

git clone https://github.com/deepseek-ai/DeepSeek-VL
cd DeepSeek-VL
pip install -e .

Depois de instalar o projeto, um teste local simplificado com a variante chat pode seguir a estrutura abaixo:

import torch
from transformers import AutoModelForCausalLM

from deepseek_vl.models import VLChatProcessor, MultiModalityCausalLM
from deepseek_vl.utils.io import load_pil_images

model_path = "deepseek-ai/deepseek-vl-7b-chat"
vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(
    model_path,
    trust_remote_code=True
)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

conversation = [
    {
        "role": "User",
        "content": "<image_placeholder>Descreva os elementos principais desta imagem e indique se há texto visível.",
        "images": ["./images/exemplo.jpg"],
    },
    {"role": "Assistant", "content": ""},
]

pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation,
    images=pil_images,
    force_batchify=True
).to(vl_gpt.device)

inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)
outputs = vl_gpt.language_model.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True,
)

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
print(answer)

Esse fluxo mostra a lógica do modelo original: carregar processador e modelo, associar uma imagem ao prompt, transformar a imagem em embeddings visuais e gerar a resposta pelo componente linguístico. Para testes novos, compare também com o DeepSeek‑VL2, porque ele é o sucessor técnico documentado da linha VL.

# Para novos testes multimodais, compare também com DeepSeek-VL2.
# O repositório oficial do VL2 usa classes e tokens diferentes,
# portanto não misture o código do VL original com o código do VL2.
Demo histórica do DeepSeek VL em interface Gradio
Demo Gradio histórica do DeepSeek‑VL. Mantenha a legenda como registro técnico, sem sugerir que isso equivale à DeepSeek API pública atual.

Boas práticas para leitura técnica

  • Separe pesquisa de produto: DeepSeek VL e VL2 são úteis para pesquisa multimodal e execução local; DeepSeek‑V3.2 é o ponto de partida correto para API pública atual.
  • Não prometa suporte de imagem na API sem fonte oficial: a existência de modelos VL open source não significa que o endpoint público /chat/completions aceite imagens.
  • Declare limites de hardware: modelos vision‑language exigem GPU, memória e dependências específicas. A experiência local pode variar muito.
  • Teste OCR e documentos no seu domínio: resultados com texto pequeno, imagens comprimidas, tabelas densas e capturas ruins podem variar.
  • Evite decisões críticas sem revisão humana: em saúde, jurídico, segurança, manutenção industrial e compliance, use como apoio técnico, não como autoridade final.
  • Verifique licenças por modelo: código, pesos e variantes podem ter termos diferentes. Leia sempre o repositório e o model card correspondente.

O que foi removido ou corrigido nesta revisão

  • Removida a apresentação do DeepSeek VL como “referência visual mais atual”.
  • Removida a recomendação de integração via “API cloud” para DeepSeek VL sem documentação oficial atual.
  • Adicionado aviso claro de que a API pública atual documenta deepseek-chat e deepseek-reasoner como modos do DeepSeek‑V3.2.
  • Reposicionada a página como material histórico, técnico e comparativo.
  • Adicionado link interno para páginas atuais do site: API, V3.2, preços e FAQ.
  • Reescritos os casos de uso para não soar como promessa comercial atual.
  • Atualizada a seção de código para deixar claro que se trata de execução local baseada no repositório original.

Perguntas frequentes sobre DeepSeek VL

O DeepSeek VL ainda é o modelo visual principal da DeepSeek?

Não. O DeepSeek VL deve ser tratado como marco histórico e técnico. A referência pública mais recente dentro da linha vision-language open source é o DeepSeek‑VL2, enquanto a API pública atual documenta principalmente deepseek-chat e deepseek-reasoner como modos do DeepSeek‑V3.2.

Posso usar DeepSeek VL pela DeepSeek API pública atual?

Esta página não deve afirmar isso. A documentação pública atual da DeepSeek API apresenta a base https://api.deepseek.com e os modelos deepseek-chat e deepseek-reasoner. DeepSeek VL e VL2 aparecem como modelos open source para estudo e execução local, não como IDs principais da API pública atual.

Qual é a diferença entre DeepSeek VL e DeepSeek‑VL2?

DeepSeek VL foi a primeira família vision-language lançada em 2024, com variantes 1.3B e 7B. DeepSeek‑VL2 veio depois como uma série Mixture‑of‑Experts que melhora o predecessor em tarefas como VQA, OCR, compreensão de documentos, tabelas, gráficos e visual grounding.

Esta página deve ser removida do site?

Não. Ela pode continuar útil para SEO, histórico técnico e arquitetura multimodal. O importante é deixar claro que é uma página de referência histórica e direcionar o leitor para DeepSeek API, DeepSeek V3.2, preços e FAQ quando o objetivo for uso atual.

DeepSeek VL é indicado para projetos em produção?

Ele pode ser estudado e executado localmente por equipes técnicas, mas a decisão de produção exige testes próprios, análise de licença, infraestrutura de GPU, avaliação de segurança e comparação com alternativas mais recentes como DeepSeek‑VL2.

Fontes oficiais verificadas

Conclusão

O DeepSeek VL continua sendo uma página valiosa quando apresentado como história técnica: ele documenta uma etapa importante da evolução multimodal da DeepSeek e ajuda leitores a entenderem como modelos vision‑language combinam imagem e texto. Porém, em 2026, a página não deve vender o DeepSeek VL como produto atual de API nem como caminho padrão para novas integrações.

A recomendação editorial correta é manter esta URL como arquivo técnico sobre DeepSeek VL, reforçar a relação com DeepSeek‑VL2 como sucessor multimodal e enviar usuários que querem construir produtos atuais para DeepSeek API, DeepSeek V3.2, Preços e FAQ.