DeepSeek em Números: Fatos, Estatísticas e Crescimento da IA Chinesa

DeepSeek é uma startup chinesa de IA baseada em Hangzhou (província de Zhejiang), fundada em julho de 2023 pelo bilionário Liang Wenfeng – cofundador do fundo de hedge High-Flyer – que também atua como CEO.

Originada como um laboratório de pesquisa em IA geral (AGI) do próprio High-Flyer, a empresa foi formalizada em julho de 2023 com foco em “avanços científicos” em modelos de linguagem (não em produtos comerciais imediatos).

Desde o início, DeepSeek recrutou em massa jovens PhDs de universidades de elite chinesas (Peking, Tsinghua etc.), formando uma equipe técnica majoritariamente recém-graduada, ávida por romper paradigmas.

Atualmente, estima-se em cerca de 160 o número de funcionários da empresa (dados de 2025).

Modelos Principais da DeepSeek

DeepSeek desenvolve vários LLMs (Large Language Models) de alto desempenho:

  • DeepSeek-R1 (lançado em 20 de janeiro de 2025): modelo de reasoning de primeira geração. Baseado em arquitetura Mixture-of-Experts, o R1 contém 671 bilhões de parâmetros totais (com cerca de 37 B ativos por token) e aceita até 128 000 tokens de contexto. Treinado por reforço para raciocínio avançado em matemática, código e linguagem, o R1 obteve pontuações comparáveis ao GPT-4 (o1) da OpenAI em benchmarks de raciocínio, superando diversos modelos líderes em tarefas de lógica e programação. A DeepSeek publicou o código abertamente sob licença MIT, visando permitir exame técnico pelo mercado.
  • DeepSeek-R2 (em desenvolvimento): sucessor planejado do R1, inicialmente previsto para maio de 2025. Pauta-se em aprimorar ainda mais raciocínio e geração de código, incluindo suporte multilíngue. Fontes jornalísticas indicam uma aceleração no cronograma, embora detalhes oficiais ainda não tenham sido divulgados.
  • DeepSeek-Janus / Janus-Pro (lançado em 2025): série de modelos multimodais texto-imagem. Por exemplo, o Janus-Pro-7B (7 bilhões de parâmetros) integra processamento de visão e geração de imagens. Segundo a DeepSeek, o Janus-Pro-7B supera o DALL·E 3 em benchmarks como GenEval e DPG-Bench. Esses modelos “Janus” unificam entendimento visual e geração de imagens num único transformer, e foram liberados como open-source sob licença da empresa.
  • DeepSeek-Coder V2 (lançado novembro de 2024): família de modelos de código fonte. São LLMs MoE três-estagio, criados sobre a base do DeepSeek-V2. O Coder V2 inclui versões de 16B e 236B parâmetros totais (ativados 2.4B e 21B, respectivamente), ambas com contexto de 128K tokens. Em benchmarks de codificação e raciocínio matemático, o DeepSeek-Coder-V2 apresentou desempenho superior a modelos fechados como o GPT-4 Turbo e o Claude 3 Opus. A DeepSeek divulgou o Coder V2 como “open-source”, destacando suporte a centenas de linguagens de programação e melhoria significativa na geração de código natural.

A tabela a seguir resume as características de alguns dos principais modelos DeepSeek (parâmetros e janela de contexto):

Modelo DeepSeekParâmetros TotaisParâmetros AtivosJanela de Contexto
R1 (reasoning)671B37B128K tokens
Coder V2 (código)236B21B128K tokens

Desempenho e Benchmarks

Os modelos DeepSeek têm chamado atenção por custo-benefício e desempenho competitivo. O R1, por exemplo, “realiza tarefas de raciocínio no mesmo nível que o modelo o1 da OpenAI”, tudo isso sendo oferecido gratuitamente.

A DeepSeek afirma que a arquitetura MoE e técnicas de treinamento especializadas permitiram treinar o modelo por apenas cerca de US$6 milhões, em contraste com os US$100 milhões reportados para o GPT-4 em 2023. Além disso, a DeepSeek diz ter usado apenas um décimo do poder de cálculo do modelo comparável da Meta (LLaMA 3.1).

Tais ganhos vieram do uso de GPUs mais simples (ex.: H800) e de camadas MoE, reduzindo custos sem sacrificar a qualidade. A DeepSeek relata taxas de “alucinações” (respostas falsas) muito menores após atualizações, e atendeu bem benchmarks de matemática, programação e lógica.

Por exemplo, o Coder V2-236B atingiu 90.2% de acerto no HumanEval de programação (superando todos os modelos abertos listados).

E o Janus-Pro-7B alcançou melhorias significativas em geração de imagem, suplantando DALL·E 3 em métricas de fidelidade.

Investimento e Estrutura

O financiamento inicial da DeepSeek vem quase inteiramente do fundo High-Flyer (de Liang Wenfeng), sem participação direta de gigantes de internet como Baidu ou Alibaba.

High-Flyer investiu pesado em infraestrutura: em 2019 construiu um cluster com 1.100 GPUs ao custo de ¥200 milhões (≈US$30M); em 2021 iniciou o “Fire-Flyer 2” com orçamento de ¥1 bilhão. Esses supercomputadores suportaram o treinamento dos modelos em dezenas de milhões de horas-GPU.

De fato, a DeepSeek alcançou sua eficiência recorde de custos usando 2,788,000 horas-GPU em H800 (cerca de US$2 por hora) para treinar o R1, conforme levantado em apurações – o que reforça a cifra de ~$5.6M informada internamente.

A equipe de pesquisa é pequena mas jovem e especializada: além dos ~160 colaboradores em 2025, o núcleo central foi montado “por pessoas que se formaram há um, dois anos”. Houve relato de compras antecipadas de 10.000 placas NVIDIA A100 antes de restrições comerciais ao chip chinês.

Crescimento da Base de Usuários

O lançamento público do chatbot DeepSeek-R1 em 20 de janeiro de 2025 disparou seu uso global. Em poucas semanas passou a figurar como o app mais baixado em 156 países no iOS App Store.

Segundo análise de mercado, em janeiro de 2025 já havia ~22,15 milhões de usuários ativos diários (DAU), crescendo para cerca de 96,9 milhões de MAU em abril de 2025. Isso torna o DeepSeek um dos apps de IA de mais rápido crescimento do mundo.

Em mercados chave (China, Índia, Indonésia) está mais de metade dos usuários, mas a adoção também alcança EUA, Europa e América Latina.

Gráfico: evolução de usuários ativos mensais do DeepSeek (fonte: Backlinko). Em abril de 2025, o aplicativo atingiu quase 97 milhões de usuários ativos mensais.

Esse crescimento explosivo refletiu-se nas métricas de tráfego: segundo estimativas, o site DeepSeek cresceu de apenas ~7,5 mil visitantes diários em agosto de 2024 para mais de 22 milhões em maio de 2025.

No pico, em janeiro de 2025, houve salto de 312% nas visitas mensais coincidente com o lançamento do R1. Porém, a rápida expansão trouxe atenção regulatória.

Países como Austrália e Alemanha baniram o app em dispositivos governamentais por riscos de segurança e privacidade, e investigações antitruste foram iniciadas na Itália e Holanda. Em fevereiro, Taiwan proibiu uso oficial alegando riscos de censura e dados.

Essas preocupações não impediram, entretanto, que a base de usuários seguisse crescendo.

Comparação com Concorrentes

DeepSeek entra em campo contra gigantes ocidentais e emergentes de forma agressiva. Seu R1 já é reconhecido por “dar trabalho” a modelos da OpenAI e Google a um custo muito menor.

Por exemplo, o R1 equipara-se ao GPT-4 (o1) em raciocínio e foi usado até para destilar versões de outros modelos (como o Alibaba Qwen) com ganho de desempenho.

Em relação à Meta, o LLaMA 3.1 de 405B parâmetros (contexto 128K) exige muito mais poder de cálculo, enquanto R1 atinge resultados similares com 1/10 do esforço.

Na Europa, o modelo Mistral (70B, open-source) também ganhou atenção, e empresas de “compressão de modelos” citaram disponibilizar versões compactadas do DeepSeek junto a Llama e Mistral.

Diferentemente de muitos rivais (que podem ser fechados), os pesos do DeepSeek-R1 são liberados sob licença permissiva, o que amplia seu acesso e colaboratividade.

Por sua vez, concorrentes chineses responderam cortando preços e acelerando lançamentos.

Após R1 mostrar ser “profissional e barato”, grandes de tecnologia da China como Tencent, Baidu e Alibaba anunciaram reduções nas tarifas de seus serviços de IA.

O mercado até apelidou DeepSeek de “Pinduoduo da IA”, em referência a outro fenômeno chinês de preços baixos. OpenAI, Google e outros também ajustaram suas estratégias de preço e modelos (p. ex. criando versões mais enxutas) em reação à pressão de custo.

Impacto no Mercado de IA

O sucesso da DeepSeek reverberou no mercado global de IA.

Logo após o lançamento do R1, as ações de empresas de chips – notadamente a NVIDIA – despencaram: estima-se que seu valor de mercado tenha perdido cerca de US$600 bilhões num único dia, a maior queda já registrada para uma única empresa.

A empresa Groq bloqueou acessos de IPs chineses como medida preventiva, e executivos ocidentais comentam que o “medo de DeepSeek” tem sido alto em Silicon Valley.

De fato, o R1 virou manchete global e provou que é possível treinar modelos de ponta sem gastos trilionários – um choque de realidade para a noção de que “mais poder de fogo = modelos melhores”.

Esse impacto técnico e econômico é conciliado por dados concretos: em janeiro de 2025 o DeepSeek já havia ultrapassado o ChatGPT no ranking de aplicativos grátis nos EUA, e a adoção acelerada abalou premissas de investimento em infraestrutura massiva.

Em suma, DeepSeek trouxe à luz um modelo de IA de alto desempenho e baixo custo, perturbando o mercado e incentivando inovação aberta.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *