Depois de causar ondas de choque com um modelo de IA Com os recursos que rivalizam com as criações do Google e do Openai, o Deepseek da China está enfrentando questões sobre se suas reivindicações ousadas enfrentam escrutínio.
O anúncio da startup de Hangzhou de que desenvolveu R1 por uma fração do custo dos mais recentes modelos do Vale do Silício imediatamente chamou as suposições sobre o domínio dos Estados Unidos na IA e as avaliações de mercado altíssimas de suas principais empresas de tecnologia.
Alguns céticos, no entanto, desafiaram o relato de Deepseek de trabalhar em um orçamento com aperto, sugerindo que a empresa provavelmente tinha acesso a chips mais avançados e mais financiamento do que reconheceu.
“É uma pergunta em aberto se as reivindicações de Deepseek podem ser tomadas pelo valor de face. A comunidade de IA estará cavando neles e descobriremos ”, disse Pedro Domingos, professor emérito de ciência da computação e engenharia da Universidade de Washington, à Al Jazeera.
“É plausível para mim que eles possam treinar um modelo com US $ 6 milhões”, acrescentou Domingos.
“Mas também é bem possível que esse seja apenas o custo dos modelos de ajuste e pós-processamento que custam mais, que a Deepseek não poderia ter feito isso sem construir modelos mais caros por outros”.
Em um artigo de pesquisa divulgado na semana passada, a equipe de desenvolvimento Deepseek disse que eles usaram 2.000 GPUs da NVIDIA H800 – um chip menos avançado originalmente projetado para cumprir os controles de exportação dos EUA – e gastou US $ 5,6 milhões para treinar o modelo fundamental do R1, V3.
O CEO da Openai, Sam Altman, declarou que custou mais de US $ 100 milhões para treinar seu Chatbot GPT-4, enquanto os analistas estimaram que o modelo usou até 25.000 GPUs H100 mais avançados.
O anúncio da DeepSeek, fundado no final de 2023 pelo empresário em série Liang Wenfeng, elevou a crença amplamente acolhida de que as empresas que procuram estar na vanguarda da IA precisam investir bilhões de dólares em data centers e grandes quantidades de chips altos caros.
Também levantou questões sobre a eficácia dos esforços de Washington para restringir o setor de IA da China, proibindo as exportações dos chips mais avançados.
As ações da NVIDIA, com sede na Califórnia, que detêm quase monopólio do suprimento de GPUs de que a IA geradora de energia caiu na segunda-feira 17 %, limpando quase US $ 593 bilhões do valor de mercado da gigante do chip-um número comparável ao produto interno bruto (PIB ) da Suécia.
Embora exista um amplo consenso de que a liberação de R1 pela Deepseek representa pelo menos uma conquista significativa, alguns observadores proeminentes alertaram contra suas reivindicações pelo valor nominal.
Palmer Luckey, o fundador da empresa de realidade virtual Oculus VR, na quarta -feira rotulou o orçamento reivindicado de Deepseek como “falso” e acusou muitos “idiotas úteis” de se apaixonar por “propaganda chinesa”.
“É empurrado por um fundo de hedge chinês para desacelerar o investimento em startups americanas de IA, atender seus próprios shorts contra titãs americanos como a Nvidia e ocultar a evasão de sanções”, disse Luckey em um post no X.
“Os Estados Unidos são uma cama fértil para psyops como esse, porque nosso aparato de mídia odeia nossas empresas de tecnologia e quer ver o presidente Trump falhar.”
Em uma entrevista à CNBC na semana passada, Alexandr Wang, CEO da Scale AI, também lançou dúvidas sobre a conta de Deepseek, dizendo que era o seu “entendimento” de que tinha acesso a 50.000 chips H100 mais avançados sobre os quais não podia falar devido à exportação de nós, devido à exportação dos EUA controles.
Wang não forneceu evidências para sua reivindicação.
O bilionário de tecnologia Elon Musk, um dos confidentes mais próximos do presidente dos EUA, apoiou os céticos de Deepseek, escrevendo “obviamente” em X sob um post sobre a reivindicação de Wang.
Deepseek não respondeu aos pedidos de comentário.
Mas Zihan Wang, um candidato a doutorado que trabalhou em um modelo anterior de Deepseek, reagiu aos críticos da startup, dizendo: “A conversa é barata”.
“É fácil criticar”, disse Wang em X em resposta a perguntas da Al Jazeera sobre a sugestão de que as reivindicações de Deepseek não devem ser tomadas pelo valor de face.
“Se eles gastassem mais tempo trabalhando no código e reproduzissem a idéia profunda, será melhor do que falar no jornal”, acrescentou Wang, usando uma tradução em inglês de um idioma chinês sobre pessoas que se envolvem em conversas ociosas.
Ele não respondeu diretamente a uma pergunta sobre se acreditava que Deepseek havia gasto menos de US $ 6 milhões e usou chips menos avançados para treinar o modelo fundamental do R1.
Em uma entrevista de 2023 com as ondas chinesas de mídia, Liang disse que sua empresa armazenou 10.000 dos chips A100 da NVIDIA-que são mais antigos que o H800-antes que a administração do então presidente dos EUA Joe Biden proibisse sua exportação.
Os usuários do R1 também apontam para as limitações que enfrenta devido às suas origens na China, a saber, a censura dos tópicos considerados sensíveis por Pequim, incluindo o massacre de 1989 na Praça Tiananmen e o status de Taiwan.
Em um sinal de que o pânico inicial sobre o impacto potencial da Deepseek no setor de tecnologia dos EUA começou a recuar, o preço das ações da Nvidia na terça -feira se recuperou quase 9 %.
O Nasdaq 100 pesado de tecnologia aumentou 1,59 % depois de cair mais de 3 % no dia anterior.
Tim Miller, um professor especializado em IA na Universidade de Queensland, disse que era difícil dizer quanto ações deveriam ser colocadas nas reivindicações de Deepseek.
“O modelo em si distribui alguns detalhes de como funciona, mas os custos das principais mudanças que eles afirmam – que eu entendo – não ‘apareça’ no próprio modelo”, disse Miller ao Al Jazeera.
Miller disse que não tinha visto nenhum “sino de alarme”, mas há argumentos razoáveis a favor e contra confiar no trabalho de pesquisa.
“O avanço é incrível – quase um estilo ‘bom demais para ser verdadeiro’. O colapso dos custos não é claro ”, disse Miller.
Por outro lado, ele disse, os avanços acontecem ocasionalmente na ciência da computação.
“Esses modelos de escala maciça são um fenômeno muito recente, portanto, as eficiências são encontradas”, disse Miller.
“Dado que eles sabiam que isso seria razoavelmente direto para os outros se reproduzirem, eles saberia que pareceriam estúpidos se fossem a todos. Já existe uma equipe comprometida em tentar reproduzir o trabalho. ”
Custos em queda
Lucas Hansen, co-fundador da organização sem fins lucrativos Civai, disse que, embora tenha sido difícil saber se a Deepseek contornou os controles de exportação dos EUA, o orçamento de treinamento reivindicado da startup se referiu à V3, o que é aproximadamente equivalente ao GPT-4 da OpenAI, não a R1.
“O GPT-4 terminou o treinamento no final de 2022. Houve muitas melhorias algorítmicas e de hardware desde 2022, reduzindo o custo do treinamento de um modelo de classe GPT-4. Uma situação semelhante aconteceu para o GPT-2. Na época, era um empreendimento sério treinar, mas agora você pode treiná -lo por US $ 20 em 90 minutos ”, disse Hansen à Al Jazeera.
“Deepseek fez R1 pegando um modelo básico – neste caso, V3 – e aplicando alguns métodos inteligentes para ensinar esse modelo básico para pensar com mais cuidado”, acrescentou Hansen.
“Esse processo de ensino é comparativamente barato quando comparado ao preço do treinamento do modelo básico. Agora que a Deepseek publicou detalhes sobre como inicializar um modelo básico em um modelo de pensamento, veremos um grande número de novos modelos de pensamento. ”
