James Vincent
TA chegada do Deepseek R1, um modelo de idioma de IA construído pelo laboratório de AI chinês Deepseek, tem sido nada menos que sísmico. O sistema foi lançado apenas na semana passada, mas o aplicativo já atirou no Top of Download Chartsdesencadeou a $ 1TN (£ 800 bilhões) venda de ações de tecnologia e provocou comentários apocalípticos no Vale do Silício. A abordagem mais simples do R1 está correta: é um sistema de IA igual em capacidade para os modelos americanos de última geração que foram construídos com um orçamento apertado, demonstrando assim proezas tecnológicas chinesas. Mas a grande lição talvez não seja o que o Deepseek R1 revela sobre a China, mas sobre neuroses ocidentais em torno da IA.
Para os obsessivos da IA, a chegada de R1 não foi um choque total. A Deepseek foi fundada em 2023 como uma subsidiária do fundo de hedge chinês High-Flyer, que se concentra na análise financeira pesada de dados-um campo que exige habilidades semelhantes à pesquisa de IA de ponta. Seu laboratório subsidiário começou rapidamente a produzir artigos inovadores, e o CEO Liang Wenfeng disse aos entrevistadores Em novembro passado que o trabalho foi motivado não pelo lucro, mas “paixão e curiosidade”.
Esta abordagem valeu a pena e Em dezembro passado A empresa lançou a Deepseek-V3, um antecessor de R1 com as mesmas qualidades atraentes de alto desempenho e baixo custo. Como ChatGPT, V3 e R1 são grandes modelos de idiomas (LLMS): chatbots que podem ser colocados em uma enorme variedade de usos, desde redação até codificação. O principal pesquisador de IA Andrej Karpathy avistou o potencial da empresa no ano passado, Comentando sobre o lançamento do V3: “Deepseek (AI Chinese Co), fazendo com que pareça fácil hoje com um lançamento de pesos abertos de um LLM de grau de fronteira treinado em uma piada de um orçamento”. (Esse orçamento citado foi de US $ 6 milhões – dificilmente muda de bolso, mas ordens de magnitude menores que as US $ 100 milhões necessários Para treinar o GPT-4 do OpenAi em 2023.)
O impacto do R1 tem sido muito maior por alguns motivos diferentes.
Primeiro, é o que é conhecido como modelo de “cadeia de pensamento”, o que significa que, quando você dá uma consulta, ela se fala através da resposta: um truque simples que melhora enormemente a qualidade da resposta. Isso não apenas tornou o R1 diretamente comparável ao modelo O1 da OpenAI (outra cadeia de sistema de pensamento cujo desempenho R1 rivais), mas também aumentou sua capacidade de responder a matemática e consultas de codificação – problemas que os especialistas da IA valorizam muito. Além disso, o R1 é muito mais acessível. Não é apenas gratuito usar através do aplicativo (em oposição ao US $ 20 por mês Você precisa pagar o OpenAI para conversar com O1), mas é totalmente gratuito para os desenvolvedores baixarem e implementarem seus negócios. Tudo isso significou que o desempenho do R1 foi mais fácil de apreciar, assim como a interface de bate -papo do ChatGPT tornou acessíveis a IA Smarts existentes pela primeira vez em 2022.
Segundo, o método da criação de R1 mina a abordagem atual do Vale do Silício à IA. O paradigma dominante nos EUA é ampliar os modelos existentes, simplesmente adicionando mais dados e mais poder de computação para obter maior desempenho. É essa abordagem que levou a Grandes aumentos nas demandas de energia Para o setor e as empresas de tecnologia vinculadas aos políticos. O projeto de lei para o desenvolvimento da IA é tão grande que os técnicos agora desejam alavancar o financiamento e a infraestrutura do estado, enquanto os políticos desejam comprar sua lealdade e ser vistos apoiando empresas em crescimento. (Veja, por exemplo, Trump de US $ 500 bilhões Anúncio “Stargate” no início deste mês.) R1 derruba a sabedoria aceita de que a escala é o caminho a seguir. Pensa -se que o sistema seja 95% mais barato do que OpenAi’s O1 e usa um décimo Do poder de computação de outro LLM comparável, o modelo LLAMA 3.1 da Meta. Para alcançar um desempenho equivalente em uma fração do orçamento, é o que é realmente chocante em R1, e é isso que tornou seu lançamento tão impactante. Isso sugere que as empresas americanas estão jogando dinheiro fora e podem ser espancadas por concorrentes mais ágeis.
Mas após essas observações basais, é complicado dizer exatamente o que R1 “significa” para a IA. Alguns estão argumentando que o lançamento do R1 mostra que estamos supervalorizando empresas como a Nvidia, o que torna os chips integrantes ao paradigma de escala. Mas também é possível que o oposto seja verdadeiro: que o R1 mostra que os serviços de IA cairão de preço e demanda, portanto, aumentará (um efeito econômico conhecido como Jevons Paradox, que o CEO da Microsoft, Satya Nadella, compartilhou com assistência útil Um link para na segunda -feira). Da mesma forma, você pode argumentar que o lançamento do R1 mostra a falha da política dos EUA em limitar o desenvolvimento de tecnologia chinesa por meio de controles de exportação em chips. Mas, como o pesquisador de políticas de IA Lennart Heim discutiuos controles de exportação levam tempo para trabalhar e afetam não apenas o treinamento de IA, mas também a implantação em toda a economia. Portanto, mesmo que os controles de exportação não parem os lançamentos de sistemas de carro -chefe como o R1, eles ainda podem ajudar os EUA a manter seu líder tecnológico (se esse for o resultado que você deseja).
Tudo isso é dizer que os efeitos exatos do lançamento do R1 são impossíveis de prever. Existem muitos fatores complicadores e muitas incógnitas para dizer o que o futuro reserva. No entanto, isso não interrompeu o mundo da tecnologia e os mercados reagindo em um frenesi, com os CEOs em pânico, os preços das ações e os analistas lutando para revisar previsões para o setor. E o que isso realmente mostra é que o mundo da IA é febril, imprevisível e excessivamente reativo. Esta é uma combinação perigosa e, se o R1 não causar um colapso destrutivo desse sistema, é provável que algum lançamento futuro o fará.
-
James Vincent era anteriormente editor sênior no The Verge, onde se especializou em IA. Seu primeiro livro, Beyond Meased: the Ocult History of Medions, foi publicado em 2022
