Elon Musk diz que todos os dados humanos para treinamento de IA estão ‘esgotados’ | Inteligência artificial (IA)

José Gomes - Da Amazônia para o Mundo! contato@acre.com.br

1 ano atrás

Dan Milmo Global technology editor

As empresas de inteligência artificial ficaram sem dados para treinar seus modelos e “esgotaram” a soma do conhecimento humano, Elon Musk disse.

A pessoa mais rica do mundo sugeriu que as empresas tecnológicas teriam de recorrer a dados “sintéticos” – ou materiais criados por modelos de IA – para construir e afinar novos sistemas, um processo que já ocorre com a tecnologia em rápido desenvolvimento.

“A soma cumulativa do conhecimento humano foi esgotada no treinamento em IA. Isso aconteceu basicamente no ano passado”, disse Musk, que lançou seu próprio negócio de IAxAI, em 2023.

Modelos de IA, como o modelo GPT-4o que alimenta o Bate-papoGPTbot são “treinados” numa vasta gama de dados retirados da Internet, onde aprendem a identificar padrões nessas informações – permitindo-lhes prever, por exemplo, a próxima palavra numa frase.

Falando numa entrevista transmitida ao vivo na sua plataforma de redes sociais, X, Musk disse que a “única forma” de contrariar a falta de material de origem para treinar novos modelos era passar para dados sintéticos criados por IA.

Referindo-se ao esgotamento dos dados, ele disse: “A única maneira de complementar isso é com dados sintéticos onde… ele irá escrever um ensaio ou apresentar uma tese e então se avaliará e… passará por esse processo de auto-aprendizagem.”

A Meta, proprietária do Facebook e do Instagram, usou dados sintéticos para ajustar seu maior modelo de IA Llama, enquanto a Microsoft também usou conteúdo feito de IA para seu modelo Phi-4. Google e OpenAIa empresa por trás do ChatGPT, também usou dados sintéticos em seu trabalho de IA.

No entanto, Musk também alertou que o hábito dos modelos de IA de gerar “alucinações” – um termo para resultados imprecisos ou sem sentido – era um perigo para o processo de dados sintéticos.

Ele disse no entrevista transmitida ao vivo com Mark Penn, presidente do grupo de publicidade Stagwell, que as alucinações tornaram o processo de utilização de material artificial “desafiador” porque “como saber se… a resposta foi uma alucinação ou se é uma resposta real”.

Andrew Duncan, diretor de IA fundamental do Alan Turing Institute do Reino Unido, disse que o comentário de Musk corresponde a um artigo acadêmico recente que estima que os dados publicamente disponíveis para modelos de IA podem acabar já em 2026. Ele acrescentou que a dependência excessiva de dados sintéticos corre o risco de “colapso do modelo”, um termo que se refere aos resultados dos modelos com deterioração de qualidade.

“Quando você começa a alimentar um modelo com material sintético, você começa a obter retornos decrescentes”, disse ele, com o risco de que a produção seja tendenciosa e carente de criatividade.

Duncan acrescentou que o crescimento do conteúdo online gerado por IA também pode resultar na absorção desse material em conjuntos de treinamento de dados de IA.

Dados de alta qualidade e controle sobre eles são um dos campos de batalha jurídicos no boom da IA. OpenAI admitiu no ano passado que seria impossível criar ferramentas como ChatGPT sem acesso a material protegido por direitos autoraisenquanto o indústrias criativas e editores estão exigindo compensação pelo uso de seus resultados no processo de treinamento do modelo.