ACRE
OpenAI training data ‘contains millions’ of NYT and Daily News works
PUBLICADO
2 anos atrásem
Millions of stories published by sites including The New York Times and The New York Daily News have been found in three weeks of searching OpenAI’s training dataset.
The news publishers are currently trawling through data to find instances of their copyrighted work being used to train OpenAI’s models – but they say the tech company should be forced to provide the information itself.
They are now asking for a court order requiring OpenAI to “identify and admit” which of their copyrighted content was used to train each of its large language models between GPT-1 and GPT-4o.
According to the ChatGPT creator, which objected to the request, the publishers have asked for information about almost 20 million pieces of content mentioned in the case, “effectively resulting in almost 500 million requests”.
The publishers told the court on Friday that their requests to the AI company for help with inspecting the data “would be significantly reduced if OpenAI admitted that they trained their models on all, or the vast majority, of News Plaintiffs’ copyrighted content”.
Thanks for subscribing.
A letter to the court also stated: “While they have already found millions of News Plaintiffs’ works in the training datasets, they do not know how many more works are yet to be uncovered – information that OpenAI, as the party that chose to copy these works, should be ordered to provide.”
The New York Times was the first major news publisher to file a copyright case against OpenAI and its partner Microsoft in December last year.
The New York Daily News and seven sister publications, all owned by Alden Global Capital, followed suit in April and the two cases have since been combined after OpenAI and Microsoft argued they “involve nearly identical allegations relating to the same new technology”.
In the new letter, the news publishers argued that identifying which of their copyrighted work was taken and used to train the GPT models is “foundational to these cases and informs the scope” of their claims.
“But News Plaintiffs and OpenAI have a fundamental disagreement about who is responsible for identifying this information.”
The publishers said they have served numerous requests since February for information about what’s in OpenAI’s training datasets, to which the tech company replied: “OpenAI will make available for inspection, pursuant to an inspection protocol to be negotiated between the parties, the pretraining data for models used for ChatGPT that it locates after a reasonable search.”
After long-running negotiations, since last month the news publishers have been inspecting OpenAI’s training data under strict conditions, previously described by the court as a “sandbox” (meaning a highly controlled environment in which only certain applications can be run).
But the news publishers said they initially faced “severe and repeated technical issues” stopping them from being able to “effectively and efficiently” carry out the search and “ascertain the full scope of OpenAI’s infringement”.
They complained that the process is “time-consuming, burdensome, and hugely expensive” and said they had spent the equivalent of 27 days via lawyers and experts in the OpenAI sandbox but were “nowhere near done”.
The New York Times Company results published on Monday revealed it has so far spent at least $7.6m on the case against OpenAI and Microsoft.
OpenAI: Training data searches are ‘uncharted waters’
OpenAI responded within the same letter that the publishers’ complaints about the inspection have either been resolved or are being actively discussed. It blamed the issues on consultants for the publishers “overwhelming the file system with malformed searches”.
OpenAI added: “Taking a step back, everyone agrees the parties are navigating uncharted waters with training-data discovery.
“There are no precedents for such discovery, where Plaintiffs seek access to several hundred terabytes of unstructured textual data. OpenAI cannot easily identify the specific content that Plaintiffs are interested in, so it did exactly what Rule 34 allows: it invited Plaintiffs to inspect the data as it is kept in the ordinary course. There is no ‘sandbox’. Rather, because the data is far too voluminous to produce, OpenAI built the hardware and software that Plaintiffs need to inspect.
“Specifically, OpenAI organised hundreds of terabytes of training data in an object-storage file system for Plaintiffs’ exclusive use; it built an enterprise-grade virtual machine with the computing power to access, search, and analyse the datasets; it installed hundreds of software tools and tens of gigabytes of Plaintiffs’ data upon their request; and it managed the necessary firewalls and secure virtual private network to support the inspection.”
OpenAI said it would continue to help the publishers overcome technical challenges provided they “engage in good faith” but added: “Unfortunately, this has not always been the case,” accusing them of delaying the process for months and submitting “hundreds of irrelevant requests”.
Representatives for the Authors Guild and progressive newsbrand Raw Story Media have also viewed the OpenAI training data for their own cases.
OpenAI previously asked a judge to force The New York Times to hand over its journalists’ confidential notes, a move the publisher warned would have “serious negative and far-reaching consequences” and was ultimately denied in September.
Email pged@pressgazette.co.uk to point out mistakes, provide story tips or send in a letter for publication on our “Letters Page” blog
Relacionado
ACRE
Ufac celebra trajetória de dez anos do Laboratório de Discriminação Racial — Universidade Federal do Acre
PUBLICADO
3 dias atrásem
15 de maio de 2026O Núcleo de Estudos Afro-Brasileiros e Indígenas (Neabi) da Ufac realizou, nesta quarta-feira, 13, no auditório do Centro de Filosofia e Ciências Humanas (Cfch), um evento em comemoração aos 10 anos do Laboratório de Pesquisa Observatório de Discriminação Racial (LabODR). A programação reuniu a comunidade acadêmica, pesquisadores, egressos, bolsistas e integrantes do movimento social negro para celebrar a trajetória do laboratório e os resultados alcançados por meio das pesquisas desenvolvidas ao longo da última década.
Vinculado à área de História, mas formado por profissionais de diferentes áreas do conhecimento, o LabODR/Ufac foi criado em 2016 a partir de uma articulação entre a Ufac e o movimento negro acreano, especialmente o Fórum Permanente de Educação Étnico-Racial do Estado do Acre. Inicialmente estruturado como projeto institucional de pesquisa, o laboratório contou com apoio da Pró-Reitoria de Assuntos Estudantis (Proaes) e, em 2018, foi inserido na plataforma Lab e certificado pela Pró-Reitoria de Pesquisa e Pós-Graduação (Propeg).
O laboratório atua na pesquisa e na formação de pesquisadores com foco na promoção da igualdade racial, desenvolvendo estudos voltados tanto à denúncia de práticas racistas quanto à construção de reflexões e práticas antirracistas, principalmente nos espaços educacionais. Atualmente, o LODR/Ufac abriga projetos institucionais como “Práticas Pedagógicas em Educação das Relações Étnico-Raciais em Escolas do Estado do Acre”, desenvolvido desde 2018, e “Pérolas Negras”, iniciado em 2020.
Durante o evento, convidados e bolsistas compartilharam experiências acadêmicas e profissionais construídas a partir das atividades desenvolvidas pelo laboratório, destacando a importância do observatório em suas formações pessoais e profissionais. A programação também apresentou pesquisas realizadas ao longo desses dez anos de atuação e ressaltou a contribuição do laboratório para o fortalecimento das discussões sobre igualdade racial dentro da universidade e na sociedade acreana.
Compuseram o dispositivo de honra o vice-reitor, Josimar Ferreira; o pró-reitor de Extensão e Cultura, Carlos Paula de Moraes; a pró-reitora de Pesquisa e Pós-Graduação da Ufac, Margarida Lima; a vice-diretora do Cfch, Lucilene Ferreira de Almeida; e a representante do Neabi, Flávia Rocha.
Relacionado
ACRE
Ufac participa de mostra científica na Reserva Extrativista Cazumbá-Iracema, em Sena Madureira — Universidade Federal do Acre
PUBLICADO
3 dias atrásem
15 de maio de 2026A Universidade Federal do Acre (Ufac) participou, no dia 1º de maio, da Mostra Científica “Conectando Saberes: da integração à inclusão na Amazônia”, realizada na Reserva Extrativista Cazumbá-Iracema, em Sena Madureira. A ação reuniu instituições de ensino, pesquisa, escolas rurais e moradores da reserva em atividades de divulgação científica e integração comunitária.
Financiada pelo CNPq, a iniciativa contou com a participação da Ufac, Ifac, ICMBio e de escolas da região. Aproximadamente 250 pessoas participaram da programação, entre estudantes, professores e moradores das comunidades da reserva.
Durante o evento, estudantes da graduação e pós-graduação da Ufac e do Ifac apresentaram pesquisas e atividades educativas nas áreas de saúde, Astronomia, Física, Matemática, Robótica e educação científica. A programação incluiu oficinas de foguetes, observação do céu com telescópios, sessões de planetário, jogos educativos e atividades com microscópios.
O professor Francisco Glauco, do Centro de Ciências Biológicas e da Natureza (CCBN) da Ufac, destacou a importância da participação acadêmica em ações junto às comunidades tradicionais.
“A universidade tem um papel fundamental para a formação científica e cidadã dos estudantes. A troca de conhecimentos com comunidades de difícil acesso fortalece essa formação”, afirmou.
A professora Valdenice Barbosa, da Escola Iracema, ressaltou o impacto da iniciativa para os alunos da reserva.
“Foi um dia histórico de muito aprendizado. Muitos estudantes tiveram contato pela primeira vez com experimentos e equipamentos científicos”, disse.
Além das atividades científicas, a programação contou com apresentações culturais realizadas pelos estudantes da reserva, fortalecendo a integração entre ciência, educação e saberes amazônicos.
A participação da Ufac reforça o compromisso da universidade com a extensão, a popularização da ciência e a aproximação entre universidade e comunidades tradicionais da Amazônia.
Fhagner Soares – Estagiário
Relacionado
ACRE
UFAC participa de pesquisa sobre zoonose associada à caça de subsistência na Amazônia — Universidade Federal do Acre
PUBLICADO
3 dias atrásem
15 de maio de 2026Um estudo publicado na revista Acta Amazonica identificou a presença do parasita Echinococcus vogeli em pacas (Cuniculus paca) abatidas e consumidas por comunidades tradicionais da Amazônia Ocidental. O agente é responsável pela equinococose policística humana, zoonose considerada emergente na região.
A pesquisa foi desenvolvida entre 2022 e 2023 nos municípios de Sena Madureira e Rio Branco, no Acre, sob coordenação do professor Francisco Glauco de Araújo Santos, do Centro de Ciências Biológicas e da Natureza (CCBN), integrando a dissertação de mestrado de Liliane de Souza Anadão, do Programa de Pós-Graduação em Sanidade e Produção Animal Sustentável na Amazônia (PPGSPASA).
O estudo entrevistou 78 famílias e analisou 23 fígados de pacas abatidas para consumo. Em 48% das amostras foram identificados cistos hidáticos causados pelo parasita. A pesquisa também apontou que a maioria dos cães das comunidades participa das caçadas e consome vísceras cruas dos animais.
Segundo os pesquisadores, o principal risco de transmissão ocorre quando cães infectados eliminam ovos do parasita no ambiente, contaminando solo, água e alimentos.
“O principal risco está associado ao descarte inadequado das vísceras e ao contato com ambientes contaminados pelas fezes de cães infectados”, destacou o professor Francisco Glauco.
O estudo reforça a necessidade de ações de vigilância e educação em saúde nas comunidades rurais, principalmente relacionadas ao manejo de cães e ao descarte adequado das vísceras dos animais abatidos.
Para o pesquisador Leandro Siqueira, doutor em Medicina Tropical pela Fiocruz e coautor do estudo, a pesquisa amplia o conhecimento sobre a transmissão da doença na Amazônia e pode contribuir para futuras ações de prevenção e diagnóstico na região.
Fhagner Soares – Estagiário
Warning: Undefined variable $user_ID in /home/u824415267/domains/acre.com.br/public_html/wp-content/themes/zox-news/comments.php on line 48
You must be logged in to post a comment Login