ACRE
OpenAI training data ‘contains millions’ of NYT and Daily News works

PUBLICADO
11 meses atrásem
Millions of stories published by sites including The New York Times and The New York Daily News have been found in three weeks of searching OpenAI’s training dataset.
The news publishers are currently trawling through data to find instances of their copyrighted work being used to train OpenAI’s models – but they say the tech company should be forced to provide the information itself.
They are now asking for a court order requiring OpenAI to “identify and admit” which of their copyrighted content was used to train each of its large language models between GPT-1 and GPT-4o.
According to the ChatGPT creator, which objected to the request, the publishers have asked for information about almost 20 million pieces of content mentioned in the case, “effectively resulting in almost 500 million requests”.
The publishers told the court on Friday that their requests to the AI company for help with inspecting the data “would be significantly reduced if OpenAI admitted that they trained their models on all, or the vast majority, of News Plaintiffs’ copyrighted content”.
Thanks for subscribing.
A letter to the court also stated: “While they have already found millions of News Plaintiffs’ works in the training datasets, they do not know how many more works are yet to be uncovered – information that OpenAI, as the party that chose to copy these works, should be ordered to provide.”
The New York Times was the first major news publisher to file a copyright case against OpenAI and its partner Microsoft in December last year.
The New York Daily News and seven sister publications, all owned by Alden Global Capital, followed suit in April and the two cases have since been combined after OpenAI and Microsoft argued they “involve nearly identical allegations relating to the same new technology”.
In the new letter, the news publishers argued that identifying which of their copyrighted work was taken and used to train the GPT models is “foundational to these cases and informs the scope” of their claims.
“But News Plaintiffs and OpenAI have a fundamental disagreement about who is responsible for identifying this information.”
The publishers said they have served numerous requests since February for information about what’s in OpenAI’s training datasets, to which the tech company replied: “OpenAI will make available for inspection, pursuant to an inspection protocol to be negotiated between the parties, the pretraining data for models used for ChatGPT that it locates after a reasonable search.”
After long-running negotiations, since last month the news publishers have been inspecting OpenAI’s training data under strict conditions, previously described by the court as a “sandbox” (meaning a highly controlled environment in which only certain applications can be run).
But the news publishers said they initially faced “severe and repeated technical issues” stopping them from being able to “effectively and efficiently” carry out the search and “ascertain the full scope of OpenAI’s infringement”.
They complained that the process is “time-consuming, burdensome, and hugely expensive” and said they had spent the equivalent of 27 days via lawyers and experts in the OpenAI sandbox but were “nowhere near done”.
The New York Times Company results published on Monday revealed it has so far spent at least $7.6m on the case against OpenAI and Microsoft.
OpenAI: Training data searches are ‘uncharted waters’
OpenAI responded within the same letter that the publishers’ complaints about the inspection have either been resolved or are being actively discussed. It blamed the issues on consultants for the publishers “overwhelming the file system with malformed searches”.
OpenAI added: “Taking a step back, everyone agrees the parties are navigating uncharted waters with training-data discovery.
“There are no precedents for such discovery, where Plaintiffs seek access to several hundred terabytes of unstructured textual data. OpenAI cannot easily identify the specific content that Plaintiffs are interested in, so it did exactly what Rule 34 allows: it invited Plaintiffs to inspect the data as it is kept in the ordinary course. There is no ‘sandbox’. Rather, because the data is far too voluminous to produce, OpenAI built the hardware and software that Plaintiffs need to inspect.
“Specifically, OpenAI organised hundreds of terabytes of training data in an object-storage file system for Plaintiffs’ exclusive use; it built an enterprise-grade virtual machine with the computing power to access, search, and analyse the datasets; it installed hundreds of software tools and tens of gigabytes of Plaintiffs’ data upon their request; and it managed the necessary firewalls and secure virtual private network to support the inspection.”
OpenAI said it would continue to help the publishers overcome technical challenges provided they “engage in good faith” but added: “Unfortunately, this has not always been the case,” accusing them of delaying the process for months and submitting “hundreds of irrelevant requests”.
Representatives for the Authors Guild and progressive newsbrand Raw Story Media have also viewed the OpenAI training data for their own cases.
OpenAI previously asked a judge to force The New York Times to hand over its journalists’ confidential notes, a move the publisher warned would have “serious negative and far-reaching consequences” and was ultimately denied in September.
Email pged@pressgazette.co.uk to point out mistakes, provide story tips or send in a letter for publication on our “Letters Page” blog
Relacionado
ACRE
Ufac realiza 3ª Jornada das Profissões para alunos do ensino médio — Universidade Federal do Acre

PUBLICADO
14 horas atrásem
26 de setembro de 2025
A Pró-Reitoria de Graduação da Ufac realizou a solenidade de abertura da 3ª Jornada das Profissões. O evento ocorreu nesta sexta-feira, 26, no Teatro Universitário, campus-sede, e reuniu estudantes do ensino médio de escolas públicas e privadas do Estado, com o objetivo de aproximá-los da universidade e auxiliá-los na escolha de uma carreira. A abertura contou com apresentação cultural do palhaço Microbinho e exibição do vídeo institucional da Ufac.
A programação prevê a participação de cerca de 3 mil alunos durante todo o dia, vindos de 20 escolas, entre elas o Ifac e o Colégio de Aplicação da Ufac. Ao longo da jornada, os jovens conhecem os 53 cursos de graduação da instituição, além de laboratórios, espaços culturais e de pesquisa, como o Museu de Paleontologia, o Parque Zoobotânico e o Complexo da Medicina Veterinária.
Na abertura, a reitora Guida Aquino destacou a importância do encontro para os estudantes e para a instituição. Segundo ela, a energia da juventude renova o compromisso da universidade com sua missão. “Vocês são a razão de existir dessa universidade”, disse. “Tenho certeza de que muitos dos que estão aqui hoje ingressarão em 2026 na Ufac. Aproveitem este momento, conheçam os cursos e escolham aquilo que os fará felizes.”
A reitora também ressaltou a trajetória do evento, que chega à 3ª edição consolidado, e agradeceu as parcerias institucionais que possibilitam sua realização, como a Secretaria de Estado de Educação e Cultura (SEE) e a Fundação de Cultura Elias Mansour (FEM). “Sozinho ninguém faz nada, mas juntos somos mais fortes; é assim que a Ufac tem crescido, firmando-se como referência no ensino superior da Amazônia”, afirmou.A pró-reitora de Graduação, Ednaceli Damasceno, explicou a proposta da jornada e o esforço coletivo envolvido na organização. “Nosso objetivo é mostrar os cursos de graduação da Ufac e ajudar esses jovens a identificarem áreas de afinidade que possam orientar suas escolhas profissionais. Muitos acreditam que a universidade é paga, então esse é também um momento de reforçar que se trata de uma instituição pública e gratuita.”
Entre os estudantes presentes estava Ana Luiza Souza de Oliveira, do 3º ano da Escola Boa União, que participou pela primeira vez da jornada. Ela contou estar animada com a experiência. “Quero ver de perto como funcionam as profissões, entender melhor cada uma. Tenho vontade de fazer Psicologia, mas também penso em Enfermagem. É uma oportunidade para tirar dúvidas.”
Também compuseram o dispositivo de honra o pró-reitor de Planejamento, Alexandre Hid; o pró-reitor de Administração, Tone Eli da Silva Roca; o presidente da FEM, Minoru Kinpara; além de diretores da universidade e representantes da SEE.
Relacionado

Notícias
publicado:
26/09/2025 14h57,
última modificação:
26/09/2025 14h58
1 a 3 de outubro de 2025
Relacionado
ACRE
Ufac inicia 34º Seminário de Iniciação Científica no campus-sede — Universidade Federal do Acre

PUBLICADO
3 dias atrásem
24 de setembro de 2025
A Pró-Reitoria de Pesquisa e Pós-Graduação (Propeg) da Ufac iniciou, nessa segunda-feira, 22, no Teatro Universitário, campus-sede, o 34º Seminário de Iniciação Científica, com o tema “Pesquisa Científica e Inovação na Promoção da Sustentabilidade Socioambiental da Amazônia”. O evento continua até quarta-feira, 24, reunindo acadêmicos, pesquisadores e a comunidade externa.
“Estamos muito felizes em anunciar o aumento de 130 bolsas de pesquisa. É importante destacar que esse avanço não vem da renda do orçamento da universidade, mas sim de emendas parlamentares”, disse a reitora Guida Aquino. “Os trabalhos apresentados pelos nossos acadêmicos estão magníficos e refletem o potencial científico da Ufac.”
A pró-reitora de Pesquisa e Pós-Graduação, Margarida Lima de Carvalho, ressaltou a importância da iniciação científica na formação acadêmica. “Quando o aluno participa da pesquisa desde a graduação, ele terá mais facilidade em chegar ao mestrado, ao doutorado e em compreender os processos que levam ao desenvolvimento de uma região.”
O pró-reitor de Extensão e Cultura, Carlos Paula de Moraes, comentou a integração entre ensino, pesquisa, extensão e o compromisso da universidade com a sociedade. “A universidade faz ensino e pesquisa de qualidade e não é de graça; ela custa muito, custa os impostos daqueles que talvez nunca entrem dentro de uma universidade. Por isso, o nosso compromisso é devolver a essa sociedade nossa contribuição.”
Os participantes assistiram à palestra do professor Leandro Dênis Battirola, que abordou o tema “Ciência e Tecnologia na Amazônia: O Papel Estratégico da Iniciação Científica”, e logo após participaram de uma oficina técnica com o professor Danilo Scramin Alves, proporcionando aos acadêmicos um momento de aprendizado prático e aprofundamento nas discussões propostas pelo evento.
(Camila Barbosa, estagiária Ascom/Ufac)
Relacionado
PESQUISE AQUI
MAIS LIDAS
- ACRE4 dias ago
Equipe da Ufac é premiada na 30ª Maratona de Programação — Universidade Federal do Acre
- ACRE4 dias ago
Propeg realiza entrega de cartão pesquisador a professores da Ufac — Universidade Federal do Acre
- ACRE3 dias ago
Multa para ciclistas? Entenda o que diz a lei e o que vale na prática
- ACRE3 dias ago
Representantes da UNE apresentam agenda à reitora da Ufac — Universidade Federal do Acre
Warning: Undefined variable $user_ID in /home/u824415267/domains/acre.com.br/public_html/wp-content/themes/zox-news/comments.php on line 48
You must be logged in to post a comment Login