The New York Times подав до суду на OpenAI та Microsoft

UPD [09.01.2024] OpenAI відреагувала на позов, поданий The New York Times у грудні. У блозі компанія розповіла про свій підхід до роботи з виданнями та інформацією з відкритого доступу

У компанії зазначили, що мають повне право використовувати загальнодоступні матеріали з інтернету для тренування свого ШІ. Вони назвали цей принцип «справедливим для творців, необхідним для інноваторів та важливим для конкурентоспроможності США».

OpenAI наголосили, що, за бажання автора чи правовласника контенту, вони можуть обмежити використання їхніх матеріалів для тренування своїх програм. За словами компанії, NYT користуються цією опцією з серпня 2023 року.

Дослівне копіювання матеріалів NYT

Дослівне відтворення матеріалів NYT, у якому видання звинувачує компанію, в OpenAI назвали «рідкісною помилкою». Розробники зазначили, що це може відбуватися, якщо ШІ знаходить уривки матеріалу на великій кількості сайтів.

У компанії також вважають, що NYT «зманіпулювали запитами до програми», аби у результаті отримати контент, що відтворює їхні тексти. OpenAI додали, що такі маніпуляції «не є належним використанням технології та суперечать їхнім умовам використання програми».

«Схоже, що вони навмисно маніпулювали запитами, які містили довгі уривки зі статей, аби змусити нашу модель відтворити їхні тексти. Навіть при використанні таких підказок ШІ зазвичай не поводиться так, як показують в NYT — це свідчить про те, що вони або сказали моделі відтворити тексти, або відбирали приклади після багатьох спроб».

Компанія назвала позов The New York Times безпідставним, проте зазначила, що поважає тривалу історію видання та розраховує на «конструктивну співпрацю».

Оригінальна замітка [28.12.2023] 27 грудня The New York Times у відкритій заяві повідомило, що подало до федерального окружного суду Манхеттена на OpenAI і Microsoft за порушення авторських прав. Видання стверджує, що компанії несанкціоновано використовували матеріали NYT для навчання систем штучного інтелекту, включно з платформою ChatGPT

У позові сказано, що «мільйони статей, опублікованих The New York Times, були використані для навчання автоматизованих чат-ботів, які тепер конкурують із новинним виданням як джерело надійної інформації».

У NYT розповіли, що у квітні 2023 року вони звернулись до OpenAI та Microsoft, «висловивши занепокоєння щодо використання інтелектуальної власності The New York Times» та запропонувавши вивчити спільні методи вирішення ситуації, зокрема, можливість укласти комерційну угоду та «встановити технологічні межі» навколо роботи ШІ.

The New York Times уточнили, що «переговори не привели до конкретних рішень».

Крім того, команда видання хоче притягнути компанії до відповідальності за те, що великі мовні моделі (LLM) — алгоритми глибокого навчання, які OpenAI та Microsoft використовують для сервісів ChatGPT та Copilot, «можуть генерувати вихідні дані, які дослівно відтворюють контент NYT, точно резюмують його та імітують його впізнаваний стиль».

На думку NYT, подібні ситуації підривають їхню репутацію перед читачами, можуть призвести до втрати кількості платних підписок, рекламних та партнерських матеріалів, а також ставлять під загрозу «майбутнє незалежної журналістики».

«The New York Times розглядає ChatGPT та інші ШІ-системи як потенційних конкурентів у сфері новин. Коли чат-ботів запитують про актуальні події чи інші важливі теми, вони можуть генерувати відповіді на основі матеріалів видання. У команді NYT стурбовані тим, що читачів може задовольнити відповідь чат-бота і вони відмовляться переходити на сайт видання, тим самим зменшуючи трафік, який надалі можна монетизувати», — йдеться в заяві на сайті.

У позові наводяться кілька прикладів, коли чат-бот на основі ШІ видавав користувачам «майже дослівні уривки зі статей NYT, для перегляду яких в іншому випадку потрібна була б платна підписка».

В одному з них показано, як Bing — пошукова система Microsoft на базі ChatGPT, майже дослівно копіювала тексти Wirecutter, сайту огляду продуктів, що належить NYT. У своїх текстах Bing не посилався на матеріали Wirecutter, а також видалив реферальні посилання, що містились в початкових варіантах текстів Wirecutter — сайт використовує їх для отримання комісії з продажів товарів на основі своїх рекомендацій.

Крім того, у позові вказані кілька випадків, коли Bing надавав користувачам фейкову інформацію, першоджерелом якої нібито був NYT. Як приклад вказаний матеріал із заголовком «15 найкорисніших для роботи серця продуктів» — в ньому Bing перерахував 12 пунктів, яких не було в оригінальному матеріалі The New York Times.

Що вимагають в The New York Times

Видання хоче «притягнути компанії до відповідальності за мільярди доларів статутних і фактичних збитків» та відсудити грошову компенсацію за вже використані для навчання ШІ матеріали. Суму компенсації не розголошують.

Крім того, в позові сказано, що The New York Times «закликає OpenAI та Microsoft знищити будь-які моделі чат-ботів, навчені на основі матеріалів видання, та навчальні дані, захищені авторським правом».

Як відреагували в OpenAI та Microsoft

Прессекретарка OpenAI Ліндсі Хелд у своїй заяві розповіла, що компанія «конструктивно рухалася вперед» у переговорах з The New York Times і вони «здивовані та розчаровані» судовим позовом.

«Ми поважаємо права авторів та власників контенту та прагнемо співпрацювати з ними, щоб надати користь від використання ШІ. Ми сподіваємося, що знайдемо взаємовигідний спосіб співпраці, що вже зробили з деякими іншими видавцями», — додала Ліндсі Хелд.

У Microsoft відмовились коментувати ситуацію.

Раніше в компанії вже визнавали потенційні ризики з авторським правом у їхніх ШІ-технологіях. У вересні 2023 року Microsoft заявили: якщо клієнти їхніх програм зіткнуться зі скаргами з боку авторів контенту, компанія готова компенсувати майбутні витрати на вирішення судових справ.

Хто ще судиться з OpenAI

У вересні 2023 року Гільдія письменників США та 17 популярних авторів, зокрема, фантаст, автор циклу «Пісня льоду й полум’я» Джордж Мартін, прозаїк Джонатан Франзен («Коректури», «Пʼюриті»), автор кримінальних романів Джон Ґрішем («Час вбивати») та інші, подали до суду на OpenAI.

На їхню думку, компанія без їхнього дозволу та виплати роялті завантажувала до мовної моделі тексти, захищені авторським правом. Письменники вважають, що OpenAI «загрожує можливості авторів заробляти на життя», дозволяючи «будь-кому без зусиль та безоплатно створювати текст, за який мали б заплатити людям».

The New York Times стала першим великим американським представником медіа, який почав судитися з творцями сервісів на основі ШІ.

Деякі видавці вже уклали угоди з OpenAI щодо використання їхнього авторського контенту: у липні це зробила команда Associated Press, а у грудні — Axel Springer, німецький видавець, який володіє виданнями Politico та Business Insider. Умови угод не розголошуються.