OpenAI створив ШІ, що може відтворювати голос

OpenAI розробили Voice Engine ще 2022 року, проте поки розсилали його лише окремим компаніям для обмеженого тестування. Аби згенерувати промову, модель використовує 15-секундний зразок голосу у поєднанні з текстовим запитом

На даному етапі розробки модель вміє копіювати голос та відтворювати його у різних форматах. Voice Engine може озвучувати текст, зберігаючи інтонацію та емоційність.

Також він вміє перекладати промову оригінального мовця на інші мови, не втрачаючи акцент. Так, якщо мовою оригіналу є французька, то перекладений на англійську та озвучений ШІ текст матиме французький акцент.

Хто може використовувати Voice Engine

У межах тестування Voice Engine різними компаніями та установами, модель допомагала озвучувати навчальну програму, перекладати відеопрезентацію проєкту однієї з компаній різними мовами.

Крім цього модель використовують лікарі одного з регіонів Кенії, аби консультувати пацієнтів різними мовами, зокрема Суахілі та Шенг (регіональна мова Кенії).

Voice Engine допомагає у відновленні голосу людям, що частково втратили його через різні обставини. Модель бере короткий зразок голосу людини до його часткової або повної втрати та озвучує те, що пацієнт хоче сказати.

Також ШІ дозволяє здобути голос особам у станах, що впливають на мовлення. Компанія Livox, що спеціалізується на ШІ-девайсах для доповненої та альтернативної комунікації, імплементувала його у свої пристрої, завдяки чому власник може обирати голос, яким відтворюються його запити.

Чому Voice Engine досі не публічний

Як зазначають в OpenAI, компанія «усвідомлює ризики, пов’язані з застосунком, що може відтворювати голоси людей, особливо у рік виборів президента».

Тому вона проводить консультації з представниками уряду, медіа, індустрії розваг, освіти, громадянського суспільства тощо, аби врахувати їхні «побажання та відгуки».

Партнери, що тестували Voice Engine підписували договір, згідно з яким їм заборонялося відтворювати голос людини без її згоди. Вони також мали повідомляти своїх користувачів, що голос, або промова — згенеровані ШІ.

«Ми вважаємо, що будь-яке широке впровадження технології синтетичного голосу має супроводжуватися перевіркою автентичності голосу, яка підтверджує, що справжній диктор свідомо надає свій голос сервісу, а також списком заборонених голосів, який виявляє і запобігає створенню голосів, занадто схожих на відомих людей», — додали в OpenAI.

У лютому 2024 року OpenAI представила Sora — ШІ-модель, що перетворює текст на відео.

View this post on Instagram

A post shared by don’t Take Fake | DTF Magazine (@donttakefake)

ШІ здатна генерувати «складні сцени з декількома персонажами, певними видами рухів та деталізацією фону». Відтворюючи текстовий запит, Sora спиратиметься на свої знання про те, як речі існують у реальному світі. Докладніше про принцип роботи моделі ми розповідали у нашому матеріалі.

Проєкт «Strategic Media Support Program» реалізує Львівський медіафорум за фінансової підтримки People in Need (PIN) та Pioneer Foundation.