OpenAI створила ШІ, який перетворює текст на відео

Нова ШІ-модель від розробників ChatGPT називається Sora, яка за запитом користувача здатна генерувати з тексту однохвилинні відео. У блозі OpenAI повідомили, що наразі Sora перебуває на стадії збору відгуків та перевірки безпеки. На обкладинці — кадр з відео, згенерованого Sora

Що може Sora на цьому етапі розробки

ШІ здатна генерувати «складні сцени з декількома персонажами, певними видами рухів та деталізацією фону». Відтворюючи текстовий запит, Sora спиратиметься на свої знання про те, як речі існують у реальному світі.

«Модель має глибоке розуміння мови, що дає їй змогу точно інтерпретувати підказки та створювати переконливих персонажів, які виражають яскраві емоції. Sora також здатна створювати кілька кадрів у межах одного відео, які точно відтворюють образи персонажів і візуальний стиль», — ідеться в описі продукту.

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB

— OpenAI (@OpenAI) February 15, 2024

Розробники описують принцип роботи так: генерація відео починається зі статичної картинки, повністю заповненої шумом. Далі ШІ прибирає його, поступово, через багато кроків, трансформуючи результат.

Окрім генерування абсолютно нового відео, Sora може розширювати раніше згенерований контент, заповнювати відсутні кадри та анімувати фотографії.

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq

— OpenAI (@OpenAI) February 15, 2024

В OpenAI також зазначили, що на цьому етапі модель «має слабкості» — вона може неточно відтворювати фізику певних предметів чи складної сцени та мати складнощі з розумінням причин і наслідків описаних дій.

Sora, зокрема, може плутати ліво та право або некоректно відтворювати запити, які описують рух у часі чи траєкторію камери.

Наприклад, згенерована ШІ людина може відкусити частину печива, але на самому печиві слідів від укусу не буде.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

Аби покращити якість Sora, доступ до моделі нададуть окремим ілюстраторам, операторам, монтажерам та дизайнерам.

Безпека Sora

Перед випуском відеомоделі у публічний доступ її тестуватимуть експерти з пошуку дезінформації, упередженості та контенту, що пропагує ненависть.

OpenAI також розробляє інструменти, що позначатимуть згенероване ШІ відео на рівні метаданих, та працює над власними системами безпеки, які не дозволять Sora робити відео, що порушують політику компанії.

Окрім перевірки запиту користувача на порушення, перед тим як віддати йому готовий результат, система перевірятиме кожен кадр згенерованого відео.

У січні 2024 року Open AI запустила магазин користувацьких ботів GPT Store. Магазин дасть змогу розробникам чат-ботів публікувати та монетизувати їх.

Проєкт «Strategic Media Support Program» реалізує Львівський медіафорум за фінансової підтримки People in Need (PIN) та Pioneer Foundation.