Кадр з фільму Вона

Повноцінний віртуальний асистент: OpenAI представила модель ChatGPT-4o

OpenAI провела презентацію, де представила нові розробки у сфері штучного інтелекту. Головним анонсом компанії стала нова ітерація ШІ-моделі GPT-4 — GPT-4o, пише The Verge

Літера «о» або «omni» позначає здатність моделі сприймати та відтворювати інформацію у форматі тексту, аудіо, фото та відео, a також їхніх комбінаціях.

За словами OpenAI, GPT-4o удвічі швидший за GPT-4 Turbo — платну версію ШІ-бота компанії. 

Акцент в оновленні зробили на функціях аналізу відео та аудіо. У режимі голосового чату GPT-4o може відповідати зі швидкістю людини. Модель здатна розпізнавати емоції та відповідати з різними інтонаціями, зокрема співом. Тепер ШІ також можна перебивати.

Які задачі може виконувати ChatGPT-4o

У режимі голосового асистента нова модель здатна розпізнавати об’єкти у кадрі смартфона. Вона може описати їх, перекласти назву іншою мовою та зробити припущення щодо них чи навколишнього середовища.

На одному з відеоприкладів, опублікованих OpenAI, користувач просить GPT-4o описати те, що відбувається навколо. Бот зміг розпізнати піднятий над резиденцією короля Чарльза ІІІ прапор, a також качок, які пірнають у воду.


Модель також здатна зчитувати інформацію з екрана пристрою. Так, GPT-4o може розпізнати математичну задачу на екрані та розв’язати її, пояснивши рішення покроково. Бот може зробити підсумок змісту екрана, знайти помилку в коді тощо.

Разом з оновленням Open AI анонсувала вихід застосунку ChatGPT для комп’ютерів. Поки він доступний лише на пристроях з MacOS, проте компанія обіцяє реліз на Windows «пізніше цього року».

Також оновлена ШІ-модель OpenAI допоможе користувачеві підготуватися до співбесіди, поспілкується замість нього зі службою підтримки чи перекладе діалог в режимі реального часу.

Окрім покращеної роботи з розпізнаванням відео та аудіо, компанія покращила здатність GPT-4o генерувати контент.

Модель може згенерувати візуальний концепт та дотримуватися його, враховуючи правки (наприклад згенерувати персонажа і створити візуальну історію за його участі. — Прим. DTF Magazine). Також GPT-4o здатен генерувати 3D-моделі, шрифти, звукові ефекти, створювати карикатури на базі фотографій та стилізувати їх.


«Наша початкова концепція полягала в тому, що ми розробимо штучний інтелект і використовуватимемо його для створення всіляких благ для світу. Натомість зараз все виглядає так, ніби ми створюємо ШІ, а потім інші люди використовують його для створення всіляких дивовижних речей, від яких ми всі отримуємо користь.

Оригінальний ChatGPT показав приклад, що можуть мовні інтерфейси; нова модель суттєво відрізняється. Вона швидка, розумна, весела, природна і корисна. Розмова з комп’ютером ніколи не була для мене такою природною як тепер», — поділився у блозі CEO OpenAI Сем Альтман.

Більше прикладів роботи ChatGPT-4o можна побачити на сайті OpenAI.

Модель вже доступна для користувачів у форматі сприйняття тексту та фотографій. Для користувачів платної підписки також доступна у п’ять разів швидша версія моделі.

Нові аудіо та відео функції моделі вийдуть в обмеженому тестовому доступі впродовж тижнів. Пізніше доступ до них отримають користувачі платної версії бота.

У квітні 2024 року OpenAI представила генератор голосу Voice Engine. Аби згенерувати промову, модель використовує 15-секундний зразок голосу у поєднанні з текстовим запитом.

Наразі модель вміє копіювати голос та відтворювати його у різних форматах. Voice Engine може озвучувати текст, зберігаючи інтонацію та емоційність.

Також він вміє перекладати промову оригінального мовця на інші мови, без втрати акценту. Так, якщо мовою оригіналу є французька, то перекладений на англійську та озвучений ШІ текст матиме французький акцент.

Докладніше про способи застосування Voice Engine ми розповідали у нашому матеріалі.


 

Проєкт «Strategic Media Support Program» реалізує Львівський медіафорум за фінансової підтримки People in Need (PIN) та Pioneer Foundation.

Дизайн — crevv.com
Розробка — Mixis