OpenAI випустила нову ШІ-модель ChatGPT-4o

OpenAI провела презентацію, де представила нові розробки у сфері штучного інтелекту. Головним анонсом компанії стала нова ітерація ШІ-моделі GPT-4 — GPT-4o, пише The Verge

Літера «о» або «omni» позначає здатність моделі сприймати та відтворювати інформацію у форматі тексту, аудіо, фото та відео, a також їхніх комбінаціях.

За словами OpenAI, GPT-4o удвічі швидший за GPT-4 Turbo — платну версію ШІ-бота компанії.

Акцент в оновленні зробили на функціях аналізу відео та аудіо. У режимі голосового чату GPT-4o може відповідати зі швидкістю людини. Модель здатна розпізнавати емоції та відповідати з різними інтонаціями, зокрема співом. Тепер ШІ також можна перебивати.

Які задачі може виконувати ChatGPT-4o

У режимі голосового асистента нова модель здатна розпізнавати об’єкти у кадрі смартфона. Вона може описати їх, перекласти назву іншою мовою та зробити припущення щодо них чи навколишнього середовища.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024

Point and learn Spanish with GPT-4o pic.twitter.com/TdOy2w5eM6

— OpenAI (@OpenAI) May 13, 2024

На одному з відеоприкладів, опублікованих OpenAI, користувач просить GPT-4o описати те, що відбувається навколо. Бот зміг розпізнати піднятий над резиденцією короля Чарльза ІІІ прапор, a також качок, які пірнають у воду.

@BeMyEyes with GPT-4o pic.twitter.com/nWb6sEWZlo

— OpenAI (@OpenAI) May 13, 2024

Модель також здатна зчитувати інформацію з екрана пристрою. Так, GPT-4o може розпізнати математичну задачу на екрані та розв’язати її, пояснивши рішення покроково. Бот може зробити підсумок змісту екрана, знайти помилку в коді тощо.

Разом з оновленням Open AI анонсувала вихід застосунку ChatGPT для комп’ютерів. Поки він доступний лише на пристроях з MacOS, проте компанія обіцяє реліз на Windows «пізніше цього року».

> i asked chatgpt mac os app (gpt4o) to answer an year 3 maths question from browser
> it got the answer right, the reasoning is quite good. pic.twitter.com/rG9D6LYLAp

— Anu Aakash (@anukaakash) May 14, 2024

Також оновлена ШІ-модель OpenAI допоможе користувачеві підготуватися до співбесіди, поспілкується замість нього зі службою підтримки чи перекладе діалог в режимі реального часу.

Окрім покращеної роботи з розпізнаванням відео та аудіо, компанія покращила здатність GPT-4o генерувати контент.

Модель може згенерувати візуальний концепт та дотримуватися його, враховуючи правки (наприклад згенерувати персонажа і створити візуальну історію за його участі. — Прим. DTF Magazine). Також GPT-4o здатен генерувати 3D-моделі, шрифти, звукові ефекти, створювати карикатури на базі фотографій та стилізувати їх.

It can also do stylization and basically DreamBooth-like personalization out-of-the-box pic.twitter.com/nOFpZxnasp

— Tanishq Mathew Abraham, Ph.D. (@iScienceLuvr) May 13, 2024

GPT-4o can also generate 3D objects! pic.twitter.com/SrY2ezogQx

— Tanishq Mathew Abraham, Ph.D. (@iScienceLuvr) May 13, 2024

«Наша початкова концепція полягала в тому, що ми розробимо штучний інтелект і використовуватимемо його для створення всіляких благ для світу. Натомість зараз все виглядає так, ніби ми створюємо ШІ, а потім інші люди використовують його для створення всіляких дивовижних речей, від яких ми всі отримуємо користь.

Оригінальний ChatGPT показав приклад, що можуть мовні інтерфейси; нова модель суттєво відрізняється. Вона швидка, розумна, весела, природна і корисна. Розмова з комп’ютером ніколи не була для мене такою природною як тепер», — поділився у блозі CEO OpenAI Сем Альтман.

Більше прикладів роботи ChatGPT-4o можна побачити на сайті OpenAI.

Модель вже доступна для користувачів у форматі сприйняття тексту та фотографій. Для користувачів платної підписки також доступна у п’ять разів швидша версія моделі.

Нові аудіо та відео функції моделі вийдуть в обмеженому тестовому доступі впродовж тижнів. Пізніше доступ до них отримають користувачі платної версії бота.

У квітні 2024 року OpenAI представила генератор голосу Voice Engine. Аби згенерувати промову, модель використовує 15-секундний зразок голосу у поєднанні з текстовим запитом.

Наразі модель вміє копіювати голос та відтворювати його у різних форматах. Voice Engine може озвучувати текст, зберігаючи інтонацію та емоційність.

Також він вміє перекладати промову оригінального мовця на інші мови, без втрати акценту. Так, якщо мовою оригіналу є французька, то перекладений на англійську та озвучений ШІ текст матиме французький акцент.

Докладніше про способи застосування Voice Engine ми розповідали у нашому матеріалі.

Проєкт «Strategic Media Support Program» реалізує Львівський медіафорум за фінансової підтримки People in Need (PIN) та Pioneer Foundation.