OpenAI провела презентацію, де представила нові розробки у сфері штучного інтелекту. Головним анонсом компанії стала нова ітерація ШІ-моделі GPT-4 — GPT-4o, пише The Verge
Літера «о» або «omni» позначає здатність моделі сприймати та відтворювати інформацію у форматі тексту, аудіо, фото та відео, a також їхніх комбінаціях.
За словами OpenAI, GPT-4o удвічі швидший за GPT-4 Turbo — платну версію ШІ-бота компанії.
Акцент в оновленні зробили на функціях аналізу відео та аудіо. У режимі голосового чату GPT-4o може відповідати зі швидкістю людини. Модель здатна розпізнавати емоції та відповідати з різними інтонаціями, зокрема співом. Тепер ШІ також можна перебивати.
Які задачі може виконувати ChatGPT-4o
У режимі голосового асистента нова модель здатна розпізнавати об’єкти у кадрі смартфона. Вона може описати їх, перекласти назву іншою мовою та зробити припущення щодо них чи навколишнього середовища.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
Point and learn Spanish with GPT-4o pic.twitter.com/TdOy2w5eM6
— OpenAI (@OpenAI) May 13, 2024
На одному з відеоприкладів, опублікованих OpenAI, користувач просить GPT-4o описати те, що відбувається навколо. Бот зміг розпізнати піднятий над резиденцією короля Чарльза ІІІ прапор, a також качок, які пірнають у воду.
@BeMyEyes with GPT-4o pic.twitter.com/nWb6sEWZlo
— OpenAI (@OpenAI) May 13, 2024
Модель також здатна зчитувати інформацію з екрана пристрою. Так, GPT-4o може розпізнати математичну задачу на екрані та розв’язати її, пояснивши рішення покроково. Бот може зробити підсумок змісту екрана, знайти помилку в коді тощо.
Разом з оновленням Open AI анонсувала вихід застосунку ChatGPT для комп’ютерів. Поки він доступний лише на пристроях з MacOS, проте компанія обіцяє реліз на Windows «пізніше цього року».
> i asked chatgpt mac os app (gpt4o) to answer an year 3 maths question from browser
> it got the answer right, the reasoning is quite good. pic.twitter.com/rG9D6LYLAp— Anu Aakash (@anukaakash) May 14, 2024
Також оновлена ШІ-модель OpenAI допоможе користувачеві підготуватися до співбесіди, поспілкується замість нього зі службою підтримки чи перекладе діалог в режимі реального часу.
Окрім покращеної роботи з розпізнаванням відео та аудіо, компанія покращила здатність GPT-4o генерувати контент.
Модель може згенерувати візуальний концепт та дотримуватися його, враховуючи правки (наприклад згенерувати персонажа і створити візуальну історію за його участі. — Прим. DTF Magazine). Також GPT-4o здатен генерувати 3D-моделі, шрифти, звукові ефекти, створювати карикатури на базі фотографій та стилізувати їх.
It can also do stylization and basically DreamBooth-like personalization out-of-the-box pic.twitter.com/nOFpZxnasp
— Tanishq Mathew Abraham, Ph.D. (@iScienceLuvr) May 13, 2024
GPT-4o can also generate 3D objects! pic.twitter.com/SrY2ezogQx
— Tanishq Mathew Abraham, Ph.D. (@iScienceLuvr) May 13, 2024
«Наша початкова концепція полягала в тому, що ми розробимо штучний інтелект і використовуватимемо його для створення всіляких благ для світу. Натомість зараз все виглядає так, ніби ми створюємо ШІ, а потім інші люди використовують його для створення всіляких дивовижних речей, від яких ми всі отримуємо користь.
Оригінальний ChatGPT показав приклад, що можуть мовні інтерфейси; нова модель суттєво відрізняється. Вона швидка, розумна, весела, природна і корисна. Розмова з комп’ютером ніколи не була для мене такою природною як тепер», — поділився у блозі CEO OpenAI Сем Альтман.
Більше прикладів роботи ChatGPT-4o можна побачити на сайті OpenAI.
Модель вже доступна для користувачів у форматі сприйняття тексту та фотографій. Для користувачів платної підписки також доступна у п’ять разів швидша версія моделі.
Нові аудіо та відео функції моделі вийдуть в обмеженому тестовому доступі впродовж тижнів. Пізніше доступ до них отримають користувачі платної версії бота.
У квітні 2024 року OpenAI представила генератор голосу Voice Engine. Аби згенерувати промову, модель використовує 15-секундний зразок голосу у поєднанні з текстовим запитом.
Наразі модель вміє копіювати голос та відтворювати його у різних форматах. Voice Engine може озвучувати текст, зберігаючи інтонацію та емоційність.
Також він вміє перекладати промову оригінального мовця на інші мови, без втрати акценту. Так, якщо мовою оригіналу є французька, то перекладений на англійську та озвучений ШІ текст матиме французький акцент.
Докладніше про способи застосування Voice Engine ми розповідали у нашому матеріалі.
Проєкт «Strategic Media Support Program» реалізує Львівський медіафорум за фінансової підтримки People in Need (PIN) та Pioneer Foundation.