Вчера компания OpenAI представила свою новейшую версию флагманской модели GPT-4o, где «o» означает «omni». Новая версия способна анализировать аудио, визуальные и текстовые данные в режиме реального времени, обеспечивая более естественное взаимодействие между человеком и компьютером.
Главное преимущество GPT-4o заключается в её способности обрабатывать любые комбинации текста, аудио и изображений в качестве входных данных и генерировать выходные данные в любом из этих форматов. Время отклика модели на аудиовходы составляет всего 232 миллисекунды, что сравнимо с временем отклика человека в разговоре.
По сравнению с предыдущими версиями, GPT-4o демонстрирует значительные улучшения в производительности. Она соответствует уровню GPT-4 Turbo при работе с английским текстом и кодом, значительно улучшает качество текста на других языках, а также работает на 50% быстрее и дешевле в API.
До появления GPT-4o голосовой режим для общения с ChatGPT имел задержки в среднем 2,8 секунды для GPT-3.5 и 5,4 секунды для GPT-4. Эти задержки возникали из-за использования трех отдельных моделей: одна транскрибировала аудио в текст, вторая обрабатывала текст и выводила результат, а третья преобразовывала текст обратно в аудио. Этот подход ограничивал возможности основной модели, которая теряла важную информацию о тоне, множестве говорящих и фоновых шумах, а также не могла воспроизводить смех, пение или выражать эмоции.
С GPT-4o все входные и выходные данные обрабатываются одной и той же нейронной сетью, что позволяет более эффективно использовать возможности модели. Это первая модель компании, сочетающая все три модальности – текст, зрение и звук, что открывает новые горизонты для дальнейших исследований и развития.
Новости Финтеха, ритейла и e-commerce в Центральной Азии