OpenAI представила новое поколение «рассуждающих» моделей — o3 и o3 mini.

Языковые модели могут быть использованы для тестирования специалистами в области безопасности. Выпуск o3 mini запланирован на январь 2025 года.

https://www.spot.uz/ru/2024/12/21/model-o3/2024-12-22 07:35:09

OpenAI анонсировала тестирование новых моделей искусственного интеллекта под названиями o3 и o3 mini, которые способны справляться с более сложными задачами. Обзор новинок можно найти на YouTube-канале компании.

Генеральный директор OpenAI, Сэм Альтман, охарактеризовал модели o3 и o3 mini как «очень-очень умные» и «невероятно умные». На практике, в задачах программирования (SWE Bench) модель o3 достигла точности 71,7%, что на 20 процентных пунктов превышает результаты o1.

В соревнованиях по кодированию (Codeforces) модель получила ELO-оценку 2727, что значительно превышает показатели предыдущей модели o1 (1891). Например, программисты OpenAI в среднем достигают около 2500, а их ведущие специалисты — немногим больше.

В математическом тесте EpochAI Frontier Math o3 показала точность 25,2%, что более чем в 12 раз лучше предыдущих моделей.

Реклама на Spot.uz

https://twitter.com/__nmca__/status/1870170098989674833

Модель o3-mini предлагает три уровня рассуждения: low, medium и high. Чем больше времени модель уделяет обработке задачи, тем более точным становится результат. В режиме low latency (низкая задержка) o3-mini демонстрирует скорость на уровне GPT-4o, что позволяет получать ответы быстро.

Новые модели o3 mini планируется выпустить к концу января 2025 года, а полная версия o3 появится позже. С помощью этих моделей OpenAI надеется превзойти существующие языковые модели, а также привлечь новых пользователей и инвестиции.

OpenAI уже начала процесс подачи заявок для внешних исследователей безопасности, чтобы протестировать новые модели до их публичного релиза. Прием заявок завершится 10 января 2025 года. Заявку на тестирование модели можно подать по ссылке.

Ранее Spot сообщал, что OpenAI запустила инструмент для генерации видео на основе текстовых запросов.