Сегодня мы совершенствуем возможности Gemini в области реальных диалогов, представляя Gemini 3.1 Flash Live — нашу самую качественную аудио- и голосовую модель. Она обеспечивает скорость и естественный ритм, необходимые для следующего поколения голосового искусственного интеллекта, предлагая более интуитивный опыт разработчикам, предприятиям и обычным пользователям.
3.1 Flash Live доступна во всех продуктах Google:
- Для разработчиков в режиме предпросмотра через Gemini Live API в Google AI Studio
- Для предприятий в Gemini Enterprise for Customer Experience
- Для всех через Search Live и Gemini Live
Для разработчиков: надёжное рассуждение и выполнение задач
Мы улучшили общее качество 3.1 Flash Live, сделав её более надёжной для разработчиков и предприятий, создающих голосовых агентов, способных выполнять сложные задачи в масштабе. На эталонном тесте ComplexFuncBench Audio, который оценивает многоэтапное вызывание функций с различными ограничениями, она лидирует с результатом 90,8% в сравнении с нашей предыдущей моделью.
На эталонном тесте Scale AI Audio MultiChallenge Gemini 3.1 Flash Live лидирует с результатом 36,1% с включённой функцией «thinking». Этот тест специально проверяет сложное следование инструкциям и долгосрочное рассуждение среди перебоев и пауз, типичных для реального аудио.
3.1 Flash Live также имеет улучшенное понимание тональности для более естественного диалога. В Gemini Enterprise for Customer Experience она ещё более эффективна в распознавании акустических нюансов, таких как высота тона и темп, чем 2.5 Flash Native Audio. Она также лучше динамически адаптирует свои ответы в соответствии с выражением разочарования или замешательства пользователем.
3.1 Flash Live позволяет создавать голосовых агентов, готовых к работе и способных справляться со сложными задачами в шумной среде.