Site icon Pingvin.Pro

Google представила Gemini 3.5 Live Translate

Gemini 3.5 Live Translate

DeepMind представила Gemini 3.5 Live Translate — новітню аудіомодель, що забезпечує майже миттєвий голосовий переклад у понад 70 мовах. Ця розробка знаменує собою важливий крок у розвитку технологій для легкого спілкування без мовних барʼєрів.




Gemini 3.5 Live Translate: швидкий голосовий переклад

Introducing Gemini 3.5 Live Translate

Модель автоматично розпізнає понад 70 мов, генеруючи плавне та природне перекладене мовлення. Вона зберігає інтонацію, темп та висоту голосу мовців, що робить спілкування більш автентичним. На відміну від систем покрокового перекладу, які чекають завершення фрази, 3.5 Live Translate генерує переклад безперервно. Модель забезпечує неперервне аудіо без незручних пауз, відстаючи від мовця лише на кілька секунд. Йдеться про значний стрибок від початкових експериментів Google з перекладу, які трансформували мільярди слів щомісяця. Цією розробкою DeepMind продовжує розвивати свої передові ШІ-моделі.

Доступність Gemini 3.5 Live Translate

Запуск Gemini 3.5 Live Translate розпочався у кількох продуктах Google. Для розробників нова модель доступна в публічній попередній версії через API Gemini Live та Google AI Studio. Корпоративні клієнти отримають приватну попередню версію цього місяця у Google Meet. Для широкої аудиторії модель зʼявиться у застосунку Google Перекладач на Android та iOS. Ця гнучкість дозволяє інтегрувати технологію в різноманітні платформи та сценарії використання.

Інтеграція та нові можливості

Голосовий переклад обробляє мовлення під час його потокової передачі, що забезпечує безшовне зʼєднання між мовами. Модель працює з багатомовними вхідними даними, не вимагаючи ручного налаштування параметрів. Її стійкість до шуму гарантує ефективну роботу застосунків навіть у галасливих середовищах. Можливості моделі можна використовувати для живого перекладу під час багатомовних дзвінків, зустрічей, уроків та трансляцій. Платформи для розробників, як-от Agora, Fishjam, LiveKit та Pipecat, вже дозволяють розробникам створювати програми для голосового перекладу за допомогою API Gemini Live. Партнери, зокрема Grab, тестують модель для спілкування між водіями та пасажирами. Ця співпраця покращить понад 10 мільйонів голосових дзвінків на місяць.

Покращення в Google Meet та Перекладачі

Найближчим часом переклад мовлення у Google Meet почне використовувати Gemini 3.5 Live Translate. Це значно покращить досвід користувачів, розширивши підтримку до понад 70 мов, замість попередніх пʼяти. Також стане доступним спілкування у понад 2000 мовних комбінаціях, тоді як раніше переклад був лише з/на англійську. Інтерфейс отримає оновлення для миттєвого доступу до голосового перекладу. Розгортання моделі у Google Перекладачі на Android та iOS також передбачає новий «режим прослуховування», що дозволяє чути переклади без навушників, просто піднісши телефон до вуха. Увесь аудіоконтент, згенерований моделлю, має невідчутний водяний знак SynthID, який допомагає запобігти дезінформації. Завдяки цій моделі Google робить значний крок до світу, де мовні барʼєри стають менш помітними.