Голосовые помощники и кибер-гиды набирают все большую популярность. Однако многих потенциальных пользователей все еще отталкивает нереалистичное звучание компьютерной речи. Компания DeepMind выпустила усовершенствованную версию технологии WaveNet. Новая разработка позволяет суперреалистично синтезировать человеческую речь. По сообщению российских СМИ, программа может даже использовать популярные дефекты речи и сопровождающие шумы вроде причмокивания.

WaveNet производит звуковые волны с нуля на базе системы, работающей на основе сверточной нейронной сети, где генерация звука происходит в несколько слоев. Сначала для тренировки платформы синтезации "живой" речи ей "скармливают" огромный объем образцов, при этом отмечая, какие звуковые сигналы звучат реалистично, а какие нет. Это наделяет голосовой синтезатор возможностью воспроизводить натуралистичную интонацию и даже такие детали, как чмокающие звуки губами. В зависимости от того, какие образцы речь прогоняются через систему, это позволяет ей развить уникальный "акцент", что в перспективе может использоваться для создания множества разных голосов.

Минусом технологии долгое время была большая потребительская мощность. Огромный объем данных тормозил систему. Раньше на синтезирования звука уходило время в 20 раз превышающее его звучание. Сегодня эта проблема устранена. Технология применяется Google Assistant на английском и японском языке. В планах компании освоение других языков и даже локальных диалектов.

Ранее портал "Знай.ua" сообщал об умных наушниках, выучивших 40 языков

Популярные статьи сейчас
Без воды останутся миллионы? Светлана Гринчук рассказала о масштабном проекте для Днепропетровщины, чтобы не допустить экологического коллапса Адское лето: Украину ждет новая волна аномальной жары, прогноз погоды пугает Две пенсии сразу: пенсионерам выплатят в мае хорошие бонусы Показатели счетчиков не будут принимать: платить придется по другому принципу
Показать еще