Голосовые помощники и кибер-гиды набирают все большую популярность. Однако многих потенциальных пользователей все еще отталкивает нереалистичное звучание компьютерной речи. Компания DeepMind выпустила усовершенствованную версию технологии WaveNet. Новая разработка позволяет суперреалистично синтезировать человеческую речь. По сообщению российских СМИ, программа может даже использовать популярные дефекты речи и сопровождающие шумы вроде причмокивания.

WaveNet производит звуковые волны с нуля на базе системы, работающей на основе сверточной нейронной сети, где генерация звука происходит в несколько слоев. Сначала для тренировки платформы синтезации "живой" речи ей "скармливают" огромный объем образцов, при этом отмечая, какие звуковые сигналы звучат реалистично, а какие нет. Это наделяет голосовой синтезатор возможностью воспроизводить натуралистичную интонацию и даже такие детали, как чмокающие звуки губами. В зависимости от того, какие образцы речь прогоняются через систему, это позволяет ей развить уникальный "акцент", что в перспективе может использоваться для создания множества разных голосов.

Минусом технологии долгое время была большая потребительская мощность. Огромный объем данных тормозил систему. Раньше на синтезирования звука уходило время в 20 раз превышающее его звучание. Сегодня эта проблема устранена. Технология применяется Google Assistant на английском и японском языке. В планах компании освоение других языков и даже локальных диалектов.

Ранее портал "Знай.ua" сообщал об умных наушниках, выучивших 40 языков

Популярные статьи сейчас

Перловка с мясом, грибами и овощами: простой и быстрый рецепт

Подруга Нади Дорофеевой Ольга Шелби из "Школы" сбежала к Путину на свидание: "Получилось влюбиться"

Одинокая Ирина Билык обнажила плечо и пообещала кое-что особенное: мужчинам приготовиться

Дочь Анастасии Заворотнюк начала ходить "в трауре": "Грустно, очень..."

Показать еще