Голосові помічники і кібер-гіди набирають все більшу популярність. Однак багатьох потенційних користувачів все ще відштовхує нереалістичне звучання комп'ютерної мови. Компанія DeepMind випустила вдосконалену версію технології WaveNet. Нова розробка дозволяє суперреалістично синтезувати людську мову. За повідомленням російських ЗМІ, програма може навіть використовувати популярні дефекти мови і супроводжуючі шуми накшталт прицмокування.

WaveNet виробляє звукові хвилі з нуля на базі системи, що працює на основі згорткової нейронної мережі, де генерація звуку відбувається у кілька шарів. Спочатку для тренування платформи синтезації "живої" мови їй "згодовують" величезний обсяг зразків, при цьому відзначаючи, які звукові сигнали звучать реалістично, а які ні. Це наділяє голосовий синтезатор можливістю відтворювати натуралістичну інтонацію і навіть такі деталі, як цмокаючі звуки губами. В залежності від того, які зразки мови проганяються через систему, це дозволяє їй розвинути унікальний "акцент", що в перспективі може використовуватися для створення безлічі різних голосів.

Мінусом технології довгий час була велика споживча потужність. Величезний обсяг даних гальмував систему. Раніше на синтезування звуку йшов час у 20 разів більший за його звучання. Сьогодні ця проблема усунена. Технологія застосовується Google Assistant англійською та японською мовою. У планах компанії освоєння інших мов і навіть локальних діалектів.

Раніше портал "Знай.ua" повідомляв про розумні навушники, які вивчили 40 мов

Популярні новини зараз

Погода 21 вересня підготує Україну до заморозків: пуховик або нежить

Новий "колумбайн" в Росії: стрілок заблокувався в університеті, є загиблі і поранені

Наталя Могилевська розповіла про "плагіат" Тіни Кароль: "Маю таку ще з 1998 року"

Наташа Корольова приховувала доньку, народжену другу-гею за 50 біткоїнів: "Був у нестямі від радості"

Показати ще