Голосові помічники і кібер-гіди набирають все більшу популярність. Однак багатьох потенційних користувачів все ще відштовхує нереалістичне звучання комп'ютерної мови. Компанія DeepMind випустила вдосконалену версію технології WaveNet. Нова розробка дозволяє суперреалістично синтезувати людську мову. За повідомленням російських ЗМІ, програма може навіть використовувати популярні дефекти мови і супроводжуючі шуми накшталт прицмокування.

WaveNet виробляє звукові хвилі з нуля на базі системи, що працює на основі згорткової нейронної мережі, де генерація звуку відбувається у кілька шарів. Спочатку для тренування платформи синтезації "живої" мови їй "згодовують" величезний обсяг зразків, при цьому відзначаючи, які звукові сигнали звучать реалістично, а які ні. Це наділяє голосовий синтезатор можливістю відтворювати натуралістичну інтонацію і навіть такі деталі, як цмокаючі звуки губами. В залежності від того, які зразки мови проганяються через систему, це дозволяє їй розвинути унікальний "акцент", що в перспективі може використовуватися для створення безлічі різних голосів.

Мінусом технології довгий час була велика споживча потужність. Величезний обсяг даних гальмував систему. Раніше на синтезування звуку йшов час у 20 разів більший за його звучання. Сьогодні ця проблема усунена. Технологія застосовується Google Assistant англійською та японською мовою. У планах компанії освоєння інших мов і навіть локальних діалектів.

Раніше портал "Знай.ua" повідомляв про розумні навушники, які вивчили 40 мов

Популярні новини зараз
Карткою – 10 грн, готівкою – 15: в Україні знову підвищують ціни на проїзд В Україні пенсіонери отримають "подвійні", та навіть "потрійні" пенсії: у ПФУ озвучили вимоги Будуть мобілізовані до ЗСУ: Рада прийняла важливе рішення 60-й День народження - не привід радіти: в Україні пенсіонерам повідомили погану новину
Показати ще