Голосові помічники і кібер-гіди набирають все більшу популярність. Однак багатьох потенційних користувачів все ще відштовхує нереалістичне звучання комп'ютерної мови. Компанія DeepMind випустила вдосконалену версію технології WaveNet. Нова розробка дозволяє суперреалістично синтезувати людську мову. За повідомленням російських ЗМІ, програма може навіть використовувати популярні дефекти мови і супроводжуючі шуми накшталт прицмокування.

WaveNet виробляє звукові хвилі з нуля на базі системи, що працює на основі згорткової нейронної мережі, де генерація звуку відбувається у кілька шарів. Спочатку для тренування платформи синтезації "живої" мови їй "згодовують" величезний обсяг зразків, при цьому відзначаючи, які звукові сигнали звучать реалістично, а які ні. Це наділяє голосовий синтезатор можливістю відтворювати натуралістичну інтонацію і навіть такі деталі, як цмокаючі звуки губами. В залежності від того, які зразки мови проганяються через систему, це дозволяє їй розвинути унікальний "акцент", що в перспективі може використовуватися для створення безлічі різних голосів.

Мінусом технології довгий час була велика споживча потужність. Величезний обсяг даних гальмував систему. Раніше на синтезування звуку йшов час у 20 разів більший за його звучання. Сьогодні ця проблема усунена. Технологія застосовується Google Assistant англійською та японською мовою. У планах компанії освоєння інших мов і навіть локальних діалектів.

Раніше портал "Знай.ua" повідомляв про розумні навушники, які вивчили 40 мов

Популярні новини зараз
Посилення мобілізації: відстрочки більше не врятують - на кого вже полює ТЦК До 5000 гривень зарахують на картку: українці можуть отримати гроші на комуналку Показники лічильників не прийматимуть: платити доведеться за іншим принципом Пенсіонерам виплатять солідні гроші: кому прийде понад 10 тисяч на місяць
Показати ще