Нейронну мережу навчили наслідувати людину

Ще рік тому технологія була занадто повільною

7 жовтня 2017, 20:34

Нейронну мережу навчили наслідувати людину

7 жовтня 2017, 20:34

Голосові помічники і кібер-гіди набирають все більшу популярність. Однак багатьох потенційних користувачів все ще відштовхує нереалістичне звучання комп'ютерної мови. Компанія DeepMind випустила вдосконалену версію технології WaveNet. Нова розробка дозволяє суперреалістично синтезувати людську мову. За повідомленням російських ЗМІ, програма може навіть використовувати популярні дефекти мови і супроводжуючі шуми накшталт прицмокування.

WaveNet виробляє звукові хвилі з нуля на базі системи, що працює на основі згорткової нейронної мережі, де генерація звуку відбувається у кілька шарів. Спочатку для тренування платформи синтезації "живої" мови їй "згодовують" величезний обсяг зразків, при цьому відзначаючи, які звукові сигнали звучать реалістично, а які ні. Це наділяє голосовий синтезатор можливістю відтворювати натуралістичну інтонацію і навіть такі деталі, як цмокаючі звуки губами. В залежності від того, які зразки мови проганяються через систему, це дозволяє їй розвинути унікальний "акцент", що в перспективі може використовуватися для створення безлічі різних голосів.

Мінусом технології довгий час була велика споживча потужність. Величезний обсяг даних гальмував систему. Раніше на синтезування звуку йшов час у 20 разів більший за його звучання. Сьогодні ця проблема усунена. Технологія застосовується Google Assistant англійською та японською мовою. У планах компанії освоєння інших мов і навіть локальних діалектів.

Раніше портал "Знай.ua" повідомляв про розумні навушники, які вивчили 40 мов

Популярні новини зараз

Пенсіонерам двічі перерахують виплати: коли очікувати оновлені суми ТЦК змінює тактику: кого мобілізують прямо з вулиці Українці можуть залишитися без пенсій: кому припинять виплати Пенсіонерам подвоять доплати: хто отримає більше грошей

Показати ще