Tacotron 2 від Google може замінити людину

Грицина Вікторія

7 років ago

Хочу на Марс лабораторія технології штучного інтелекту / штучним інтелектом / штучний інтелект / штучного інтелекту

Гігантська корпорація Google генерує та запускає в дію свої ідеї одна з перших у світі. І, чесно кажучи, шалених провалів чи непотрібних для людства проектів вони не робили. От і зараз, компанія завершила розробку своєї технології Tacotron 2, яка синтезує текст в мову. Як відомо, корпорація вже незліченну кількість часу працює над вдосконаленням машинної мови для своїх власних сервісів. Наприклад, Google Maps, Google Assistant чи Google Translate… І от нарешті, інженери компанії досягли поставленої цілі – штучну мову надзвичайно складно відрізнити від людської.

Штучний інтелект здатен врахувати всі орфографічні та пунктуаційні нюанси. Крім того, навчений правильно розставляти наголоси та виділяти слова, які є важливою частиною речення. Тобто, «говорить» з виразом та доречно змінює інтонацію.

Google Tacotron 2

Для досягнення цього технологічного прориву, використовують дві нейронні мережі. Одна з них перетворює текст в спектрограму – візуальне уявлення звукових частот. Отриманий результат скеровується у другу нейронну мережу, яка виконує вже наступні дії – WaveNet. Її розробила британська компанія DeepMind, що якраз спеціалізується на вивчені штучного інтелекту.

Нейронна мережа WaveNet, наразі, використовується тільки в англійській та японській версії Google Assistant. Однак, в недалекому майбутньому вона також буде застосована і в інших мовах. Також зазначено, що головна перевага цього штучного інтелекту – це можливість повноцінної автономної роботи, чого не можуть робити аналоги. Цій мережі не потрібен доступ до величезної бази даних з вже попередньо записаними звуками. Вона сама здатна генерувати власні звуки, що засновані на спектрограмах, які подаються першою нейронною мережею.

Якщо цікаво послухати, що ж вийшло у Google, то переходьте за цим посиланням. Там наведено три приклади записів. В обох варіантах, перший аудіофайл відтворює голос людини, а другий штучний інтелект Tacotron 2.