Site icon Pingvin.Pro

Sony представила технологію Visual Speech Enablement, яка може читати по губам

Sony / Visual Speech Enablement

На CES 2021 компанія Sony анонсувала нову технологію під назвою Sony Visual Speech Enablement. Вона дозволяє розширювати можливості читання по губам в будь-якому середовищі.




Марк Хенсон, віце-президент з технологій та інновацій у продуктах Sony, розказав, як працює ця технологія. За допомогою датчика зображення Sony Intelligent Vision і штучного інтелекту ця технологія може ізолювати губи користувача, а потім перетворювати рухи рота в слова.

Ця технологія може зробити це без фонового або переднього шуму. А для роботи їй взагалі не потрібен мікрофон. Крім того, відстань між користувачем і датчиком може перевищувати кілька футів (≈ від 30 см і більше). Чим вища роздільна здатність датчика, тим більшою може бути ця відстань.

Початкові плани Sony полягають у тому, щоб продавати цю технологію туди, де вона буде дійсно затребуваною. Наприклад, для автоматизації виробництва, кіосків і банкоматів з підтримкою голосового зв’язку. Наразі доступна єдина оптимізація для комп’ютерів. Однак в майбутньому версії цієї функції можуть бути доступні на мобільному обладнанні.

Sony Visual Speech Enablement може порушувати конфіденційність

Звичайно, нові технології і взагалі розвиток – це добре. Однак вони також суттєво можуть вплинути на конфіденційність людей. У розпізнавання осіб вже були свої проблеми з конфіденційністю і неправильним використанням. Уявіть собі сценарій, в якому камера розпізнавання осіб поєднується з технологією Sony Visual Speech Enablement.

Запис профілів осіб разом з тим, що вони говорять, може допомогти в наданні безпеки або порушити конфіденційність. Технологія знімає тільки губи, а не особу в цілому. За словами Sony, ця технологія не надає дані, що дозволяють ідентифікувати користувача. Але сценарій використання завжди може змінитися.

Технологія розпізнавання осіб вже використовується в деяких містах, попри невдоволення мешканців. Звичайно, в наші дні мало що залишається по-справжньому особистим. Веб-сайти відстежують користувачів за допомогою файлів cookie, компанії, інтернет-провайдери та оператори мобільного зв’язку продають наші дані. Тільки час покаже, коли і як технологія Sony Visual Speech Enablement буде інтегрована в наше суспільство.