Microsoft толкнул его услуга Custom Neural Voice станет общедоступной, хотя вам придется вежливо спросить компанию, хотите ли вы использовать смутно тревожную услугу преобразования текста в речь.

Вызывает тревогу, потому что в отличие от обычного преобразования текста в речь, которое мы узнали и полюбили на протяжении многих лет, который требует значительного количества данных (10 000 строк или более, согласно Microsoft), чтобы звучать свободно, Custom Neural Voice требует гораздо меньше с точки зрения терминологии. обучающего аудио. Результат пугающе похож на человека.

«Эта новая технология позволяет компаниям тратить десятую часть усилий, традиционно необходимых для подготовки данных для обучения», — пояснил Microsoft, что доставит удовольствие неработающим актерам, желающим подработать на стороне голоса за кадром (вероятно, выиграл т).

Также существует реальный риск злоупотреблений, поэтому теперь ворота ГА полностью открыты.

Иллюстрация робота как человека через Shutterstock

Помните модель OpenAI GPT, которая была слишком опасна для простых смертных? Что ж, теперь он продается на Azure

ПРОЧИТАЙТЕ БОЛЬШЕ

Собственная нормы поведения поскольку технология предостерегает от использования «фотореалистичных аватаров с синтетическими голосами для представления реальных людей» или «использования синтетического голоса с содержанием без редакционного контроля». Разумные рекомендации при выборе варианта использования, но вряд ли отпугнет решительного злоумышленника.

Что касается самой технологии, здесь задействованы три компонента: анализатор текста, нейроакустическая модель и нейронный вокодер. Трио берет введенный текст, преобразует его в последовательность фонем (базовая единица звука), пропускает ее через модель, чтобы предсказать акустические особенности, прежде чем, наконец, выдать звуковую речь.

Читайте также:
Роботизированные экзоскелеты на базе искусственного интеллекта помогут людям с ограниченными возможностями свободно передвигаться без имплантатов °

Сама нейронная модель обучается с использованием нейронных сетей и реальных голосовых записей. С этими записями все становится непросто, и «Microsoft требует, чтобы каждый заказчик получил явное письменное разрешение от диктора перед созданием модели голоса». Также проводится проверка.

В конце концов, как только эта модель будет готова, голос сможет говорить все, что угодно. Microsoft также настаивает на том, чтобы использование синтетического голоса было раскрыто пользователям, что может сделать некоторые из безжалостно задорных вариантов использования в стиле чат-бота потенциально неудобными.

Усыновители включили AT&T, в которой художник озвучивал 2000 фраз и строк, чтобы озвучить мультипликационного персонажа Багза Банни с помощью настраиваемого нейронного голоса. По крайней мере, в этом случае известно, что Багз — вымышленный персонаж. ®