Google анонсировала ряд заметных обновлений своего API облачной речи, продукт, впервые представленный в рамках платформы Cloud Machine Learning компании в прошлом году.

API Cloud Speech API, позволяет сторонним разработчикам и компаниям интегрировать смартфоны распознавания речи Google в свои собственные продукты. Например, контактные центры, возможно, пожелают использовать API для автоматического маршрутизации вызовов в определенные отделы путем «прослушивания» команд вызывающего абонента.

Теперь Google анонсировала три новых обновления API Cloud Speech. К началу списка, возможно, относятся временные смещения на уровне слов или временные метки. Позволяя прямое преобразование звука в текст, они особенно полезны для более длинных аудиофайлов, когда пользователю может понадобиться найти определенное слово в аудио. Это также позволит отображать текст в реальном времени по мере воспроизведения звука.

В некоторой степени это связано с тем, что Google также расширила поддержку аудиоформатов в течение длительного времени с 80 минут до 180 минут, а так же может поддерживать более длинные файлы по принципу «один за другим».

Последняя новость об обновлении API облачной речи сегодня заключается в том, что Google расширила поддержку от оригинальных 89 языков до 30 новых языков, включая суахили и амхарские языки, на которых говорят миллионы людей в Африке. Также включен бенгальский язык, который насчитывает более двухсот миллионов носителей (Бангладеш и Индия), Урду (Пакистан и Индия), Гуджарати (Индия) и Яванский (Индонезия).

В таком сочетании, новая языковая поддержка расширяет технологию распознавания речи Google примерно до миллиарда человек во всем мире. Здесь стоит отметить, что обновление языка также влияет на собственные потребительские продукты Google, такие как Android-приложение Gboard и голосовые подсказки.

Читайте также:  HTC рассматривает возможность продажи своего бизнеса Vive VR