Microsoft не останавливается на достигнутом и представляет новую версию своей нейросетевой службы синтеза речи Azure AI Speech! Теперь разработчики могут использовать более 500 HD-голосов, которые обеспечивают невероятную выразительность и естественность звучания.
Эти новые голоса способны распознавать эмоции в тексте и адаптировать интонацию в зависимости от контекста. Это значит, что речь будет звучать более человечно, с естественными паузами и акцентами, что делает взаимодействие с голосовыми помощниками и чат-ботами еще более увлекательным.
Система использует современные авто-регрессионные трансформерные языковые модели, что позволяет создавать речь, которая не только звучит естественно, но и передает эмоции. Каждый произнесенный фрагмент будет уникален, благодаря небольшим вариациям в произношении.
Гарфилд Хе, менеджер программы Cognitive Services Speech в Microsoft, отметил, что новая технология позволяет генерировать речь с богатством и естественными вариациями, что делает взаимодействие с пользователями более живым и эмоциональным.
На данный момент новые HD-голоса доступны в режиме предварительного просмотра для разработчиков в трех регионах: Восточные США, Западная Европа и Юго-Восточная Азия. Стоимость использования HD-голосов составит 30 долларов за 1 миллион символов.