人工智能服务——微软认知服务(Microsoft Cognitive Services)最初包括视觉、语音、语言、知识和搜索五大类共 21 项 API。应用了这些 API 的系统能看、能听、能说话,并且能理解和解读我们通过自然交流所传达的需求。目前整套微软认知服务已经有 8 项向公众开放,17 项向指定开发者开放预览。微软也会原有的基础上持续增加新的 API,并不断更新现有的 API。

最近微软宣布把自定义语音服务(Custom Speech Service)添加到微软认知服务中。自定义语音服务是一个高度灵活的语音转换文本程序,结合了自定义智能语音识别服务(CRIS)和语言理解智能服务(LUIS)两种前沿技术来实现。

CRIS 能够应用于喧闹的公共场所等复杂的环境中,帮助人们更方便地自定义语音识别。也可以用于帮助应用更好地理解非母语说话者或残障人士等。

而 LUIS 可以帮助计算机理解我们言语背后的真正意图。当前的语音指令往往是开发者通过设置一个或多个特定的词组或者短语,系统才会发生响应。举个生活例子,用户需要说出“找咖啡”或者“带我去找咖啡”,系统才会接收到指令打开地图应用为其寻找附近的咖啡店。但是通过 LUIS,用户只是说“我眼睛困得睁不开了,需要提神一下”,系统会理解到用户的真正需求。

现在虚拟现实内容工作室 Human Interact 已经尝试把微软自定义语音服务与 VR 结合起来。