苹果智能语音助手Siri初探 ?苹果语音助手和siri区别

苹果语音助手和siri区别(苹果智能语音助手Siri初探)
来源:超天才网
作者:张耀寰
关键字:
摘要:近几年,语音识别技术开始从实验室走向市场 。我们预计 , 未来10年 , 语音识别技术将全面进入工业、家电、通信、汽车电子、医疗、家庭服务等多个领域,成为当今最具颠覆性的技术之一 。本文将为您揭开苹果智能语音识别系统Siri的神秘面纱 。

苹果智能语音助手Siri初探 ?苹果语音助手和siri区别

文章插图
Siri的由来
要真正认识Siri,我们还须先知道它是怎么来的 。当我们追溯Siri的由来时,我们发现,Siri实际上源于美国国防部的一个人工智能项目,当年五角大楼的一个叫做CALO的项目,其英文全称是Cognitive Assistant that Learns and Organizes,如果按照其内涵译成中文就是:"善于学习并且能够组织的认知助理" 。该项目由美国国防部投资,旨在为军方提供智能化服务 。美国国防部为这个项目安排了高达1.5亿美元的预算,汇聚了本专业一大批顶尖的人工智能专家 , 期待他们能够开发出在野外通过学习,最终具备智能认知的机器 。要做到这一点,机器使用的算法需要被设定大量的数据,然后软件会根据这些数据来解决问题 。CALO项目团队经过反复研究论证最后决定,必须让虚拟助手具备自主收集信息的能力,并根据每一次的处理结果进行自我训练和自我修正 , 以接近人类的思维判断 。
2、动态本体系统 。siri最关键的组成部分叫动态本体(英文 Active Ontologies) 。什么是动态本体呢?所谓动态本体是由多元素合成的生态体系组合 。特定词汇、数据库、页面服务、互动规则,机器可识别描述等,即所有这些要素的有机结合 。语言模式识别是对输入的总体类型、语法、词汇、惯用语等进行模式匹配的模块,匹配模式的代码在Siri内部采用正则表达式或者状态机等方式 。
Siri的学习功能主要体现在记忆上,这个记忆可区分为长期记忆和短期记忆 。如果当你心烦了 , 机器说出你该从事什么娱乐,这有可能是你之前把你的兴趣爱好告诉了它,它对你的爱好分类记忆,后续在知识库里找到了相关信息并保存下来 。Siri有两个记忆系统:长期记忆系统和短期记忆系统来实现个性化交流的 。长期记忆系统存储了用户的名称、居住地址以及历史偏好信息,短期记忆系统则将最近一段时期内Siri和用户的对话记录及GUI点选记录等登记下来 。对照这两个记忆系统,Siri可以在你需要时提醒你 , 然后调用知识体系帮助你解决疑难问题 。
智能语音助理的原理框架图
苹果智能语音助手Siri初探 ?苹果语音助手和siri区别

文章插图
Siri与人工智能的最大区别在于其功能不够强大,计算机认知与人类认知目前还有天壤之别 。Siri对具体事物的理解力非常狭窄,例如就餐、体育运动、休闲娱乐、旅行天气等 。因为各个领域都有其特定语汇,且数据库、页面都需要关联描述,这些集合构成了我们所说的"动态本体" 。
例如 , 就餐的动态本体包涵参观数据库 , 目前美国餐饮评论站点诸如Yelp 和 Zagat,其调用方式通过API实现 , 这就牵涉相关语汇和行为模型 。当我们决定下一餐时,我们会说我们订什么样的席位、如何预订、如何点菜,这些需要事先录入用户此前的订餐日历,调用此前的餐饮会话、点餐说词及预订流程等,这些事情都在动态本体内有积累和储存 。当我们要再次点餐,Siri会识别用户意愿,追踪"业务编排单元"(SOC ) , 这个"单元"会识别外部业务以满足用户请求,包括业务理解、命令编译、信息收集并分类 , 最终向用户提供行动导引 。
例如,用户说了:"我要去意大利餐馆享用美食" , "业务编排单元"会在Yelp 和 Zagat网站上进行检索,然后告诉你两英里内的意大利饭馆名录、具体地点、价位,供你选择 。当你作出就餐决策后,业务API 接口程序会为你预订餐位、点餐和叫出租车 。所有这些都通过你过往的就餐习惯,由业务API 接口程序执行 。
动态本体原理框架图(以就餐为例)
苹果智能语音助手Siri初探 ?苹果语音助手和siri区别

文章插图
SIRI系统中的"业务编排单元"拥有一个工具,此工具可定位各类外部业务 APIs来完成相应行为 。动态本体自身也有一套系统,这套系统记录了多个领域里人类的活动,以备调用 。这两套系统允许接入外部相关模块、业务和数据库,这样一来 ,  人们往往会感觉Siri无所不能 。
3、语音处理执行系统 。Siri的核心执行组件包涵:语言阐释器、会话流控制器、任务控制器和服务系统等 。所谓语言阐释器,简言之,就是把人语输入,转化为机器可理解的规范意思 , 因为人语输入与机器语言存在一个巨大的天然鸿沟 , 要让机器知道人语的微妙内涵,需要有一套系统不厌其烦的向机器阐释,否则机器不会做出理智的回应 。会话流控制器是将语言阐释并解析之后的结果传递至控制系统,根据相关参数判定涉及领域,或向用户索取具体参数 。而会话流控制器之后还会对任务控制器进行调用 , 以确定回应内容 。会话流控制扮演着一个协调沟通者的角色 。任务流控制器是确定所要执行任务的边界参数和完成任务各个步骤的逻辑关系 。任务流控制器常常会构建出一些任务模型,将抽象概念定义具体化 。服务系统,Siri展现给用户的是其所能提供的具体服务 。Siri中有三个子服务模块:服务模块,服务能力模型和多服务集成模块 。服务模块包含了可供Siri使用的各种信息,服务能力模块储备了具体服务内容可调用服务类型的映射关系 。服务集成模块的功能在于可调用另外两个模块提供给用户的具体服务内容 。有时,一项服务会涉及多个子服务,分别调用时无论在先后顺序还是内容上都存在逻辑依存关系,这类似于智能调度 。
4、输出系统 。与计算机系统相类似,SIRI系统所将接纳的语音或其它输入进行处理,最终将以为用户习惯的方式输送给用户 。SIRI系统的输出包括语音、文本、甚至电邮等多模态展现输出,以完成最后一站工作 。
苹果在其产品iPhone4S首先展现出的智能语音控制功能,使其产品变身为一个智能机器人 。之后 , 苹果陆续发布了siri新功能 。智能语音是否会成为未来智能手机发展的主流方向还有待继续跟踪观察 。
苹果智能语音助手Siri初探 ?苹果语音助手和siri区别

文章插图
更多精彩文章,敬请关注 超天才网
或关注搜索公众号 天财评论
旗下拥有天财评论、天才创业、天才AI等垂直板块,主要以超天才思想和视角,为企业家、创业者、职业经理人等解读全球财经事件,培育企业萌芽与发现并购商机,并以顾雏军团队的商业智慧 , 培养具有远见卓识、能屹立于世界之林的企业家和职业经理人队伍 。
【苹果智能语音助手Siri初探 ?苹果语音助手和siri区别】,