中国智能语音行业的现在与未来
发布时间:2020-05-10 10:32来源: 网络整理人类对机器语音识别的探索始于20世纪50年代,迄今已逾70年。2016年,在深度神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技术落地期到来。不过人们面对“AI”时希望得到自然、类人的交互体验,这是一个宏伟的开放性课题,背后涉及的各学科技术仍有不足,还面临长期的求索方能突破。
消费级智能硬件是最早显示出市场潜力的赛道,市场各方都在瞄准消费级智能交互终端。而智能终端的背后还有广阔的生态,包括语音开放平台、语音操作系统、内容等等,近年行业正在经历从单一商业模式向多元化商业模式的变迁,技术输出的“厚度”增加,“边界”扩大,也带来了技术落地曲线的加速度增加。
智能语音企业级和公共级市场主要有平台化技术输出和解决方案两类商业模式,解决方案业务占比较高。与国外市场以医疗为重头有所差异,我国市场以智能客服、公检法及教育业务份额更高。智能语音为各行业解决了刚需性问题,将促进各行业业务效率的提升。
目前全国约有超过250家企业参与智能语音语义市场。互联网巨头、技术提供方、设备商和行业集成商应分别重视连续性投入支持问题、基础开发模块标准化程度提升与商务团队配置问题、设备后服务增长问题和软件研发能力建设问题,迎接人机交互升级带来的行业价值链扩张。
智能语音的概念
智能语音即实现人与机器以语言为纽带的通信
智能语音即实现人与机器以语言为纽带的通信。人类大脑皮层每天处理的信息中,声音信息占20%,它是沟通最重要的纽带,人机对话将方便人们的工作与生活。完整的人机对话包括声音信号的前端处理、将声音转为文字供机器处理、在机器生成语言之后,用语音合成技术将文本语言转化为声波,从而形成完整的人机语音交互。
智能语音的前情提要
机器“听觉”本质上是对声音特征和文本的分类任务
人的听觉形成过程是将声能转变为机械能、再转为生物电信号,在听觉中枢加工、分析的结果,而机器的“听觉”则经过声音信号-音频信号-电信号-特征向量-解码为文字-理解的过程,本质是对声音特征和文本的分类任务(将字音分类对应为文字、将文字对应为潜在语义),如果需要机器感知声音的起止和音色等特征,还需要另外进行信号处理与特征分类任务。
深度神经网络是智能语音技术近年达到落地可用的推动器
2011年,微软研究院提出的基于上下文相关深度神经网络和隐马尔可夫模型的声学模型在大词汇量连续语音识别任务上获得了显著的性能提升,从此大量研究人员开始转向深度学习在智能语音领域的研究,2016年,机器语音识别准确率第一次达到人类水平,意味着智能语音技术的落地期到来。近年,研究方向主要是端到端神经网络及针对实际应用中的算法优化。
所涉学科及其研究任务
本章小结
技术闭环完成度有待提升,面临长期的求索方能突破
智能语音背后涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显短板的“木桶”,在交互体验、使用效果、场景性优化等方面都还有很长的路。与人工智能发展最快的分支计算机视觉相比,尽管二者都凭借深度学习取得重大突破,并在识别准确率上达到人类水平,但计算机视觉通过人脸识别这一大技术分支便高完成度地解决1:1或1:N比对问题,快速渗透到了各行各业;智能语音技术要解决的却远远不是1:1或1:N的比对,而是人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,这是一个宏伟的开放性课题,因此尽管智能语音已取得了一些商业上的成就,但仍面临长期的求索方能突破。
子研究:消费级市场
国内智能音箱卡位家庭流量迁移(1/3)
从PC与移动互联网看流量迁移模型