新疆都市报 > 科技 > 智能 >

专访搜狗CTO杨洪涛:录音笔技术革新与变革之路

发布时间:2020-01-16 04:57来源: 网络整理

过去,录音笔的定位一直是便携的专业产品,用户群体单一,但随着AI、物联网的快速演进,录音笔从过去的存量市场逐渐演变成面向蓝海的增量市场,产品的应用场景、服务带来新的想象力。在CES2020开年国际科技大展上,搜狗AI智能录音笔也来到了现场,将AI翻译、AI语音识别、多人/多语种识别等多种元素相融合,引起了国内外媒体的关注,我们在展台见到了搜狗CTO杨洪涛先生,他从技术、生态、市场等角度对录音笔行业发展进行了解读。

杨洪涛是搜狗输入法研发带头人,过去,他成功的将搜狗输入法打造为国内用户量第三的国民软件;后来,带领搜狗AI团队构建行业领先的语音、视觉、机器翻译、同传等一系列AI交互技术,并主持AI的产品化工作,打造了翻译宝、AI录音笔等多款AI硬件领域的创新产品。


搜狗全新的AI智能录音笔能够在一个国际展会上掀起不小的波澜,听起来可能有些夸张,但这的确是搜狗研发团队几年间兢兢业业做出来的成果。对于录音笔这个市场来说,无论头部还是腰部的品牌,大多数都产品都只是搭载简单的录音功能。相比于这些产品,搜狗录音笔一直在思考如何让其往更高频率的方向发展。后来,搜狗AI智能录音笔团队将其应用场景与录音笔结合,想着让一款录音笔产品能够靠两个麦克风的阵列做语音识别,比如记者采访靠语言识别成稿,对于很过文字工作者来说应该是非同凡响的一件事。


搜狗CTO杨洪涛

既然说到语言识别,其实对于很多办公场景来说,像北京、上海这些大城市的人们都来自五湖四海,大家都说不同地方的方言。亦或是很多外企常常需要在中英文之间切换,甚至中英文同时交流。显然,语言识别并不是一件容易的事情,细数各种使用场景,无论是哪一个都有诸多的难题。

当我们谈及搜狗AI录音笔发展历程的时候,杨总告诉我们:搜狗AI智能录音笔发展到现在,无论是方言还是多语种等场景,搜狗AI智能录音笔都已经融了超过几十万小时的样本建模和演进,识别精准度已经非常的可靠。

搜狗录音笔的识别能力的升级之路,就好比当年搜狗输入法的升级。搜狗输入法每天有五个多亿用户,这些用户产生的数据会为AI系统提供一个很重要的数据来源,这些数据会积累在系统里,让系统去做针对性的建模训练,久而久之,它的识别能力就会非常准确且人性化。

很显然,识别精准度完善解决了采访类场景的需求,但是现实中,很多企业用户在会议中存在三方或以上人的这种场景。如何实现机器精准识别每个不同的人的发言,这是我们十分值得关注的。在这个话题背景下,我们了解到:在多人识别的场景上,目前搜狗已经可以通过麦克风阵列组合实现多人讲话的精细分割,呈现(说话人1:),(说话人2:),(说话人3:)的高效速记。不过若是不依靠硬件辅助,这还是一个目前在学术上都无法攻克的难题。

关于使用环境,我们常见的语音AI助手都需要借助网络云端进行计算。

而对于搜狗AI智能录音笔来说,它如果必须借助网络才能实现,那么在很多没网的状态下是否会造成无法使用?对于我们的这个疑问,杨总表示:语音识别加翻译的模型很复杂,让它能够搭载在一个小型的芯片里去做推理计算可是费了搜狗研发团队的不少心血。搜狗AI智能录音笔的研发团队过去几年一直都在致力于对大数据模型进行精细化裁剪,最终才得以让这款产品成功实现无需依靠网络进行运算。

不难看出,对于未来搜狗AI智能录音笔的发展方向,翻译效率绝对是要排在第一位。对此,杨总表示搜狗自己已经做了一套基于云端的存储和账号体系来同步分享。在未来,我们也许能有机会看到搜狗录音笔与视频硬件的统一整合,比如在现场直播时能够为视频时时提供字幕这样的全新物联网功能。

作为AI录音+翻译行业最前沿的产品,搜狗AI录音笔经过几代产品的锤炼,无论是在错误率、语种识别能力还是其它性能上,都已经完成了面向新时代的蜕变,这离不开产品用户的支持与研发人员的努力。希望在未来,搜狗能够一步步突破AI智能录音笔的一层层技术难关,带来更多、更好的产品。

本文属于原创文章,如若转载,请注明来源:专访搜狗CTO杨洪涛:录音笔技术革新与变革之路

专访搜狗CTO杨洪涛:录音笔技术革新与变革之路

>>>>>>CES2020国际消费电子展全程报道<<<<<<

纠错与问题建议标签:录音笔