无处不智能:AI数据的“消费升级”,刚刚开始
发布时间:2020-05-27 22:20来源: 网络整理“新基建”的哨声吹响,想必大家已经从各个渠道感受到了产业智能化的火热。
这一次,AI不再停留于“人工智能又碾压人类了”的科幻剧情,而是化身为社会通用型技术,各种家居、汽车、商超、3C产品等领域,都开始高频出现带有AI身影的宣传。
其中,人工智能三要素——数据、算法、算力中,最基础、最核心的部分——数据,自然也就成为烹饪产业智能化这道美味所必不可少的原材料,也愈加受到更多瞩目。
如果我们将产业智能化的红利,看做是等待切分的蛋糕。那么坐在电脑前对图片或文字一点点打上标签的数据标注师,可能就是在智能沃土上种植小麦的人。
这些处理好的食物,被算法工程师拿到后投喂给机器,教会它们认识什么是猫,什么是狗,行人和红绿灯的区别,“这几天天天天气不好”表达了什么意思……
听起来,AI数据的“种植”是不是挺简单的。确实,在人工智能前期发展阶段,AI数据采集和标注,也常常被看做一个“没有壁垒”的事情,甚至称之为新时代的血汗工厂。
但就如粗谷吃多了总会开始追逐健康、有机、精加工,AI数据行业也早已在我们目之所及的地方,开启了一次“制造升级”。
产业智能化的滋味,你和数据都想了解
虽然AI数据不是算法训练的唯一要素,但绝对是不可或缺的一部分。
一方面,AI数据更丰富且廉价的领域,更容易诞生出AI的火苗。比如机器翻译发展了数十年,积累了非常多的双语对照语料,因此一遇机器学习便化龙,深度神经网络的引入很快让翻译系统的效果全面超越了以统计模型为基础的SMT(统计机器翻译)。如今,NWT神经机器翻译早已是智能语音产品的标配了。
另外,AI数据的质量也决定了AI产品是否贴合使用场景,影响着用户体验乃至产品生命周期。在挖掘人工智能产业化富矿的时候,对AI数据的重视,再怎么强调都不为过。
由此,也诞生出了专业的第三方AI数据产业链,来满足高质量、大规模的数据需求。
不过,当人工智能高歌猛进的时候,AI数据产业的掣肘也接踵而至。
首先,传统的爬虫或众包模式,数据采集的多而浅,难以满足高性能、高精准算法对数据的需求。举个例子,在金融等场景中,银行对人脸识别算法的精准度要求可能是99.99%,才能达到保护客户财产安全、防范安全风险的级别,传统的平面脸部数据显然是不够的,需要维度更加丰富、角度更加多样的3D脸部图像才能训练出所需的算法。
此外,机器学习的数据依赖,也增加了AI训练的直接成本。无论是采集或购买数据本身的支出,还是调用数据增强等技术来增加数据样本,背后都是不小的成本。
至于AI学术界刚刚兴起的胶囊网络、少样本甚至零样本学习等,虽然能不必再为数据规模而掣肘,但目前都还在实验室阶段,在产业落地上的成熟和稳定性都不可预知,距离实用还有很远的距离。所以在当下,以深度神经网络为核心的机器学习,依然是人工智能走向产业化的技术托举。这也决定了对AI数据的饥渴,将在一段时间内始终伴随AI行业的发展。
从产业化与工程化的逻辑视角来看,今天企业想要打造出效果与口碑受到肯定的AI产品,可能购买的通用型“面粉”已经不能满足挑剔的用户了,还得学会自己耕种数据的沃土。
夜来南风起,小麦覆陇黄:
AI数据场景化的成熟时
新基建的风潮一来,AI数据产业也以超乎预期的速度在飞驰生长。
原因无他,数字技术与千行万业的融合,是今天中国普遍展开的主基调,而数据更是遍洒在大地上的种子,等待完成一场智能的丰收。
那么,到底需要怎样的种植逻辑,才能让它们茁壮生长,有资格进入生产车间,最后变成滋养社会智能的高营养食品呢?答案或许也隐藏在中国人的“耕种天赋”里:
第一,尊重规律的专业化。
我们知道,一些有实力的科技大厂如BAT,往往都自建数据中心,来完成算法的精进。而对于更广大的企业来说,面对的是一片数据的洪潮,爆炸式创新也必然带来爆发式增长的数据规模,有预测显示,到2025年有80%的计算来自于AI计算,涉及的数据也有180ZB之多,比现在增长了4倍。要在如此庞大且复杂的数据群落里,找出最适宜自家土壤的“种子”,显然不是一件容易的事。
此前就有谷歌工程师在被问到众包平台M-Turk(在公开平台发布任务,参与者自由申领)的效果时,声称“回收的数据良莠不齐”。
用一句AI界的话来说,“garbage in,garbage out”,如果喂给算法垃圾食材,在无监督学习的情况下,就很有可能发展出让产品口碑崩盘的病灶。