未来人工智能发展何去何从?数据质量与安全或
发布时间:2019-08-23 05:41来源: 网络整理随着人工智能技术与产业不断融合,人工智能技术助力传统产业实现新的发展和升级,助力工业经济向数字经济快速转型。目前,人工智能技术在医疗、金融、交通、零售、工业制造、教育、安防等领域均产生良好的发展前景。
虽然人工智能技术的行业应用越来越广泛,仿佛真的站在风口准备拥抱下一场革命,但正如专家们所言,对于人工智能的发展,应该保持谨慎的乐观态度。众所周知,沃森是当下诸多人工智能技术和应用的典型代表,其重点领域是医疗(主攻癌症的预测与治疗)。然而,在经历了六年时间、耗资数十亿美元之后,Watson的诊断结果却令人沮丧。人工智能系统需要基于数据调整参数,以达到最佳拟合效果,由于数据的复杂性和相对不可用性,人工智能的效用往往存在不确定性。
同样对IBM沃森而言,当Watson获得足够多的“条理清楚”的数据时,能通过不断学习给出可能有用的答案。但在实际操作中,一方面Watson使用的训练数据并不丰富,例如,训练肺癌治疗方案的数据仅有635例,其它疾病更是少得可怜。另一方面,由于患者就医记录没有全部联网,医生经验录入成为沃森分析最核心的来源,这意味着当它扫描大量文件时,必然要识别复杂的信息并从中抽取关键内容。例如,患者的病历可能包含医生的大量注释,这些注释又是由简写和短语构成的,机器想完全理解它们并非易事。总结IBM沃森失败的原因,其算法算力毋庸置疑,而在数据处理上,除了收集的样本数据量不足,最大的问题便是在数据质量不高,几十万份病例下来,能够用的可能才几万份病例。这一切导致了沃森不能提供足够的敏感性、特异性和精准性,而这都是临床决策所必需的。
当前人工智能还面临诸多挑战,例如数据孤岛问题、隐私保护问题、安全问题等瓶颈。一项2018 年的研究显示,人工智能的采纳率急剧增加,从 2017 年的 38% 增至 2018 年的 61%,医疗保健业、制造业和金融服务业等各个行业都是如此。但根据国际数据公司(IDC)发布的一份报告指出,评估了4个行业(包括医疗健康行业)的“数据质量”,范围为1(严重)到5(优化)。IDC 将医疗健康行业的数据质量评为2.4。报告显示,60%的医疗行业受访者缺乏数据处理能力。
构建高质量数据集,推动人工智能快速发展
当前,不管是人工智能技术的研发以及应用领域的发展,“数据”都是一个不可或缺、位于重中之重的因素。机器学习等AI技术的基础是应用软件分析系统对数据集进行分析、挖掘。而数据集的大小至关重要,因为机器学习需要特定、大量的数据。只有数据上传足够高效,才能够在相关工作中体现出及时,而准确的数据是人工智能技术研发、训练的关键,以及其能够在生活中起到多大作用的一个考量因素。乍一看,医疗健康行业应该具有优势:该行业拥有大量数据。到2025年,医疗健康领域的数据数量将超过金融、媒体和制造业等领域,其年复合增长率达到36%。这在很大程度上是由于医疗健康领域新兴技术的不断涌现,例如医学成像、康复机器人以及不断成熟的大数据分析工具。但不幸的是,数量只是数据的一个方面:质量是另一个关键。医疗领域的数据往往数量足够,但质量堪忧。
GetApp的一项研究表示,他们调查了五个行业(包括医疗健康行业)的近500名小企业领导者,当询问受访者数据分析过程的哪个方面让他们感到信心最低时,25%的医疗行业受访者表示,他们对收集“相关数据”——可以提供决策的高质量数据的能力最不自信,在所有五个领域(包括医疗行业)数据质量是他们关注的主要问题。加拿大的一家保险公司想要根据保险公司的工作地点来衡量保险公司的风险时,其分析产生了垃圾结果,究其原因,是在对距离数据的标注时,分别以英里和公里为标记,使其结果出现了偏差。而在Dun&Bradstreet的一项调查中,很多组织表示,缺乏正确的数据是进一步实施人工智能的最大障碍之一。