借助区块链,Salesforce希望阻止有偏见的机器人破
发布时间:2019-06-26 23:32来源: 网络整理2015年6月,谷歌照片的面部识别软件将一位黑人计算机开发人员的照片标记为“大猩猩”。类似的问题很难解决,据Wired报道,截止到2018年1月,谷歌的应对方法都非常简单——干脆不将任何东西识别为大猩猩、黑猩猩或者猴子。
接下来的一年里,美国公民自由联盟(American Civil Liberties Union)和16家其他机构抗议将数据用于创建“预测性警务”算法——这些算法旨在预测犯罪可能发生的地方,他们认为这些数据“极度有限并且带有偏见”,这种做法无法降低犯罪率,而且会让原本已经受到警察高度重视的社区得到更多的关注。
然后,就在去年,据报道,亚马逊关闭了一项为期数年的项目,该项目旨在让人工智能算法对数百份简历进行分类,以方便招聘工作,但是被发现用于训练算法的数据对女性求职者存在偏见。
人工智能背后的算法带有偏见的原因有很多。但是最常见的解释是,用于训练这些算法的数据本身就是带有偏见的——“进去的是垃圾,出来的也是垃圾”。由于数据来源于非常广泛的、不断变化的数据源,算法从中学到的“东西”可能很难进行逆向工程,这让理解人工智能为什么会变得带有偏见变成了一件几乎不可能的任务。
Salesforce的区块链主管Adam Caplan认为,使用类似于跟踪比特币交易的共享分布式分类账,或者区块链技术对混乱的数据进行构建并跟踪是一种可能的解决方案。在第五届区块链年度峰会(Blockchain Summit)上,Caplan介绍了这家消费者资源管理(CRM)巨头是如何利用区块链跟踪偏见数据的来源。此次峰会旨在激发有益于社会的跨学科项目,由福布斯区块链50强的成员Bitfury主持。
Caplan上个月领导了Salesforce Blockchain的发布,他表示:“在这些算法如何制作以及有哪些因素会影响它们方面,区块链可能非常强大。如果人工智能存在偏见,区块链能够帮助我们理解偏见是如何产生的。”如果新的项目能够成功,Salesforce相信它可以帮助解锁超过1万亿的人工智能收入。Caplan表示,Salesforce对利用区块链跟踪数据的研究是由公司内部的人工智能团队在管理。
尽管Salesforce现在并没有透露太多关于该项目的信息,但是Caplan表示,这项研究最终可被用于在各种算法中识别偏见数据的来源,包括越来越多的聊天机器人和类似虚拟名人Lil Michaela之类的人工智能化身,Lil Michaela在Instagram上有160万的粉丝。
随着亚马逊的Alexa和Apple的Siri等更先进的个人助理的崛起,Salesforce委托完成的一份2017年研究报告预测到2021年将产生1.1万亿美元的新收入和80万个新的工作岗位。仅Salesforce客户就将占到这些收入中的2930亿美元并创造155,000个新的工作岗位。也就是说,这些估算是建立在算法不会行为不端的假设之上。
虽然Caplan认为算法中的大多数偏见都是无意的,但他表示,Salesforce正在积极寻找方法,让该公司的客户可以防患于未然,在数据集带来问题之前,对数据进行深入挖掘。Caplan表示:“当然,我们正在考虑多样性、包容性和偏见,以及我们如何才能确保企业在做正确的事情,并保持透明度。”
为了介绍那些企业可能最先会从这项研究中受益,Caplan上个月推出了Salesforce Blockchain,这个项目使用Hyperledger Sawtooth,帮助企业和教育机构更容易建立小组,通过使用共享分布式分类账,减少不必要的中间人环节,帮助他们节省金钱或者时间。在发布时,Salesforce宣布已经有四家客户在使用该区块链平台,包括金融信息巨头S&P Global和亚利桑那州立大学。
大多数算法都是在内部开发的,因此可以使用现有的集中式代码库(如GitHub)进行跟踪,这些代码库允许开发人员在确认错误修复和修改之前查看彼此的代码。但是,另一位区块链峰会参与者David Treat——埃森哲的区块链业务联合负责人表示,未来,人工智能可能会被要求根据私有的数据做出决策,各种互相竞争的组织之间不太可能共享数据,而是互相隔离。
在同一个小组对话环节中,Treat表示,编写算法来回答复杂问题的公司历来不愿意与竞争对手分享数据——无论他们自己可能获得什么收益——因为他们担心可能会意外地帮助竞争对手。但这种情况限制了另一种可能消除算法偏见的途径:来自更为多样化来源的、更多的数据倾向于抵消算法在训练中意外习得的偏见。
为此,埃森哲也在探索区块链技术。这家咨询公司正在开发一种所谓的同形加密的、修正版本的区块链技术,允许数据科学家对加密数据进行操作,而无需解密数据本身。目前,埃森哲正在为共享区块链会计系统或另一个类似的分布式分类账系统的合作公司定制所谓的共享同形加密(SHE)的技术。
算法可以利用竞争公司提供的数据中学习,而无需知道数据是什么,并能够精确确定偏见是何时被引入的。