从0到1 蚂蚁共享智能凭什么成为国际标准

发布时间：2020-06-05 13:02来源：网络整理

原标题：从0到1，蚂蚁共享智能凭什么成为国际标准

　　人工智能时代，存在的最大问题是是鱼和熊掌不可兼得，也就是隐私性和可用性难以兼顾。如果你想要AI本身系统发挥作用，就可能要先牺牲隐私，但在大量的真实场景当中，如果不能同时兼顾到隐私性和可用性，会导致很多AI落地的困境。

　　比如举一个贷款风控的例子。如果用户想要去银行做贷款，先来到了银行A，银行A基于一些本地数据判断这个A是一个坏人，我们不可以给他贷款，这个人就到了银行B，但是银行B没有银行A的这些数据，所以银行B也许会把这笔贷款发放给用户本人。这些由数据不流通所导致的矛盾比比皆是。

　　为了解决这一问题，国内外不少科技公司先后推出了解决方案，比如谷歌推出的联邦学习、蚂蚁金服提出的共享智能等。

　　共享智能为什么能够获得产学研各界的广泛关注？

　　近年来，随着隐私保护越来越受重视，相关法规逐渐出台，互联网公司难以任意的获得数据；但在另一方面，基于大数据的人工智能需要更多更完善的数据才能发挥更大的作用。就像上面所提到的例子一样，如何在保护隐私和数据安全的前提下，联合多方数据进行AI训练和分析，成为学术界和产业界的研发热点。

　　蚂蚁共享智能作为一个新兴的交叉学科，近些年获得了学术界、产业界以及研究机构的广泛关注。数据已经是一种生产要素，重要性不言而喻。数据不仅是各类大数据应用的基础；数据的质量和数量也已经成为影响人工智能模型效果最重要的因素之一。当今各种应用产生并收集了大量的数据，同时也是使用数据的大户。随着AI模型能力和算力的提升，各种应用场景对各种异构、异源数据的使用效率也在飞速提升。

　　然而，数据的广泛使用在提升应用效果的同时也引发了我们对于数据安全性的担忧。这主要是归结于数据自身的两个很重要的特性：一个是可复制性，一个是可复用性。可复制是指，数据可以被完整的、极低成本的拷贝；可复用性是指，某份数据可以被多个不同领域的场景复用，也可以在相对长的一个时间轴上被复用。

　　所以如果不同应用之间直接共享数据，那么可复制性和可复用性，一定会导致数据泄露的情况，也就是被留存二次使用，从而侵犯了商业利益。更为严重的是，如果是个人相关的数据，很多时候，数据的管理者和使用者并不是数据的所有者。一旦在数据共享的过程中，发生了数据泄露，被对方滥用，那数据的管理者不仅仅是商业利益受到侵犯，它很可能也没有尽到数据管理的责任。从欧盟的GDPR开始，到美国CCPA，到中国的数据安全法、网络安全法、个人信息保护法都对这种数据管理失责，和数据滥用，提出了严格的规范。所以各大数据方，出于保护商业利益、法律风险、舆论风险各方面考虑，都在收紧数据共享，从而形成了大数据孤岛。

　　蚂蚁共享智能就是为解决数据协作需求与隐私泄露和数据滥用之间矛盾的技术解决方案，不直接共享数据的情况下，连通大数据孤岛，实现多方数据可用不可得，也就是拿不走，看不见，但是用得好。

　　共享智能凭什么可以成为国际标准？

　　早在2016年，蚂蚁就开始致力于共享智能的技术研发，并在蚂蚁内部及合作伙伴方的智能信贷、智能风控等业务领域中率先应用。蚂蚁共享智能具有以下特点：

　　(1)多种安全计算引擎整合，可基于不同业务场景来选择合适的安全技术。既有基于TEE的集中式解决方案，也有基于MPC的分布式解决方案；既可满足数据水平切分的场景，也能解决数据垂直切分的诉求；既可以做模型的训练预测，也可以做数据的探查和分析。

　　(2)支持基于SQL语法的数据分析、各种数据预处理算子和多种机器学习算法。支持的算法包括但不限于LR，GBDT，Xgboost，DNN，CNN，RNN，GNN等。

　　(3)大规模集群化。支持大规模集群化，提供金融级的高效、稳定、系统化的支撑。

　　值得一提的是，共享智能有四个基石性的研究方向，分别是多方安全计算，可信执行环境，差分隐私，以及联邦学习。