“联邦学习”引领者:微众银行AI团队如何推动国内人工智能+行业落地?
发布时间:2019-06-10 20:13来源: 网络整理“联邦学习”引领者:微众银行AI团队如何推动国内人工智能+行业落地?
推荐 2019-06-10 12:36:13
当我们在谈论人工智能落地,我们在谈论什么?
很多时候我们都是基于一个丰满的理想化前提:这个项目拥有足够丰富干净的大数据。但现实往往很骨感,很多项目拿到的数据,都是行业里某个山头单项的“数据孤岛”,无法得到一份完整全面的“数据大陆”。
这跟传统垂直企业的数据采集和数据管理方式有关,整体性调用受到商业机密、安全和管理因素的掣肘,互联互通面临很大的阻碍,严重影响了AI+行业落地的进度和质量。
5月24--5月25日,在中国计算机学会举办的年度盛会“2019 CCF青年精英大会(YEF 2019)”上,由微众银行AI团队提出的“联邦迁移学习”新方法和它打造的开源“联邦学习”框架FATE(Federated AI Technology Enabler)或引领AI+行业落地的下一个十年。
打破次元壁,盘活数据孤岛
虽然AI现在非常火爆,但我们以为的“大数据”时代并未真正来临。行业的实际状况是存在着大量的“数据孤岛”。这些“孤岛”大小不一,参差不齐,相互不连通,使得AI落地举步维艰。
以金融行业为例,它本身细分为银行、证券和保险等多个领域,每个领域积淀的数据方式、数据特点虽然有相同的部分,但差异更为明显。在此基础上,还有更细一层的数据割据,比如细分到一家银行下属的多个部门,都有自己的数据沉淀,但它们是没有打通的。
孤岛之内,再划分了N个孤岛,就像俄罗斯套娃一样,对处理数据的AI团队来说,困难重重。他们需要说服一家公司的领导调取多个部门的数据,面临着繁琐的审批流程;而想再进一步说服不同的公司拿出自己的数据,简直比登天还难。
面对这个问题,AI从业者一直在努力。微众银行AI团队倡导的“联邦学习”(Federated Learning)则提供了一种新的思路。
所谓“联邦学习”,顾名思义,就是搭建一个虚拟的“联邦国家”,把大大小小的“数据孤岛”联合统一进来。他们就像这个“联邦国家”里的一个州,既保持一定的独立自主(比如商业机密,用户隐私),又能在数据不共享出去的情况下,共同建模,提升AI模型效果。
本质上,它是一种加密的分布式机器学习技术,参与各方可以在不披露底层数据和底层数据的加密(混淆)形态的前提下共建模型。这也是一种共赢的机器学习方式,它打破了山头林立的数据次元壁,盘活了大大小小的“数据孤岛”,连成一片共赢的AI大陆。
而将“迁移学习”和“联邦学习”结合起来,变成“联邦迁移学习”,则是CCF青年精英大会上,人工智能行业的领军人物、微众银行首席人工智能官(CAIO)杨强教授提到的最新研究成果。
在杨强教授看来,“迁移学习”是将大数据迁移到小数据,实现举一反三,而“联邦学习”则可以让多个参与方数据不出本地进行合作,“联邦迁移学习”将“迁移学习”和“联邦学习”结合起来,帮助不同机构打破隔阂,联合建立AI模型,同时各方数据不出本地,用户隐私得到最好保护。
“联邦迁移学习”作为一种新的处理数据方法和能力,它的实用价值和安全性说服了很多企业将数据共享出来,打破了数据孤岛壁垒,构建跨领域合作,实现多方共赢。
“联邦学习”的引领者
“联邦学习”是机器学习的一种新模式,其历史不过三四年,主要是为了解决“数据孤岛”和数据隐私保护的两难问题,目前已经得到业内主流机构和专家学者的一致认可。
谷歌在2016年提出了基于个人终端设备(C端)的“横向联邦学习”(Horizontal Federated Learning)算法框架。在国内,微众银行AI团队是最早的“联邦学习”倡导者,并基于自己的落地实践,提出了“联邦迁移学习”,主要为了解决B端机构间联合建模问题,让“联邦学习”更加通用化。
它已经不再是一个概念,而是人工智能+行业的浪潮中的一把利器。
据介绍,微众银行在不侵犯企业用户数据的情况下,用“联邦学习”技术,除央行征信数据、流水数据外,将能证明企业经营健康程度的发票数据等不同维度数据纳入风控建模,对小微企业经营状况和信用能够进行360度模型评估,对小微企业风控模型性能提升了7%,大大拓展了可贷企业的范围。
效果也非常明显,68%的小微信贷客户在获得授信时无任何企业类贷款记录;38%的授信小微信贷客户在获得授信时无任何个人经营性贷款记录。
除此之外,微众银行还在包括风险评估、差异定价、精准营销等多个金融场景进行成功实践,助推微众银行实现业务创新,使得其金融服务覆盖面不断提升,社会价值贡献得到进一步体现。