1.2 联邦学习提出的背景

正是因为数据具有资产的属性,政府、企业乃至个人,都越来越重视数据。但由于相互之间的竞争,各方的数据很难进行共享,导致数据呈现出割裂的状态,影响了极度依赖数据的人工智能的发展。为了满足日益增长的算法设计需要,越来越多的机构开始创建和开源大型的数据集项目。通过这些开源的数据集,一方面能够为深度学习算法设计提供重要的数据“燃料”,另一方面提供了一个较为公平的算法对比基准。一个典型的案例是由斯坦福大学李飞飞团队主持的、用于视觉对象识别软件研究的大型图像数据库项目ImageNet[82],它通过众包方式收集各类图像数据集。得益于ImageNet的开源数据,我们见证了卷积神经网络在最近10年的快速发展。

大型的数据集建设虽然对深度学习的发展起到了非常重要的作用,但在现实生活中,像ImageNet这样规模的数据量通过人工标注并众包上传是很困难、甚至是无法实现的。这主要是由于,在现实生活中能够获得的数据,要么规模较小,要么缺少重要信息(如缺少标签信息或者缺少部分特征数值)。这些数据通常不能直接使用,需要进行大量的预处理操作。例如,为了解决标签缺失的问题,需要聘请大量的专家来进行标注,但这一过程无疑非常费时。因此,要获取数量大且质量高的训练数据通常非常困难。

此外,人们对于用户隐私和数据安全的关注度也在不断提高。用户开始更加关注个人隐私信息的使用是否经过本人许可。许多互联网企业由于泄露用户数据而被重罚。2019年1月,法国一家监管机构对Google罚款5000万欧元,指责Google在收集数据用于定向投放广告时在征得用户有效同意方面做得不够[5]。2019年10月,爱尔兰数据保护委员会(Data Protection Commission)结束了针对Facebook旗下WhatsApp可能违反欧盟数据隐私规定的调查,Facebook可能面临高达数十亿美元的罚款[11]。垃圾邮件制作者和不法数据交易也常常被曝光和处罚。这些现象使得即使在众包收集数据的前提下,公开用户个人数据也变得不可能(因为基于众包的方法不能标注带有用户隐私的数据,更不能暴露标注者个人信息)。

在法律法规层面,立法机构和监管机构正在考虑出台新的法律来规范数据的管理和使用。一个典型的例子便是2018年欧盟施行的《通用数据保护条例》(General Data Protection Regulation,GDPR)[27]。在美国,《加利福尼亚州消费者隐私法》(California Consumer Privacy Act,CCPA)于2020年1月在加利福尼亚州正式生效[26]。此外,我国的《中华人民共和国民法通则》[1]以及2017年开始实施的《中华人民共和国网络安全法》[3]同样对数据的收集和处理提出了严格的约束和控制。有关这些数据保护法律和法规的更加深入的解析,读者可以参考Federated Learning[284]一书的附录A。

由于前述各方面原因,使得我们过去使用的大数据正面临着严重的数据割裂问题,并呈现出“数据孤岛”的现状,导致在进行人工智能模型训练时无法有效利用各参与方的数据,阻碍了算法模型的效果提升。

为此,人们开始寻求一种方法,它不必将所有数据集中到一个中心存储点就能够训练机器学习模型。一种可行的方法就是:每一个拥有数据源的机构利用自身的数据单独训练一个模型,之后各机构的模型彼此之间进行交互,最终通过模型聚合得到一个全局模型。为了确保用户隐私和数据安全,各机构间交换模型信息的过程将会被精心设计,使得没有机构能够猜测到其他任何机构的隐私数据内容。同时,在构建全局模型时,其效果与数据源被整合在一起进行集中式训练的效果几乎一致,这便是联邦机器学习(Federated Machine Learning,FML)提出的动机和核心思想。

联邦学习强调的核心理念是:数据不动模型动,数据可用不可见。这可以保证数据在不出本地的前提下,各参与方之间协同构建训练模型。一方面,数据不出本地可以很好地保护用户的隐私和数据安全;另一方面,能充分利用各参与方的数据来协同训练模型。假如把机器学习模型比作羊,把训练数据比作草,传统的集中式(或中心化)训练方法需要到各个草场收集草来喂羊,这就像从不同的地方收集数据一样。如前所述,这种训练模式当前正面临包括法律法规层面在内的、越来越多的现实挑战,在未来将难以实现。联邦学习的出现,则提供了一种新的思路,就是可以把羊送到各个草场吃草,而草不出本地,就像联邦学习系统里的数据不出本地一样。羊吃了各个草场的草,可以逐渐长大,就像联邦模型在各参与方的数据集上都获得训练一样,模型效果变得越来越好,如图1-2所示。

图1-2 羊吃草与联邦学习,羊代表机器学习模型,不同的草场代表各自的训练数据[284]