FATE联邦学习开源社区技术指导委员会主席杨强:重视可信联邦学习( 二 )


FATE联邦学习开源社区技术指导委员会主席杨强:重视可信联邦学习
文章图片

现在 , 隐私计算的发展已经有 40 年的历史 , 也经历了很多阶段 。 我们在这里总结一下这些阶段 , 相关信息出自最近我与陈凯老师以及很多优秀博士生合作完成的书籍《隐私计算》 。
首先是安全多方计算 , 是理论计算机方向为整个计算机行业做出的贡献 , 即利用利用隐藏部分信息来保护隐私 , 基于各方交换的部分数据来计算正确的结果 。 这样做的好处是能够满足保护隐私的法律法规 , 但计算速度非常得慢 。 之后 , 出现了利用混淆个体的方式保护隐私的差分隐私技术和利用硬件来保护隐私的集中加密计算技术 , 它们都有各自的特点和问题 。 联邦学习是随着 AI 的发展 , 利用分布式多方建模的手段对模型作为一个主体进行生产 , 使用和管理而产生的 。 联邦学习和前面这些发明都不矛盾 , 不是替代关系 , 它们是相辅相成的 。
从联邦学习到可信联邦学习
我今天特别要讲的主题是「可信联邦学习」 , 这里面有一个词叫做 NFL(No-free lunch, 没有免费的午餐) 。 另外一个叫知识产权保护 , 下面会特别讲到这些概念 。
首先 , 我们简单地回顾一下联邦学习 。 我从一开始就说它的思想是「数据不动模型动、数据可用不可见」 。 有人认为这很好理解 , 但也有疑问:模型在不保护的前提下可以通过参数的传递泄露部分原始数据 。 我们说的数据不动模型动 , 意味着我们所设计的联邦学习算法 , 能保证原始数据和模型私密参数的数据都不能 “动” 。 如果模型参数泄露了原始数据 , 那这句话就成了空话 。 因此 , 联邦学习一定要严格地保证原始数据和重要模型参数真的原地不动 , 以保证联邦学习的安全 。
FATE联邦学习开源社区技术指导委员会主席杨强:重视可信联邦学习
文章图片

下面再来说隐私保护、数据安全和模型效能到底是什么关系 。 所谓隐私 , 往往是对我们特别想要保护的部分数据而言 , 我们管这个数据叫 D(Data) 。 安全指的是整个系统的安全 , 也就是说 , 我们要保证所有数据 D 的安全 。 隐私往往特指要保证不泄露某些数据 。 所以 , 安全是指逻辑学里面的 “所有”(For all) , 而隐私是逻辑学里 “某些” 的概念 。
同时 , 我们在说安全的时候 , 要绝对明确地定义出面对的 “威胁攻击” 的假设是什么 , 以及是怎么样的攻击 。 我们从教科书里面学到的是 , 这个攻击可以是半诚实的、恶意的、好奇的等 。 但是 , 我们一定要明确隐私计算和联邦学习系统所在的环境以及它可能受到的攻击到底是什么 。
我在下图(右)列了两个极端 , 一个叫拜占庭式攻击 , 即某个参与者其实是坏人 , 或者部分时间是坏人 , 但混在参与者当中 。 还有一种攻击就像《三体》中水滴一样完全无法防御 , 这叫灾难式攻击(catastrophic threat) , 也叫极端性攻击 。 大部分情况下 , 我们面对的都是拜占庭式攻击 。 在这种攻击下 , 我们要确定自己的隐私保护到底是怎么样的 。
所以 , 隐私保护(P)可以用联邦学习框架、同态加密作为工具 , 也可以用安全屋、安全多方计算的某种计算模式作为工具包 。 如何保护取决于我们的任务到底是什么 。
FATE联邦学习开源社区技术指导委员会主席杨强:重视可信联邦学习
文章图片

总之 , 我们如果要给一个系统(如上图羊到多方吃草)定安全等级 , 绝对不能只看用的是联邦学习还是安全多方计算 。 我们一定要说自己保护的数据 D、威胁模型 T 和保护措施 P 到底是什么 , 在(D , P , T)三者都知道的情况下才可以定级 。 这个是真正的安全概念 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。