- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
密码学与机器学习隐私保护
议题介绍
机器学习数据的隐私已经得到广泛的关注。由于数据的分散和数据隐私的问题为数据建模带来了极大的困难。密码学是解决数据隐私的一门学科,当前学术界和产业界都在积极的通过密码学来解决机器学习中的隐私保护问题。本次分享将介绍基于 TensorFlow 打造的隐私 AI 框架 Rosetta 的最新研发进展,包括如何实现在多源数据集上进行安全的大规模AI模型训练和预测、如何将密码学算法无缝快速的集成到TF框架中等。
讲师介绍
谢翔,中国科学院软件研究所理论密码学博士,矩阵元技术有限公司算法科学家。全面负责矩阵元公司安全与密码算法的研发工作。在密码学的顶尖学术会议Eurocrypt,CCS,Usenix Security,Asiacrypt,PKC等发表多篇论文。相关成果均已转化成公司新产品、新技术,并先后申请了42项专利。
展开查看详情
1 .
2 .Rosetta:密码学与⼈⼯智能隐私保护 隐私计算让数据安全的流动 矩阵元
3 .数据的现状与挑战 全球大数据市场规模 560亿美元 全球2019年数据量 每天与数据互动 需保护数据占比 2019全球信息泄露 我国大数据产业规模 41ZB 50亿消费者 67% 79.96亿条 6605.8亿元 全球2020年数据量 每天互动次数 未得到保护数据 国内个人信息泄露 50.5ZB 601次 35% 55.3亿条 例:企业财务数据、个人身份信 息、医疗记录 • 部分数据来源于IDC、Seagate、Statista estimates,未注明均表示为2020年数据
4 .隐私数据泄露事件 推特遭⿊客⼊侵 丹麦公民个⼈可识别号泄露 雅诗兰黛4.4亿条⽤户数据泄露 新浪微博⽤户数据泄露 加拿⼤1500万公民个⼈信息泄露 圆通员⼯泄密40多万条个⼈信息
5 .AI⾯临的数据隐私痛点 数据多样性 - 多样化的数据提升模型精度 - 数据归集到本地进⾏训练 数据隐私性 - 数据作为核⼼资产不能明⽂共享 - 数据共享后价值降低
6 .隐私计算(Privacy-Preserving Computation) • 隐私计算是保证数据在使⽤和融合过程中隐私的综合性技术 • 包括密码学,联邦学习,可信执⾏环境 技术方向 主要特点 主要优势 主要劣势 需要信任硬件⼚商; 可信执⾏环境 硬件安全“⻜地” 性能⾼效,容易切换 ⽬前计算、存储能⼒有限 (TEE) 联邦学习 相对⾼效,分布式机器学习 “数据不动模型动” 安全性没有得到充分研究 (Federated Learning) 的延伸 密码学 相对⾼效,能够适配各类场景 具有⼀定性能瓶颈,使⽤和 可证明安全 (Cryptography) 以及安全需求 理解⻔槛较⾼
7 .密码学 • 同态加密 • 安全多⽅计算 • 零知识证明 Homomorphic Encryption, HE Secure Multi-Party Computation, MPC Zero-Knowledge Proof, ZKP
8 .安全多⽅计算(MPC) • 由图灵奖获得者、中国科学院院⼠姚期智先⽣于1982年提出 • 多个参与⽅在不泄露隐私数据的前提下,进⾏协同计算 • 密码学理论上可以针对所有的函数f进⾏MPC计算 • 如果f是⼀个模型训练的过程则是分布式联合训练
9 .安全多⽅计算—联合建模 • 在保护各⽅数据隐私的前提下,实现多⽅数据的联合建模 解决的问题: • 多个机构之间拥有不同类型的数据,在不泄露 各⾃输⼊数据的情况下,共同建⽴同⼀个AI模 型。
10 .安全多⽅计算—联合预测 • 在保护数据和模型的隐私下,实现数据和模型的联合预测 解决的问题: • 预测服务结束后,⽤户只会获得预测结果,不 知道模型的信息,且服务器不会得到数据。
11 .安全多⽅计算在⼈⼯智能⽅向的进展 • 安全多⽅计算与⼈⼯智能结合⼀直是密码学⾮常活跃的领域 • 算法种类较多,针对不同的安全模型、AI模型和场景
12 .安全多⽅计算技术:秘密分享(secret sharing) 基本思想:计算过程中所有中间值都是分享在参与⽅之间的 随机数 随机数 share share share share
13 .安全多⽅计算技术:秘密分享(secret sharing) 可以在不同的操作上进⾏复合,进⽽对所有的函数都可计算 z0 z1 z0 z1 z0 + z1 = (x0 + x1) + (y0 + y1) z0 + z1 = (x0 + x1) * (y0 + y1)
14 .同态加密(HE) • 在密⽂操作下能对明⽂进⾏f操作,f可以是任何⽅式
15 .同态加密(HE):爱丽丝的珠宝 ① ② ③ ④ * 动画参考Shai Halevi的ppt
16 .同态加密在⼈⼯智能中的应⽤案例 • 2020年,IBM利⽤银⾏实时数据对全同态技术和机器学习模型的结合进⾏了实地试验。
17 .同态加密在⼈⼯智能中的应⽤案例 • 2009 年 Craig Gentry 提出了第⼀个全同态加密⽅案。当前⽐较成熟的是第⼆代、第三代全同态。 • 性能的优化可以分为如下两种: ① 软件:结合其他密码学协议(如:安全多⽅计算)或与常⽤开发框架(如:Tensorflow)集成; ② 硬件:GPU/FPGA加速,是短期内应⽤落地的研究趋势。 全球技术实现 • HELib (IBM) • SEAL (Microsoft) • Palisade(Duality) • Concrete(Zama)
18 .零知识证明(ZKP) • 由Goldwasser, Micali, Rackhoff与1989年提出 我知道⼀个秘密,不 能告诉你,但是我可 以证明我知道 证明者 验证者 我可以验证你说的对, 但是我不知道秘密 • 可以证明知道某个复杂⽅程的解 • 可以证明该模型是由⾃⼰的隐私数据训练⽽成的
19 .零知识证明(ZKP):阿⾥巴巴洞⽳ Alice 随机的找⼀个⽅向 Bob随机的挑⼀个⽅向A,希望Alice从A⼜出来 如果Alice从A⼜出来了,就认可 整个过程重复100次,如果每次Alice都正确,则相信Alice拥有门的钥匙
20 .⼈⼯智能模型遭受的攻击 • ⼈⼯智能算法的⿊盒特性,导致很难判断模型结果的真实。 • 零知识证明可以让验证者在不获得模型信息的同时,证明模型的准确性和预测结果的正确性。 • 在对熊猫图像进⾏部分⼲扰后,深度学习模型错将其认成长臂猿。
21 .漏洞发现奖励机制 • 在漏洞发现奖励机制中,⽩帽可以证明模型漏洞的存在,但不披露具体的漏洞。
22 .零知识证明在⼈⼯智能中的进展 • 近两年算法和⼯程化上有了极⼤的突破 • 算法种类较多,不同的算法适⽤于不同的模型和场景 • 证明长度短 • 验证时间段 • 内存消耗⼩ • ⽣成证明时间长 • 证明长度较长 • 内存消耗⼤ • 交互性的协议,⽹络要求较⾼
23 .零知识证明在⼈⼯智能中的进展 • 近两年算法和⼯程化上有了极⼤的突破 • 算法种类较多,不同的算法适⽤于不同的模型和场景 • 证明长度短 • 验证时间段 • 内存消耗⼩ • ⽣成证明时间长 • 证明长度较长 • 内存消耗⼤ • 交互性的协议,⽹络要求较⾼
24 . Mystique:针对机器学习的ZKP算法 • ⽬前唯⼀可以⽀持超过100层模型的推断的ZKP算法 • 已经集成到Rosetta框架中,可以按需使⽤OP组装模型 • 内存消耗在12GB左右,其中⼤部分是Tensorflow的消耗 • Rosetta的框架损耗占⽐为5%-10%左右
25 . zkCNN:针对机器学习的ZKP算法 • zkCNN: Zero Knowledge Proofs for Convolutional Neural Network Predictions and Accuracy, Tianyi Liu and Xiang Xie and Yupeng Zhang, In eprint 2021/673 • 采⽤GKR协议中sumcheck的⽅法 • 对FFT/NTT的证明做了⼤量优化 • 证明长度和验证时间⾮常短 • 内存消耗较⼤,128GB左右 • 正在集成到Rosetta中
26 . ⾯临的挑战 密码学算法较为复杂,学习门槛较⾼ 如何让没有密码学背景的⼈也可以⽅便的使⽤隐私计算技术? 如何让AI开发者在尽可能不改变开发习惯的前提下开发隐私AI的应⽤? 基于密码学的隐私 熟悉机器学习/深度 计算技术 学习技术及框架的 (MPC, HE, ZK) 专家和开发者
27 .Rosetta • 以商⽤为⽬的,⽀持主流的AI框架,以TensorFlow为主 • 以AI⼯程师为⽬标⼈群,可以快速⽆门槛的从传统模式切换为隐私计算的模式 • ⽀持多种隐私计算技术,保持算法性能,并可按需进⾏配置
28 .Rosetta的特点 丰富的基础隐私算⼦和数据处理接⼝; 易⽤性 ⾃动算⼦转换; ⽀持密⽂算⼦的⾃动反向求导; 兼容TensorFlow⾃身对于图动态执⾏时的各种并⾏优化; ⾼效性 保持底层算法的C/C++实现 定制化改造前沿密码学协议; 可快速集成新的密码协议; 可扩展性 ⽀持模型保存形式、安全协议精度等的可配置化; ⽀持安全协议中使⽤⾃定义格式密⽂类型(如128-bit);
29 .Rosetta的基本⽤法:A Toy Example Hello Rosetta! 1. Import rosetta, 选择MPC算法 2. 处理私有数据 3. 完全复⽤TensorFlow接⼜!