GDPR、数据短缺与人工智能

GDPR、数据短缺与人工智能

展开查看详情

1.GDPR、 数据短缺与人工智能 杨强 香港科技大学 微众银行 1

2.人工智能与大数据 ImageNet 多年性能发展趋势(来源:维基 “回顾深度学习时代中不合理的数据有效性。”Google 百科) 研究,2017 年 2

3.1. 大多数应用仅拥有少量数据 • 合同审查律师事务所通常会使用带标注的 10K-20K 份标记合同作为样本 (Bradley Arsenau lt, Electric Brain 2018) • 在金融业,大额贷款并不多见,典型样本仅有大约 100 个 (4paradigm.com, 2017) • 在医疗影像识别中,高质量的标记数据很少(A Survey on Deep Learning in Medical Ima ge Analysis, Geert Litjens, et al.2017 Arxiv.) 3

4.2. 多方数据共享:艰难、不可能或不道德 • 医学临床试验数据无法共享(R. Stegeman 于 2018 年 发表于《遗传学》(Gen emetics)) • 我们的社会要求更严格地控制数据隐私和安全 • GDPR、政府法规 • 企业在安全与保密方面的顾虑 • 数据隐私方面的顾虑 4

5.现实:数据往往表现为孤岛形式 我们的预期:大数据 我们看到的现实:碎片化的数据 5

6.两大挑战和两种解决方案 • 小数据 • 碎片化的数据 迁移学习将通过原 联邦学习涉及到多方协作构建模型 任务/领域获得的学习成果迁移到目标任 务/领域 这两类问题往往同时出现 6

7.迁移学习 7

8.迁移学习模型 8

9.为什么要采用迁移学习? 小数据 9

10.为什么要采用迁移学习:可靠性 领域 1 领域 2 模型 领域 4 领域 3 10

11.为什么要采用迁移学习?个性化 11

12.要迁移的学习成果 研究问题 • 何时迁移 • 如何迁移 • 要迁移什么 • 通过迁移学习掌握学习方法 12

13.迁移学习的要领:找到不变项 在中国大陆驾车 在中国香港特别行政区驾车 13

14.深度模型中的迁移学习 • 目标 ℒ = ℒ源+ ℒ距离 关联层 适应层 源分类 器 源输入 领域距离 最小化 目标 输入 Learning transferable features with deep adaptation networks.M Long, Y Cao, J Wang, MI Jordan. Internation al Conference on Machine Learning (ICML) 2015 14

15.深度模型中的迁移学习 定量研究 ImageNet 不是随机拆分的,而是拆分为 A = {人为类} 和 B = {自然类} [3] 结论:较低层的特征更为通用且可迁移,较高层的特征则更为具体且不可迁移。 15 Yosinski, Jason, et al."How transferable are features in deep neural networks?."NIPS.2014.

16.迁移学习设置 I: • 源领域:充足的标记数据 • 目标领域:无标记数据 • 领域适应 迁移学习设置 II: • 源领域:充足的标记数据 • 目标领域:少量标记数据 • 有监督的迁移学习 16

17.迁移学习设置 I 源领域:充足的标记数据;目标领域:无 标记数据 17

18.舆情分析 评分  单领域解决方案 依赖于充足的标记数据 评分 跨领域解决方案:迁移学习  将舆情分类知识从一个领域迁移到另一个领域 18

19.跨领域特征:共享关键词 (Pivot) 源领域(电影) 目标领域(电子产品) 非常棒的电影。他出演的角色 这款出色的触屏设备手感极好,而 非常迷人,而且体贴入微。 且响应速度很快。 它是取代个人电脑、且非常 这是一部精彩绝伦、发人深省的 轻便的优秀 影片。 产品。 这真是一部糟糕的电影,完全没 它在光线极暗的环境下的显示 有剧情可言, 效果模糊不清。惠普这次 而且乏味无趣。 推出的产品可真是糟糕顶 透。 Domain adaptation with structural correspondence learning, Blitzer et al.EMNLP 2006 19

20. 非常迷人 体贴入微响应 发人深省非 没有剧情可言 乏 速度很快 极好 常轻便 味无趣模糊不 清 电影 1 0 0 0 1 0 0 0 1 培训 y= = (T), = [1, 1, −1] 预测 非常迷人 体贴入微响应 发人深省非 没有剧情可言 乏 速度很快 极好 常轻便 味无趣模糊不 清 1 0 0 电子产品 0 1 0 0 0 1 Sinno Jialin Pan et al.Cross-domain sentiment classification via spectral feature alignment.WWW-10. 20

21.一种对抗式方法 舆情分类 领域分类 领域分类目标: 最大化领域分类错误 源数据 目标数据 电影 源 (S)非常棒的电影。他出演的角色 非常迷人,而且体贴入微。 电子产品 目标 (T) 这款出色的触屏设备手感极 好, 而且响应速度很快。 Li, Zheng, Qiang Yang, et al."End-to-end adversarial memory network for cross-domain sentiment classification.”I JCAI 2017. 21

22.与基准方法比较 传统方法: SCL:《结构化对应学习》[Blitzer 等人,2006 年] SFA:《光谱特征对齐》 [Pan 等人,2010 年] AMN 模型在亚马逊评论数据集上的表现明显优于传统方 法 SFA 和 SCL SFA S CL AM N 22

23. 推荐系统 利用-探索困境 基于 RecSys 的受监督学习 冷启动问题 单一领域 RecSys•很容易卡在局部最优环节, 不断推荐类似的 • 文章。对于新用户、新文章和新领 域的表现不佳。 上下文赌博机算法 • 对于快速发展变化的用户 • 同时利用和探索 • 兴趣不敏感。纯粹的探索式方法造 跨领域 RecSys • 最大化长期累积奖励。 成更糟的短期 CTR。 • 迁移学习利用源 始冷 RecSys 中先前已有的知识开 启动目标 RecSys。 可迁移的 上下文赌博机算法 Transferable Contextual Bandit for Cross-Domain Recommendation, Bo Liu, Yu Zhang, Qiang Yang et al. AAAI18 23

24.迁移学习趋势:利用庞大且经过预先训练的模型  源领域:庞大的标记数据或无标记数据  目标领域:少数标记数据  目标:将模型从源领域迁移到目标领域以处理相同 或不同的任务 源 目标 24

25.源数据规模在迁移学习中意义重大(图)  Dhruv Mahajan, et al.: Exploring the Limits of Weakly Supervised Pretraining.ECCV (2) 2018  “不必借助手动数据集监护或复杂的数据清理,使 用数千个不同主题标签的数十亿 Instagram 图像 训练过的模型也能取得出极佳的迁移学习表现” 107 109 25

26.通过学习迁移实现迁移学习 标记示例 ImageNet 迁移学习 医学书籍 有必要开 展外科手 术 胃炎可以 ImageNet 医学 卫星图 医学影 卫星图像 书籍 像 像 治愈… 领域 大脑 医学影 像 肿瘤是一种 的组成部分包 … 括… 领域 Transfer Learning via Learning to Transfer, Ying Wei, Qiang Yang et al.ICML 2018 26

27.将通过大数据获得的学习成果迁移到小数据 小 数据 小 大数据 数据 小数 据 迁移 27

28.下一个问题:数据支离破碎 28

29. 对人工智能的挑战:数据隐私与机密 Facebook 的数据隐私丑闻 2019 年 1 月 19 日 • 2012 年,美国联邦贸易委员会 (FTC) 因 Google 未能改进隐私做法而对其 处以 2250 万美元罚款,创下了同类 罚款的纪录。 • 《华盛顿邮报》报道,Facebook 的罚 款本应“比这高得多”。 • 超过 5000 万人受此事件影响 • 英国对 Facebook 处以 50 万英镑罚款 • 美国上市公司最严重的一次单日市值下滑,暴跌 1200 亿美元,即 19% 29