NLP在智能投研及量化投 资的应用研究

NLP在智能投研及量化投资的应用研究
展开查看详情

1. ) TC BD NLP在智能投研及量化投 ( 会 资的应用研究 大 术 技 据 赵东岩 数 北京大学计算机研究所/北京大数据研究院NLP实验室 大 2018.12. 8 国 中 18 20

2.背景介绍——什么是文本大数据分析? ) TC BD 对每一篇文档进行语义分析,目标——理解语义 ( 会  主要事件、事实(谁做了什么)——5W1H 大  涉及的实体和实体关系,人、机构、时间、地点、动作、观点、倾向性 术  关联到知识库——李娜,协和号,杜鹃 技  动态更新知识库 据 可以支持基于知识库的智能问答与对话系统 数 基于语义进行查询  没有关键字也可以查到 大 国 中 根据知识关联进行聚合和导航 18  只要提及就可发现 20 2

3.文本大数据分析技术路线图 ) TC BD 基础研究 技术研究 智能应用 ( 智能问答/ 智库系统/ 智能对话系 专业咨询类 知识问答 会 自然语言生成 情报系统 统 机器人 语义搜索 大 自然语言QA APP 语义搜索引擎 术 海量语义数 知识表示与推理 据管理平台 技 语义分析 知识服务 智能问答 信息抽取 API API API 据 语义理解系 观点分析 统 数 信息 语义 知识库 语义 语 语语 篇章分析 大 语义知识库 构建平台 采集 分析 构建 理解 义义 义 国 索 句法分析 语义知识 索索 引 中 语义分析工 知识资源 语义知识 语义知识库 引引 词法分析 具包 创新 库库 18 互联网非结构化数据 社交网络 异构知识信息资源 20 3

4.研究工作之一: 语义挖掘 ) TC BD • 研究内容和研究框架 (  研究内容:如何从开放域网络信息资源中萃取以实体及实体间关系形 会 式存在的知识条目;并据此构建以图模式存储的结构化语义知识库 大  研究路线: 术  开放域半结构化知 技 识抽取与知识库补 据 全 数  非结构化文本的实 大 国 体关系抽取 中  基于大规模知识库 18 的自然语言问答 20

5.研究工作之二:语义理解 ) TC BD • 研究内容 ( 会 • 面向结构化知识资源的语义分析和理解 大  问题:如何有效的表示句子中的语义信息,如何利用多来源的知识回答复杂的问句 术  方法1:综合利用概念、实体识别和语义关 技 系抽取技术,将问句语义表示为实体关系图 据 并利用联合优化技术提高语义表示的准确性  方法2:从结构化知识库关系抽取、开放式 数 文本关系抽取两方面同时抽取规范化的知识 大 库关系和非规范化的文本关系,融合二者来 国 表示问题语义,从而解析更为复杂的问题, 中 扩大覆盖面,提高答案精度 18 20

6.研究工作之三:基于知识库的人机对话技术 ) TC • 领域自适应对话系统 BD • 检索式对话 ( • 生成式对话 会 • 多轮及主动对话技术 大 术 技 据 数 大 国 中 18 20 15

7.文本大数据分析与智能投顾和量化投资 ) TC BD • 机器学习和大数据技术在证券投资领域中广泛应用于智能投顾及 ( 量化投资上,其依赖的信息绝大多数是数值类的信息及结构化的 会 信息。但存在受财报数据发布周期的限制导致的更新不及时等问 大 术 题。现实中,大量的信息存在于文本中,且信息更新更为及时。 技 从应用角度看,目前对这类文本的分析和信息的归纳总结以人工 据 为主,效率低下 数 大 • 研究自然语言处理技术在智能投研及量化投资中的应用,通过文 国 本分析来发现一些内在的经济规律,提取文本类的量化因子,并 中 分析其表现 18 20

8.主要内容 ) TC BD • NLP在智能投研中的应用 ( 会 大 • NLP在量化投资中的应用 术 技 据 数 大 国 中 18 20

9.一、NLP在智能投研的应用 ) TC BD • 关于智能投研 ( 会 • 技术平台 大 • 分析模型 术 技 • 部分结果 据 数 大 国 中 18 20

10.关于智能投研 ) TC BD • 把AI技术、大数据技术应用于投资领域 ( 会 • 价值 大 • 处理海量数据,尤其是文本数据,提高效率 术 • 洞察人所难以发现的潜在因素 技 • 观点形成 据 数 • 进化路径 大 • 从信息服务,到给出观点,再到主动交易 国 • 从辅助决策 走向 决策 中 18 20

11.智能投研的应用场景 ) TC BD ( 辅助投资决策 用于量化投资 会 • 目标人群: • 挖掘量化因子,构建策略,进行自动交易 大 • 投资经理、分析师等 • 数值类因子:已经广泛应用 术 • 个人投资者 • 文本类因子:较为缺少 技 • 带来的价值 • 目标客户 据 • 更好、更快获得信息 • 量化基金、证券公司 数 • 信息更深层、更全面 • 投资机构(保险、银行等) 大 国 中 18 20

12.智能投研-大数据平台框架 ) TC BD 采集整理 基本面 分析挖掘 问题 技术面 ( 机构面 公司信息 资讯 会 观点 高管信息 深度学习 推荐 大 术 公告 自然语言处理 技 知识库 图文答复 研报 据 文本挖掘 数 股价 智能投研助理 财报 数据库 大 知识发现 国 新闻 知识关联 中 策略及模型 18 评论数据 20 文本量化因子 大数据采集分析处理平台 量化平台

13.智能投研-大数据平台整合多源数据 ) TC BD ( 数据收集、整理 分析挖掘 会 大 • 公司、人员、行业、产品、知识产权 • 挖掘行业、板块、个股之间的关联关 术 • 基本信息、财务数据、股价信息,及 系,传导效应,轮动效应 技 周边数据(大宗商品价格等) • 数据模型与时间序列 据 • 事件及关系(如投融资、并购重组、 • 事件模型,跟踪及因果关系分析 数 产品及项目、诉讼) 大 • 预测模型 国 • 个股、板块、行业、上下游 中 • 包括文本类、数值类的信息 18 20

14.数据情况-上市公司 ) TC BD • 3300多家基本信息及9万多名高管 ( • 200多万公告(含年报、季报),回溯至IPO,其中包含了历年(季)的财 会 务数据 大 • 50万研究报告(公司研究、行业研究、宏观研究、投资策略) 术 • 二级市场交易数据(实时股价、近7年的历史量价信息500万条),行业指 技 数 据 • 130万会议议案,挖掘7类共3万多条事件(提供担保、申请额度、签订协议、 数 使用资金、设立公司、收购股权、开展业务) 大 • 公司行业、主营产品、主营地区,行业上下游关系、板块信息 国 • 财经资讯:30多万,含多年的公司资讯18万 中 18 • 可扩展:工商登记,股东,涉诉,人事、知识产权,行业专业数据等 20

15.智能投研-一些分析和模型 ) TC BD ( 产业链分析 经济事件及影响推测 研报评价 财报的解读 文本类量化因子 会 • 通过构造上下游产业 • 基于金融知识图谱和 • 研报分析回溯及结果 • 分析提取财报的核心 • 基于文本的量化因子 大 链知识图谱,基于经 推理逻辑,找到未来 跟踪 要素 发现及因子有效性评 术 济基本面建立传导模 趋势的变化或者解释 • 对研报(按人、机构) • 针对不同的关注点给 价 技 型 已经发生过的事情 的正确率进行第三方 出相应的解读 • 当产业链中重要节点 • 如:行业中发生某一 评价 据 的状态发生变化时, 事件时,可沿产业链 数 将启动沿产业链传导 向上游进行传导推理, 推理引擎,自动给出 大 并生成分析影响报告 国 影响范围、对象和程 度,为事件引发的基 中 本面分析做支持 18 20

16.知识图谱示例:公司、产品、行业、地区,会议及决议 ) TC BD ( 会 大 术 技 据 数 大 国 中 18 竞争关系 20

17.知识图谱示例:高管及公司的关联关系 ) TC BD ( 会 大 术 个别跳槽? 技 据 数 大 国 中 18 20 关联公司?

18. 公司、行业 ) 上下游关系 TC BD ( 会 大 电力生产 术 煤炭开采 电力供应 技 水泥制造 据 黑色金属冶炼和压延加工业 数 房地产开发经营 物业管理 大 国 房地产中介服务 中 18 20 可分析重大经济事件在产业链的传播和影响情况

19.行业相关性分析 ) 使用多种文本相似性分析及数值分析方法 TC BD ( 计算机、通信和其他电子设备制造业 软件和信息技术服务业 仪器仪表制造 会 互联网和相关服务 大 术 技 据 数 大 国 中 18 20

20.行业相关性分析(部分行业指数) ) TC BD • 指数涨跌,扣除大盘影响 ( 会 • 银行与软件存在较弱的负相 大 关 术 • 银行与商业百货的负相关较 为明显 技 • 房地产与软件服务独立性强 据 • 房地产商业百货存弱正相关 数 • 软件服务与商业百货较强正 大 相关 国 • 轮动效应 中 18 20

21.板块相关性分析 ) 使用数值分析方法(历史股价信息) TC BD 雄安新区 京津冀 ( 保障房 会 大 术 基金重仓 保险重仓 技 信托重仓 据 数 大 国 中 18 20

22.证券分析师第三方评价 ) TC BD • 分析师的公司研报中公司 ( eps预测值与实际值偏差的 会 回溯验证分析 大 • 近三年行业内报告数量为 术 Top10的分析师中 技 • 以12个月内的预测偏差平 据 均值、标准偏差,及报告 数 数量加权形成指数 大 • 按行业内指数排名选出各 国 行业的三甲分析师 中 • 与部分媒体评选的2016最佳 18 分析师的对比 20 新财富2016最佳分析师 第一财经2016最佳分析师

23.20 18 中 国 大 数 据 技 术 大 会 ( BD TC ) 智投研:基于人机对话的智能投研助手

24.二、 NLP在量化投资中的应用 ) TC BD • 关于量化因子 ( 会 大 • 舆情因子及特性 术 技 据 • 基于舆情因子的量化策略 数 大 国 中 18 20

25.1、现实中的量化因子 ) TC BD ( 常见的量化因子 反应的因素 计算的数据源 局限性 会 • 价值因子(PB,PE等) • 宏观周期 • 来源于定期报告,在 • 自变量很少 大 • 市场因子(涨幅,换手率 • 市场结构 一个时间内不发生变 • 尤其是缺少能反应中 术 等) 化,滞后性 短期的影响的有效因 • 估值 技 • 基本面因子(资产负债 • 宏观经济数据:全局 子 • 成长 据 率,流动比率等) 性,滞后性 • 盈利质量 数 • 成长因子(净利润增长 • 来源于市场交易,如 • 分析师盈利预测 率,主营利润增长率等) 大 • 市场情绪 价格、涨幅、换手率 国 等,随时变化,是一 个结果 中 • 常量+结果变量的组合 18 20

26.文本类因子的特点和意义 ) TC BD • 丰富性: ( • 来源:公告、第三方研究报告、资讯、股民情绪、评论等 会 • 大量的信息是用文本来表达的 大 • 及时性: 术 • 公司的很多基本面数据随季报而发表,之后相当长的时间内不再变化 技 • 市场价格信息,反应了即时的结果,很难归因 据 • 多类别: 数 • 舆情、情绪、事件、主题 • 多层次: 大 国 • 宏观经济、行业、个股 中 18 • 可以作为现有因子的有益补充,丰富策略选择 20

27.文本类因子分类 ) TC BD ( 舆情类 情绪类 事件类 主题类 会 • 基于新闻资讯,能反 • 基于股民评论信息, • 特殊的经济事件、公 • 基于概念、主题、板 大 应中短期的企业、所 提取情绪类因子 司事件,从历史同类 块的多种事件的组合 术 在行业、宏观经济的 • 信息来源:股民的评 事件中获取反应模型 • 独立于行业、公司之 技 情况 论 • 数据来源:公告、资 外的一种类别体系 据 • 信息来源:各类资讯 • 可作用于大盘指数、 讯 • 作用于一组股票 数 (公司新闻、产业新 个股 • 可作用于大盘指数、 闻、宏观经济等信息) 大 行业指数、及个股 国 • 可作用于大盘指数、 中 行业指数、及个股 18 20

28.新闻正负向与股价相对行业趋势分析 ) TC BD • 通过公司相关新闻当日的股市 相对行业的涨跌,作为其正负 ( 向标签 会 • 基于历史数据学习后的模型, 对新闻标签 利好、利空、中性 大 术 技 • 预测涨跌与实际K线对比 • 红色:利好 据 • 绿色:利空 数 大 • 基于新闻正负向的股票推荐 国 • 2017.11.1-2018.4.30推荐股票 中 • 65%的股票相对所在行业上涨 • 当日平均涨幅0.8% 18 20

29.基于正负向因子构建的量化策略表现 ) TC BD ( 会 大 术 技 据 数 大 国 中 18 20 选 hs300及zz500作为股票池,对比的基准为 hs300 及 zz500 低贝塔值的策略,相对基准超额收益:40+%