TakingData 马骥 - 《2018,你不知道的黑科技》

在Web技术发展的近20年来,有高潮也有低谷。当遇到瓶颈时,必须要用创新的思路及想法去解决,才能形成突破。在大会次日的“技术创新与前沿应用专场”中,TalkingData研发副总裁马骥以《2018,你不知道的前端黑科技》为主题,分享TalkingData近几年在大数据Web开发中一些创新和突破,包括绘制百万行的数据表格、位置大数据地图矢量绘制、Web端数据科学实践及Web端并行计算框架设计。
展开查看详情

1.《2018,你不知道的前端黑科技》 演讲者/TakingData 马骥

2.目录: • TalkingData简介 • 绘制百万行的数据表格 • web端数据科学实践 • 自动化配色 • 异常数据检测 • 基于密度的离群点检测 • web端并行计算架构设计

3. TalkingData介绍 60亿 2.5亿 6.5亿 累计设备 日活设备 月活设备 #1 覆盖体量 Device Coverage Daily Active Devices Monthly Active Devices 14T 34亿 370亿 每天新增数据 每天交互会话 每天处理事件 Daily Ingested Data Daily Sessions Daily Events #2 数据吞吐 80个 3,000个 400万 4,200万 城市 商城 WIFI指纹 位置信息 #3 线下采集 Cities Shopping Malls WIFI Fingerprints Points Of Interest 12大类,800+个标签 #4 标签体系 Partner Ecosystem 人口统计学 金融 地产 零售 医疗 政府 航空 酒店 汽车 广告 #5 合作伙伴

4.绘制百万行的数据表格

5.绘制百万行的数据表格-有图有真相

6.绘制百万行的数据表格

7.绘制百万行的数据表格 • getter和setter惹的祸 • 扩展对象Object.preventExtensions(obj) • 密封对象Object.seal(obj) • 冻结对象Object.freeze(obj)

8.web端数据科学实践-自动化配色

9.web端数据科学实践-自动化配色

10.web端数据科学实践-自动化配色 • 数据形态强相关(分布和趋势) • 四分位识别 • 色谱面积等分点模型

11.web端数据科学实践-异常数据检测 • 空值、类型检测 • 数值类型箱线图检测

12.web端数据科学实践-异常数据检测 • 位置数据基于密度的离群点检测 • 用视觉直观的感受一下,对于C1集合的点,整体间距,密度,分散情 况较为均匀一致,可以认为是同一簇;对于C2集合的点,同样可认为 是一簇。o1、o2点相对孤立,可以认为是异常点或离散点。

13.web端数据科学实践-异常数据检测 • 位置数据基于密度的离群点检测LOF LOF算法,主要是通过比较每个点p和其邻域点 的密度来判断该点是否为异常点,如果点p的密 度越低,越可能被认定是异常点。至于密度, 是通过点之间的距离来计算的,点之间距离越 远,密度越低,距离越近,密度越高,完全符 合我们的理解。

14.大数据下数据可视化的挑战-小结 • 业务逻辑上移 • 数据科学算法模型的支持 • 大数据量浏览器渲染 • 大数据量计算性能

15.地图可视化传统的架构图

16.地图可视化架构图 • 前后端协同 • 提升Client端计算能力 • 降低Server服务压力 • 成本优势

17.地图可视化架构图

18.地图可视化架构图

19.