大数据平台服务构建之务虚心得

来自51信用卡数据平台技术总监,以过去几年工作经验中大数据平台服务化的经验,介绍互联网公司大数据平台建设中,完成上层应用服务支撑和产品平台化两个看似矛盾但是又统一的命题,介绍了自己的一些心得和体会。
展开查看详情

1.大数据平台服务构建 - 之务虚心得 刘旭晖 @51 信用卡 colorant@ 微信

2.自我介绍 职业经历 传统夕阳行业 : Delphi – 系统工程师 民营消费电子: LongCheer – 智能手机部 合伙创业失败: woojoy – 全栈打杂 老牌过气外企: Intel – 开源技术中心 顶级二流电商:蘑菇街 – 大数据基础架构 上市腰斩互金: 51 信用卡 – 数据技术 爱好 多变,擅长从入门到放弃 “ 大数据务虚杂谈” “望月的蚂蚁”

3.今天讲什么?

4.大数据平台基本架构组成 ? 那么,各 家 公司 的 大 数据平台看起来都没啥 本质 区别 ? 无差别套用一下: H 公司 Hadoop 发行版套件图

5.现实问题和价值

6.数据 平台的用户需要什么服务 客服 + 资源 顾问 + 专家 管家 + 保姆

7.大数据平台的建设目标 ? 赋能 + 伙伴

8.四个现代化 指导方针

9.组件工具化

10.工具平台化

11.平台服务化

12.平台产品化 但是上面这些 都没用! 领导最终只关心你的价值产出 :- )

13.构建数据平台服务 的两条路径

14.Look inside

15.数据采集链路 实际实现,可 繁可简 scp , ftp , script , python/java Flume , kafka datax , sqoop ELK 但是,如果你希望构建一个稳定可靠,用户友好的系统? 数据质量问题 传输采集问题 分发传输问题 系统维护代价问题 业务价值问题 易用性问题

16.用户行为埋点和分析 前端埋点系统 Tracking 方案? 手动,自动? 规划,管理,测试,跟踪? 数据存储,加工和处理 版本?渠道?活动? 安卓 /IOS/H5/ 小程序? 离线,实时? 数据展现 日志?报表?漏斗?链路? 产品形态 Google analytics Growing IO / Talking Data 这些工作 用户关心哪部分?

17.作业调度系统 大数据平台运转的枢纽组件 看似简单的一个系统 有大量的开源实现,为什么还要自己做? 真正做(用)得好的公司也没有几家, why ?

18.问题 关键路径执行情况,报警策略? 任务变更操作纪录?异常行为监测? 配额负载分析? 流量 分配,优先级管控? 错误原因分析,任务性能诊断, 数据质量监测? 这么多东西,谁来关注?怎么关注?如何关注得过来?

19.大数据集成开发环境 大 数据 集成 开发 环境 所 提供的主要服务,在用户看来, 当然就是让他能够在写代码 ,然后运 行 所以不就是一个 web IDE 开发界面么,这有何难? 但是还是有很多公司连这个都没有(做不到) 开源: HUE ,公有云:数加, DataWorks ; TDF , TBDS 所 提供的服务,需要贯穿大数据处理链 路的全过程 包括数据 的采集,计算,管理,查询, 展示等环节 代码编辑器仅仅 是支持其中部分环节所 需要的服务之一 串联各个系统, 为用户提供一站式服务 水平的 高低, 体现在各种组 件融合的顺畅 程度 理想状态: 用户对底层系统 的完全无感知

20.开发平台建设 / 管理维度

21.背锅心得 说好不打脸!

22.君子喻于义 : “真心”服务用户 别让用户 思考,别让用户 有挫败感! 不要对用户做任何知识假定 把饭喂到用户嘴里 提供差异化 , 阶梯式产品服务 面对现实,没有万能的产品 构建反馈式服务 比起响应迟钝的系统,更让人崩溃的,是压根没有响应的系统 确保你 的产品,可持续改进 光有决心和能力,往往是不够 的 ,你需要反馈和数据

23.小人喻于利:不怕谈论利益(价值) 主动思考,勇于放弃 我们 经常 讨论的是,“是什么,怎么做,能不能做” 很少考虑 “为什么要做?做 点 别是 不是收益更高? ” 没有经验,找 不到 价值点,不知道如何评估收益怎么办 ? 问题驱动 ( 不是 bug 驱动 ) 必要的约定 权益和责任的对等 服务好不等同于单方面承诺,需要共同保障 开放的心态

24.取舍平衡 求逼格还是求实效 不怕 low ,就 怕不知道 Low 甚至可以是一种主动选择 方向比逼格更重要 求发展还是求稳定 问题导向 面子怎么办? 技术驱动还是业务驱动? 劳逸结合 因人施教 换位思考

25.Never Stop

26.大数据相关建设 - 经验对比 & 观察 工作过的公司 Intel 蘑菇街 v.s . 美丽说 51 信用卡 PK 过(中)的平台 / 产品 腾讯云 Growing IO Tableau/ 永洪 交流过 / 了解过的公司 / 平台 关于体系,产品, 路径等观察 个人观点,不便成文 口述,不留证据 

27.王婆卖瓜 《 大数据平台基础架构指南 》 https:// item.jd.com/12385129.html

28.多卖两句 编辑说, 销量感人呀。。。能 不能推一 把好快点再版呢 ? 出书前就 有心理准备,这不是一本入门扫盲的书,销量一定 不行 纯务虚,没有代码解读,没有 hdfs / hive / hbase / spark / flink 组件 介绍 ,没有算法, 没有机器学习, 甚至连系统架构 图都没有几 张。可以说是完全没有大众喜闻乐见的干货的  不能入门,没有干货,那有什么? 大数据平台整体产品规划和真实的实践经验, 相信是你在其它途径基本都找不到的内容,官网有的,别人写过的,时效性强的,容易过时的,坚决不写。 着急的编辑比我会说

29.Question ? 刘旭晖 @51 信用卡 colorant@ 微 信 : 彩色蚂蚁