ClickHouse in Telecom

下载 11

快召唤伙伴们来围观吧
微博 QQ QQ空间 贴吧
文档嵌入链接
<iframe src="https://www.slidestalk.com/u6/clickhouse_telecom?embed" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
微信扫一扫分享
已成功复制到剪贴板

幸运号

发布于

6年前

4038

人观看

#信息技术

Dataliance工程师介绍在电信业务中使用ClickHouse的经验。电信业务中，数据量巨大，产品类型丰富，如何对PB级别对数据进行近乎实时的多位数据分析，ClickHouse有自己的独门方案，支持MPP架构的SQL查询引擎，在数据存储和压缩上做了特别的处理等优化方法，让性能有了巨大提升。

展开查看详情

1 .Clickhouse in Telecom（From 0 to 1） — Dataliance

2 . 中国电信G网数据分析典型应用场景 多维度的用户行为特征分析对数据业务流量按区域、区域类型、区域场景、业务、终端、SP等多维度进行组合分析，以便掌握用户行为特征丰富的用户行为特征信息自有业务/非自有业务多种维度组合分析业务类别/业务/网站 2G/3G+区域+业务类型+终端网络类型地市/区县/小区运营商+运营商省份+业务类型运营商省份区域场景区域+区域类型/区域场景+业务区域+区域类型/区域场景+终端运营商区域类型区域+自有业务/非自有业务终端类型/终端品牌/终端型号/操作系统 基于用户个体的业务消费模型分析通过业务模型分析、终端业务分析、以及用户区域分析，建立起从业务服务提供端至用户终端的分析手段，再结合经分、BOSS 等系统中的业务信息以及用户信息后，就能够实现基于用户个体的业务消费模型分析，进而达到为市场实现精细化营销的目的用户访问喜好分析用户忠诚度分析海量信息渠道来源分析分析展现业务转化率分析地域来源分析市场营销活动分析

3 . 中国电信G网数据分析总体技术架构应用层用户行为分析质量分析网络安全分析单用户记录 PPP 激活记录网页浏览记录邮件收发记录区域位置信息分析寻呼记录文件下载记录 IP 电话记录域名信息引重定位记录重定位记录 …… …… 擎网络信令记录业务拨测记录业务信令记录号码段信息 ETL层按照业务规则清洗数据，完成各类业务数据的抽取、转化、加载采集层数据捕获会话管理信令解析业务识别 CDR合成网络 BSC CMNET Internet 层 PCU GB/IUPS SGSN GN GGSN GI 手机无线接入网 GPRS WAP网关、彩信中心移动互联网 ISP/CP

4 . 电信级数据处理规模数据处理规模： • Ingesting from 网络基站设备、监控设备、骨干网等数据 • 50 billions Entries, ~700G/Day • 分析后的数据结果可实时呈现在用户分析中心

5 . 基于位置的服务, 网络优化业务拓展用户维系网络优化基于位置的实时营销客户体验管理网络带宽优化 (B2B2C) 基于位置的服务客户情感分析网络信号放大 (B2C, B2B, B2B2C) • 网优 – 例如. 重新路由来电到另外一个基站，如果检测到有网络拥塞存在 • 基于位置的营销 – 匹配点击事件到订阅者资料; 如果匹配说明是位置敏感性广告 • 挑战: 交互式实时控制台 ● 简单的规则 - (CallDroppedCount > threshold) 然后告警目前的查询场景 ● 或者, 复杂 (OLAP 查询) ● TopK, 趋势分析, Join查询, 与历史数据关联需要强大的查询分析引擎

6 . Comparison with Clickhouse and Hadoop Why Choose Clickhouse? Drop Hadoop • Hadoop Cluster has a poor performance , that is too slow to be valid. • Hadoop Cluster is fat. • Cant execute to query data (PB) in real time. Clickhouse • Rich functions • Perfect performance • Structure flat not fat • Flexible way in execution

7 . Clickhouse功能特点与优势数据库内压缩采用了业内领先的压缩技术，提高性能的同时，显著地减少存储数据所需的空间。客户可以将所用空间减少 3-10倍，并提高有效的I/O性能。千万亿字节规模的数据加载操作高性能的并行数据装载器可以在所有节点上同步执行操作，装载速度超过50W条/秒。随地访问数据不管数据的位置、格式或存储介质如何，都可以从数据库向外部数据源执行查询操作，并行向数据库返回数据。动态扩展对数据仓库进行便捷的小规模或大规模扩展，同时避免高成本的设备或SMP服务器升级。集中管理提供集群级管理工具和资源，帮助管理人员像管理一台服务器一样管理整个多维实时分析平台。

8 . G 网大数据平台架构演化 2017+ 2013~2017 Clickhouse+Mongo 2009~2013 Hadoop+MySQL 2000~2009 Greenplum Oracle

9 . Technology Architecture Before Clickhouse Legacy Architecture：Kafka+Storm+Hive+Spark+MySQL Kafka: collect and aggregate data Storm: wrangle data Hive: ad-hot query data Spark: analysis offline Hive Cluster Spark Cluster Kafka Cluster Storm Cluster HDFS Cluster MySQL Cluster

10 . Make a Migration to Clickhouse Speed up ~560X! Elapsed Time 80s -0.3s 放弃 HDFS、Hive、Spark联合解决方案 • 全表扫描慢、数据过滤消耗时间 • 离线分析难以处理大数据量 • 体验不好、速度不快 • 难于支持即席查询分析

11 . Technology Architecture After Clickhouse Zookeeper Nodes • Memory Table • ReplicatedMergeTree Table • Distributed Table ClickHouse 15 nodes Kafka Cluster Mongo Cluster CK Client ClickHouse 15 nodes

12 . Technology Architecture In the furture Zookeeper Nodes • Memory Table • ReplicatedMergeTree Table • Distributed Table ClickHouse Mongo Clus 50 nodes Kafka Cluster Data Synchronizer Write into Storage directly ClickHouse 50 nodes

13 . Technology Architecture In the furture Data Replication BI Application Data Mining User Behaviar Analysis 万兆交换万兆交换 ClickHouse Cluster Parallel Loading

14 .Disaster Recovery in 3 DCs 前置服务器负载均衡器内网核心交换机内网防火墙防火墙 DC1 外网路由 DG CK1 CK2 Zookeeper 外网路由前置服务器负载均衡器数据同步 DC2 防火墙 DC3 内网核心交换机内网防火墙内网防火墙防火墙数据同步外网路由 DG CK1 CK2 Zookeeper 元数据库 DG ClK1 CK2 CK3 CK4 Zookeeper

15 . Need to work • DML SQL(Update , Delete) • SQL99/2003 • Automated Operation Tools • Clickhouse on HDFS(like Hawq)

16 .Kill Hadoop using clickhouse 一只大象拆分后，有价值的东西所剩不多 • Kafka • HDFS • Spark

17 .ClickHouse on AWS 提供 ClickHouse Cloud云服务

18 . Clickhouse On AWS Amazon Amazon Amazon AWS IoT RDS Redshift Kinesis MS SQL MS SQL MySQL DB MySQL instance instance alternate instance instance alternate Oracle DB PIOP Postgre SQL RDS DB instance instance instance RDS DB RDS DB SQL master SQL slave instance standby instance read (multi-AZ) replica

19 . 构建Clickhouse as a service平台自动化按需使用水平扩展安全可靠高可用自动备份

20 .公司招聘: Database kernel developer Clickhouse integration developer 欢迎加入我们

0点赞

1收藏

11下载