工业大数据 Spark查询优化案例分享

本次主要分享上汽集团对于Spark查询的优化思路。大数据量的精确查询是我们经常遇到的一类场景。为了解决此类问题,我们做了诸多实践。实践思路主要分为两类,一类主要着眼于物理层面,主要为了缩小数据源的范围,有些甚至可以做到精确定位。另一类主要着眼于查询计划的优化,在使用Spark CBO的同时,我们探索并实现了一些特定case的聚合函数下推。相信对有类似需求的工程师们会有所帮助。
展开查看详情

1. F B : H .. /

2. / 1 42 03 42 1 / .

3. 01 . . / : B

4. 1 . 1 / / SN N 4 . / 4e AdTBQ / 4g b H H / 4g / e 4 . NQ L H . 4 H T / 4 c g / 4g . PR a ./ :

5., 1 / , ,/ .

6. - 1 - AB C BB D D: :I D: 9 2 9 5 1 59 -D GD kQSU WaJ B D: h L D O p : t J j x uJ p C 575 1 59 r s( S J D B: CTdVl- B S - B P lWaJy e Jz - )Wa v D HCDJz o m /f . CD J z j ng j P B D: t f D B:I D: t c /- f/- i C t b DD C B

7. > / / 1 , / , / . next() tuple , next() tuple : > 1 1

8. . /. : F JH CPU B J J C + + /

9./ * = /- / . /. 0 )( 1 : /

10. /- / . /. : /

11. C / / ./ / / • 1/ C un H • C So hGIBU i W lIB i b • dMC r J a C W P a gD hv ts g De h / p - / :

12. /: : • Dh : iCh : :/ • / 1 G g Pba ( • H U O V M ) U S O V B cIed :: .

13. 02 /. : / / .

14. t uBa p g F : e p rH uB / /s b o H r /s h .

15. 03 : . / / B: D

16. : .0 :4 : Sd Mg E s / D p Tb u u I O • b T • i • b z • m ecO naH BR 0 hoLtr :: 0

17. .. : 0 . : 3 : l n H mT r h D g Q u c c IU M Se / • m . i S n u • a p sz ./ L . • mb Hr tSk tz R E . do O B4 4/. :

18. :/ 4 4 4 3 j Om z R s 40 E h M ig P ur a r a B HS r L e / • p • . • dnt o bI c DT dn . :

19. / : brnu tB I Q Q br n nQ m s q o Op i 3 h Lzh D : UFa Q Oa S e : p bx Q o sDHb : Q a Q O B Pc : Pcg B k / / . :

20. / . : . / .

21. = / . ) 1 3( / 13 3 . 3 /( / 10 (3 / 3 2/ 1 1( / 10 (3 / 3 (1( 3 /( / 13 / 10 (3 3 /( / 13 / 10 (3 1..3 3 /( 3 /( : . / .

22. / . select count(*) from t_item where type = 3 2 10.6 8.9 9.1 8.4 8 7.4 7 7.2 6.7 5.9 6 4.3 4 4 3.7 3 2.5 2.7 2 1.6 1 2 3 4 5 6 7 8 9 10 RDBMS parquet : . / .

23. . . .. /

24. . . .. /

25. / . . : // .

26. 04 - . / - H : B

27. ( / / (/ • SO O : C : J • / B : . H ( . .)( -

28. / )( - /. • / 3 - / / - / / - / - / ): ) /

29. ( /2/ ( / • ( 1 ) : B ( (1 O CH ( . .)( - :

为了让众多HBase相关从业人员及爱好者有一个自由交流HBase相关技术的社区,阿里巴巴、小米、华为、网易、京东、滴滴、知乎等公司的HBase技术研究人员共同发起了组建中国HBase技术社区。
关注他