Spark中最基本却易被忽略的若干坑 - 汪涵

发布于

340

人观看

Apache Spark是最强大最流行的大数据处理工作之一。网上和各种会议都会介绍大量成功案例，动辄PB级数据，或者通过改造核心部件达到十倍百倍提速。我们为这些成就欢欣鼓舞，然而对于大部分实践者来说，最关键的还是怎样有效并且正确利用Spark的基本功能。在实际工作中，我们发现很多Spark工作流只需简单改动便可产生巨大的速度和稳定性提升，这是因为大量的Spark使用者都被简明易用的教程蒙蔽了，不知不觉踩了很多坑，然后在大数据上这些错误又被进一步放大，最终可能导致整个项目都不能推进。
因此，我总结了若干基本却又反复被踩的隐蔽大坑。当你注意到它们的时候，其实非常容易重现也非常容易避免。在此讲座中每一个问题将被现场重现并解决。我希望听众可以从此讲座得到三点启发：

避免这里提及的问题。
回归根本，遇到新问题首先自省基本思路和基本逻辑而不是去找更玄妙的解决方案。
明白Spark的设计并不完美，不要迷信，也不要丧失信心。

2点赞

2收藏

0下载