Move data into HDFS. 3. Develop code locally. 4. Submit MapReduce job. 4a. Go back to Step 3. 5. Move data out of HDFS. 6. Scp data from ...

小二郎发布于2009/01/31 00:05

注脚

user picture
  • 小二郎
  • Apparently, this user prefers to keep an air of mystery about them.

相关Slides

  • 介绍了Alluxio在唯品会大数据平台中准实时数据项目(商品销售归因)中的实践。包括 - 使用Spark/Hive+Alluxio搭建的处理准实时数据的架构 - 唯品会对Alluxio 监控、限流及多备份方面的增强 - 未来对Alluxio功能的规划 本slides是2018年7月广州的Alluxio meetup上有唯品会大数据工程师冯荆平所演讲

  • 分布式计算系统平台是将一系列用计算机网络相连接通信的,独立计算的模式和组件,集成到一个统一的平台,展现给用户的是一个完整的独立计算平台。本文介绍分布式计算平台的基本概念和不同计算模式,并对当前最为流行的Apache Spark / Hadoop原理做深入分享。

  • 这是2018年8月在京东举办的Alluxio meetup上,阎志涛做的关于Alluxio在TalkingData在TalkingData产品线上,包括数据智能市场, 营销云,数据科学平台等一系列场景下的应用。

  • Thumbnail

    Confluo

    献良 134 次浏览

    Confluo是一个用于实时监控和分时数据流的分布式系统,它有三个比较大的特点: 1)高吞吐量,多数据流并发写; 2)微秒级的在线数据查询; 3)即席查询消耗CPU资源足够小; 其核心技术是基于一个新的数据结构-Atomic MultiLog, 这个数据结构会在一个原子操作中,高效的更新一组并发日志数据而不需要引入线程锁。Confluo利用Atomic MultiLogs来存储,聚合和物化视图。由于有高吞吐和对硬件资源消耗较少这样的特性,因此,Confluo可以支持大量的实时流式数据处理应用场景,包括网络监控诊断工具以及到时序数据库应用等。