我的生活记录

Hadoop大数据技术体系读书笔记之一

1 Hadoop与Spark开源大数据技术栈

目前开源社区已经积累了比较完善的大数据技术栈,应用最广泛的是以Hadoop与Spark为核心的生态系统。整个大数据技术栈涉及以下五个层级:数据收集、数据存储、资源管理与服务协调、计算引擎和数据分析。

1.1 数据收集层

1.2 数据存储层

1.3 资源管理与服务协调

1.4 计算引擎层

1.5 数据分析层

# 2 Hadoop与Spark版本选择

各个发行版之间同一系统对外使用方式和接口完全兼容,不同之处在于他们引入了不同系统解决某个场景的问题,比如CDH选择Impala解决交互式分析问题,而HDP选择Hive On Tez.
CDH引入了Cloudera Navigator和Sentry解决安全问题,而HDP则使用Ranger和Hnox。另外,他们均提供了个性化的语文内和管理工具。

3 Hadoop与Spark按照部署

目前Hadoop与Spark存在2种安装方式:人工部署和自动化部署。其中人工部署用于个人学习、测试或者小规模生产集群,而自动化部署则使用于线上大中规模部署。

当前页面是本站的「Google AMP」版。查看和发表评论请点击:完整版 »