Hadoop

Hadoop

By  LaertesCTB

Hadoop 是大数据业界标准 The De Facto Standard

   

Hadoop 介绍

Hadoop 是一项重要的云计算技术,事实上它是处理和查询海量数据(Big Data 大数据)的业界标准,具有传统系统不具备的关键核心优势,它的一项重要概念是采用标准硬件进行分布式数据处理 (distributed processing)。Hadoop 集群 可以从一台服务器上快速地扩展到成千上万台计算机,每台服务器提供分布式处理数据处理和存储,快速地扩展计算能力并最符合成本效益,有效地解决存储和处理大数据时的困难。

关键核心优势:     

  • Highly fault tolerance 高容错
  • Built-in scalability 内置扩展 
  • Built-in load-balancing  内置负载均衡 
  • Automatic failover 自动故障转移
  • Complete Set of Big Data Tools 完整的大数据工具集

Hadoop 不需要依靠硬件提供高可用性,而用集群的力量提供高可用性,Hadoop 包括以下特殊的運算技術:

  •  Hadoop Distributed File System HDFS 分布式文件系统,提供了高吞吐量的应用程序数据访问
  •  MapReduce 大型数据集的并行处理系统
  •  YARN 作业调度和集群资源管理
  •  Hadoop Common 的工具库  支持其他 Hadoopc 模块
  • Hive, Hadoop 的数据仓库,方便简单的数据汇总,即席查询和分析大型数据集
  • HBase, Hadoop的数据库,高容错,内置可扩展性,内置负载均衡,自动故障转移和自动版本
  • Pig  并行数据流的引擎, MapReduce程序的自动生成器
  • Ozzie, 一个可扩展的可靠的工作流调度系统
  • Mahout, Hadoop的功能强大的机器学习库
  • Sqoop,  数据库数据迁移工具

Hadoop 使用产业标准硬件(使用工业标准硬件)递增新的硬件/添加或移除存储容量到群集亦简单容易, 每 TB 的存储和运算成本远远低于其他系统,支持可插拔压缩算法,有效地利用磁盘空间。

   

您可以參考其他企業是如何處理大數據 : 谁使用 Hadoop

   

如何启动您的 Hadoop/ HBase 项目
 

在今天的互联网世界,企业正面临着越来越多大数据的挑战,当现在的传统软件无法处理大数据时,Hadoop 以数据为本的决策应用可以创造巨大的价值,成功启动的Hadoop/ HBase的项目有3个关键步骤:
 

  • 明确定义当前的业务挑战和问题及业务应用领域:点算业务挑战和目标, 专注研究Haddop能够提供最高回报的应用领域。
  • 明确定义技术要求:确定数据的量,质,品种,增速,识别 Hadoop 和 HBase 如何存储和处理大数据
  • 规划大数据项目:构建可衡量的具体目标,商业价值,预期结果。计划项目的实施方式,成本措施,资源,里程碑,项目任务和时间。

如果您有任何疑问,请随时 联系我们

PostgreSQL, Open Source, database, Oracle, SQLServer, MYSQL