HBase 执行摘要 Executive Summary

HBase 执行摘要 Executive Summary

By  digitalART2

Hadoop 是大数据的业界标准 de facto standardHBase 是Hadoop 的大数据库。

   
   

Hadoop 和 HBase 几个关键的优势

Hadoop 是大数据存储和分析的主流平台,许多成功的公司使用 Hadoop 做强有力的大数据分析。Hadoop提供了两个重要的服务:极具成本效益地存储任何类型任何规模的大数据,和提供强有力的大数据分析。

   

关键的优势:分布式文件系统 (Hadoop Distributed Files System HDFS),分布式大数据库 (HBase), 完整的大数据工具集 (Complete Set of Big Data Tools),  使用产业标准硬件 (Use Industrial Standard Hardware)

   

• 能够存储任何类型和任何规模的大数据,不会因为数据太大无法储存而丢失数据

Hadoop 能够以数据的原生格式存储,不强制转型,不会发生因为数据太大无法储存而丢失数据的情况,Hadoop 确保下游的大数据分析无数据损耗 !

   

• 极具成本效益地处理大数据

Hadoop 使用产业标准硬件,每TB的存储和运算成本远远低于其他系统。HBase有效地利用磁盘空间,支持可插拔压缩算法。递增新的硬件/添加或移除存储容量到HBase的集群亦简单容易。

   

•  安心使用 Use with confidence 

Hadoop和HBase中的用户群体是全球性的和多样化的,包括 金融服务,电信,零售,社交网络,媒体,医疗保健和其他行业,有关详细信息,请阅读  Who uses HBase and Hadoop 。

   

• 大规模实证 Proven at scale

今天您可能没有以PB计的数据,不过,像Facebook以及世界上其他大量公司的成功实证,证明HBase和Hadoop能够出色地管理大量数据。
大规模实证证明HBase和Hadoop真正具有支持业务增长的能力。

   
   

HBase的主要特点: 

HBase 是 “分布式的和数据更新严格一致的大数据库存储系统,优良的量写和随机读取性能,支持可插拔的压缩算法,有效值地利用磁盘空间,数据栏可以因应大数据的性质自主定义,没有死锁“ - 拉尔斯·乔治

  • 全 Hadoop 集成:完全支持 HDFS 和 MapReduce
  • Highly fault tolerance 高容错!
  • Built-in scalability 内置扩展 !
  • Built-in load-balancing  内置负载均衡 !
  • Strongly consistent 数据更新严格一致 !
  • Automatic versioning 自动版本!
  • Automatic RegionServer failover 自动故障转移
  • Flexible secondary index solutions 灵活的二级索引解决方案
  • Automatic sharding 自动分片:自动分割大表格和重新分配
  • Supports massively parallelized processing 支持大规模并行处理

HBase 其中一个最重要的特点是 “数据更新严格 Strong Consistency”,HBase 使用多版本 multiversioning,避免编辑并发引起的数据冲突,提供最佳的量写和出色的随机读取性能(关于“数据更新严格一致”的资料,请阅读  "All Things Distributed"  亚马逊首席技术官沃纳·沃格尔先生 Amazon.com )。

   
   

HBase 和 Hadoop 的应用 Use cases of HBase and Hadoop

简单的数字摘要,平均值/最小值/最大值/总和,足够处理20世纪80和90年代的业务问题。不过,当前的大数据年代,大量复杂的数据需要新的技术,涉及的算法包括 自然语言处理,模式识别,机器学习,大数据储存和大数据挖掘,行为的预测,需求预测,顾客喜好,个体在群体中的行为,购买历史记录的分析,浏览行为和产品查看分等等,这些技术都是Hadoop的关键优势。

   

HBase 和Hadoop 的应用如下(但不限于):

  • Recommendation Engine 推荐引擎 - 点击流分析,日志分析
  • Customer Churn Analysis - 客户流分析 - 如何赢得更多的客户,并避免真的失去客户?
  • AD Targeting - 广告定位,营销自动化,商业智能
  • Point-of-sales Transaction Analysis - 销售点交易分析
  • Analyzing Network Data to Predict - 网络数据分析预测
  • Threat Analysis - 威胁分析 - 企业如何才能检测威胁和欺诈活动
  • Trade Surveillance - 贸易管制 - 如何管制流氓交易?
  • Search Quality - 搜索质量
  • Data Sandbox - 数据实验室
  • GIS - 3D 地图,空间应用
  • Real-time Customer Segmentation 实时客户细分 - 市场分析......更多
   

如果您有任何疑问请随时 与我们联系 !

PostgreSQL, Open Source, database, Oracle, SQLServer, MYSQL