Tag Archives: Apache Hadoop 1.0.0

[repost ]Apache Hadoop 1.0.0支持Kerberos验证,支持Apache HBase,提供针对HDFS的RESTful API

original:http://www.infoq.com/cn/news/2012/01/apache-hadoop-1.0.0

经过六年时间的酝酿,开源分布式计算和Big Data框架Apache Hadoop终于发布1.0.0版本。本次发布的新特性包括:

  • 安全特性(Kerberos协议下的强验证)
  • 改进对Apache HBase的支持(支持针对事务日志操作的sync和flush)。允许在hflush/sync操作进行期间,对HDFS客户端发起新的写入 。
  • Webhdfs为Hadoop分布式文件系统(HDFS)提供了一套 RESTful API。这项特性使webhdfs成为对FileSystem接口的完整实现,可通过HTTP对HDFS作完全的访问;而之前的hftp特性只实现了只读的FileSystem接口,不能执行“write”操作。
  • 改善HBase访问本地文件的性能。

此次新版还包括若干性能改善、错误修正等别的一些特性

InfoQ找到Arun Murthy——Apache Hadoop项目的VP,请他说明一下本次1.0.0版包含的特性,以及下一版本的规划。

InfoQ:Apache Hadoop经过6年时间的开发才发布1.0.0版。为何第一次正式发布要花这么长时间?

Arun Murthy:Apache Hadoop已经在若干大型企业投入实际应用,比如Yahoo、Facebook等等。“1.0.0”这个标签主要代表了Apache Hadoop社区对其成熟度的认可,代表社区有信心在可见的未来,在各式企业五花八门的应用场景下,维持与此版本的兼容。这次发布应该可以提升企业及最终用户对Apache Hadoop的信心,有利于Apache Hadoop的进一步推广。

InfoQ:本次发布在身份验证、访问控制和数据加密方面,支持什么样的安全特性?

Arun: 1.0.0版的存储文件系统HDFS和数据处理方面的MapReduce,都支持强的、端到端的、基于Kerberos的身份验证。Kerberos目前在企业中非常流行,是遥遥领先的网络认证协议。

1.0.0版还在应用与数据的所有层面提供了强访问控制。例如可以限定只允许具体的单个或多个用户查看运行中的应用,查看应用日志等等。

InfoQ:可以谈谈新版在性能方面的改进吗?

Arun:有不少改进。代表性的例子比如我们为Apache HBase之类的应用优化了本地读取性能,取得非常显著的效果,特定用例的效率翻了一番。

InfoQ:Hadoop下一版本规划了哪些新特性?可以列举一些吗?

Arun:Apache Hadoop的下一个大版本目前正处于alpha阶段,预计在2012年中发布。主要的亮点有:

  • HDFS文件系统的高可用性——解决文件系统的单点失败问题。
  • HDFS Federation特性,扩大文件系统的命名空间至少4到5倍,可显著提高集群容量,包括集群中的节点数量和命名空间中的文件数量两方面的提高。
  • NextGen MapReduce(又名YARN)可使Hadoop从只支持MapReduce应用,转变为在同一个Hadoop集群中同时支持多种通用的分布式计算组织构造,允许同时运用MapReduce、Message Passing Interface(MPI)、迭代式编程等不同范式。这项特性还将允许Hadoop支持更大规模的集群(6000 – 10000个节点),支持计算组织体(compute fabric)的高可用性。

Arun还提及他们感觉 Apache Hadoop下一版本在High Availability等众多企业级特性上有显著的改善,应该会让Hadoop在企业中找到更多的应用场景,特别是NextGen MR(YARN)。

查看英文原文:Apache Hadoop 1.0.0 Supports Kerberos Authentication, Apache HBase and RESTful API to HDFS