为什么Hadoop将一定会是分布式计算的未来?
版权声明: 写本文由leftnoteasy发布于http://leftnoteasy.cnblogs.com 本文可以被全部或者部分的使用,但请注明出处,如果有问题,可以联系wheeleast (at) gmail.com, 也可以加我的新浪微博:http://weibo.com/leftnoteasy
http://www.cyqdata.cn/cnblogs/article-detail-52698
hadoop示例程序wordcount分析
采用ubuntu下的伪分布式(Pseudo-distributed mode)hadoop-0.20.2运行,运行步骤略,仅对wordcount程序进行分析,以理清MapReduce工作方式.
本文部分引自http://www.iteye.com/topic/606962
package org.apache.hadoop.examples
http://www.cyqdata.cn/cnblogs/article-detail-41837
Hadoop的那些事儿
文/张巡
在说Hadoop之前,作为一个铁杆粉丝先粉一下Google。Google的伟大之处不仅在于它建立了一个强悍的搜索引擎,它还创造了几项革命性的技术:GFS,MapReduce,BigTable,即所谓的Google三驾马车。Google虽然没有公布这几项技术的实现代码,但它发表了详细的设计论文,这给业界带来了新鲜气息,很快就出现了类似于Google三驾马车的开源实现,Hadoop就是其
http://www.cyqdata.cn/cnblogs/article-detail-39810
Apache Hadoop最佳实践和反模式
Apache Hadoop是一个用于构建大规模,共享存储和计算基础设施的软件框架,Hadoop集群经常用于各种研究和开发项目,如Yahoo!,eBay,Facebook,Twitter等互联网公司就大量使用了Hadoop,并在核心业务系统中扮演中关键角色,因此正确部署Hadoop集群是确保获得最佳投资回报的关键。
本文介绍了在Apache Hadoop上运行应用程序的最佳实践,实际上,我们引
http://www.cyqdata.cn/cnblogs/article-detail-38351
深入Hadoop HDFS
1. hdfs架构简介 1.1 hdfs架构挑战 1.2 架构简介 1.3 文件系统命名空间File System Namespace 1.4 数据复制 1.5 元数据持久化 1.6 信息交换协议 2. hdfs数据可访问性 2.1 web interface 2.2 shell command
http://www.cyqdata.cn/cnblogs/article-detail-36615
Hadoop入门简介
1. Hadoop简介
2. Hadoop环境建立3. 参考资料
<1>. Hadoop简介
hadoop是apache的开源项目,开发的主要目的是为了构建可靠,可拓展scalable,分布式的系统,hadoop是一系列的子工程的总和,其中包含。
1. hadoop common:为其他项目提供基础设施
2. HDFS:分布式的文件系统
3. MapReduc
http://www.cyqdata.cn/cnblogs/article-detail-36606
HADOOP实践101:在Hadoop集群中添加机器和删除机器
无论是在Hadoop集群中添加机器和删除机器,都无需停机,整个服务不中断。
本次操作之前,Hadoop的集群情况如下:
HDFS的机器情况如下:
MR的机器情况如下:
添加机器
在集群的Master机器中,修改$HADOOP_HOME/conf/slaves文件,在其中添加需要加入集群的新机器(hp3)的主机名:
hp3hp2dell1dell2dell3dell4
然后在Master机器
http://www.cyqdata.cn/cnblogs/article-detail-36266
Hadoop in Action 翻译 第三章(文件操作命令部分)
Components of Hadoop
在上一章节我们了解了如何安装及配置Hadoop。我们了解了不同节点的作用以及这些节点是如何工作的,还了解了如何配置这些节点。现在我们可以运行Hadoop了,现在我们从程序的角度了解一下Hadoop框架。
首先我们讲解HDFS,HDFS用来存储你的Hadoop应用的各种数据。之后我们讲解MapReduce框架的细节。第一章时,我们已经看到了MapReduce
http://www.cyqdata.cn/cnblogs/article-detail-25277
Hadoop的本地库(Native Libraries)介绍
Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。
目前在Hadoop中,本地库应用在文件的压缩上面:
zlib
gzip
在使用这两种压缩方式的时候,Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库
http://www.cyqdata.cn/cnblogs/article-detail-25205
漫谈Hadoop HDFS Balancer
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。可见,保证HDFS中的数据平衡是非常重要的。
在Hadoop中,包含一个Balancer程序,通过运行这个程序,可以使得HDFS集群达到一个平衡的
http://www.cyqdata.cn/cnblogs/article-detail-25147
Hadoop in Action 翻译 第二章续(介绍伪分布式)
Pseudo-distributed mode(伪分布式) 伪分布式模式就是将所有hadoop程序运行在一台服务器上.这种模式将单机模式分割为各模块,主要还是用来debug你的程序,以便于测试内存占用量,HDFS input/output问题,已经各个deamons之间的交互等等. 下面就是这种模式的配置例子: core-site.xml <?xml version=”1
http://www.cyqdata.cn/cnblogs/article-detail-7100
Hadoop中的CRC数据校验文件
Hadoop系统为了保证数据的一致性,会对文件生成相应的校验文件,并在读写的时候进行校验,确保数据的准确性。
比如我们遇到的这个Case:
执行的命令:
hadoop jar dw-hadoop-2010_7_23.jar jobDriver -files tb_steps_url_path_dim.txt multisteps_output 2011-01-25
出错日
http://www.cyqdata.cn/cnblogs/article-detail-6936
Hadoop in Action 翻译 第一章
Hadoop介绍 内容简介: 1. 编写可扩展的,分布式的,海量数据处理的程序的基础 2. 介绍hadoop与MapREduce 3. 编写一个简单的MapReduce程序
http://www.cyqdata.cn/cnblogs/article-detail-6932
HBase入门笔记(三)-- 完全分布模式Hadoop集群安装配置
本来这篇文章该在去年11月底写出来的,被各种繁杂的事情所烦扰,再者网络上也有非常多比较完善的配置的文章,但是依旧是表述不太清晰。依旧写个Step By Step的教程,留待己用。
Hadoop的部署环境是经过虚拟化之后的四台主机,OS是U
http://www.cyqdata.cn/cnblogs/article-detail-5431