找到相关内容 14
为什么Hadoop将一定会是分布式计算的未来?
版权声明: 写本文由leftnoteasy发布于http://leftnoteasy.cnblogs.com 本文可以被全部或者部分的使用,但请注明出处,如果有问题,可以联系wheeleast (at) gmail.com, 也可以加我的新浪微博:http://weibo.com/leftnoteasy 
http://www.cyqdata.cn/cnblogs/article-detail-52698 
hadoop示例程序wordcount分析
    采用ubuntu下的伪分布式(Pseudo-distributed mode)hadoop-0.20.2运行,运行步骤略,仅对wordcount程序进行分析,以理清MapReduce工作方式.     本文部分引自http://www.iteye.com/topic/606962 package org.apache.hadoop.examples
http://www.cyqdata.cn/cnblogs/article-detail-41837 
Hadoop的那些事儿
文/张巡   在说Hadoop之前,作为一个铁杆粉丝先粉一下Google。Google的伟大之处不仅在于它建立了一个强悍的搜索引擎,它还创造了几项革命性的技术:GFS,MapReduce,BigTable,即所谓的Google三驾马车。Google虽然没有公布这几项技术的实现代码,但它发表了详细的设计论文,这给业界带来了新鲜气息,很快就出现了类似于Google三驾马车的开源实现,Hadoop就是其
http://www.cyqdata.cn/cnblogs/article-detail-39810 
Apache Hadoop最佳实践和反模式
Apache Hadoop是一个用于构建大规模,共享存储和计算基础设施的软件框架,Hadoop集群经常用于各种研究和开发项目,如Yahoo!,eBay,Facebook,Twitter等互联网公司就大量使用了Hadoop,并在核心业务系统中扮演中关键角色,因此正确部署Hadoop集群是确保获得最佳投资回报的关键。   本文介绍了在Apache Hadoop上运行应用程序的最佳实践,实际上,我们引
http://www.cyqdata.cn/cnblogs/article-detail-38351 
深入Hadoop HDFS
1. hdfs架构简介 1.1  hdfs架构挑战 1.2 架构简介 1.3 文件系统命名空间File System Namespace 1.4  数据复制 1.5 元数据持久化 1.6 信息交换协议 2.  hdfs数据可访问性 2.1  web interface 2.2 shell command
http://www.cyqdata.cn/cnblogs/article-detail-36615 
Hadoop入门简介
1. Hadoop简介 2. Hadoop环境建立3. 参考资料  <1>. Hadoop简介  hadoop是apache的开源项目,开发的主要目的是为了构建可靠,可拓展scalable,分布式的系统,hadoop是一系列的子工程的总和,其中包含。 1. hadoop common:为其他项目提供基础设施 2. HDFS:分布式的文件系统 3. MapReduc
http://www.cyqdata.cn/cnblogs/article-detail-36606 
HADOOP实践101:在Hadoop集群中添加机器和删除机器
无论是在Hadoop集群中添加机器和删除机器,都无需停机,整个服务不中断。 本次操作之前,Hadoop的集群情况如下: HDFS的机器情况如下: MR的机器情况如下: 添加机器 在集群的Master机器中,修改$HADOOP_HOME/conf/slaves文件,在其中添加需要加入集群的新机器(hp3)的主机名: hp3hp2dell1dell2dell3dell4 然后在Master机器
http://www.cyqdata.cn/cnblogs/article-detail-36266 
Hadoop in Action 翻译 第三章(文件操作命令部分)
Components of Hadoop 在上一章节我们了解了如何安装及配置Hadoop。我们了解了不同节点的作用以及这些节点是如何工作的,还了解了如何配置这些节点。现在我们可以运行Hadoop了,现在我们从程序的角度了解一下Hadoop框架。 首先我们讲解HDFS,HDFS用来存储你的Hadoop应用的各种数据。之后我们讲解MapReduce框架的细节。第一章时,我们已经看到了MapReduce
http://www.cyqdata.cn/cnblogs/article-detail-25277 
Hadoop的本地库(Native Libraries)介绍
Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。 目前在Hadoop中,本地库应用在文件的压缩上面: zlib gzip 在使用这两种压缩方式的时候,Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库
http://www.cyqdata.cn/cnblogs/article-detail-25205 
漫谈Hadoop HDFS Balancer
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。可见,保证HDFS中的数据平衡是非常重要的。 在Hadoop中,包含一个Balancer程序,通过运行这个程序,可以使得HDFS集群达到一个平衡的
http://www.cyqdata.cn/cnblogs/article-detail-25147 
Hadoop in Action 翻译 第二章续(介绍伪分布式)
Pseudo-distributed mode(伪分布式) 伪分布式模式就是将所有hadoop程序运行在一台服务器上.这种模式将单机模式分割为各模块,主要还是用来debug你的程序,以便于测试内存占用量,HDFS input/output问题,已经各个deamons之间的交互等等. 下面就是这种模式的配置例子: core-site.xml <?xml version=”1
http://www.cyqdata.cn/cnblogs/article-detail-7100 
Hadoop中的CRC数据校验文件
Hadoop系统为了保证数据的一致性,会对文件生成相应的校验文件,并在读写的时候进行校验,确保数据的准确性。   比如我们遇到的这个Case: 执行的命令: hadoop jar dw-hadoop-2010_7_23.jar jobDriver -files tb_steps_url_path_dim.txt  multisteps_output 2011-01-25 出错日
http://www.cyqdata.cn/cnblogs/article-detail-6936 
Hadoop in Action 翻译 第一章
Hadoop介绍 内容简介: 1.       编写可扩展的,分布式的,海量数据处理的程序的基础 2.       介绍hadoop与MapREduce 3.       编写一个简单的MapReduce程序
http://www.cyqdata.cn/cnblogs/article-detail-6932 
HBase入门笔记(三)-- 完全分布模式Hadoop集群安装配置
           本来这篇文章该在去年11月底写出来的,被各种繁杂的事情所烦扰,再者网络上也有非常多比较完善的配置的文章,但是依旧是表述不太清晰。依旧写个Step By Step的教程,留待己用。           Hadoop的部署环境是经过虚拟化之后的四台主机,OS是U
http://www.cyqdata.cn/cnblogs/article-detail-5431