hadoop - cnblogs - 秋色园关键字追寻

http://www.cyqdata.cn/cnblogs/article-detail-52698 2011/8/27 5:12:51

采用ubuntu下的伪分布式(Pseudo-distributed mode)hadoop-0.20.2运行,运行步骤略,仅对wordcount程序进行分析,以理清MapReduce工作方式. 本文部分引自http://www.iteye.com/topic/606962 package org.apache.hadoop.examples

http://www.cyqdata.cn/cnblogs/article-detail-41837 2011/7/19 21:58:09

Hadoop的那些事儿

文/张巡　　在说Hadoop之前，作为一个铁杆粉丝先粉一下Google。Google的伟大之处不仅在于它建立了一个强悍的搜索引擎，它还创造了几项革命性的技术：GFS，MapReduce，BigTable，即所谓的Google三驾马车。Google虽然没有公布这几项技术的实现代码，但它发表了详细的设计论文，这给业界带来了新鲜气息，很快就出现了类似于Google三驾马车的开源实现，Hadoop就是其

http://www.cyqdata.cn/cnblogs/article-detail-39810 2011/6/13 11:03:18

Apache Hadoop最佳实践和反模式

Apache Hadoop是一个用于构建大规模，共享存储和计算基础设施的软件框架，Hadoop集群经常用于各种研究和开发项目，如Yahoo！，eBay，Facebook，Twitter等互联网公司就大量使用了Hadoop，并在核心业务系统中扮演中关键角色，因此正确部署Hadoop集群是确保获得最佳投资回报的关键。　　本文介绍了在Apache Hadoop上运行应用程序的最佳实践，实际上，我们引

http://www.cyqdata.cn/cnblogs/article-detail-38351 2011/5/28 8:01:05

深入Hadoop HDFS

1. hdfs架构简介 1.1 hdfs架构挑战 1.2 架构简介 1.3 文件系统命名空间File System Namespace 1.4 数据复制 1.5 元数据持久化 1.6 信息交换协议 2. hdfs数据可访问性 2.1 web interface 2.2 shell command

http://www.cyqdata.cn/cnblogs/article-detail-36615 2011/4/23 6:45:24

Hadoop入门简介

1. Hadoop简介 2. Hadoop环境建立3. 参考资料 <1>. Hadoop简介 hadoop是apache的开源项目，开发的主要目的是为了构建可靠，可拓展scalable，分布式的系统，hadoop是一系列的子工程的总和，其中包含。 1. hadoop common：为其他项目提供基础设施 2. HDFS：分布式的文件系统 3. MapReduc

http://www.cyqdata.cn/cnblogs/article-detail-36606 2011/4/23 2:56:30

HADOOP实践101：在Hadoop集群中添加机器和删除机器

无论是在Hadoop集群中添加机器和删除机器，都无需停机，整个服务不中断。本次操作之前，Hadoop的集群情况如下： HDFS的机器情况如下： MR的机器情况如下：添加机器在集群的Master机器中，修改$HADOOP_HOME/conf/slaves文件，在其中添加需要加入集群的新机器（hp3）的主机名： hp3hp2dell1dell2dell3dell4 然后在Master机器

http://www.cyqdata.cn/cnblogs/article-detail-36266 2011/4/12 5:09:33

Hadoop in Action 翻译第三章（文件操作命令部分）

Components of Hadoop 在上一章节我们了解了如何安装及配置Hadoop。我们了解了不同节点的作用以及这些节点是如何工作的，还了解了如何配置这些节点。现在我们可以运行Hadoop了，现在我们从程序的角度了解一下Hadoop框架。首先我们讲解HDFS，HDFS用来存储你的Hadoop应用的各种数据。之后我们讲解MapReduce框架的细节。第一章时，我们已经看到了MapReduce

http://www.cyqdata.cn/cnblogs/article-detail-25277 2011/2/18 18:15:52

Hadoop的本地库（Native Libraries）介绍

Hadoop是使用Java语言开发的，但是有一些需求和操作并不适合使用java，所以就引入了本地库（Native Libraries）的概念，通过本地库，Hadoop可以更加高效地执行某一些操作。目前在Hadoop中，本地库应用在文件的压缩上面： zlib gzip 在使用这两种压缩方式的时候，Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库

http://www.cyqdata.cn/cnblogs/article-detail-25205 2011/2/16 21:28:51

漫谈Hadoop HDFS Balancer

Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候，将引发很多问题，比如MR程序无法很好地利用本地计算的优势，机器之间无法达到更好的网络带宽使用率，机器磁盘无法利用等等。可见，保证HDFS中的数据平衡是非常重要的。在Hadoop中，包含一个Balancer程序，通过运行这个程序，可以使得HDFS集群达到一个平衡的

http://www.cyqdata.cn/cnblogs/article-detail-25147 2011/2/16 19:32:12

Hadoop in Action 翻译第二章续(介绍伪分布式)

Pseudo-distributed mode(伪分布式) 伪分布式模式就是将所有hadoop程序运行在一台服务器上.这种模式将单机模式分割为各模块,主要还是用来debug你的程序,以便于测试内存占用量,HDFS input/output问题,已经各个deamons之间的交互等等. 下面就是这种模式的配置例子: core-site.xml <?xml version=”1

http://www.cyqdata.cn/cnblogs/article-detail-7100 2011/1/26 16:02:10

Hadoop中的CRC数据校验文件

Hadoop系统为了保证数据的一致性，会对文件生成相应的校验文件，并在读写的时候进行校验，确保数据的准确性。比如我们遇到的这个Case：执行的命令： hadoop jar dw-hadoop-2010_7_23.jar jobDriver -files tb_steps_url_path_dim.txt multisteps_output 2011-01-25 出错日

http://www.cyqdata.cn/cnblogs/article-detail-6936 2011/1/25 23:14:11

Hadoop in Action 翻译第一章

Hadoop介绍内容简介: 1. 编写可扩展的,分布式的,海量数据处理的程序的基础 2. 介绍hadoop与MapREduce 3. 编写一个简单的MapReduce程序

http://www.cyqdata.cn/cnblogs/article-detail-6932 2011/1/25 18:28:27

HBase入门笔记（三）-- 完全分布模式Hadoop集群安装配置

本来这篇文章该在去年11月底写出来的，被各种繁杂的事情所烦扰，再者网络上也有非常多比较完善的配置的文章，但是依旧是表述不太清晰。依旧写个Step By Step的教程，留待己用。 Hadoop的部署环境是经过虚拟化之后的四台主机，OS是U

http://www.cyqdata.cn/cnblogs/article-detail-5431 2011/1/21 13:41:27