Hadoop学习笔记(2)-搭建Hadoop本地模式

0.前言

hadoop总共有三种运行方式。本地模式(Local (Standalone) Mode),伪分布式(Pseudo-Distributed Mode),分布式(Fully-Distributed Mode)。后面足一讲解搭建本地以及伪分布式,分布式读者自行搭建。
参考资料(官网为主,网络资料为铺):
http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_Operation

测试环境:ubuntu14(读者可以自行安装虚拟机vmware里运行ubuntu)

1.安装JDK

Hadoop是要安装在JVM上运行的,所以都要安装JDK。所以必须按照JVM。

1.1 下载JDK

下载网址:
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
选择linux 64位系统,压缩后缀是tar.gz
这里写图片描述
截图中时8.73版本。我实际下载的时8.71版本。

1.2 解压

我下载的在Downloads文件夹里,进入Downloads文件夹,再直接解压到/usr/local/jdk里,当然要先在/usr/local/文件夹里新建jdk文件夹:
命令如下:
这里写图片描述
这里写图片描述
这里写图片描述

1.3 配置JDK,JRE环境变量

我使用的是vim命令修改配置文件,所以要先安装vim编辑工具。代码如下:
这里写图片描述

修改bashrc文件,添加环境变量
这里写图片描述
在文件末尾加入如下内容: (只加入红色框里的内容)
这里写图片描述

再用soure命令,使其生效:
这里写图片描述

1.4 验证

输入:java -version
能显示版本号,就表示JDK配置成功。
这里写图片描述

3.安装Hadoop

这里安装本地模式

3.1下载

下载地址:
http://hadoop.apache.org/releases.html
我选用时2.6.4版本,点击binary进入下载页面。
这里写图片描述
下来来后在系统的Downloads里
这里写图片描述

3.2解压

在local文件夹里创建一个hadoop文件夹。用来解压后存放hadoop-2.6.4
这里写图片描述
回到Downloads文件夹里解压hadoop:
这里写图片描述
这里写图片描述

3.3配置Hadoop环境变量

配置前,先进入/usr/local做个权限设置,使用命令:sudo chmod –R 777 hadoop
这里写图片描述
将hadoop文件夹设置为读写权限为最高。这样后面修改配置文件和该目录下创建文件夹等都会很方便。

配置hadoop环境就是配置hadoop-env.sh文件。命令如下图:
这里写图片描述
修改下图JAVA_HOME路径,添加HADOOP_HOME路径(路径和自己实际存放位置一致)。内容如下图:
这里写图片描述

验证配置是否成功,输入bin/Hadoop version 可以查看Hadoop 2.6.4版本:
这里写图片描述

3.4 配置Hadoop的bin配置环境变量

将bin目录配置到环境变量里。编辑.bashrc文件:
这里写图片描述
添加如下红色框图里的内容。
这里写图片描述

用source命令使配置生效:
这里写图片描述
这个时候hadoop的bin目录下的命令可以在所有目录下使用,测试如下,在根目录下使用hadoop version。
这里写图片描述
此时本地模式配好了。

4.测试本地模式

创建input文件夹作为方要测试的输入文件。
将hadoop目录里的etc/hadoop目录下的所有.xml结尾的文件复制到input里
这里写图片描述

这里测试2个mapreduce程序,一个grep,一个wordcount。

4.1例子一:grep

该例子是搜索input文件夹内所有文件,找到以dfs开始后面跟着字母a-z的单词,并输出在output里。

输入代码如下:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar grep input output ‘dfs[a-z.]+’
这里写图片描述

用cat命令来查看output文件夹里的所有文件。
输入:cat output/*
这里写图片描述

4.2例子二:wordcount

该例子是搜索input文件夹内所有文件,统计所有单词出现的次数,并输出在output/wordcount文件夹里。
这里写图片描述

用cat命令查看
这里写图片描述
结果如下:
这里写图片描述

到此Hadoop本地模式配置完成。


XianMing

本页内容版权归属为原作者,如有侵犯您的权益,请通知我们删除。

多层网络和反向传播笔记 - 2016-04-18 17:04:08

在我之前的博客中讲到了感知器( 感知器 ),它是用于线性可分模式分类的最简单的神经网络模型,单个感知器只能表示线性的决策面,而反向传播算法所学习的多层网络能够表示种类繁多的非线性曲面。 对于多层网络,如果使用线性单元的话,多个线性单元的连接仍然是线性函数,所以还不能表征非线性函数。使用感知器单元,但是它不连续所以也就不可微,不适合梯度下降算法。我们需要这么一种单元,它的输出是输入的非线性函数,而且输出是输入的可微函数。那么可以使用sigmoid单元,它非常类似于感知器单元,而且基于一个平滑的可微阈值函数,
0.前言 我要搭建的集群是一台Master和3台Worker。先按照前面博客内容配置好。 修改hostname和hosts http://blog.csdn.net/xummgg/article/details/50634327 ubuntu下ssh无密码登入(设置ssh公钥认证) http://blog.csdn.net/xummgg/article/details/50634730 1.安装rsync rsync,remote synchronize顾名思意就知道它是一款实现远程同步功能的软件,它在同
0.前言 搭建伪分布式要先搭建本地模式。请参照上一个博客: http://blog.csdn.net/xummgg/article/details/51172933 参考资料(官网为主,网络资料为铺): http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_Operation 先确保本地模式配置正确后开始配置。 1.配置core-site.xml文件 配置ha
0.前言 本文参考博客: http://www.51itong.net/eclipse-hadoop2-7-0-12448.html 搭建开发环境前保障已经搭建好hadoop的伪分布式。可参考上个博客: http://blog.csdn.net/xummgg/article/details/51173072 1.下载安装eclipse 下载网址: http://www.eclipse.org/downloads/ 因为运行在ubuntu下,所以下载linux 64为的版本(支持javaEE),下载后默认放
    Hadoop 教程 ( 五 )Hadoop 分布式集群部署安装     1 Hadoop 分布式集群部署安装 在 hadoop2.0 中通常由两个 NameNode 组成,一个处于 active 状态,另一个处于 standby 状态。 Active NameNode 对外提供服务,而 Standby NameNode 则不对外提供服务,仅同步 activenamenode 的状态,以便能够在它失败时快速进行切换。    hadoop2.0 官方提供了两种 HDFS HA 的解决方案,一种是 NF

安装Ubuntu虚拟机详解 - 2016-04-17 17:04:34

安装Ubuntu虚拟机详解: 1:安装好VMware之后启动,点击“创建新的虚拟机”   2:点击下一步   3:选择安装所需要的镜像(可以默认直接点击下一步)   4: 个性化Linux全名:master----启动时显示的名字(如图1) 用户名:hadoop-----(图2)           5:这里需要修改两个位置 1) 虚拟机的名称:这个名字就是启动后窗口显示的名字 2) 位置:指的是所建虚拟机所存放的位置     6:下一步   7:点击自定义硬件   然后进入如下界面:     修改成如下

virtio的vring队列 - 2016-04-17 17:04:47

上一篇已经提到,在virtio设备初始化的过程中,会通过setup_vp创建virtqueue,目前的virtqueue队列都是通过vring来实际工作的,我们可以把virtqueue当做一个接口类,而把vring_virtqueue当做这个接口的一个实现 /** * virtqueue - a queue to register buffers for sending or receiving. * @list: the chain of virtqueues for this device * @ca

[置顶] Hadoop平台搭建(1) - 2016-04-17 17:04:59

摘要: 本文主要讲述在Linux环境下搭建hadoop平台的准备工作,内容涵盖Linux中用户的添加与权限管理、更改软件源、更新软件安装工具apt、安装vim编辑器、安装SSH并配置无密码登录。         环境说明: 文章中采用Ubuntu15.10操作系统,Ubuntu其他版本操作系统的操作类似,Linux其他系列操作系统适当做相应调整。 1.添加用户        对Linux环境下的开发,为了安全起见,一般情况下不直接在root用户下进行。所以,我们首先添加一个新的用户名,并设置新用户密码。
       本人hadoop菜鸟,刚刚开始接触hadoop,或者说是刚刚接触大数据这个名词不久,这几天花时间整理了一下Hadoop的相关知识,写在这里做个笔记。        在参考网上的hadoop安装过程对hadoop进行安装的过程中发生了一些小情况,我做了一个整理。相信大家已经对hadoop的一些初级知识已经比较清楚了。        Hadoop的创建一般有三种模式:单机模式、伪分布模式和全分布模式。我现在还没有对hadoop很了解,所以只是创建了一个单机模式玩玩。        单机模式操作是
ML方向初步计划学习下推荐系统,感谢灵哥和宇哥推荐的书——《推荐系统实践》,书一到手,迫不及待的就把第一章看完了,感觉确实很有意思,值得投入去学习。本书并没有打算写成handbook式的巨著或者事无巨细的基础教材,内容相对琐碎松散,当然,这应该是由于领域特点所限,因此,自己打算在学习之余,抽时间将所学内容进行整理总结,做成阅读笔记,也方便自己以后查阅补充。 ——题记 一、推荐系统简介 1. 为何要用推荐系统 核心是面对信息过载问题,解决方案由分类目录(Yahoo)到搜索引擎(Google),由于以下两个优