windows下搭建hadoop-2.6.0本地idea开发环境

概述

本文记录windows下hadoop本地开发环境的搭建:

OS:windows
hadoop运行模式:独立模式

安装包结构:

Hadoop-2.6.0-Windows.zip
    - cygwinInstall // cygwin离线安装包
    - hadoop-2.6.0-windows.tar.gz // hadoop-2.6.0 windows安装包

PS:

hadoop-2.6.0-windows.tar.gz是基于官方发行包hadoop-2.6.0.tar.gz,并为windows单机测试而自定义的包,改动如下:
1. 在bin目录下,添加了hadoop.dll和winutils.exe
2. 修改了org\apache\hadoop\io\nativeio\NativeIO.java源码第558行

*由于源码有改动,此包不能用于生产环境,只限于windows环境下的开发测试

1. 安装cygwin

  1. 双击cygwinInstall下的setup-x86_64.exe
  2. 选择从本地安装

  3. 选择安装位置

  4. 选择本地安装文件位置

  5. 点击All旁边的default,使其变为Install,再点击下一步即可开始安装

2. 安装hadoop

  1. 在cygwin的根目录下,建立opt目录,并把安装包拷贝到opt目录下

    cd /; mkdir opt

  2. 解压

    cd /opt; tar xzf hadoop-2.6.0-windows.tar.gz

  3. 设置环境变量

    设置windows环境变量HADOOP_PREFIX指向hadoop安装目录

    设置windows环境变量HADOOP_HOME指向hadoop安装目录

    设置windows环境变量JAVA_HOME指向java安装目录

    Path环境变量后追加:;%HADOOP_HOME%\bin

  4. ~/.bashrc中设置以下环境变量:

    export HADOOP_CLASSPATH=$(cygpath -pw $(hadoop classpath)):$HADOOP_CLASSPATH

  5. 使~/.bashrc生效,并验证hadoop是否工作

    source ~/.bashrc

    验证hadoop:

    hadoop version

    若正常显示版本信息则安装成功

  6. 运行示例代码,验证hadoop是否能够运行mapreduce

    cd /opt/hadoop-2.6.0; mkdir input; cd input; echo "Hello World" > test

    hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount input output

    若正常执行则显示:

    在/opt/hadoop-2.6.0/output下会生成part-r-00000文件,包含以下内容:

    Hello   1
    world   1
    

3. idea开发环境配置

  1. 创建一个mapreduce项目

  2. 选择项目,按下F12,添加外部依赖

  3. 添加HADOOP_HOME下必要的jar包

  4. 进入运行配置

  5. 配置运行参数

    Working directory设置为hadoop安装目录

    并设置输入参数

  6. 调试

    和普通java程序一样打断点进行调试

版权声明:本文为博主原创文章,未经博主允许不得转载。

本页内容版权归属为原作者,如有侵犯您的权益,请通知我们删除。

Hadoop源码---Inputformat - 2015-08-21 17:08:43

作用: 1、将输入切分成split,确定split大小,map个数。 由getSplits方法实现。  2、为mapper提供输入数据,key/value形式。getRecordReader方法 核心算法: 1、文件切分算 作用:确定split个数。 概念:  globalSize: totalsize/numSplits  ;  minSize: InputSplit 最小值 配置参数 blockSize: block大小 公式: splitSize = max{ minSize, min{global
【注】该系列文章以及使用到安装包/测试数据 可以在《 倾情大奉送–Spark入门实战系列 》获取 1 Spark运行架构 1.1 术语定义 Application : Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码; Driver : Spark中的Driver即运行上述Application的main()函数并且创建SparkContext,其中创

hadoop2.7.0实践- WordCount - 2015-08-21 17:08:37

环境要求 说明:本文档为wordcount的mapreduce job编写及运行文档。 操作系统:Ubuntu14 x64位 Hadoop:Hadoop 2.7.0 Hadoop官网: http://hadoop.apache.org/releases.html MapReduce参照官网步骤: http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutori

创建hive整合hbase的表总结 - 2015-08-21 17:08:34

[Author]: kwu  创建hive整合hbase的表总结,如下两种方式: 1、创建hive表的同步创建hbase的表 CREATE TABLE stage.hbase_news_company_content(key string comment "流水号",news_id string comment "新闻id",news_content string comment "文章内容") STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHan
课程内容 Spark修炼之道(基础篇)——Linux基础(15讲)、Akka分布式编程(8讲) Spark修炼之道(进阶篇)——Spark入门到精通(30讲) Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲) Spark修炼之道(高级篇)——Spark源码解析(50讲) 部分内容会在实际编写时动态调整,或补充、或删除。 Spark修炼之道(基础篇)——Linux大数据开发基础(15讲)、 Linux大数据开发基础——第一节:Ubuntu Linux安装与介绍 Linux大数据开发基础——

Hadoop之HDFS命令 - 2015-08-21 17:08:08

概述 所有的HDFS命令都调用bin/hdfs脚本文件,如果运行hdfs脚本没有带任何参数的话,则打印所有命令的描述。 使用: hdfs [SHELL_OPTIONS] COMMAND [GENERIC_OPTIONS] [COMMAND_OPTIONS] Hadoop是一个参数解析框架,采用解析泛型选项以及运行类。 命令参数 描述 --config --loglevel 指定一个默认的配置文件目录,默认值是:   ${HADOOP_PREFIX}/conf . 重载Log级别。有效的日志级别包含:FAT
【注】该系列文章以及使用到安装包/测试数据 可以在《 倾情大奉送–Spark入门实战系列 》获取 1 Hive介绍 1.1 Hive介绍 Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点: 优点 : 1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习的曲线; 2.使用JDBC 接口/ODB
就是希望 从别的机器上copy文件的是完整,不丢失的 具体资料我就不整理了,看些如下参考链接,大概也了解了 参考链接如下: http://serverfault.com/questions/289646/scp-is-a-checksum-required http://serverfault.com/questions/316386/how-can-i-ensure-non-corrupt-file-transfer-in-linux http://stackoverflow.com/questions

hadoop native本地库问题总结 - 2015-08-19 18:08:09

       最近,打算hbase建表用snappy压缩时,碰到一些hadoop本地库的问题。其实这些问题是一直存在的,只是不影响正常使用,就没有引起重视。这次希望彻底解决以下问题: 问题一:执行start-dfs.sh时出现以下日志 xxxx: Java HotSpot(TM) 64-Bit Server VM warning: You have loaded library /usr/local/hadoop-2.4.0/lib/native/libhadoop.so which might have
1. 涉及技术及下载 项目开发使用到的软件有:Myeclipse2014,JDK1.8,Hadoop2.6,MySQL5.6,EasyUI1.3.6,jQuery2.0,Spring4.1.3,Hibernate4.3.1,Struts2.3.1,Maven3.2.1,Mahout0.10。 项目下载地址: https://github.com/fansy1990/mahout1.0 ,项目部署参考: http://blog.csdn.net/fansy1990/article/details/46481