开源工作流--Azkaban与Oozie对比

功能
两者均可以调度mapreduce,pig,java,脚本工作流任务
两者均可以定时执行工作流任务

工作流定义
Azkaban使用Properties文件定义工作流
Oozie使用XML文件定义工作流

工作流传参
Azkaban支持直接传参,例如${input}
Oozie支持参数和EL表达式,例如${fs:dirSize(myInputDir)}

定时执行
Azkaban的定时执行任务是基于时间的
Oozie的定时执行任务基于时间和输入数据

资源管理
Azkaban有较严格的权限控制,如用户对工作流进行读/写/执行等操作
Oozie暂无严格的权限控制

工作流执行
Azkaban有两种运行模式,分别是solo server mode(executor server和web server部署在同一台节点)和multi server mode(executor server和web server可以部署在不同节点)
Oozie作为工作流服务器运行,支持多用户和多工作流

工作流管理
Azkaban支持浏览器以及ajax方式操作工作流
Oozie支持命令行、HTTP REST、Java API、浏览器操作工作流





本页内容版权归属为原作者,如有侵犯您的权益,请通知我们删除。
首先简单介绍下博主的配置环境 MAC 10.10.0 hadoop 2.6 JDK 1.6(可以在shell里用jdk -version查询) hadoop安装 安装的话推荐使用mac下面的brew,理由就是用brew安装的话,它会自动给帮你配置好相应的路径。当然也可以到官网下载,注意jdk和hadoop版本要对应。 brew install hadoop 安装好了之后,可以使用brew list hadoop 来查看。 位置应该是在:/usr/local/Cellar/hadoop/ 这时候就可以直接在
Azure的存储服务类型可以在Azure管理门户的仪表板中看到,目前有以下四种类型。 Azure存储服务,其实是一个http / https的网络路径,可以进行权限控制。Azure存储服务并不依赖于任何一个IP地址或者是网络路径。 存储服务本身支持99.9%的SLA,它提供三种高可用: 1.本地数据中心的三重冗余 (Local Redundant Storage, LRS)。比如客户可以选择将存储服务在同一个数据中心做三重冗余,比如在上海的数据中心做三重冗余。任意一个保存在上海存储服务的文件,都有一个主备
我最近在写代码的过程中发现了hadoop的mapreduce程序的一些操作有的是耗时的有的可以使得程序运行更快1.不知道大家有没有用过那个partioner的,这个类可以帮助我们将我们的数据通过自定义的方式输出到指定的文件当中去比如说:private static MapString ,Integer provider_map= new HashMapString ,Integer();static {provider_map.put("135", 3);provider_map.put("136", 3
2015-04-10   东方云洞察 点击上面的链接文字,可以快速关注“东方云洞察”公众号 亚马逊网络服务的不断蚕食企业存储市场,AWS最新计划发布一个新服务替代网络附加存储(NAS)设备。亚马逊弹性文件系统(EFS)将提供一个共享的,低延迟的文件系统,用于支持项目团队和组织内部需要共享大型文件,并快速访问它们的场景,如视频制作公司等。 “该文件系统在云服务普及的今天是缺少的一环,”Amazon Web Services的负责人安迪·雅西周四在AWS峰会在旧金山表示该服务尚未提供全面商业用途,但预览将很快
1.Namenode岩机处理:重启集群无法恢复的情况下     这时候解决的办法很简单,把namenode镜像存储的路径下内容删除掉,再把secondnamenode镜像存储的路径下内容拷贝过来,重启即可。 默认namenode镜像存储的路径是 /opt/hdfs/dfs/name   默认secondnamenode镜像存储的路径 /opt/hdfs/dfs/namesecondary 2.坏Block解决方式 hadoop出现坏块后(如低版本的hadoop更换块大小的时候容易出现坏块),自身可以缓慢的

DevStack 安装 OpenStack 多节点 - 2015-05-27 06:05:03

转载请注明: http://blog.csdn.net/yeasy/article/details/44100489 目前安装 OpenStack 常见的方案有 Redhat 的  RDO  和社区的  DevStack 。 当然,也可以手动安装,可以参考: github.com/ChaimaGhribi/OpenStack-Juno-Installation/blob/master/OpenStack-Juno-Installation.rst 其中,RDO 功能比较强大,运行也稳定,可以在一个节点上通

Spark jar包找不到解决方法 - 2015-05-26 20:05:32

今天在使用 Spark 中DataFrame往Mysql中插入RDD,但是一直报出以下的异常次信息: [itelbog@iteblog ~]$ bin/spark-submit --master local[2] --jars lib/mysql-connector-java-5.1.35.jar --class spark.sparkToJDBC ./spark-test_2.10-1.0.jarspark assembly has been built with Hive, including Dat
随着 Spark 的逐渐成熟完善 ,  越来越多的可配置参数被添加到 Spark 中来 ,  本文试图通过阐述这其中部分参数的工作原理和配置思路 ,  和大家一起探讨一下如何根据实际场合对 Spark 进行配置优化。 由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里: http://spark-config.readthedocs.org/ ,主要是便于更新内容 schedule 调度相关   调度相关的参数设置,大多数内容都很直白,其实无须过多的额外解释,不过基于这些参数的常用
我们都知道一个地址拥有着多家公司,本案例将通过两种类型输入文件:address类(地址)和company类(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD、Beijing Red Star)的关联信息。 开发环境 硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45、hadoop-1.2.1 1、 Map过程 首先使用默认的TextInputFormat类对输入文件进行处理,得到

Storm的并行度详解 - 2015-05-26 10:05:36

Storm 的并行度详解 Storm 的并行度是非常重要的,通过提高并行度可以提高 storm 程序的计算能力。 那 strom 是如何提高并行度的呢? Strom 程序的执行是由多个 supervisor 共同执行的。 supervisor 运行的是 topology 中的 spout/bolt task task   是 storm 中进行计算的最小的运行单位,表示是 spout 或者 bolt 的运行实例。 程序执行的最大粒度的运行单位是进程,刚才说的 task 也是需要有进程来运行它的,在 sup