Hadoop Web项目--Friend Find系统

项目使用软件:Myeclipse10.0,JDK1.7,Hadoop2.6,MySQL5.6,EasyUI1.3.6,jQuery2.0,Spring4.1.3,

Hibernate4.3.1,struts2.3.1,Tomcat7 ,Maven3.2.1。

项目下载地址:https://github.com/fansy1990/friend_find ,项目部署参考:http://blog.csdn.net/fansy1990/article/details/46481409 。

Hadoop Web项目--Friend Find系统

1. 项目介绍

        Friend Find系统是一个寻找相似用户的系统。用户填写自己的信息后就可以在本系统内找到和自己志同道合的朋友。本系统使用的是在http://stackoverflow.com/网站上的用户数据。Stack Overflow是一个程序设计领域的问答网站,隶属Stack Exchange Network。网站允许注册用户提出或回答问题,还允许对已有问题或答案加分、扣分或进行修改,条件是用户达到一定的“声望值”。“声望值”就是用户进行网站交互时能获取的分数。当声望值达到某个程度时,用户的权限就会增加,比如声望值超过50点就可以评论答案。当用户的声望值达到某个阶段时,网站还会给用户颁发贡献徽章,以此来激励用户对网站做出贡献。该项目建立在下面的假设基础上,假设用户对于一个领域问题的“态度”就可以反映出该用户的价值取向,并依据此价值取向来对用户进行聚类分组。这里的态度可以使用几个指标属性来评判,在本系统中原始数据(即用户信息数据)包含的属性有多个,从中挑选出最能符合用户观点的属性,作为该用户的“态度”进行分析。这里挑选的属性是:reputation,upVotes,downVotes,views,即使用这4个属性来对用户进行聚类。同时,这里使用MR实现的Clustering by fast search and find of density peaks聚类算法,这里的实现和http://blog.csdn.net/fansy1990/article/details/46364697这里的实现原始是不同的。

2. 项目运行

2.1 准备

1. 下载工程,参考上面的连接https://github.com/fansy1990/friend_find,并参考http://blog.csdn.net/fansy1990/article/details/46481409把它部署上去;
 1) 注意根据数据库的配置,在mysql数据库中新建一个friend数据库;
 2)直接运行部署工程,即可在数据库中自动建立相应的表,包括:hconstants、loginuser、userdata、usergroup,其中loginuser是用户登录表,会自动初始化(默认有两个用户admin/admin、test/test),hconstants是云平台参数数据表、userdata存储原始用户数据、usergroup存储聚类分群后每个用户的组别。
2. 部署云平台Hadoop2.6(伪分布式或者完全分布式都可以,本项目测试使用伪分布式),同时需要注意:设置云平台系统linux的时间和运行tomcat的机器的时间一样,因为在云平台任务监控的时候使用了时间作为监控停止的信号(具体可以参考后面)。

2.2 运行

1. 初始化相应的表
初始化集群配置表hconstants
访问系统首页:http://localhost/friend_find (这里部署的tomcat默认使用80端口,同时web部署的名称为friend_find),即可看到下面的页面(系统首页):

本页内容版权归属为原作者,如有侵犯您的权益,请通知我们删除。
一、Hadoop2.4.0环境下Eclipse平台的搭建 1.安装Eclipse   对于hadoop集群,我们将eclipse安装在master节点上,首先下载Eclipse安装包(如:eclipse-jee-luna-SR1-linux-gtk.tar.gz)然后用tar -zxvf 命令解压,并把解压后的目录移动到/usr/local路径下,然后启动eclipse: 下载网址: http://www.eclipse.org/downloads/?osType=linuxrelease=undefin
前几天用 openstack-Nova 创建虚拟机捣鼓了一下,结果今天重启以后 nova boot 创建虚拟机实例一直出错,创建出来的虚拟机状态  都是 error 查看 openstack 服务状态   发现原来是openstack-nova-computer 服务没有启动 用 systemctl service restart openstack-nova-computer.server #  systemctl service status openstack-nova-computer.serve

redis两种调用方式实例 - 2015-07-28 19:07:12

在下面的代码示例中,将给出两种最为常用的Redis命令操作方式,既普通调用方式和基于管线的调用方式。      注:在阅读代码时请留意注释。   1  #include stdio.h   2#include stdlib.h   3#include stddef.h   4#include stdarg.h   5#include string.h   6#include assert.h   7#include hiredis.h   8   9void doTest() 10 { 11int tim

redis学习笔记之pipeline - 2015-07-28 19:07:09

redis是一个cs模式的tcp server,使用和http类似的请求响应协议。一个client可以通过一个socket连接发起多个请求命令。每个请求命令发出后client通常 会阻塞并等待redis服务处理,redis处理完后请求命令后会将结果通过响应报文返回给client。基本的通信过程如下 Client: INCR X Server: 1 Client: INCR X Server: 2 Client: INCR X Server: 3 Client: INCR X Server: 4 基 本上四
本节主要内容 trait构造顺序 trait与类的比较 提前定义与懒加载 trait扩展类 self type 1 trait构造顺序 在前一讲当中我们提到,对于不存在具体实现及字段的trait,它最终生成的字节码文件反编译后是等同于java中的接口,而对于存在具体实现及字段的trait,其字节码文件反编译后得到的java中的抽象类,它有着scala语言自己的实现方式。因此,对于trait它也有自己的构造器,trait的构造器由字段的初始化和其它trait体中的语句构成,下面是其代码演示: package
原文链接: http://blog.csdn.net/ashic/article/details/47074015 CDH4安装成功后,datanode数据默认存放在/dfs目录下。如果dfs目录不是逻辑卷创建的,那么当它使用率过大时,我们需要添加数据目录 1.登录Cloudera Manager : http://localhost:7180 2.点击配置—查看和编辑 3.选择你要添加加数据目录的datanode,点击添加 4.如图,我添加了/fan目录,之后点击保存更改 5.保存后,返回实例页面,选择

Mahout-Pearson correlation的实现 - 2015-07-28 19:07:39

计算公式: 并通过下面代码对Mahout in Action的结果进行了验证: 代码如下: ` package com.example.mahout; public class TestColl { public static void main(String[] args) { // TODO Auto-generated method stub //int a[]={68,71,62,75,58,60,67,68,71,69,68,67,63,62,60,63,65,67,63,61}; //doub

HBase常用操作之namespace - 2015-07-28 19:07:30

1、介绍 在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。Apache HBase从0.98.0, 0.95.2两个版本开始支持namespace级别的授权操作,HBase全局管理员可以创建、修改和回收namespace的授权。 2、namespace HBase系统默认定义了两个缺省的namespace hbase :系统内建表,包括namespace和meta表 default :用户建表时未指定namespace的表都创建在此
 分布于不同云计算中心的多台云服务器,通常需要进行文件同步,以满足业务的需要。传统的文件同步方案,部署繁琐,同步实时性差,无法令人满意。 端端 Clouduolc ,一款纯 p2p 方式的文件实时同步和实时备份软件,以最简单、最灵活、最安全的方式,成为广域网上多设备数据同步备份的不二选择。而且部署超级简单,只要 10 秒钟,不需要精深的专业知识,普通小白用户即可操作。最令人开心的是,它是免费的。 用户只需要到端端 Clouduolc 的官网, 下载 最新客户端以后,安装到 Windows server
本博客hadoop版本是hadoop  0.20.2。 安装hadoop-0.20.2-eclipse-plugin.jar 下载hadoop-0.20.2-eclipse-plugin.jar文件,并添加到eclipse插件库,添加方法很简单:找到eclipse安装目录下的plugins目录,直接复制到此目录下,重启eclipse 依次点击eclipse工具栏的window-----show view ------other在弹出的窗口中输入map,确认找到如下所示   到这里插件安装成功 map/re