解析数据存储MySQL

为了适应不同项目对不同感兴趣属性的解析存储,数据存储结构采用纵向的属性列表方式,即一个url页面多个属性存储多条记录方式,并且按照text,html,data,num几大典型类型分别对应存储。

  创建UTF-8字符集的nutch数据库,并执行表初始化脚本,参考DDL:

  CREATE TABLE `crawl_data` (

  `url` varchar(255) NOT NULL,

  `code` varchar(255) NOT NULL,

  `name` varchar(255) DEFAULT NULL,

  `category` varchar(255) DEFAULT NULL,

  `order_index` int(255) DEFAULT NULL,

  `fetch_time` datetime NOT NULL,

  `text_value` text, `html_value` text,

  `date_value` datetime DEFAULT NULL,

  `num_value` decimal(18,2) DEFAULT NULL

  ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

  

  为了一般在业务系统获取同一个url的多个属性或友好查询显示,参考如下MySQL脚本实现把纵向的属性列表属性转换为横向的多列显示模式。网上有 相关参考脚本大多是基于数字字段sum汇总等模式的纵转横SQL脚本,本项目需求是单一的基于字符串信息转换,经过一段摸索最后找到基于 GROUP_CONCAT可以实现:

  SELECT url ,fetch_time,

  GROUP_CONCAT(CASE WHEN code = 'domain' THEN text_value ELSE null END) AS `domain`,

  GROUP_CONCAT(CASE WHEN code = 'name' THEN text_value ELSE null END) AS `name`,

  GROUP_CONCAT(CASE WHEN code = 'brand' THEN text_value ELSE null END) AS `brand`,

  GROUP_CONCAT(CASE WHEN code = 'category' THEN text_value ELSE null END) AS `category`,

  GROUP_CONCAT(CASE WHEN code = 'purpose' THEN text_value ELSE null END) AS `purpose`,

  GROUP_CONCAT(CASE WHEN code = 'price' THEN num_value ELSE null END) AS `price`,

  GROUP_CONCAT(CASE WHEN code = 'refPrice' THEN num_value ELSE null END) AS `refPrice`,

  GROUP_CONCAT(CASE WHEN code = 'primaryImage' THEN text_value ELSE null END) AS `primaryImage` FROM crawl_data GROUP BY url,fetch_time

  

技术分享:www.kaige123.com

本页内容版权归属为原作者,如有侵犯您的权益,请通知我们删除。
一、定义:虚拟机把描述类的数据从class文件加载到内存,并对数据进行校验、转换解析和初始化,最终形成可以被虚拟机直接使用的Java类型,这就是虚拟机的类加载机制。     与需要在编译时进行连接工作的语言不同,在Java语言里面,类型的加载、连接和初始化过程都是在程序运行期间完成的,这种策略虽然会令类加载时稍微增加一些性能开销,但是会为Java应用程序提供高度的灵活性,Java里天生可以动态扩展的语言特性就是依赖运行期动态加载和动态连接这个特点实现的。 二、类加载的时机     类从被加载到虚拟机内存中

java播放器 - 2016-09-18 14:09:03

最近写了一段java播放器代码 /* dkplus专业搜集和编写实用电脑软件教程,搜集各种软件资源和计算机周边(java网络编程,seo网站优化,web开发,lnmp,java网络编程,毕业论文设计),独立制作视频和ppt和音频微信公众号,点击进入 dkplus官方博客http://dkplus.iteye.com 微信搜索dkplus关注公众号可获取海量计算机周边资源。 */ package simpleaudioplayer; import javax.media.*;import java.io.I

Servlet之JSP_01概述 - 2016-09-17 18:09:08

一、什么是JSP JSP (Java Server Pages) 提供一种简便、快速的方式以生成动态的(dynamic)网页内容。 JSP运行原理 JSP 是 Servlet 的模板文件。 JSP最终由 Web 容器解析生成 Servlet 类( .java 文件),并编译成为 .class 文件,最后执行。 植入 JAVA 代码 可以告诉解析器,JSP 模板中的哪一部分是原生的 JAVA 代码,不需要解析。 在JSP中使用 % % 嵌入 JAVA 代码。 被 web 容器基于 JSP 文件而解析生成的
最近有遇到一个问题就是接口放提供的接口密文为PHP的sha256sum加密的内容 在网上找了半天没找到java相应的加密方式 最后迫不得已使用程序执行linux命令来加密 echo -n '123456bzGI9IZAaheT8LtAvhlYNnpDgwuy4hvw' | sha256sum | xxd -r -p | base64 -w0 java程序为: public static String getSHA256Value(String password){ String result = ""; I

聊天室java - 2016-09-17 14:09:07

最近写了一段聊天室java代码 /* dkplus专业搜集和编写实用电脑软件教程,搜集各种软件资源和计算机周边(java网络编程,seo网站优化,web开发,lnmp,java网络编程,毕业论文设计),独立制作视频和ppt和音频微信公众号,点击进入 dkplus官方博客http://dkplus.iteye.com 微信搜索dkplus关注公众号可获取海量计算机周边资源。 */ package com.server;import javax.swing.JButton;import javax.swing

Servlet之JSP概述 - 2016-09-16 14:09:06

一、什么是JSP JSP (Java Server Pages) 提供一种简便、快速的方式以生成动态的(dynamic)网页内容。 JSP运行原理 JSP 是 Servlet 的模板文件。 JSP最终由 Web 容器解析生成 Servlet 类( .java 文件),并编译成为 .class 文件,最后执行。 植入 JAVA 代码 可以告诉解析器,JSP 模板中的哪一部分是原生的 JAVA 代码,不需要解析。 在JSP中使用 % % 嵌入 JAVA 代码。 被 web 容器基于 JSP 文件而解析生成的
    最近项目遇到一个问题     要求项目对外提供的接口要保证每秒接受报文的能力达到  40个/秒(项目架构用的spring mvc),     而目前我这个接口不做任何操作,接受请求后直接返回,也才70个/秒的样子,如果收到报文做一次存储处理的话 就只有30个/秒的样子,求教下哪位有什么好的优化方案,可以从哪些方面做优化

3d文字 - 2016-09-15 17:09:05

最近写了一段代码 /* dkplus专业搜集和编写实用电脑软件教程,搜集各种软件资源和计算机周边(java网络编程,seo网站优化,web开发,lnmp,java网络编程,毕业论文设计),独立制作视频和ppt和音频微信公众号,点击进入 dkplus官方博客http://dkplus.iteye.com 微信搜索dkplus关注公众号可获取海量计算机周边资源。 */import java.applet.Applet;import java.awt.*;public class Text3DApplet ex

学习SSH框架 - 2016-09-15 17:09:05

1.SSH框架的认知 在做相关的java的网页的开发制作时,良好的层次分解是十分有比要的,所以我们在云涌第三方的框架之下来简化还有名了我们相关的网站的开发。 SSH框架实则为Struct + spring + hibernate 的三个组成的,其中 struct ,专注与前台的相关的请求的所对应的ActionForm还有其相关跳转的Action来处理得到相关的JSP页面,从而来更新或是条状到相关用户的请求的服务页面,或是信息页面。而 Hibernate 的作用是体现在数据的持久化的层次中,我们对于页面,通
package com.erp.util;   import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.io.OutputStream; import java.io.PrintWriter; import java.io.StringWriter; import java.net.HttpURLC