Hive和Hbase有各自不同的特征:hive是高延迟、结构化和面向分析的,hbase是低延迟、非结构化和面向编程的。Hive数据仓库在hadoop上是高延迟的。Hive集成Hbase就是为了使用hbase的一些特性。
如何在Hive构造Dual表
dual表的概念来自oracle,数据库建立时即与数据字典一起初始化,该表只有一个varchar2类型名为dummy的字段,表数据只有一行“X”,用来查询一些系统信息,如select sysdate from dual; select user from dual;select seq.nextval from dual等。
为了能在hive中测试一些时间、数学、聚合函数,可以仿照oracle创建dual表。
hbase-sql
hbase-sql
最近在做一个hbase proxy的的项目,字面意思是hbase代理,其实就是将对hbase数据操作的都经过这个系统进行转发,实现对hbase的代理,由这个系统提供接口对外,该项目中涉及了很多对HBase进行查询和插入的操作,但是随着需求不但增加,每新增一个需求,就要根据需求使用HBase API来开发来完成相应功能的开发。有没有一种办法只是通过配置的方法就可以实现对hbase的相关操作(增删改查),从而减少代码的开发呢?
WebDigger爬虫
WebDigger是一个采用Java开发的爬虫框架。WebDigger的目标是简化爬虫的开发流程,让开发者只用关心抓取页面的数据提取和数据保存的逻辑。WebDigger也提供注解的方式来配置要抓取的网页数据,以减少代码的开发。项目地址