全局索引是全局索引通过什么方式获取增量数据来获取增量数据的

原标题:HBase二级索引方案

HBase是一个构建在HDFS之上,用于海量数据存储分布式列存储系统。

参见下图,由于在HBase中:

  • 表的每行都是按照RowKey的字典序排序存储
  • 表的数据是按照RowKey区间进行分割存储成多个region

所以HBase主要适用下面这两种常见场景:

  • 适用于基于rowkey的单行数据快速随机读写
  • 适合基于rowkey前缀的范围扫描

02 为什么需要HBse二级索引

HBase里面只有rowkey作为一级索引, 如果要对库里的非rowkey字段进行数据检索和查询, 往往要通过MapReduce/Spark等分布式计算框架进行,硬件资源消耗和时间延迟都会比较高。

为了HBase的数据查询更高效、适应更多的场景, 诸如使用非rowkey字段检索也能做到秒级响应,或者支持各个字段进行模糊查询和多字段组合查询等, 因此需要在HBase上面构建二级索引, 以满足现实中更复杂多样的业务需求。

在web.xml下配置配置文件的路径

 
      
      
      
      
      
      
      
      
# 重做索引的时间间隔,单位分钟,默认7200,即1天; 
      
# 为空,为0,或者注释掉:表示永不重做索引
      
      
 
      
      
 
      
# 两种格式: 03:10:00 或者 03:10:00,后一种会自动补全日期部分为服务启动时的日期
      
 
      
      
 
    

配置完成,启动tomcat即可,访问地址,查看是否正常。再检查core下得配置文件,看时间改变即成功

冲突,如果这个jar有问题,访问就会出现如下图错误,初始化失败

我要回帖

更多关于 全局索引通过什么方式获取增量数据 的文章

 

随机推荐