hbase20xsqlreader 插件文档
hbase20xsqlreader 插件文档 1 快速介绍 hbase20xsqlreader插件实现了从Phoenix(HBase SQL)读取数据,对应版本为HBase2.X和Phoenix5.X。 2 实现原理 简而言之,hbase20xsqlreader通过Phoenix轻客户端去连接Phoenix QueryServer,并根据用户配置信息生成查询SELECT 语句,然后发送到QueryServer读取HBase数据,并将返回结果使用DataX自定义的数据类型拼装为抽象的数据集,最终传递给下游Writer处理。 3 功能说明 3.1 配置样例 配置一个从Phoenix同步抽取数据到本地的作业: { "job": { "content": [ { "reader": { "name": "hbase20xsqlreader", //指定插件为hbase20xsqlreader "parameter": { "queryServerAddress": "http://127.0.0.1:8765", //填写连接Phoenix QueryServer地址 "serialization": "PROTOBUF", //QueryServer序列化格式 "table": "TEST", //读取表名 "column": ["ID", "NAME"], //所要读取列名 "splitKey": "ID" //切分列,必须是表主键 } }, "writer": { "name": "streamwriter", "parameter": { "encoding": "UTF-8", "print": true } } } ], "setting": { "speed": { "channel": "3" } } } } 3.2 参数说明 queryServerAddress 描述:hbase20xsqlreader需要通过Phoenix轻客户端去连接Phoenix QueryServer,因此这里需要填写对应QueryServer地址。 增强版/Lindorm 用户若需透传user, password参数,可以在queryServerAddress后增加对应可选属性. 格式参考:http://127.0.0.1:8765;user=root;password=root 必选:是 默认值:无 serialization 描述:QueryServer使用的序列化协议 必选:否 默认值:PROTOBUF table 描述:所要读取表名 必选:是 默认值:无 schema 描述:表所在的schema 必选:否 默认值:无 column 描述:填写需要从phoenix表中读取的列名集合,使用JSON的数组描述字段信息,空值表示读取所有列。 必选: 否 默认值:全部列 splitKey...