Hive自定义函数UDF相关

[TOC]

UDF开发及使用

  1. 打成jar包上传到服务器,将jar包添加到hive的classpath
1
或者 hive>add JAR /home/hadoop/udf.jar;
  1. 创建临时函数与开发好的java class关联
1
Hive>create temporary function runTime as 'me.yao.bigdata.udf.RunTime';

即可在hql中使用自定义的函数time()

Select time(name),age from t_test;

add jar只在一次会话中生效

查看更多

评论

Hive建表及sql相关

[TOC]

hive主要是做离线日志分析的,不是为了做单行的事务控制的数据
新版hive也支持单行数据的读取,但是效率非常低,所以也没有什么updata语句

查看更多

评论

Json与Scala类型的相互转换处理

[TOC]

在开发过程中时常会有对json数据的一些处理,现做一些记录

查看更多

评论

Spark读取HBase

[TOC]

Spark读取Hbase

查看更多

评论

Spark读取HBase解析json创建临时表录入到Hive表

[TOC]

介绍:主要是读取通过mysql查到关联关系然后读取HBASE里面存放的Json,通过解析json将json数组对象里的元素拆分成单条json,再将json映射成临时表,查询临时表将数据落入到hive表中

注意:查询HBASE的时候,HBase集群的HMaster,HRegionServer需要是正常运行

主要将内容拆分成几块,spark读取HBase,spark解析json将json数组中每个元素拆成一条(比如json数组有10个元素,需要解析平铺成19个json,那么对应临时表中就是19条记录,对应查询插入到hive也就是19条记录)

spark读取本地HBase

查看更多

评论

HBase拷贝生产环境数据到本地Spark解析运行调试

[TOC]

由于线上环境要经过跳板机跳转,并且打包测试,上传jar包步骤多,不然的话,要进行各种端口转发,且有权限控制,不易在本地idea编辑器上进行程序运行及调试

现在想法是,将线上测试环境的数据拷贝小部分到本地自己搭建的集群,进行程序的逻辑和初期调试

此贴就是记录一些操作

这都是要基于本地有HBASE及其依赖组件的。

主要思路是,拷贝线上查询的结果到文件hbaseout1.txt,将hbaseout1.txt文件sz导入本地

再在本地集群上将数据插入到hbase

查看更多

评论

Hbase-shell操作

[TOC]

hbase使用命令行操作,简单直接,方便快捷,掌握一点必备的基础命令。

HBase启动命令行

1
$HBASE_HOME/bin/hbase shell

查看更多

评论

Spark本地调试远程集群程序

[TOC]

由于在生产环境中进行调试spark程序需要进行打包和各种跳板机跳转,最好在本地搭一套集群来进行一些代码基础检查。

查看更多

评论

Zookeeper的配置容器的搭建

[TOC]

在usr目录下下载zk包,并且解压到/usr/目录,改名为zk,所以$ZK_HOME为/usr/zk

创建目录

1
2
3
mkdir -p /usr/zk/data
mkdir -p /usr/zk/logs
touch /usr/zk/data/myid

查看更多

评论

Docker-machine莫名不能访问?

1
Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get http://%2Fvar%2Frun%2Fdocker.sock/v1.29/containers/json: dial unix /var/run/docker.sock: connect: permission denied
1
2
Starting "default"...
generic driver does not support start
评论