Hive自定义函数UDF相关

2018-08-11

大数据

Hive

[TOC]

UDF开发及使用

打成jar包上传到服务器，将jar包添加到hive的classpath

1	或者 hive>add JAR /home/hadoop/udf.jar;

创建临时函数与开发好的java class关联

1	Hive>create temporary function runTime as 'me.yao.bigdata.udf.RunTime';

即可在hql中使用自定义的函数time()

Select time(name),age from t_test;

add jar只在一次会话中生效

Hive建表及sql相关

2018-08-11

大数据

Hive, 使用

[TOC]

hive主要是做离线日志分析的，不是为了做单行的事务控制的数据
新版hive也支持单行数据的读取，但是效率非常低，所以也没有什么updata语句

Json与Scala类型的相互转换处理

2018-08-11

大数据

Json, Scala

[TOC]

在开发过程中时常会有对json数据的一些处理，现做一些记录

Spark读取HBase

2018-08-11

大数据

HBase, Spark

[TOC]

Spark读取Hbase

Spark读取HBase解析json创建临时表录入到Hive表

2018-08-11

大数据

Spark, SparkSQL

[TOC]

介绍：主要是读取通过mysql查到关联关系然后读取HBASE里面存放的Json，通过解析json将json数组对象里的元素拆分成单条json,再将json映射成临时表，查询临时表将数据落入到hive表中

注意：查询HBASE的时候，HBase集群的HMaster，HRegionServer需要是正常运行

主要将内容拆分成几块，spark读取HBase，spark解析json将json数组中每个元素拆成一条（比如json数组有10个元素，需要解析平铺成19个json，那么对应临时表中就是19条记录，对应查询插入到hive也就是19条记录）

spark读取本地HBase

HBase拷贝生产环境数据到本地Spark解析运行调试

2018-08-10

大数据

HBase, 操作

[TOC]

由于线上环境要经过跳板机跳转，并且打包测试，上传jar包步骤多，不然的话，要进行各种端口转发，且有权限控制，不易在本地idea编辑器上进行程序运行及调试

现在想法是，将线上测试环境的数据拷贝小部分到本地自己搭建的集群，进行程序的逻辑和初期调试

此贴就是记录一些操作

这都是要基于本地有HBASE及其依赖组件的。

主要思路是，拷贝线上查询的结果到文件hbaseout1.txt，将hbaseout1.txt文件sz导入本地

再在本地集群上将数据插入到hbase

Hbase-shell操作

2018-08-10

大数据

HBase, Shell

[TOC]

hbase使用命令行操作，简单直接，方便快捷，掌握一点必备的基础命令。

HBase启动命令行

1	$HBASE_HOME/bin/hbase shell

Spark本地调试远程集群程序

2018-08-07

大数据

Spark

[TOC]

由于在生产环境中进行调试spark程序需要进行打包和各种跳板机跳转，最好在本地搭一套集群来进行一些代码基础检查。

Zookeeper的配置容器的搭建

2018-08-07

安装部署

Docker, zk

[TOC]

在usr目录下下载zk包，并且解压到/usr/目录，改名为zk，所以$ZK_HOME为/usr/zk

创建目录

1
2
3

mkdir -p /usr/zk/data
mkdir -p /usr/zk/logs
touch /usr/zk/data/myid

Docker-machine莫名不能访问？

Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get http://%2Fvar%2Frun%2Fdocker.sock/v1.29/containers/json: dial unix /var/run/docker.sock: connect: permission denied

1 2	Starting "default"... generic driver does not support start