当前位置: 首页 > news >正文

hive的数据库和表操作

hive的数据库和表操作

数据库操作

创建数据库

create database if not exists myhive;
use myhive

hive表存放位置由 conf/hive-site.xml 的一个属性指定的

<property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/user/hive/warehouse</value>
    </property>

指定HDFS位置

create database myhive location '/myhive'

查看数据库信息

desc database myhive

删除数据库

  • 删除一个空数据库,如果数据库中存在表,就会报错
drop database myhive;
  • 删除一个数据库,包括数据库中的表
drop database myhive cascade

表操作

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
 
   [(col_name data_type [COMMENT col_comment], ...)] 
 
   [COMMENT table_comment] 
 
   [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
 
   [CLUSTERED BY (col_name, col_name, ...) 
 
   [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
 
   [ROW FORMAT row_format] 
 
   [STORED AS file_format] 
 
   [LOCATION hdfs_path]
  • EXTERNAL 创建一个外部表,建表的同时指定一个执行实际数据的location。hive创建内部表会将数据移动到数据仓库指向的路径。创建外部表,不会改变数据的位置。删除表的时候,内部表的元数据和数据会一起删除,外部表只删除元数据
  • CLUSTERED BY 对每个表进行分桶(MR的分区),桶是更为细粒的数据范围的划分。hive针对某一列进行桶的划分,采用列值哈希,除以桶的个数求余来判断存放在哪个桶中
  • ROW FORMAT 指定行分隔符
  • STORED AS 表数据的存储格式,默认为TextFile
  • LOCATION 表在HDFS上的存储位置
  • LIKE 复制表结构但不复制数据

字段类型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EDW22FAr-1675568075616)(C:\Users\Lenovo\AppData\Roaming\Typora\typora-user-images\image-20230204175933677.png)]

内部表操作

未被 external 修饰的是内部表,不适合和其他工具共享数据

创建内部表

create database myhive;

use myhive;

create table s(id int, name string);

insert into s values (1, "jx");

select * from s

指定分隔符

create table if not exists s(id, int, name string) 
row format delimited fields terminated by '\t'

根据查询结果创建表

create table s2 as select * from s;

根据已有的表创建表

create table s2 like s;

查看表的类型

desc formatted s;

删除表

drop table s;

外部表操作

通过external关键字来创建外部表,文件存储在location指定的HDFS目录下

数据装载指令 load
load data [local] inpath '' [overwrite] into table table_name [partition]
  • local 表示从本地加载数据,否则从HDFS加载数据
  • inpath:加载数据路径

复杂类型的操作

Array类型

Array是数组类型,存放相同类型的数据

-- 查询所有数据
select * from myhive;

-- 查询arr数组中的第一个元素
select name, arr[0] from myhive;

-- 查询arr数组中元素的个数
select name, size(arr) from myhive;

-- 查询arr数组中包含某一值的信息
select * from myhive where array_contains(name, 'jx');

分区表

分区可以理解成分类,将不同类型的数据放到不同的目录下

分区表可以优化查询,通过where来指定所需的分区

创建分区表

create table student(name string, age int)
partitioned by(score int) 
row format delimited fields terminated by '\t';

一个表带多个分区

create table student1(name string, age int)
partitioned by(score int, school string) 
row format delimited fields terminated by '\t';

加载数据

load data local inpath '/opt/data/student.csv' into table student partition(score = 90);
load data local inpath '/opt/data/student.csv' into table student1 partition(score = 90, school = 'one');

多分区表联合查询

select * from student where score = 90 union all select * from where score = 80;

查看分区

show partition student;

添加分区

alter table student add partition(score = 70);
alter table student add partition(score = 70) partition(score = 60);

删除分区

alter table student drop partition (score = 90);

分桶表

将数据划分到不同文件中(MR的分区)

将数据按照字段进行划分到多个文件中去

开启hive的分桶表

set hive.enforce.bucketing = true

-- 设置reduce个数
set mapreduce.job.reduces = 3

创建分桶表

create table person(name string, age int) clustered by (age) into 3 buckets
row format delimited fields terminated by '\t'

桶表的数据加载通过HDFS,只能使用insert来加载数据

加载数据

insert overwrite table person select * from student cluster by (id);

修改表

基本语法

alter table old_table_name rename to new_table_name;

修改列信息

-- 查询表结构
desc person

-- 添加列
alter table person add columns(job string)

-- 更新列
alter table person change column job my_job string

删除表

drop table perosn

清空表结构

truncate table person

加载数据

向分区表中添加数据

insert into table person partition(score = 80) values ('jx', 20);

insert overwrite table person partition(score = 80) select name, age from student

load data local path '/opt/data/person.csv' overwrite into table person partition(score = 90);

数据导出

insert overwrite local directory '/opt/data/perosn.csv' select * from person

相关文章:

  • 力扣第331场周赛题解
  • 【Java】Spring Cloud 教程
  • 44 计算概论与程序设计基础21h-北京大学
  • Android-Native开发系列之利用AAudio播放音频
  • 道路病害识别监测系统 CNN网络
  • 基于wxbot的微信聊天机器人
  • 【OLAP】ClickHouse学习笔记
  • Android 插件化中资源错乱的解决方案
  • 【游戏逆向】FPS网络游戏自动瞄准漏洞分析以及实现
  • crawlspider类的使用
  • unity实时渲染部分
  • 【Linux】冯诺依曼体系与操作系统(OS)概念
  • Trie树的构造与应用
  • softmaxsigmoid
  • 【每日一题Day109】LC1210穿过迷宫的最少移动次数 | BFS+dp
  • 基于蜣螂算法优化的广义神经网络(GRNN)预测-附代码
  • 基于linux5.15.5的IMX 参考手册 ---20
  • ((蓝桥杯 刷题全集)【备战(蓝桥杯)算法竞赛-第5天】( 从头开始重新做题,记录备战竞赛路上的每一道题 )距离蓝桥杯还有62天
  • 8、数据的拆分、筛选、加权与平均
  • 09_文件的上传和下载
  • 电加热油锅炉工作原理_电加热导油
  • 大型电蒸汽锅炉_工业电阻炉
  • 燃气蒸汽锅炉的分类_大连生物质蒸汽锅炉
  • 天津市维修锅炉_锅炉汽化处理方法
  • 蒸汽汽锅炉厂家_延安锅炉厂家
  • 山西热水锅炉厂家_酒店热水 锅炉
  • 蒸汽锅炉生产厂家_燃油蒸汽发生器
  • 燃煤锅炉烧热水_张家口 淘汰取缔燃煤锅炉
  • 生物质锅炉_炉
  • 锅炉天然气_天燃气热风炉