hive建表语句(hive存文本文件中第一行是表头解决办法)
本文目录
- hive存文本文件中第一行是表头解决办法
- hive select into 可以建表么
- Hive 数据库表的基本操作,必须掌握的基本功
- 如何生成hive的建表语句
- 如何获取hive建表语句
- hive中已有的表,查看其建表语句
- hive里建表插入日期为null值的解决办法
hive存文本文件中第一行是表头解决办法
hive把纯文本放在表对应的位置,就可以查询到数据,但是如果纯文本里面存在表头,会把表头也作为第一行数据。如果又不想在纯文本中去掉表头只要在建表语句中加入如下‘tblproperties ("skip.header.line.count"="1")’即可。 实际建表语句如下所示:
hive select into 可以建表么
可以考虑用sed将双引号替换掉,然后加载到hive里建表可以用以下语句createtablet_name(t1String,t2String,t3String,t4String,t5String,t6String,t7String,t8String,t9String,t10String)rowformatdelimitedfieldsterminatedby’,’--逗号分隔
Hive 数据库表的基本操作,必须掌握的基本功
说明:hive 的表存放位置模式是由 hive-site.xml 当中的一个属性指定的,默认是存放在该配置文件设置的路径下,也可在创建数据库时单独指定存储路径。
数据库有一些描述性的属性信息,可以在创建时添加:
查看数据库的键值对信息
修改数据库的键值对信息
与mysql查询语句是一样的语法
删除一个空数据库,如果数据库下面有数据表,那么就会报错
强制删除数据库,包含数据库下面的表一起删除(请谨慎操作)
里的属性为可选属性,不是必须的,但是如果有可选属性,会使 sql 语句的易读性更好,更标准与规范。
例如:属性除外
1. CREATE TABLE 创建一个指定名字的表,如果相同名字的表已存在,则抛出异常提示:表已存在,使用时可以使用IF NOT EXISTS语句来忽略这个异常。
如果创建的表名已存在,则不会再创建,也不会抛出异常提示:表已存在。否则则自动创建该表。
2. EXTERNAL 顾名思义是外部的意思,此关键字在建表语句中让使用者可以创建一个外部表,如果不加该关键字,则默认创建内部表。
外部表在创建时必须同时指定一个指向实际数据的路径(LOCATION),Hive在创建内部表时,会将数据移动到数据仓库指向的路径;
若创建外部表,仅记录数据所在的路径,不对数据的位置作任何改变。
内部表在删除后,其元数据和数据都会被一起删除。 外部表在删除后,只删除其元数据,数据不会被删除。
3. COMMENT 用于给表的各个字段或整张表的内容作解释说明的,便于他人理解其含义。
4. PARTITIONED BY 区分表是否是分区表的关键字段,依据具体字段名和类型来决定表的分区字段。
5. CLUSTERED BY 依据column_name对表进行分桶,在 Hive 中对于每一张表或分区,Hive 可以通过分桶的方式将数据以更细粒度进行数据范围划分。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。
6. SORTED BY 指定表数据的排序字段和排序规则,是正序还是倒序排列。
7. ROW FORMAT DELIMITED FIELDS TERMINATED BY ’ ’ 指定表存储中列的分隔符,这里指定的是’ ’,也可以是其他分隔符。
8. STORED AS SEQUENCEFILE|TEXTFILE|RCFILE 指定表的存储格式,如果文件数据是纯文本格式,可以使用STORED AS TEXTFILE,如果数据需要压缩,则可以使用STORED AS SEQUENCEFILE。
9. LOCATION 指定 Hive 表在 hdfs 里的存储路径,一般内部表(Managed Table)不需要自定义,使用配置文件中设置的路径即可。 如果创建的是一张外部表,则需要单独指定一个路径。
1. 使用create table语句创建表 例子:
2. 使用create table ... as select...语句创建表 例子:
使用 create table ... as select ...语句来创建新表sub_student,此时sub_student 表的结构及表数据与 t_student 表一模一样, 相当于直接将 t_student 的表结构和表数据复制一份到 sub_student 表。
注意: (1). select 中选取的列名(如果是 * 则表示选取所有列名)会作为新表 sub_student 的列名。
(2). 该种创建表的方式会改变表的属性以及结构,例如不能是外部表,只能是内部表,也不支持分区、分桶。
如果as select后的表是分区表,并且使用select *,则分区字段在新表里只是作为字段存在,而不是作为分区字段存在。
在使用该种方式创建时,create 与 table 之间不能加 external 关键字,即不能通过该种方式创建外部目标表,默认只支持创建内部目标表。
(3). 该种创建表的方式所创建的目标表存储格式会变成默认的格式textfile。
3.使用like语句创建表 例子:
注意: (1). 只是将 t_student 的表结构复制给 sub1_student 表。
(2). 并不复制 t_student 表的数据给 sub1_student 表。
(3). 目标表可以创建为外部表,即:
如何生成hive的建表语句
Java连接Hive利用jdbc连接到hive,使用Java程序写一个循环。先获取全部表,然后show create table每个表。没能尝试成功,一直连接不上:import java.sql.SQLException;import java.sql.Connection;import java.sql.ResultSet;import java.sql.Statement;import java.sql.DriverManager;public class HiveTestCase { private static String driverName = "org.apache.hive.jdbc.HiveDriver"; public static void main(String args) throws SQLException { try { Class.forName(driverNa
如何获取hive建表语句
hivesql sql— 获取指定hive表或指定文件中所有hive表的DDL,如果有按天的分区则默认执行最近7天的分区DDL。同时,table支持符合sql语法的正则表达式,如果有多个表匹配,则提示用户选择(使用file则自动关闭该交互功能)。hivesql synctab— 基本同上,但是会将得到的DDL提交到当前的hive环境,可用来在不同的hive环境中复制表结构。如果需要多天分区DDL还可以这样用(前提是分区中含有日期信息,如pt=20100720):hivesql sql s_table 20100702 — 除建表语句外,获得自20100702以来的分区DDLhivesql sql s_table 20100702 20100725 — ………………………..自20100702-20100725的分区DDLhivesql sql s_table 20100702 10 — ………………………..自20100702起10天的分区DDLhivesql synctab和hivesql sql一样支持上述日期限定功能。此外,还提供了两个附加的功能(也很有用呃)hivesql loc — 根据关键字查找能够匹配到的hive表或对应的数据路径hivesql hdfswc — 获取指定数据目录下所有数据的总行数,支持普通文本,TextFile和SequenceFile的压缩格式,类似于linux下的wc -l
hive中已有的表,查看其建表语句
show create table warehouse;+----------------------------------------------------+ | createtab_stmt | +----------------------------------------------------+ | CREATE EXTERNAL TABLE `warehouse`( | | `w_warehouse_sk` bigint, | | `w_warehouse_id` char(16), | | `w_warehouse_name` varchar(20), | | `w_warehouse_sq_ft` int, | | `w_street_number` char(10), | | `w_street_name` varchar(60), | | `w_street_type` char(15), | | `w_suite_number` char(10), | | `w_city` varchar(60), | | `w_county` varchar(30), | | `w_state` char(2), | | `w_zip` char(10), | | `w_country` varchar(20), | | `w_gmt_offset` decimal(5,2)) | | ROW FORMAT SERDE | | ’org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe’ | | WITH SERDEPROPERTIES ( | | ’field.delim’=’|’, | | ’serialization.format’=’|’) | | STORED AS INPUTFORMAT | | ’org.apache.hadoop.mapred.TextInputFormat’ | | OUTPUTFORMAT | | ’org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat’ | | LOCATION | | ’hdfs://mycluster/data/tpcds/2/warehouse’ | | TBLPROPERTIES ( | | ’bucketing_version’=’2’, | | ’serialization.null.format’=’’, | | ’transient_lastDdlTime’=’1616470752’) | +----------------------------------------------------+
hive里建表插入日期为null值的解决办法
问题: hive中建表语句如下:(其中包含日期字段)
插入数据如下:
发现日期字段显示为null
解决办法:
在建表语句中把日期字段的类型改为string即可
再次插入数据,即可正常显示:
更多文章:
数据结构c语言版耿国华(数据结构-C语言描述/新世纪计算机类本科系列教材 在那里买的到啊)
2024年7月8日 13:07
flank ahead为什么是全速前进呢flank不是侧面的意思么?英语翻译,这里的flk是什么缩写
2024年6月5日 04:17
phpecho输出怎么居中(php中怎样让输出的值显示在页面的中间)
2024年7月30日 09:05
apologize什么意思中文(apologize是什么意思啊)
2024年6月4日 01:52
vmwaretools安装失败回滚(vmware tools无法安装怎么办)
2024年7月16日 18:04
access查询教程(access里窗体加查询怎么做,希望详细地教一下)
2024年9月27日 19:20
ie设置activexobject(怎么在ie浏览器调用本地的应用程序)
2024年6月25日 08:57
queue jumper是什么意思(jumper是什么意思)
2024年7月9日 23:20
work前面加什么介词(at work 和in the work的区别)
2024年5月11日 02:35