00-导航(第一次来点这里) 博客中的文章主要为日常所用或所学的知识,内容较多,主要包括以下系列,可以直接点击查看。如果想查看其它文章,可以使用右上角的搜索功能进行搜索。 开发语言 021-Python 021-Java 021-Go 021-Vue 021-Shell 数据库 042-MySQL 042-Redis 042-ElasticSearch 042-PostgreSQL 042-MongoDB 云原生 2024-01-01
Hive 函数-内置函数 1 概述如同RDBMS中标准SQL语法一样,Hive SQL内建了不少函数,用于满足户在不同场合下的数据分析需求,提高开发SQL数据分析的效率。 可以使用show functions查看当下版本支持的函数,并且可以通过describe function extended funcname来查看函数的使用方式和方法。 1234--查看函数的使用说明describe function year;--使 2025-02-01 Hive #Hive
Hive 函数-用户自定义函数 用户自定义函数分类虽然说Hive内置了很多函数,但是不见得一定可以满足于用户各种各样的分析需求场景。为了解决这个问题,Hive推出来用户自定义函数功能,让用户实现自己希望实现的功能函数。用户自定义函数简称UDF,源自于英文user-defined function。 自定义函数总共有3类,是根据函数输入输出的行数来区分的,分别是: UDF(User-Defined-Function)普通函数,一 2025-02-01 Hive #Hive
Hive 数据类型 Hive数据类型详解Hive 中的数据类型指的是Hive表中的列字段类型。 Hive 数据类型整体分为两个类别:原生数据类型(primitive data type)和复杂数据类型(complex data type)。 原生数据类型包括: 数值类型、时间类型、字符串类型、杂项数据类型; 复杂数据类型包括: array数组、map映射、struct结构、union联合体。 关于Hive的 2025-02-01 Hive #Hive
Hive 运算符 Hive 内置运算符随着Hive版本的不断发展,在Hive SQL中支持的、内置的运算符也越来越多。可以使用下面的命令查看当下支持的运算符和函数,并且查看其详细的使用方式。 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 123456--显示所有的函数和运算符show functions;--查看运算符或者函数 2025-02-01 Hive #Hive
Hive 应用案列 多字节分隔符Hive中的分隔符Hive中默认使用单字节分隔符来加载文本数据,例如逗号、制表符、空格等等,默认的分隔符为\001。根据不同文件的不同分隔符,可以通过在创建表时使用 row format delimited fields terminated by ‘单字节分隔符’ 来指定文件中的分割符,确保正确将表中的每一列与文件中的每一列实现一一对应的关系。 特殊数据情况一:每一行数据的分隔符是 2025-01-24 Hive #Hive
Hive web界面方式 下载相应版本 hive 源码我的 hive 1.2.1,所以源码版本是 apache-hive-1.2.1-src.tar.gz, 下载地址 https://archive.apache.org/dist/hive/hive-1.2.1/ 然后解压缩,找到目录下面 hwi 文件夹里面有一个 web 文件夹,使用命令编辑成war包 123456# 解压缩并进入到 hwi 目录tar zxvf apa 2025-01-22 Hive #Hive
客户端使用 HiveServer、HiveServer2 服务HiveServer、HiveServer2 都是 Hive 自带的两种服务,允许客户端在不启动 CLI 的情况下对 Hive 中的数据进行操作,且两个都允许远程客户端使用多种编程语言如 Java,Python 等向 Hive 提交请求,取回结果。 但是,HiveServer 不能处理多于一个客户端的并发请求。因此在 Hive-0.11.0 版本中 2025-01-22 Hive #Hive
Hive DDL 数据定义语言 数据定义语言(DDL)概述DDL语法的作用数据定义语言 (Data Definition Language, DDL),是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言,这些数据库对象包括database(schema)、table、view、index等。 核心语法由CREATE、ALTER与DROP三个所组成。DDL并不涉及表内部数据的操作。 在某些上下文中,该术语也称为 2025-01-21 Hive #Hive
Hive DML 数据操控 DQL-Select查询数据基础查询 - 语法树12345678910[WITH CommonTableExpression (, CommonTableExpression)*] SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP 2025-01-21 Hive #Hive
Hive DQL 查询语言 DQL-Select查询数据基础查询 - 语法树12345678910[WITH CommonTableExpression (, CommonTableExpression)*] SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP 2025-01-21 Hive #Hive
Hive 事物表 Hive Transactional Tables 事务表Hive 事务背景知识Hive 本身从设计之初时,就是不支持事务的,因为Hive的核心目标是将已经存在的结构化数据文件映射成为表,然后提供基于表的SQL分析处理,是一款面向分析的工具。且映射的数据通常存储于HDFS上,而HDFS是不支持随机修改文件数据的。 这个定位就意味着在早期的 Hive 的 SQL 语法中是没有 update,dele 2025-01-21 Hive #Hive
Hive 内部表和外部表 Hive 内部表和外部表什么是内部表?内部表(Internal table) 也称为被 Hive 拥有和管理的托管表(Managed table)。默认情况下创建的表就是内部表,Hive拥有该表的结构和文件。换句话说,Hive完全管理表(元数据和数据)的生命周期,类似于RDBMS中的表。 当删除内部表时,它会删除数据以及表的元数据。 12345678create table student( 2025-01-21 Hive #Hive
Hive 分区表 Hive分区表分区表的概念、创建当 Hive 表对应的数据量大、文件多时,为了避免查询时全表扫描数据,Hive 支持根据用户指定的字段进行分区,分区的字段可以是日期、地域、种类等具有标识意义的字段。 比如把一整年的数据根据月份划分12个月(12个分区),后续就可以查询指定月份分区的数据,尽可能避免了全表扫描查询。 分区表建表语法1CREATE TABLE table_name (column1 2025-01-21 Hive #Hive
Hive 分桶表 Hive 分桶表分桶表的概念分桶表也叫做桶表,源自建表语法中 bucket 单词。是一种用于优化查询而设计的表类型。该功能可以让数据分解为若干个部分易于管理。 在分桶时,我们要指定根据哪个字段将数据分为几桶(几个部分)。默认规则是:Bucket number = hash_function(bucketing_column) mod num_buckets。 可以发现桶编号相同的数据会被分到同一个 2025-01-21 Hive #Hive
Hive 物化视图 Hive3.0新特性:物化视图 materialized views物化视图概念在传统的数据库领域基本已经都实现了物化视图, 属于数据库的高级功能。物化视图(Materialized View)是一个包括查询结果的数据库对像,可以用于预先计算并保存表连接或聚集等耗时较多的操作的结果。 这样,在执行查询时,就可以避免进行这些耗时的操作,而从快速的得到结果。使用物化视图的目的就是通过预计算,提高查询性 2025-01-21 Hive #Hive
Hive 视图 Hive View 视图View 的概念Hive中的视图(view)是一种虚拟表,只保存定义,不实际存储数据。通常从真实的物理表查询中创建生成视图,也可以从已经存在的视图上创建新视图。 创建视图时,将冻结视图的架构,如果删除或更改基础表,则视图将失败,并且视图不能存储数据,操作数据,只能查询。 概况起来就是:视图是用来简化操作的,它其实是一张虚表,在视图中不缓冲记录,也没有提高查询性能。 View 2025-01-21 Hive #Hive
Hive 安装 1 安装说明在安装 Hive 之前,需要先安装 hadoop 集群环境,如果没有可以先安装。 在启动 Hive 之前,需要先启动 hadoop 集群。 文章末尾有部分错误的解决办法。 1.1 用到的软件 软件 版本 下载地址 hadoop hadoop-2.7.1 http://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/hado 2025-01-11 Hive #Hive
Hive 安装 元数据相关名词 Metadata Metadata 即元数据。元数据包含用 Hive 创建的 database、table、表的位置、类型、属性,字段顺序类型等元信息。元数据存储在关系型数据库中。如 Hive 内置的 Derby、或者第三方如 MySQL 等。 Metastore Metastore 即元数据服务。Metastore 服务的作用是管理 metadata 元数据,对外暴露服务地址, 2025-01-11 Hive #Hive
Hive 入门 1 Hive 简介1.1 Hive简介1.1.1 什么是 HiveHive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 这是来自官方的解释。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。可以将sql语句转换为MapRedu 2025-01-01 Hive #Hive