运维 #hadoop #大数据

Hive数仓基本操作

首先需要了解的是MapReduce的编写与操作需要操作人员具有JAVA的编程能力，而Hive存在的目的是用类SQL的语句，提供MapReduce操作。相较于直接编写MapReduce更加方面高效。 SQL中DDL语法的作用数据定义语言（Data Definition Language, DDL），

oldbeef Published on 2025-05-13

运维 #hadoop #大数据

Hive数仓

数仓概念数据仓库（Data Warehouse，简称数仓、DW），是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供

oldbeef Published on 2025-05-13

运维 #hadoop #大数据

Apache Hadoop YARN （Yet Another Resource Negotiator ，另一种资源协调者）是一种新的Hadoop资源管理器。 YARN是一种通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度。他的引入为集群在利用率、资源统一管理和数据共享等方面带来了

oldbeef Published on 2025-05-08

运维 #hadoop #大数据

了解MapReduce思想 MapReduce是一个分布式的并行处理框架 mapreduce的思想核心是“先分再和，分而治之” 所谓“分而治之”就是把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，然后把各部分的结果组成整个问题的最终结果。

oldbeef Published on 2025-05-08

运维 #hadoop #大数据

hdfs全称为hadoop分布式文件系统，是hadoop核心组件之一，作为大数据生态底层的分枝存储服务而存在。也可以说大数据首先要处理的问题就是海量数据的存储问题，下面将从功能介绍、部署、以及基本使用几个部分来介绍HDF文件系统简介 hdfs主要是用于处理大数据存储问题的，分布式意味着hdfs是横

oldbeef Published on 2025-05-08

运维 #hadoop #大数据

大数据和数据分析是当今数字化时代两个密切相关但又有所区别的概念。以下是它们的详细对比和联系：定义大数据（Big Data）大数据是指数据量巨大、类型多样、生成速度快的数据集合。它不仅包括传统的结构化数据（如数据库中的表格数据），还包括半结构化数据（如XML、JSON文件）和非结构化数据（如文本

oldbeef Published on 2025-05-08