学习 HBase(一):初识 HBase

Apache HBase 是 Hadoop 生态圈中分布式、可扩展的大数据存储解决方案。 基于 Google Bigtable 论文: Bigtable: A Distributed Storage System for Structured Data。 拥有以下特性: 线性且模块化的扩展能力 严格一致性的读写 自动和可配置的表分片 支持 RegionServers 间自动故障转移 易于使用的 »

学习 Griffin(二):部署

Apache Griffin 版本:0.4.0 架构 Griffin 架构如下所示: 技术组件包括: Apache Hadoop 批量数据源,存储指标数据 Apache Kafka 实时数据源 Apache Hive Hive Metastore Apache Spark 计算批量、实时指标 Apache »

学习 Griffin(一):简介

Apache Griffin 是构建在 Apache Hadoop 和 Apache Spark 之上的数据质量平台。 支持对批量数据和实时数据。 最初由 eBay 公司开发,2016 年 12 月 7 日成为 Apache 孵化项目,2018 年 11 月 21 »

学习 Parquet(一):初识 Parquet

Apache Parquet 是 Hadoop 生态圈列式存储文件格式。 文件格式 类型 Parquet 类型: BOOLEAN 1 bit boolean INT32 32 bit 有符号整型 INT64 64 bit 有符号整型 INT96 96 bit 有符号整型 FLOAT »

学习 HDFS(七):权限

权限模型 HDFS 文件和目录权限模型的实现与 POSIX 模型相似,文件和目录都关联到一个 owner 和一个 group。 执行命令 hadoop fs -ls / 显示: drwxr-x---+ - hdfs supergroup 0 2019-01-15 09:00 /data 第一位 d 说明 »