Zeppelin 源码分析(二):项目结构

进入 Zeppelin 源码目录,模块看似繁杂实则有序。如果将 Zeppelin 的模块按功能划分,可以分为以下几大模块: zeppelin-server zeppelin-web zeppelin-zengine zeppelin-interpreter zeppelin-distribution zeppelin-server 模块 zeppelin-server 模块是 Zeppelin 服务的入口模块,其本身是一个内嵌的 Jetty 服务。用于提供 UI 界面、REST »

Spark 调优(四):Haoop 调优

HDFS 调优 数据本地化 TODO YARN 调优 加速应用启动 执行 spark-shell --master yarn 或 spark-submit --master yarn 在 YARN 上启动 Spark 的时候,会将 {SPARK_HOME}/jars 目录下的 JAR »

学习 Flink(十七):HyperLogLog 去重计数

在需要对数据进行去重计数的场景里,实现方式是将数据明细存储在集合的数据结构中。然而,随着数据随时间的不断累积,明细数据占用了大量的存储空间。使用 HyperLoglog 去重计数,在牺牲非常小准确性的情况下,可以极大的减少数据存储。 依赖 编辑 pom.xml 文件,添加依赖: <dependency> <groupId>net.agkn</groupId& »

学习 Zeppelin(二): 配置 HDFS Storage

更新至 Zeppelin 0.8.1 使用分布式文件系统作为 Notebook 的存储,实现了 Notebook 的高可用。当一个 Zeppelin 节点挂掉,其它 Zeppelin 节点仍可以继续提供服务。 配置 编辑 conf/zeppelin-site.xml 文件,修改配置 zeppelin.notebook. »