Big Data

计算框架

Apache Spark

学习 Spark 2 系列:

Spark Core 源码分析系列:

TODO

Spark SQL 源码分析系列:

Spark 调优系列:

学习 Spark MLlib 系列:

Spark MLlib 特征工程系列:

  • 学习 Spark MLlib 特征工程(一):RFormula
  • 学习 Spark MLlib 特征工程(二):VectorAssembler
  • 学习 Spark MLlib 特征工程(三):Bucketizer 和 QuantileDiscretizer
  • 学习 Spark MLlib 特征工程(四):LSH
  • 学习 Spark MLlib 特征工程(五):StandardScaler、MinMaxScaler 和 MaxAbsScaler
  • 学习 Spark MLlib 特征工程(六):ElementwiseProduct
  • 学习 Spark MLlib 特征工程(七):Normalizer
  • 学习 Spark MLlib 特征工程(八):StringIndexer 和 IndexToString
  • 学习 Spark MLlib 特征工程(九):VectorIndexer
  • 学习 Spark MLlib 特征工程(十):OneHotEncoderEstimator
  • 学习 Spark MLlib 特征工程(十一):n-gram
  • 学习 Spark MLlib 特征工程(十二):CountVectorizer
  • 学习 Spark MLlib 特征工程(十三):TF-IDF
  • 学习 Spark MLlib 特征工程(十四):Word2Vec
  • 学习 Spark MLlib 特征工程(十五):PCA
  • 学习 Spark MLlib 特征工程(十六):Interaction
  • 学习 Spark MLlib 特征工程(十七):PolynomialExpansion
  • 学习 Spark MLlib 特征工程(十八):ChiSqSelector

Apache Flink

学习 Flink 系列:

Flink 源码分析系列:

存储

Apache Hadoop

学习 HDFS 系列:

HDFS 源码分析系列:

TODO

Apache Avro

学习 Apache Avro 系列:

Apache Parquet

学习 Apache Parquet 系列:

Alluxio

学习 Alluxio 系列:

Apache Kafka

学习 Apache Kafka 系列:

Kafka 源码分析系列:

Apache Zookeeper

学习 ZooKeeper 系列:

学习 ZooKeeper API 库 Curator 系列:

ZooKeeper 源码分析系列:

OLAP 框架

Apache Hive

学习 Hive 系列:

Presto

学习 Presto 系列:

Presto 源码分析系列:

Apache Druid

学习 Druid 系列:

Druid 源码分析系列:

Apache Kylin

学习 Kylin 系列:

工具

Apache Airflow

学习 Apache Airflow 系列:

Apache Zeppelin

学习 Apache Zeppelin 系列:

Zeppelin 源码分析系列:

Apache Livy

学习 Apache Livy 系列: