基础-pyspark

4.2 初识StructuredStreaming

Published in Journal 1, 2021

spark 提供了大量的算子，开发只需调用相关api进行实现无法关注底层的实现原理

4.1 探索MLlib机器学习

Published in Journal 1, 2021

spark将每个任务构建成DAG进行计算，内部的计算过程通过弹性式分布式数据集RDD在内存在进行计算，相比于hadoop的mapreduce效率提升了100倍

3.2 RDD和SparkSQL综合应用

Published in Journal 1, 2021

Spark SQL实际上并不能完全替代Hive,因为Hive是一种基于HDFS的数据仓库,并且提供了基于SQL模型的,针对存储了大数据的数据仓库,进行分布式交互查询的查询引擎

3.1 Spark性能调优方法

Published in Journal 1, 2021

Spark由于是新崛起的技术新秀，因此在大数据领域的完善程度，肯定不如MapReduce，比如基于HBase、Hive作为离线批处理程序的输入输出，Spark就远没有MapReduce来的完善

2.4 SparkSQL编程练习

Published in Journal 1, 2021

Spark相较于MapReduce速度快的最主要原因就在于，MapReduce的计算模型太死板，必须是map-reduce模式，有时候即使完成一些诸如过滤之类的操作，也必须经过map-reduce过程，这样就必须经过shuffle过程

2.3 入门SparkSQL编程

Published in Journal 1, 2021

spark 提供了大量的算子，开发只需调用相关api进行实现无法关注底层的实现原理通用的大数据解决方案,相较于以前离线任务采用mapreduce实现，实时任务采用storm实现，目前这些都可以通过spark来实现，降低来开发的成本。同时spark 通过spark SQL降低了用户的学习使用门槛，还提供了机器学习，图计算引擎等

2.2 RDD编程练习

Published in Journal 1, 2021

Spark，是一种通用的大数据计算框架，I正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等， Spark包含了大数据领城常见的各种计算框架：比如Spark Core用于离线计算，Spark SQL用于交互式查询，Spark Streaming用于实时流式计算，Spark MILlib用于机器学习，Spark GraphX用于图计算

2.1 入门Spark之RDD编程

Published in Journal 1, 2021

Spark除了一站式的特点之外，另外一个最重要的特点，就是基于内存进行计算，从而让它的速度可以达到MapReduce、Hive的数倍甚至数十倍

1.2 Spark的基本原理

Published in Journal 1, 2021

Spark，是一种”One Stack to rule them all”的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方，对Spark的定义就是：通用的大数据快速处理引擎

1.1 快速搭建你的Spark开发环境

Published in Journal 1, 2021

Spark主要用于大数据的计算，而Hadoop以后主要用于大数据的存储（比如HDFS、Hive，HBase等），以及资源调度（Yarn）。 Spark+Hadoop的组合，是未来大数据领域最热门的组合，也是最有前景的组合

章鱼哥

基础-pyspark