基础-pyspark

4.2 初识StructuredStreaming

Published in Journal 1, 2021

spark 提供了大量的算子,开发只需调用相关api进行实现无法关注底层的实现原理

4.1 探索MLlib机器学习

Published in Journal 1, 2021

spark将每个任务构建成DAG进行计算,内部的计算过程通过弹性式分布式数据集RDD在内存在进行计算,相比于hadoop的mapreduce效率提升了100倍

3.2 RDD和SparkSQL综合应用

Published in Journal 1, 2021

Spark SQL实际上并不能完全替代Hive,因为Hive是一种基于HDFS的数据仓库,并且提供了基于SQL模型的,针对存储了大数据的数据仓库,进行分布式交互查询的查询引擎

3.1 Spark性能调优方法

Published in Journal 1, 2021

Spark由于是新崛起的技术新秀,因此在大数据领域的完善程度,肯定不如MapReduce,比如基于HBase、Hive作为离线批处理程序的输入输出,Spark就远没有MapReduce来的完善

2.4 SparkSQL编程练习

Published in Journal 1, 2021

Spark相较于MapReduce速度快的最主要原因就在于,MapReduce的计算模型太死板,必须是map-reduce模式,有时候即使完成一些诸如过滤之类的操作,也必须经过map-reduce过程,这样就必须经过shuffle过程

2.3 入门SparkSQL编程

Published in Journal 1, 2021

spark 提供了大量的算子,开发只需调用相关api进行实现无法关注底层的实现原理 通用的大数据解决方案,相较于以前离线任务采用mapreduce实现,实时任务采用storm实现,目前这些都可以通过spark来实现,降低来开发的成本。同时spark 通过spark SQL降低了用户的学习使用门槛,还提供了机器学习,图计算引擎等

2.2 RDD编程练习

Published in Journal 1, 2021

Spark,是一种通用的大数据计算框架,I正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等, Spark包含了大数据领城常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MILlib用于机器学习,Spark GraphX用于图计算

2.1 入门Spark之RDD编程

Published in Journal 1, 2021

Spark除了一站式的特点之外,另外一个最重要的特点,就是基于内存进行计算,从而让它的速度可以达到MapReduce、Hive的数倍甚至数十倍

1.2 Spark的基本原理

Published in Journal 1, 2021

Spark,是一种”One Stack to rule them all”的大数据计算框架,期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方,对Spark的定义就是:通用的大数据快速处理引擎

1.1 快速搭建你的Spark开发环境

Published in Journal 1, 2021

Spark主要用于大数据的计算,而Hadoop以后主要用于大数据的存储(比如HDFS、Hive,HBase等),以及资源调度(Yarn)。 Spark+Hadoop的组合,是未来大数据领域最热门的组合,也是最有前景的组合