6月 19, 2015 | 我的站点

每个Spark应用（application）都包含一个用来在集群（cluster）上启动各种并行操作的驱动程序（driver program）。驱动程序不仅包含了Spark应用的main函数，还定义了集群上的分布式数据集（distributed dataset），而且会对这些数据集进行各种操作。在你使用Spark Shell进行交互操作时：

[root@Fedora bin]# ./spark-shell
scala> sc.parallelize(1 to 1000).count()
res0: Long = 1000

Spark Shell自身就是驱动程序。

驱动程序通过一个SparkContext对象来访问Spark，这个对象代表一个针对计算集群（computing cluster）的连接。Spark Shell会自动产生一个叫sc的SparkContext对象，所以在上面的例子中可以直接使用sc。在Spark Shell中输入sc，可以看到它的类型信息：

scala> sc
res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@45707f76

有了SparkContext对象之后，就可以用它来产生数据集，然后在数据集上进行各种操作。而为了进行这些操作，驱动程序要管理一群被称作“executor”的节点（node）。下图描述了Spark如何在集群上执行任务：

参考资料：
《Learning Spark》。

Apache Spark（以下简称Spark）是一个快速的，通用的集群计算平台（Apache Spark is a cluster computing platform designed to be fast and general-purpose），它由多个紧密结合的构件组成：

Spark Core包含Spark的最基本的功能：任务调度，内存管理，故障恢复，存储系统的交互，等等。

Spark SQL是用来处理结构化数据的程序包。它不仅允许使用SQL，HQL（Hive Query Language）来查询数据，并且支持多种数据源：Hive tables，Parquet和JSON。

Spark Streaming用来处理实时的数据流。

MLib是一个提供了很多机器学习算法的库。

GraphX是一个提供操作图表以及对图表进行并行计算的库。

Spark除了自带了一个简单的Cluster Manager：Standalone Scheduler以外，也支持Hadoop YARN和Apache Mesos。

Spark可以把存储在Hadoop Distributed File System（HDFS）或其它支持Hadoop API的存储系统（包含你本地文件系统，Amazon S3，Cassandra，Hive，HBase等）上的文件转化成分布式数据集（distributed datasets）。要注意，Hadoop对于Spark来说不是必不可少的，只要存储系统实现Hadoop API即可。

参考资料：
《Learning Spark》。

一	二	三	四	五	六	日
« 5月				7月 »
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

日期：2015年6月19日

Spark应用浅析

Spark结构初探