当前位置:首页--Spark

Apache Spark-1.0.1集群搭建

      欢迎经验交流!本文Blog地址:http://www.cnblogs.com/fesh/p/3866791.html   Apache Spark   a fast and general engine for large-scale data processing   Spark是一个高效的分布式计算系统,相比Hadoop,它在性能上比Hadoop要高100倍。Spark是发源于美国加......

阅读全文

Spark源码分析之Spark Shell(上)

 终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的。另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其实都可以通过这种方式来寻找源码入口。 先来介绍一下Spark-shell是什么? Spark-shell是提供给用户即时交互的一个命令窗口,你可以在里面编写spark代码,然后根据你的命令立即进行运算......

阅读全文

(一)Spark简介-Java&Python版Spark

 Spark简介 视频教程: 1、优酷 2、YouTube   简介:   Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件,也就是......

阅读全文

Azure HDInsight 和 Spark 大数据实战(二)

   HDInsight cluster on Linux   登录 Azure portal (https://manage.windowsazure.com ) 点击左下角的 NEW 按钮,然后点击 DATA SERVICES 按钮,点击 HDINSIGHT,选择 HADOOP ON LINUX,如下图所示。   输入集群名称,选择集群大小和账号,设定集群的密码和存储账号,下表是各个参数的含义和......

阅读全文

Spark2.1.0分布式集群安装

 一、依赖文件安装     1.1 JDK          参见博文:http://www.cnblogs.com/liugh/p/6623530.html     1.2 Hadoop          参见博文:http://www.cnblogs.com/liugh/p/6624872.html     1.3 Scala          参见博文:http://www.cnblogs.c......

阅读全文

(六)Spark-Eclipse开发环境WordCount-Java&Python版Spark

 Spark-Eclipse开发环境WordCount 视频教程: 1、优酷 2、YouTube   安装eclipse 解压eclipse-jee-mars-2-win32-x86_64.zip   JavaWordcount 解压spark-2.0.0-bin-hadoop2.6.tgz 创建 Java Project-->Spark 将spark-2.0.0-bin-hadoop2.6下的ja......

阅读全文

(九)groupByKey,reduceByKey,sortByKey算子-Java&Python版Spark

 groupByKey,reduceByKey,sortByKey算子   视频教程: 1、优酷 2、 YouTube   1、groupByKey  groupByKey是对每个key进行合并操作,但只生成一个sequence,groupByKey本身不能自定义操作函数。 java: 1 package com.bean.spark.trans; 2 3 import java.uti......

阅读全文

使用 IntelliJ IDEA 导入 Spark源码及编译 Spark 源代码

 各位工程师累了吗? 推荐一篇可以让你技术能力达到出神入化的网站"宅男门诊" 1. 准备工作 首先你的系统中需要安装了 JDK 1.6+,并且安装了 Scala。之后下载最新版的 IntelliJ IDEA 后,首先安装(第一次打开会推荐你安装)Scala 插件,相关方法就不多说了。至此,你的系统中应该可以在命令行中运行 Scala。我的系统环境如下: 1. Mac OS X(10.10.4) 2.......

阅读全文

在myeclipse中使用Java语言进行spark Standalone模式应用程序开发

   一.环境配置 Myeclipse中虽然已经集成了maven插件,但是由于这个插件版本较低,建立maven project会出现错误。 解决办法:自己到官网http://maven.apache.org/下载最新版本的maven插件,解压,在环境变量中注册。 新建环境变量M2_HOME 在PATH里加入maven的bin的路径   配置完毕后,在Windows命令提示符下,输入mvn -v测试一......

阅读全文
1 2 3 4 下一页 尾页