学习资源

思科

网络工程

华为

网络工程

红帽

系统运维

RHCSA

RHCE

RHCA

OpenStack

RHCVA

RHCSS

甲骨文

数据库

OCA

OCP

OCM

MySQL

微软

系统运维

MTA

MCSA

MCSE

软件开发

编程设计

Java

Android

HTML5

其他

Python

学习文章

当前位置：首页 > >学习文章 > >

{大数据}Spark SQL

发布时间： 2018-01-12 09:29:00

我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！

1.易整合：

2.统一的数据访问方式：

3.兼容Hive：

4.标准的数据连接：

DataFrames：

与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。由于与R和Pandas的DataFrame类似，Spark DataFrame很好地继承了传统单机数据分析的开发体验。

创建DataFrames：

在Spark SQL中SQLContext是创建DataFrames和执行SQL的入口，在spark-2.2.0中已经内置了一个spark：

1.在本地创建一个文件，有三列，分别是id、name、age，用空格分隔，然后上传到hdfs上

[hadoop@hdp08 ~]$ hadoop fs -rm -r /work/person.txt

person.txt

1,stone,30

2,jacky,28

3,mary,20

4,micky,27

5.Tom,32

2.在spark shell执行下面命令，读取数据，将每一行的数据使用列分隔符分割

scala>val lineRDD = sc.textFile("hdfs://hdp08:9000/work/person.txt").map(_.split(","))

3.定义case class（相当于表的schema）

scala>case class Person(id:Int, name:String, age:Int)

4.将RDD和case class关联

scala>val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))

5.将RDD转换成DataFrame

scala>val personDF = personRDD.toDF

6.对DataFrame进行处理

scala>personDF.show

DataFrame常用操作

//查看DataFrame中的内容

personDF.show

//查看DataFrame部分列中的内容

personDF.select(personDF.col("name")).show

personDF.select(col("name"), col("age")).show

personDF.select("name").show

//打印DataFrame的Schema信息

personDF.printSchema

//查询所有的name和age，并将age+1

personDF.select(col("id"), col("name"), col("age") + 1).show

personDF.select(personDF("id"), personDF("name"), personDF("age") + 1).show

//过滤age大于等于18的

personDF.filter(col("age") >= 18).show

//按年龄进行分组并统计相同年龄的人数

personDF.groupBy("age").count().show()

SQL风格语法：

如果想使用SQL风格的语法，需要将DataFrame注册成表

personDF.createOrReplaceTempView("t_person")

val sqlDF = spark.sql("SELECT * FROM t_person")

sqlDF.show()

//查询年龄较大的前两名

spark.sql("select * from t_person order by age desc limit 2").show

//显示表的Schema信息

spark.sql("desc t_person").show

以编程方式执行Spark SQL查询：

编写Spark SQL查询程序

通过反射推断Schema

创建一个object为net.togogo.sql.InferringSchema

package net.togogo.sql

import org.apache.spark.{ SparkConf, SparkContext }

import org.apache.spark.sql.SQLContext

import org.apache.spark.sql.SparkSession

object InferringSchema {

def main(args: Array[String]) {

// val spark = SparkSession

// .builder()

// .appName("Spark SQL basic example")

// .config("spark.some.config.option", "some-value")

// .getOrCreate();

//创建SparkConf()并设置App名称

val conf = new SparkConf().setAppName("SQL-1");

//SQLContext要依赖SparkContext

val sc = new SparkContext(conf);

//创建SQLContext

val sqlContext = new SQLContext(sc);

//从指定的地址创建RDD

val lineRDD = sc.textFile(args(0)).map(_.split(","));

//创建case class

//将RDD和case class关联

val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt));

//导入隐式转换，如果不到人无法将RDD转换成DataFrame

//将RDD转换成DataFrame

import sqlContext.implicits._

val personDF = personRDD.toDF();

//注册表

personDF.createOrReplaceTempView("t_person");

//传入SQL

val df = sqlContext.sql("select * from t_person order by age desc limit 2");

//将结果以JSON的方式存储到指定位置

df.write.json(args(1));

//停止Spark Context

sc.stop();

}

//case class一定要放到外面

case class Person(id: Int, name: String, age: Int)

将程序打成jar包，上传到spark集群，提交Spark任务

/home/hadoop/apps/spark/bin/spark-submit \

--class net.togogo.sql.InferringSchema \

--master spark://hdp08:7077 \

/home/hadoop/schema.jar \

hdfs://hdp08:9000/work/person.txt \

hdfs://hdp08:9000/work/out

查看运行结果

[hadoop@hdp08 ~]$ hadoop fs -cat /work/out/part-00000-af7ccf43-af95-48f1-8470-e8d309f8725d-c000.json

通过StructType直接指定Schema：

创建一个object为net.togogo.sql.SpecifyingSchema：

package net.togogo.sql;

import org.apache.spark.sql.{Row, SQLContext}

import org.apache.spark.sql.types._

import org.apache.spark.{SparkContext, SparkConf}

object SpecifyingSchema {

def main(args: Array[String]) {

//创建SparkConf()并设置App名称

val conf = new SparkConf().setAppName("SQL-2")

//SQLContext要依赖SparkContext

val sc = new SparkContext(conf)

//创建SQLContext

val sqlContext = new SQLContext(sc)

//从指定的地址创建RDD

val personRDD = sc.textFile(args(0)).map(_.split(" "))

//通过StructType直接指定每个字段的schema

val schema = StructType(

List(

StructField("id", IntegerType, true),

StructField("name", StringType, true),

StructField("age", IntegerType, true)

)

//将RDD映射到rowRDD

val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1).trim, p(2).toInt))

//将schema信息应用到rowRDD上

val personDataFrame = sqlContext.createDataFrame(rowRDD, schema)

//注册表

personDataFrame.registerTempTable("t_person")

//执行SQL

val df = sqlContext.sql("select * from t_person order by age desc limit 4")

//将结果以JSON的方式存储到指定位置

df.write.json(args(1))

//停止Spark Context

sc.stop()

}

将程序打成jar包，上传到spark集群，提交Spark任务

/home/hadoop/apps/spark/bin/spark-submit \

--class net.togogo.sql.InferringSchema \

--master spark://hdp08:7077 \

/home/hadoop/schema.jar \

hdfs://hdp08:9000/work/person.txt \

hdfs://hdp08:9000/work/out1

查看结果

[hadoop@hdp08 ~]$ hadoop fs -cat /work/out1/part-00000-af7ccf43-af95-48f1-8470-e8d309f8725d-c000.json

数据源：

JDBC：

Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。

从MySQL中加载数据（Spark Shell方式）：

1.启动Spark Shell，必须指定mysql连接驱动jar包

/home/hadoop/apps/spark/bin/spark-shell \

--master spark://hdp08:7077 \

--jars /home/hadoop/mysql-connector-java-5.1.45.jar \

--driver-class-path /home/hadoop/mysql-connector-java-5.1.45.jar

--executor-memory 1g

--total-executor-cores 2

2.从mysql中加载数据

scala> case class Emp(empno: Int, ename: String, job:String,mgr:Int,hiredate:java.util.Date,sal:Float,comm:Float,deptno:Int)

scala>var sqlContext = new org.apache.spark.sql.SQLContext(sc);

scala> val jdbcDF = sqlContext.read.format("jdbc").options(Map("url" -> "jdbc:mysql://hdp08:3306/sqoopdb", "driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "emp", "user" -> "root", "password" -> "root")).load()

3.执行查询

jdbcDF.show()

将数据写入到MySQL中（打jar包方式）

1.编写Spark SQL程序：

package net.togogo.sql

import java.util.Properties

import org.apache.spark.sql.{SQLContext, Row}

import org.apache.spark.sql.types.{StringType, IntegerType, StructField, StructType}

import org.apache.spark.{SparkConf, SparkContext}

object JdbcRDD {

def main(args: Array[String]) {

val conf = new SparkConf().setAppName("MySQL-Demo")

val sc = new SparkContext(conf)

val sqlContext = new SQLContext(sc)

//通过并行化创建RDD

val personRDD = sc.parallelize(Array("1 tom 5", "2 jerry 3", "3 kitty 6")).map(_.split(" "))

//通过StructType直接指定每个字段的schema

val schema = StructType(

List(

StructField("id", IntegerType, true),

StructField("name", StringType, true),

StructField("age", IntegerType, true)

)

//将RDD映射到rowRDD

val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1).trim, p(2).toInt))

//将schema信息应用到rowRDD上

val personDataFrame = sqlContext.createDataFrame(rowRDD, schema)

//创建Properties存储数据库相关属性

val prop = new Properties()

prop.put("user", "root")

prop.put("password", "root")

//将数据追加到数据库

personDataFrame.write.mode("append").jdbc("jdbc:mysql://hdp08:3306/sqoopdb", "sqoopdb.person", prop)

//停止SparkContext

sc.stop()

}

1.用maven将程序打包

2.将Jar包提交到spark集群

/home/hadoop/apps/spark/bin/spark-submit \

--class net.togogo.sql.JdbcRDD \

--master spark://hdp08:7077 \

--jars /home/hadoop/mysql-connector-java-5.1.45.jar \

--driver-class-path /home/hadoop/mysql-connector-java-5.1.45.jar \

/home/hadoop/schema.jar

QQ空间新浪微博腾讯微博人人网微信更多

上一篇： {大数据}Spark Streaming

下一篇： {大数据}RDD分布式数据集

十八年老品牌

微信咨询：gz_togogo 咨询电话：18922156670 咨询网站客服：在线客服

网络技术

系统运维

数据库

云计算

安全

大数据

人工智能

项目管理

软件开发

其他

优选课程

高校合作

企业定制

考试中心

学习资源

关于我们

学习文章

{大数据}Spark SQL

关于我们

联系我们

最新文章

客服热线

全国校区

友情链接

关注我们