Extend Spark Data Source with DataFrame

Posted on 2022-04-25 Edited on 2022-12-03

In this article, we’ll implement a spark data source for reading and writing a Google spreadsheet, so that you’ll know how to extend the data source of Spark by yourself.

What’s a customized data source like?

read data from Google Spreadsheet into a DataFrame

val data = spark.read.format("google-spreadsheet")
  .option("credentialsPath", credentialFile)
  .option("spreadsheetId", spreadsheetId)
  .option("sheetName", sheetName1)
  .load()

write data of a DataFrame into Google Spreadsheet

df.write.format("google-spreadsheet")
  .option("credentialsPath", credentialFile)
  .option("spreadsheetId", spreadsheetId)
  .option("sheetName", sheetName)
  .mode(SaveMode.Overwrite)
  .save()

How to solve dependency conflicts with Maven

Posted on 2021-09-24 Edited on 2022-12-03

What are dependency conflicts?

Here is an example, this project has 2 dependencies, and both of them depend on the Guava library with different versions.

<!-- Project dependencies -->
    <dependencies>
        <dependency>
            <groupId>org.example</groupId>
            <artifactId>study-maven-2</artifactId>
            <version>1.0-SNAPSHOT</version>
        </dependency>
        <dependency>
            <groupId>org.example</groupId>
            <artifactId>study-maven-3</artifactId>
            <version>1.0-SNAPSHOT</version>
        </dependency>
    </dependencies>

<groupId>org.example</groupId>
    <artifactId>study-maven-2</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>30.1.1-jre</version>
        </dependency>
    </dependencies>

<groupId>org.example</groupId>
    <artifactId>study-maven-3</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>29.0-jre</version>
        </dependency>
    </dependencies>

As you all know, we can’t have two classes with the same package and name in one project. So there would be conflicts if different versions of a package are imported. Obviously, in this case, only one version of Guava will be imported.

Kafka Fundamental Concepts

Posted on 2021-05-08 Edited on 2022-12-03

What is Kafka?

Apache Kafka is an event streaming platform used to collect, process, store, and integrate data at scale. It has numerous use cases including distributed logging, stream processing, data integration, and pub/sub messaging.

Details you need to know about Apache Parquet

Posted on 2020-05-31 Edited on 2022-12-03

Parquet is a columnar file format that supports nested data. Lots of data systems support this data format because of it’s great advantage of performance.

基于Redis实现分布式锁和分布式限流器

Posted on 2020-03-29 Edited on 2022-12-03

分布式锁和分布式限流器应该是算是比较常见的需求了，而Redis现在几乎是应用的标配了，于是很多人会倾向于选择基于Redis来实现，因为不需要引入额外的依赖。

分布式锁和分布式限流器在Java领域比较成熟和常用的开源实现是Redisson(中文官方介绍)，下面从它的极小部分源码，分析下分布式锁和分布式限流器的实现逻辑。

Spark Core 解析 4：内存模型

Posted on 2020-02-29 Edited on 2022-12-03

Spark内存模型

Spark之所以快，很大程度上是因为它善于利用内存，大量利用内存进行存储和计算，从而减少磁盘IO，提升执行效率。

从1.6版本开始，Spark引入了统一内存管理模型（之前版本只有静态内存管理，这里不细说），找到两张图描述的很清楚：

Spark Core 解析 3：Shuffle

Posted on 2019-12-29 Edited on 2022-12-03

Overview

所谓shuffle就是将数据按新的规则进行分区的过程，将数据分区从旧分区转变成新分区。

Spark Core解析 2：Scheduler 调度体系

Posted on 2019-11-07 Edited on 2022-12-03

Overview

调度系统，是贯穿整个Spark应用的主心骨，从调度系统开始入手了解Spark Core，比较容易理清头绪。

Spark的资源调度采用的是常见的两层调度，底层资源的管理和分配是第一层调度，交给YARN、Mesos或者Spark的Standalone集群处理，Application从第一层调度拿到资源后，还要进行内部的任务和资源调度，将任务和资源进行匹配，这是第二层调度，本文讲的就是这第二层调度。

Spark的调度体系涉及的任务包括3个粒度，分别是Job、Stage、Task。
Job代表用户提交的一系列操作的总体，一个具体的计算任务，有明确的输入输出，一个Job由多个Stage组成；
一个Stage代表Job计算流程的一个组成部分，一个阶段，包含多个Task；
一个Task代表对一个分区的数据进行计算的具体任务。

层级关系：Job > Stage > Task

Spark Core解析 1：RDD 弹性分布式数据集

Posted on 2019-10-23 Edited on 2022-12-03

引言

Spark Core是Spark的核心部分，是Spark SQL，Spark Streaming，Spark MLlib等等其他模块的基础, Spark Core提供了开发分布式应用的脚手架，使得其他模块或应用的开发者不必关心复杂的分布式计算如何实现，只需使用Spark Core提供的分布式数据结构RDD及丰富的算子API，以类似开发单机应用的方式来进行开发。

图中最下面那个就是Spark Core啦，日常使用的RDD相关的API就属于Spark Core，而Dataset、DataFrame则属于Spark SQL。

Scala implicit 隐式转换安全驾驶指南

Posted on 2019-09-28 Edited on 2022-12-03

这篇短文将结合实例对隐式转换的各种场景进行解释和总结，希望看完的人能够安全驶过隐式转换这个大坑。