跳到主要内容
版本: 0.7

Dlink 核心概念及实现原理详解

Dlink 是一个基于 Apache Flink 二次开发的网页版的 FlinkSQL Studio,可以连接多个 Flink 集群实例,并在线开发、执行、提交 FlinkSQL 语句以及预览其运行结果,支持 Flink 官方所有语法并进行了些许增强。

Dlink 基于 Flink 源码二次开发,主要应用于 SQL 任务的管理与执行。以下将介绍 Dlink-0.2.3 与 Flink 的不同。

dinky_principle

execution_principle

Connector 的扩展

Dlink 的 Connector 的使用与扩展同 Flink 的完全一致,即当使用 Flink 集成 Dlink 时,只需要将 Flink 扩展的依赖加入 Dlink 的 lib 下即可。

当然,Dlink 自身源码也提供了一些 Connector ,它们遵循 Flink 的扩展要求,可以直接被加入到 Flink 的 lib 下进行使用。

多版本支持

Dlink 的单机版只能同时稳定连接同一大版本号下的不同版本的 Flink 集群实例,连接其他大版本号的集群实例在提交任务时可能存在问题;而 DataLink 中的 Dlink 微服务版可以同时稳定连接所有版本号的 Flink 集群实例。

Dlink 提供了多版本的 dlink-client.jar,根据需求选择对应版本的依赖加入到 lib 下即可稳定连接该版本的 Flink 集群实例。

Catalog 共享

Dlink 提供了共享会话对 Flink 的 Catalog、环境配置等进行了长期管理,可以实现团队开发共享 Catalog 的效果。

Sql 语法增强

Dlink 对 FlinkSQL 的语法进行增强,主要表现为 Sql 片段与表值聚合 Sql 化。

Sql 片段

sf:=select * from;tb:=student;
${sf} ${tb}
## 效果等同于
select * from student

表值聚合

CREATE AGGTABLE aggdemo AS
SELECT myField,value,rank
FROM MyTable
GROUP BY myField
AGG BY TOP2(value) as (value,rank);

同步执行结果预览

Dlink 可以对同步执行的 FlinkSQL 进行运行完成的结果预览,同 sql-client

概念原理

在 Dlink 中具有六个概念,当熟悉他们的原理时,可以搭配出更强大的使用效果。

本地环境

本地环境即为LocalEnvironment,是在本地模式运行 Flink 程序的句柄,在本地的 JVM (standalone 或嵌入其他程序)里运行程序,通过调用ExecutionEnvironment.createLocalEnvironment()方法来实现。

Dlink 通过本地环境来实现隔离调试,本地环境执行时所需要的 connector 等资源在 lib 目录下引入。本地环境执行过程包含完整的 sql 执行过程。

远程环境

远程环境即为RemoteEnvironment,是在远程模式中向指定集群提交 Flink 程序的句柄,在目标集群的环境里运行程序,通过调用ExecutionEnvironment.createRemoteEnvironment(host,port)方法来实现,其中 host 为 rest.address ,port 为 rest.port

Dlink 可以对任意 standalone、on yarn等运行模式的远程集群进行 sql 提交。远程环境执行过程只包含 sql 任务的准备工作,即解析、优化、转化物理执行计划、生成算子、提交作业执行图。所以远程环境执行时所需要的 connector 等资源也需要在 lib 目录下引入。

共享会话

共享会话为用户与执行环境的操作会话,主要包含 Catalog、片段、执行环境配置等内容。可以认为官方的 sql-client 是一个会话,保留了本次命令窗口的操作结果,当退出 sql-client 后,会话结束。

Dlink 的共享会话相当于可以启动多个 sql-client 来进行会话操作,并且其他用户可以使用您的会话 key ,在对应环境中共享您的会话的所有信息。例如,通过执行环境 + 共享会话可以确定唯一的 Catalog。

临时会话

临时会话指不启用共享会话,您每次交互执行操作时,都会创建临时的独立的会话,操作解释后立即释放,适合作业解耦处理。

Dlink 的临时会话相当于只启动一个 sql-client ,执行完语句后立即关闭再启动。

同步执行

同步执行指通过 Studio 进行操作时为同步等待,当语句运行完成后返回运行结果。

Dlink 的语句与官方语句一致,并做了些许增强。Dlink 将所有语句划分为三种类型,即 DDLDQLDML 。对于同步执行来说, DDLDQL 均为等待语句执行完成后返回运行结果,而 DML 语句则立即返回异步提交操作的执行结果。

异步提交

异步提交指通过 Studio 进行操作时为异步操作,当语句被执行后立马返回操作执行结果。

对于三种语句类型,Dlink 的异步提交均立即返回异步操作的执行结果。当前版本的 Dlink 的异步提交不进行历史记录。

搭配使用

执行环境会话运行方式适用场景
本地环境临时会话同步执行无集群或集群不可用的情况下单独开发FlinkSQL作业,需要查看运行结果
本地环境共享会话同步执行无集群或集群不可用的情况下复用Catalog或让同事排查bug,需要查看运行结果
本地环境临时会话异步提交无集群或集群不可用的情况下快速启动一个作业,不需要查看运行结果
本地环境共享会话异步提交共享会话效果无效
远程环境临时会话同步执行依靠集群单独开发FlinkSQL作业,需要查看运行结果
远程环境共享会话同步执行依靠集群复用Catalog或让同事排查bug,需要查看运行结果
远程环境临时会话异步提交快速向集群提交任务,不需要查看运行结果
远程环境共享会话异步提交共享会话效果无效

源码扩展

Dlink 的源码是非常简单的, Spring Boot 项目轻松上手。

项目结构

dlink -- 父项目
|-dlink-admin -- 管理中心
|-dlink-client -- Client 中心
| |-dlink-client-1.12 -- Client-1.12 实现
| |-dlink-client-1.13 -- Client-1.13 实现
|-dlink-connectors -- Connectors 中心
| |-dlink-connector-jdbc -- Jdbc 扩展
|-dlink-core -- 执行中心
|-dlink-doc -- 文档
| |-bin -- 启动脚本
| |-bug -- bug 反馈
| |-config -- 配置文件
| |-doc -- 使用文档
| |-sql -- sql脚本
|-dlink-function -- 函数中心
|-dinky-web -- React 前端

模块介绍

该模块为管理模块,基于 Spring Boot + MybatisPlus 框架开发,目前版本对作业、目录、文档、集群、语句等功能模块进行管理。

该模块为 Client 的封装模块,依赖了 flink-client,并自定义了新功能的实现如 CustomTableEnvironmentImplSqlManager 等。

通过该模块完成对不同版本的 Flink 集群的适配工作。

该模块为 Connector 的封装模块,用于扩展 Flink 的 Connector

该模块为 Dlink 的核心处理模块,里面涉及了共享会话、拦截器、执行器等任务执行过程使用到的功能。

该模块为 Dlink 的文档模块,部署相关资源以及使用文档等资料都在该模块下。

该模块为 UDF 的封装模块,用于扩展 Flink 的 UDF

dinky-web

该模块为 Dlink 的前端工程,基于 Ant Design Pro 开发,属于 React 技术栈,其中的 Sql 在线编辑器是基于 Monaco Editor 开发。