版本：Next

Source Connector 开发指南

目标

这篇文档是面向贡献者的 Source Connector 实操入口。它不是为了替代底层 API 设计文档，而是帮助你把那些 API 设计真正转成一个可落地的实现计划。

如果你准备开发一个新的 source connector，建议先读本页，再进入后面的架构深挖页。

一个 Source Connector 必须解决什么问题

一个 source connector 至少要解决四件事：

定义并校验用户可见的配置参数
描述输出 schema
支持 batch、streaming 或两者兼有的数据读取
在需要并行时支持 split 分配与状态恢复

在 SeaTunnel 中，这通常意味着要实现：

source factory
SeaTunnelSource
一个或多个 SourceReader
如果要并行，还需要 split 和 enumerator

设计检查清单

编码前，先把这些问题回答清楚：

这个 source 是 bounded、unbounded，还是两者都支持
split 的单位是什么：文件、分片、分区、表范围，还是别的
reader 在没有工作时怎么继续请求任务
恢复时需要保存哪些状态
schema 是自动发现还是用户配置
输出是单表还是多表
输出的是 CDC 语义还是 append-only 数据

这些答案应该驱动你的类结构，而不是反过来。

典型类结构

对于一个支持并行的 source，最常见的最小结构一般如下：

connector-<name>/
  src/main/java/.../source/
    <Name>SourceFactory.java
    <Name>Source.java
    <Name>SourceReader.java
    <Name>SourceSplit.java
    <Name>SourceSplitEnumerator.java
    <Name>SourceConfig.java

复杂一点的实现通常还会加入：

dialect 或 client 抽象
split serializer
enumerator state
reader state 辅助类
schema discoverer

什么时候用哪种设计

什么时候简单 Reader 就够了

适用于：

数据源天然单线程
不需要并行
没有明确的 split 模型

什么时候必须引入 Split 和 Enumerator

适用于：

数据源可以按分区或范围并行读取
故障后需要回收并重新分配未完成任务
初始发现逻辑与 worker 侧读取逻辑应当分离

对数据库、文件、队列、CDC 这类可扩展 source 来说，这基本是默认模式。

常见 Source 模式

文件 / 对象存储 Source

常见 split 单位：

文件
文件块范围
分区目录

常见关注点：

文件发现
schema 推断
checkpoint 当前文件位置

数据库快照 Source

常见 split 单位：

主键范围
分区
shard

常见关注点：

chunk 大小
query pushdown
一致性边界

消息队列 Source

常见 split 单位：

topic partition
subscription shard

常见关注点：

offset 管理
watermark 或 event time
动态分区发现

CDC Source

常见 split 单位：

snapshot chunk
incremental log split

常见关注点：

snapshot 到 incremental 的切换
source metadata
schema evolution

测试策略

至少建议覆盖这些层次：

option 校验
split 生成或发现逻辑
reader 在正常数据上的行为
checkpoint 或 state snapshot 行为
如果是并行 source，还要覆盖恢复或 split 回收分配

如果 connector 依赖外部系统，尽可能补或扩展 E2E 测试。

打包检查清单

提交 PR 前，建议确认：

factory 注册已经存在
connector module 已加入构建与分发
需要时已更新 plugin-mapping.properties
文档示例里的 plugin 名与运行时 identifier 完全一致
中英文文档都已补齐

Source Connector 开发指南

目标

一个 Source Connector 必须解决什么问题

推荐开发流程

1. 先定义用户契约

2. 实现 Factory

3. 实现 Source 运行时

4. 补齐打包与发现元数据

5. 写文档和测试

设计检查清单

典型类结构

什么时候用哪种设计

什么时候简单 Reader 就够了

什么时候必须引入 Split 和 Enumerator

常见 Source 模式

文件 / 对象存储 Source

数据库快照 Source

消息队列 Source

CDC Source

测试策略

打包检查清单

推荐阅读顺序

Source Connector 开发指南

目标​

一个 Source Connector 必须解决什么问题​

推荐开发流程​

1. 先定义用户契约​

2. 实现 Factory​

3. 实现 Source 运行时​

4. 补齐打包与发现元数据​

5. 写文档和测试​

设计检查清单​

典型类结构​

什么时候用哪种设计​

什么时候简单 Reader 就够了​

什么时候必须引入 Split 和 Enumerator​

常见 Source 模式​

文件 / 对象存储 Source​

数据库快照 Source​

消息队列 Source​

CDC Source​

测试策略​

打包检查清单​

推荐阅读顺序​

目标

一个 Source Connector 必须解决什么问题

推荐开发流程

1. 先定义用户契约

2. 实现 Factory

3. 实现 Source 运行时

4. 补齐打包与发现元数据

5. 写文档和测试

设计检查清单

典型类结构

什么时候用哪种设计

什么时候简单 Reader 就够了

什么时候必须引入 Split 和 Enumerator

常见 Source 模式

文件 / 对象存储 Source

数据库快照 Source

消息队列 Source

CDC Source

测试策略

打包检查清单

推荐阅读顺序