Datax CDC 可靠channel

  • 时间:2025-12-06 22:42 作者: 来源: 阅读:0
  • 扫一扫,手机访问
摘要:1. 背景可靠channel,可确认的分布式持久数据(Record)的channel,Channel不可靠对于CDC是致命的,丢失数据;但对于全量同步可以接受,全量同步故障转移后,整个分片重新同步。可靠channel对于数据量比较大,没有分片的情况也超级有用,相当于断点续传的能力,但对性能有必定影响2. 参考和术语CDC change data capture 数据变更抓获CDC增量同步框架与关系

1. 背景

可靠channel,可确认的分布式持久数据(Record)的channel,Channel不可靠对于CDC是致命的,丢失数据;但对于全量同步可以接受,全量同步故障转移后,整个分片重新同步。可靠channel对于数据量比较大,没有分片的情况也超级有用,相当于断点续传的能力,但对性能有必定影响

2. 参考和术语

CDC change data capture 数据变更抓获

CDC增量同步框架与关系/neo4j增量同步设计

3. 分布式SETL模块和规划

下图介绍SETL模块和规划

Datax CDC 可靠channel

setl-rbt 全量同步组件,datax组件,接入分布式调度,实现高性能的全量同步

setl-cdc cdc增量同步datax组件,接入分布式时间槽实现高可靠增量,后续规划接入kafka connect

setl-stream 研发中,流式etl,引入kafka connect,实现高吞吐低延时的增量同步

config-center 配置中心,datax原生使用本地文件配置,配置中心摆脱本地文件限制,实现分布式系统的必要基础设施

sanner schema扫描,辅助数据的同步

4. datax原理介绍


Datax CDC 可靠channel

*官方图,Transport处是Channel,本人觉得不太准确,应为Transport

> 作业分解为任务,任务分组,最后调度器调度任务(组)

*作业分片和任务分组没有在高可用中

> 调度器负责分派资源执行任务(组),TaskEecutor执行任务

> transport包括数据交换(exchanger),转换(transformer),交换数据字节数/记录(record)数的统计(channel)

5. CDC原生Datax channel分析

Datax CDC 可靠channel

整个数据链路包括2部分,

第一段,CDC变更事件推送到reader,reader写到Exchanger(Channel)*成功后ack CDC

第二段,writer从Exchanger拉取数据变更,同步到目标存储

另外,Channel 承担流量统计和流控的职责

可以看到,第二段是不可靠的,MemoryChannel底层使用内存ArrayBlockingQueue存放数据,datax节点崩溃,故障转移后,原节点Channel的数据将丢失

*Buffered类型Exchanger缓存Record,批量提交,存在丢失可能,可靠Channel需要非buffered Exchange配合

*Exchanger拆分为InBound/OutBound比较合理

6 可靠channel设计原理解释

1) 方案1-推模式

Datax CDC 可靠channel

数据链路同样的两个阶段,不同的是第二阶段,channel引入mq作为持久存储,提供可确认,方案改变原数据链路,数据从mq获取,writer依赖mq,从而也改变了writer开发模型,6.1/6.2只是激活pull统计,获取的数据并不使用。6.1/6.2放在5~7之间,是为了pull统计更准确

2) 方案2

Datax CDC 可靠channel

同方案1,引入mq,不同的是,mq作为本地queue持久存储,Channel封装起来,writer不需要依赖mq,数据链路与原生一样,主动获取mq消息。本方案保持数据链路形态,即writer通过RecordReceiver获取Record。缺点,Exchanger/Channel增加ack方法,主动消费,涉及消费异步ack问题

3) 推模式下channel统计

推模式下,旁路读取record,读取record通过消息引擎,需要通知channel读取了record,channel计算record的大小,发起统计

RecordReceiver

public void byPassReader(Record record);

读取接口增加byPassReader方法

  • 全部评论(0)
最新发布的资讯信息
【系统环境|】两性关系:99%的女人都曾偷偷做过这件事,却从来不敢说出口(2025-12-06 23:00)
【系统环境|】搜狗搜索首页排名多了企鹅号,平台流量闭环下网络推广还好做吗?(2025-12-06 23:00)
【系统环境|】最牛搜狗输入法,放“灵犀”大招!(2025-12-06 23:00)
【系统环境|】搜狗收录查询工具-搜狗收录怎么做(2025-12-06 23:00)
【系统环境|】搜狗搜索全自动引流,日IP稳定1000+(2025-12-06 22:59)
【系统环境|】搜索,搜狗的绝招与命门(2025-12-06 22:59)
【系统环境|】搜狗小旋风蜘蛛池之搜狗站长必备工具(2025-12-06 22:59)
【系统环境|】搜索别再用只百度了,这3个搜索网站超快、超干净,赶快get(2025-12-06 22:59)
【系统环境|】搜狗收录域名收录方法点解(2025-12-06 22:59)
【系统环境|】网址收录如何搜狗收录查询(2025-12-06 22:59)
手机二维码手机访问领取大礼包
返回顶部