DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、SqlServer、Postgre、Hive、HBase等各种异构数据源之间高效的数据同步功能。
DataX Web是在DataX基础上开发的分布式数据同步工具,提供简单易用的操作界面,降低用户使用DataX的学习成本,缩短任务配置时间。用户可通过页面选择数据源即可创建数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源,RDBMS数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发xxl-job可根据时间、自增主键增量同步数据。

下载python(最好下载2.*版本):
https://www.python.org/downloads/
下载datax:https://gitee.com/link?target=
https%3A%2F%2Fdatax-opensource.oss-cn-hangzhou.aliyuncs.com%2F202308%2Fdatax.tar.gz;下载完成后,cmd进入DataX安装目录的bin文件夹,执行语句:python datax.py ../job/job.json ;有如下信息输出则datax运行成功

下载datax-web源码:
https://gitee.com/WeiYe-Jing/datax-web#datax-web,源码导入idea
本地新增datax_web数据库,并执行
datx-web/bin/db/datax_web.sql;然后将datax-admin下application.yml配置文件中端口、数据库信息改为自己的端口、和数据库信息;将datax-executor下application.yml配置文件端口改为自己的端口,pypath的值改为自己对应的datax目录,列如:D:dataxdataxindatax.py




运行DataXAdminApplication、DataXExecutorApplication
浏览器输入:
http://127.0.0.1:8080/index.html 【账号:admin 密码:123456】

启动成功之后,我们就可以创建数据源,新建任务模板,创建datax任务了