数据集成
Flink CDC
简介
- 项目仓库:https://github.com/apache/flink-cdc
- 文档:https://nightlies.apache.org/flink/flink-cdc-docs-stable/
- Flink CDC 是一个基于流的数据集成工具,旨在为用户提供一套功能更加全面的编程接口(API)。 该工具使得用户能够以 YAML 配置文件的形式,优雅地定义其 ETL(Extract, Transform, Load)流程,并协助用户自动化生成定制化的 Flink 算子并且提交 Flink 作业。 Flink CDC 在任务提交过程中进行了优化,并且增加了一些高级特性,如表结构变更自动同步(Schema Evolution)、数据转换(Data Transformation)、整库同步(Full Database Synchronization)以及 精确一次(Exactly-once)语义。
- 相关文档:https://developer.aliyun.com/article/1092103
oracle支持
- 完美支持Oracle增量同步https://developer.aliyun.com/article/947185
应龙apache inlong
简介
- 项目仓库:https://github.com/apache/inlong
- 官方网址:https://inlong.apache.org/
- Apache InLong(应龙)是一个一站式、全场景海量数据集成框架,同时支持数据接入、数据同步和数据订阅,提供自动、安全、可靠和高性能的数据传输能力,同时支持批和流,方便业务构建基于流式的数据分析、建模和应用。
核心功能
- 端到端的数据集成框架
- 为数据集成的用户提供了易于构建作业的 API
- 支持在 Source 和 Sink 中处理多个表
- 整库同步
- 具备表结构变更自动同步的能力(Schema Evolution)
产品优势
-
简单易用
- 基于SaaS模式对外服务,用户只需要按主题发布和订阅数据即可完成数据的上报,传输和分发工作
-
稳定可靠
- 系统源于实际的线上系统,服务上十万亿级的高性能及上千亿级的高可靠数据数据流量,系统稳定可靠
-
功能完善
- 支持各种类型的数据接入方式,多种不同类型的MQ集成,以及基于配置规则的实时数据ETL和数据分拣落地,并支持以可插拔方式扩展系统能力
-
服务集成
- 支持统一的系统监控、告警,以及细粒度的数据指标呈现,对于管道的运行情况,以数据主题为核心的数据运营情况,汇总在统一的数据指标平台,并支持通过业务设置的告警信息进行异常告警提醒
-
灵活扩展
- 全链条上的各个模块基于协议以可插拔方式组成服务,业务可根据自身需要进行组件替换和功能扩展