数据集成

简介

  • 项目仓库:https://github.com/apache/flink-cdc
  • 文档:https://nightlies.apache.org/flink/flink-cdc-docs-stable/
  • Flink CDC 是一个基于流的数据集成工具,旨在为用户提供一套功能更加全面的编程接口(API)。 该工具使得用户能够以 YAML 配置文件的形式,优雅地定义其 ETL(Extract, Transform, Load)流程,并协助用户自动化生成定制化的 Flink 算子并且提交 Flink 作业。 Flink CDC 在任务提交过程中进行了优化,并且增加了一些高级特性,如表结构变更自动同步(Schema Evolution)、数据转换(Data Transformation)、整库同步(Full Database Synchronization)以及 精确一次(Exactly-once)语义。
  • 相关文档:https://developer.aliyun.com/article/1092103

oracle支持

应龙apache inlong

简介

  • 项目仓库:https://github.com/apache/inlong
  • 官方网址:https://inlong.apache.org/
  • Apache InLong(应龙)是一个一站式、全场景海量数据集成框架,同时支持数据接入、数据同步和数据订阅,提供自动、安全、可靠和高性能的数据传输能力,同时支持批和流,方便业务构建基于流式的数据分析、建模和应用。

核心功能

  • 端到端的数据集成框架
  • 为数据集成的用户提供了易于构建作业的 API
  • 支持在 Source 和 Sink 中处理多个表
  • 整库同步
  • 具备表结构变更自动同步的能力(Schema Evolution)

产品优势

  • 简单易用

    • 基于SaaS模式对外服务,用户只需要按主题发布和订阅数据即可完成数据的上报,传输和分发工作
  • 稳定可靠

    • 系统源于实际的线上系统,服务上十万亿级的高性能及上千亿级的高可靠数据数据流量,系统稳定可靠
  • 功能完善

    • 支持各种类型的数据接入方式,多种不同类型的MQ集成,以及基于配置规则的实时数据ETL和数据分拣落地,并支持以可插拔方式扩展系统能力
  • 服务集成

    • 支持统一的系统监控、告警,以及细粒度的数据指标呈现,对于管道的运行情况,以数据主题为核心的数据运营情况,汇总在统一的数据指标平台,并支持通过业务设置的告警信息进行异常告警提醒
  • 灵活扩展

    • 全链条上的各个模块基于协议以可插拔方式组成服务,业务可根据自身需要进行组件替换和功能扩展