1.5 Canal 数据同步工具详细教程

news2025/11/5 20:00:00

欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：

⭐️ 全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.
⭐️ AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。
⭐️ 全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。

文章目录

- - Canal概述
  - 架构
  - 基本工作流程
  - 使用场景
  - 优缺点
  - 部署安装
  - 使用案例
  - - 实时数据同步
  - 性能优化
  - 总结

Canal概述

Canal是一款由阿里巴巴开源的、用于MySQL数据库binlog增量订阅和消费的中间件。它的设计灵感来源于MySQL主从复制机制，通过模拟MySQL Slave与Master进行交互，从而解析并获取数据库的实时变更数据。Canal可以将这些变更数据实时推送到其他系统，从而实现数据同步、数据监控等功能。

架构

Canal的架构主要包括以下几个组件：

Canal Server：核心组件，负责与MySQL进行交互，解析binlog日志。
Canal Client：消费者，订阅并消费Canal Server推送的binlog数据。
Zookeeper：用于管理Canal Server的集群状态及分布式协调。

架构图如下：

+---------------+     +-------------+
|               |     |             |
|  MySQL Server |<--->| Canal Server|
|               |     |             |
+---------------+     +-------------+
                          |
                          v
                   +-------------+
                   | Canal Client|
                   +-------------+
                          |
                          v
                   +-------------+
                   | Other System|
                   +-------------+

基本工作流程

连接MySQL：Canal Server以MySQL Slave的身份连接到MySQL Master，获取binlog位置信息。
拉取binlog：Canal Server从MySQL Master拉取binlog日志。
解析binlog：Canal Server解析binlog日志，提取数据库变更事件。
推送数据：Canal Server将解析后的变更事件推送给Canal Client。
处理数据：Canal Client消费变更事件，并根据需要将数据同步到其他系统。

使用场景

数据同步：将MySQL数据实时同步到其他数据库或大数据平台，如Elasticsearch、Hadoop等。
数据监控：实时监控MySQL数据库的变更，进行数据统计、报警等。
缓存更新：数据库变更后，实时更新缓存数据，确保数据一致性。

优缺点

优点：

实时性强：能够实时获取MySQL数据库的变更数据。
高效：直接读取binlog日志，性能开销小。
灵活性高：支持自定义数据处理逻辑，适用于多种使用场景。

缺点：

复杂度高：需要对MySQL binlog机制有一定了解，配置相对复杂。
依赖性强：依赖于MySQL主从复制机制，MySQL版本不兼容可能会带来问题。

部署安装

下载Canal：从Canal GitHub下载最新版本。
配置Canal Server：修改conf目录下的配置文件，配置MySQL连接信息、binlog位置信息等。
启动Canal Server：通过命令bin/startup.sh启动Canal Server。
配置Canal Client：编写Canal Client代码，订阅Canal Server的变更事件。

使用案例

实时数据同步

假设我们要将MySQL数据库的订单数据实时同步到Elasticsearch。首先，我们需要在MySQL中配置binlog，并启动Canal Server。

MySQL配置（my.cnf）：

[mysqld]
server-id = 1
log-bin = mysql-bin
binlog-format = ROW

Canal Server配置（example/instance.properties）：

canal.instance.mysql.slaveId=1234
canal.instance.master.address=127.0.0.1:3306
canal.instance.dbUsername=root
canal.instance.dbPassword=yourpassword
canal.instance.connectionCharset=UTF-8
canal.instance.tsdb.enable=true

Canal Client代码：

我们使用Java编写一个Canal Client，将MySQL数据同步到Elasticsearch。

import com.alibaba.otter.canal.client.CanalConnector;
import com.alibaba.otter.canal.client.CanalConnectors;
import com.alibaba.otter.canal.protocol.CanalEntry;
import com.alibaba.otter.canal.protocol.Message;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.common.xcontent.XContentType;

import java.net.InetSocketAddress;
import java.util.List;

public class CanalClient {
    private static final String INDEX_NAME = "orders";

    public static void main(String[] args) {
        CanalConnector connector = CanalConnectors.newSingleConnector(new InetSocketAddress("127.0.0.1", 11111), "example", "", "");
        RestHighLevelClient esClient = new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http")));

        try {
            connector.connect();
            connector.subscribe(".*\\..*");
            connector.rollback();

            while (true) {
                Message message = connector.getWithoutAck(1000);
                long batchId = message.getId();
                List<CanalEntry.Entry> entries = message.getEntries();

                if (batchId != -1 && entries.size() > 0) {
                    processEntries(entries, esClient);
                }

                connector.ack(batchId);
            }
        } finally {
            connector.disconnect();
            try {
                esClient.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

    private static void processEntries(List<CanalEntry.Entry> entries, RestHighLevelClient esClient) {
        for (CanalEntry.Entry entry : entries) {
            if (entry.getEntryType() == CanalEntry.EntryType.ROWDATA) {
                CanalEntry.RowChange rowChange;
                try {
                    rowChange = CanalEntry.RowChange.parseFrom(entry.getStoreValue());
                } catch (Exception e) {
                    throw new RuntimeException("ERROR ## parser of eromanga-event has an error, data:" + entry.toString(), e);
                }

                for (CanalEntry.RowData rowData : rowChange.getRowDatasList()) {
                    if (rowChange.getEventType() == CanalEntry.EventType.INSERT) {
                        handleInsert(rowData, esClient);
                    } else if (rowChange.getEventType() == CanalEntry.EventType.UPDATE) {
                        handleUpdate(rowData, esClient);
                    } else if (rowChange.getEventType() == CanalEntry.EventType.DELETE) {
                        handleDelete(rowData, esClient);
                    }
                }
            }
        }
    }

    private static void handleInsert(CanalEntry.RowData rowData, RestHighLevelClient esClient) {
        // Assuming the table has columns id, order_id, and amount
        String id = "";
        String orderId = "";
        String amount = "";

        for (CanalEntry.Column column : rowData.getAfterColumnsList()) {
            switch (column.getName()) {
                case "id":
                    id = column.getValue();
                    break;
                case "order_id":
                    orderId = column.getValue();
                    break;
                case "amount":
                    amount = column.getValue();
                    break;
            }
        }

        IndexRequest request = new IndexRequest(INDEX_NAME).id(id).source(
                "{ \"order_id\": \"" + orderId + "\", \"amount\": \"" + amount + "\" }", XContentType.JSON);

        try {
            esClient.index(request, RequestOptions.DEFAULT);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    private static void handleUpdate(CanalEntry.RowData rowData, RestHighLevelClient esClient) {
        // Handle update similarly to insert, adjusting for changes
        handleInsert(rowData, esClient);
    }

    private static void handleDelete(CanalEntry.RowData rowData, RestHighLevelClient esClient) {
        String id = "";

        for (CanalEntry.Column column : rowData.getBeforeColumnsList()) {
            if (column.getName().equals("id")) {
                id = column.getValue();
                break;
            }
        }

        DeleteRequest request = new DeleteRequest(INDEX_NAME, id);

        try {
            esClient.delete(request, RequestOptions.DEFAULT);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

性能优化

增加Canal Server实例：通过增加Canal Server实例，提高数据处理能力。
优化binlog解析：定期清理无用的binlog文件，减少解析时间。
合理配置内存和线程：根据业务需求，合理配置Canal Server的内存和线程数，提高并发处理能力。

总结

Canal是一款强大的MySQL binlog增量订阅和消费中间件，通过模拟MySQL Slave与Master的交互，实现实时数据同步和监控。它具有高效、实时的优点，适用于多种数据同步和监控场景。然而，Canal的配置和使用相对复杂，用户需要对MySQL binlog机制有一定了解。通过合理的配置和性能优化，可以充分发挥Canal的优势，实现高效的数据处理和同步。