AC自动机（Aho-Corasick）

多模式字符串匹配算法 —— 从Trie树到线性时间的多模式匹配

算法名称： Aho-Corasick Automaton（AC自动机）

发明时间： 1975年（Alfred V. Aho & Margaret J. Corasick）

核心思想： Trie树 + 失败指针（fail pointer）= 线性时间多模式匹配

时间复杂度： 预处理 O(m)，匹配 O(n + k)（n为主串长度，m为所有模式串总长，k为匹配次数）

关键词： AC自动机, Aho-Corasick, 多模式匹配, Trie树, 失败指针, 敏感词过滤, Trie图

一、算法概述

AC自动机（Aho-Corasick Automaton）是1975年由贝尔实验室的Alfred V. Aho和Margaret J. Corasick提出的一种经典多模式字符串匹配算法。它的核心突破在于：仅需一次扫描主串，即可同时完成对多个模式串的匹配，时间复杂度为线性的 O(n + m + k)。

在理解AC自动机之前，需要先掌握两个基础工具：Trie树（字典树） 和 KMP算法。前者用于高效地存储和检索多个模式串的前缀集合，后者以"next数组"（即部分匹配表）为核心，实现了单模式串匹配时的线性时间复杂度。AC自动机巧妙地将两者融合：用Trie树组织模式串集合，并在Trie树上引入类似KMP的失败指针，使得匹配过程中遇到失配时可以快速回退到最长可匹配前缀位置，避免了逐字符回溯。

核心思想总览

Trie树：将所有模式串构建成一棵前缀树，每个节点代表一个字符前缀
失败指针（fail指针）：在Trie树的每个节点上额外维护一个指针，指向当前状态失配时应跳转到的下一个最佳匹配状态
匹配过程：从根节点出发，沿着主串字符在Trie树上移动；遇到失配时沿fail指针回退，继续匹配；每到达一个节点就检查是否有模式串被匹配到
线性时间复杂度：无论有多少个模式串，匹配阶段的总时间复杂度仅为 O(n + k)

AC自动机从根本上解决了"多模式匹配"这个实际工程中广泛面临的问题。如果使用朴素方法，每次对主串扫描一个模式串，当模式串数量为 m、主串长度为 n 时，时间复杂度为 O(m × n)，在模式串数量庞大时完全不可接受。AC自动机将这一问题降为线性时间，使其成为文本过滤、入侵检测、生物信息学等领域的基础算法。

二、Trie树的构建

Trie树（字典树）是一种多叉树结构，用于高效地存储和检索字符串集合中的键。AC自动机使用Trie树来组织所有的模式串。Trie树的根节点为空节点，每个子节点代表一个字符，从根节点到任意节点的路径拼起来就是该节点对应的前缀。

构建过程

假设我们有模式串集合：{"he", "she", "his", "hers"}，构建Trie树的步骤如下：

创建根节点 root，不存储字符
插入第一个模式串 "he"：从根节点出发，检查是否有 'h' 子节点，没有则创建；再检查 'e' 子节点，同样没有则创建；在 'e' 节点标记为模式串结尾
插入 "she"：同样从根开始，按字符 's' → 'h' → 'e' 创建或复用已有节点
插入 "his"：注意 'h' 节点已存在（来自"he"），只需创建 'i' 和 's' 子节点
插入 "hers"：前缀 "he" 已存在，复用 'h' → 'e' 路径，在 'e' 下创建 'r' 和 's' 节点

在实现中，每个Trie节点通常包含以下字段：

// Trie节点的数据结构
class TrieNode {
    TrieNode[] children;    // 子节点数组（通常长度为26或128或256）
    int fail;               // 失败指针（AC自动机的关键）
    List<Integer> output;  // 当前节点匹配到的模式串索引列表
    boolean isEnd;          // 是否有模式串在当前节点结束
}

下面是Trie树插入操作的完整实现：

class AhoCorasick {
    static final int ALPHABET_SIZE = 26;  // 假设只处理小写字母
    TrieNode[] nodes;                      // 节点池（数组实现，效率更高）
    int nodeCount;                         // 已使用的节点数

    class TrieNode {
        int[] children = new int[ALPHABET_SIZE];
        int fail = 0;
        List<Integer> output = new ArrayList<>();

        TrieNode() {
            Arrays.fill(children, -1);     // -1 表示子节点不存在
        }
    }

    // 初始化：创建根节点
    public AhoCorasick() {
        nodes = new TrieNode[100000];      // 预分配足够大的空间
        nodes[0] = new TrieNode();         // 根节点索引为0
        nodeCount = 1;
    }

    // 向Trie树中插入一个模式串
    public void insert(String pattern, int index) {
        int cur = 0;                       // 从根节点开始
        for (char ch : pattern.toCharArray()) {
            int c = ch - 'a';
            if (nodes[cur].children[c] == -1) {
                nodes[cur].children[c] = nodeCount;
                nodes[nodeCount] = new TrieNode();
                nodeCount++;
            }
            cur = nodes[cur].children[c];
        }
        nodes[cur].output.add(index);      // 当前节点是一个模式串的结尾
    }
}

Trie树构建完成后，所有模式串都通过前缀共享的方式存储在一棵树中，节省了大量空间。例如上面的四个模式串，如果单独存储需要 2+3+3+4=12 个字符，而通过Trie树共享前缀，实际只存储了 7 个不同的字符节点（h, e, s, h, i, s, r）。其中 'h' 和 'e' 被"he"和"hers"共享，'s' 被"she"创建但其后的 'h' 复用了已有的 'h' 节点。

三、失败指针（Fail指针）

失败指针是AC自动机区别于普通Trie树的核心所在，也是整个算法最精妙的设计。它的作用可以类比KMP算法中的 next数组（部分匹配表），但在AC自动机中，它是构建在Trie树的节点之上的。

3.1 失败指针的含义

对于Trie树中的某个节点 u，设从根节点到 u 的路径对应的字符串为 P。u 的失败指针指向Trie树中的另一个节点 v，其中从根到 v 的路径对应的字符串是 P 的 最长真后缀，且该后缀也是某个模式串的前缀。

KMP类比：

KMP算法中，next[i] 表示当匹配到模式串的第 i 个字符时发生失配，模式串指针应该跳转到的位置。这个位置对应的是模式串前缀中最长的真前缀，且该真前缀同时也是已匹配部分的后缀。

AC自动机的 fail指针 正是将这一思想从单模式串推广到了多模式串的Trie树上：当在某个节点失配时，fail指针告诉我们应该跳转到哪个节点继续尝试匹配，这个节点对应的是当前已匹配字符串的最长后缀，且该后缀同时是某个模式串的前缀。

3.2 失败指针的构建 —— BFS（广度优先遍历）

失败指针的构建过程使用广度优先搜索（BFS），一层一层地计算每个节点的fail指针。构建失败指针的过程在形式上与Dijkstra算法类似，都是基于已计算出的状态递推新状态的值。具体规则如下：

根节点的fail指针指向自身（或空，通常指向0号根节点）
第一层节点（根节点的直接子节点）：它们的fail指针都指向根节点。因为单字符的后缀是空串（即根节点）
更深层的节点：设当前节点为 u，其父节点为 p，从 p 到 u 的转移字符为 c（即 u = p.children[c]）：
1. 令 f = p.fail（父节点的fail指针）
2. 如果 f 有字符 c 的子节点，则 u.fail = f.children[c]
3. 否则，令 f = f.fail，重复检查，直到找到存在 c 子节点的节点，或者达到根节点
4. 如果达到根节点仍不存在 c 子节点，则 u.fail = root
输出合并：将 u.fail 节点的output列表合并到 u 的output列表中。这是因为如果匹配到了 u 对应的字符串，那么 u.fail 对应的后缀字符串也被隐式匹配到了

以下是失败指针构建的完整实现：

// 使用BFS构建所有节点的失败指针
public void buildFailPointer() {
    Queue<Integer> queue = new LinkedList<>();

    // 第一层节点：fail直接指向根节点
    for (int c = 0; c < ALPHABET_SIZE; c++) {
        if (nodes[0].children[c] != -1) {
            int child = nodes[0].children[c];
            nodes[child].fail = 0;         // 第一层节点的fail指向根
            queue.offer(child);
        }
    }

    // BFS逐层构建
    while (!queue.isEmpty()) {
        int u = queue.poll();

        for (int c = 0; c < ALPHABET_SIZE; c++) {
            int v = nodes[u].children[c];
            if (v == -1) continue;

            // 计算v的fail指针
            int f = nodes[u].fail;
            while (f != 0 && nodes[f].children[c] == -1) {
                f = nodes[f].fail;         // 沿fail链向上追溯
            }
            if (nodes[f].children[c] != -1 && nodes[f].children[c] != v) {
                nodes[v].fail = nodes[f].children[c];
            } else {
                nodes[v].fail = 0;
            }

            // 合并输出（后缀链接优化见下文）
            nodes[v].output.addAll(nodes[nodes[v].fail].output);

            queue.offer(v);
        }
    }
}

BFS构建的直观理解：

可以把BFS构建过程想象成"逐层确定每个节点的最长可匹配后缀"。当我们站在第 k 层的节点 u 上时，它的父节点和第 k-1 层及以上的所有节点的fail指针都已经被计算好了。我们利用父节点的 fail 指针进行跳转检查，就可以确定 u 的 fail 指针。这正是"动态规划"思想在自动机上的应用。

四、匹配过程

当Trie树构建完成、所有节点的失败指针也计算完毕后，AC自动机就可以开始进行多模式匹配了。匹配过程非常直观：

从根节点 root 出发，当前状态 state = 0
从左到右逐个读取主串中的字符 ch
如果当前状态 state 有字符 ch 的子节点，则转移到该子节点
否则，沿着 state.fail 向上回溯（可能多次），直到找到一个有 ch 子节点的状态，或者回溯到根节点
到达新状态后，检查该状态的 output 列表是否非空。如果非空，说明在当前位置匹配到了某些模式串，记录匹配结果
继续处理下一个字符，直到主串扫描完毕

// AC自动机的核心匹配方法
public List<MatchResult> match(String text) {
    List<MatchResult> results = new ArrayList<>();
    int state = 0;  // 从根节点开始

    for (int i = 0; i < text.length(); i++) {
        int c = text.charAt(i) - 'a';

        // 如果当前状态没有c子节点，沿fail指针回溯
        while (state != 0 && nodes[state].children[c] == -1) {
            state = nodes[state].fail;
        }

        // 尝试转移
        if (nodes[state].children[c] != -1) {
            state = nodes[state].children[c];
        }
        // 如果state == 0且也没有c子节点，state保持为0

        // 检查当前状态的output列表
        if (!nodes[state].output.isEmpty()) {
            for (int idx : nodes[state].output) {
                results.add(new MatchResult(i, idx));
            }
        }
    }

    return results;
}

// 匹配结果：记录匹配到的模式串索引和结束位置
class MatchResult {
    int endPos;       // 在主串中的结束位置
    int patternIndex; // 模式串的索引

    MatchResult(int endPos, int patternIndex) {
        this.endPos = endPos;
        this.patternIndex = patternIndex;
    }
}

匹配过程示例

假设模式串集合为 {"he", "she", "his", "hers"}，主串为 "ushers"，匹配过程如下：

主串: u  s  h  e  r  s
位置: 0  1  2  3  4  5

状态转移:
[初始] state = 0

[char='u', i=0]  state 0 无 'u' 子节点, state 保持 0

[char='s', i=1]  state 0 有 's' 子节点 -> state = s节点
                 检查 output: s节点无模式串

[char='h', i=2]  state s节点有 'h' 子节点 -> state = sh节点
                 检查 output: sh节点无模式串

[char='e', i=3]  state sh节点有 'e' 子节点 -> state = she节点
                 检查 output: she节点匹配到 "she" ✓
                 输出: (endPos=3, pattern="she")

[char='r', i=4]  state she节点无 'r' 子节点
                 沿fail回溯: she.fail -> he节点
                 he节点有 'r' 子节点 -> state = her节点
                 检查 output: her节点无模式串

[char='s', i=5]  state her节点有 's' 子节点 -> state = hers节点
                 检查 output: hers节点匹配到 "hers" ✓
                 输出: (endPos=5, pattern="hers")
                 注意: 同时隐式匹配到 "he"（因为hers的前缀包含he）

匹配结果: "she" 出现在位置 [1,3], "hers" 出现在位置 [1,5]

从上例可以看出，AC自动机在一次扫描中同时匹配到了两个模式串，且对主串中的每个字符只处理了常数次。这正是线性时间复杂度的来源。

五、时间复杂度分析

AC自动机的总体时间复杂度分为预处理和匹配两个阶段：

阶段	时间复杂度	说明
Trie树构建	O(m)	m 为所有模式串的长度总和，每个字符恰好插入一次
失败指针构建	O(m × Σ)	Σ 为字符集大小，BFS遍历每个节点，每个节点处理 Σ 个转移。可以通过Trie图优化为 O(m × Σ)
匹配阶段	O(n + k)	n 为主串长度，k 为总的匹配次数。每个字符的处理时间为摊还 O(1)
总时间复杂度	O(m × Σ + n + k)	当 Σ 为常数时，简化为 O(m + n + k)，即线性时间

为什么匹配是线性时间？

在匹配过程中，主串指针 i 始终只向前移动，从不回溯。虽然失配时可能会沿着fail指针多次回退，但每次回退都对应着之前某次成功转移的"反向消耗"。通过摊还分析可以证明：整个匹配过程中fail回退的总次数不超过成功转移的总次数（即主串长度 n），因此均摊到每个字符上的时间是 O(1)。

空间复杂度方面，AC自动机需要存储所有Trie节点以及每个节点的子节点指针。当使用数组实现时，空间复杂度为 O(m × Σ)。可以使用哈希表或字典来压缩存储，将空间降低到 O(m)，但会增加单次查找的时间。

六、AC自动机的优化

在实际应用中，基础版的AC自动机可能存在性能瓶颈，以下三种优化技术可以大幅提升运行效率。

6.1 Trie图优化（确定化自动机）

Trie图优化的核心思想是：将失配时的沿fail指针回溯过程"固化"到转移表中，使每个节点对每个字符都有确定的转移目标。这样匹配过程中就完全消除了while循环回溯，每个字符的处理时间变为严格的 O(1)。

具体做法是在构建fail指针的同时，补充所有缺失的转移：

// Trie图优化：为每个节点补全所有字符的转移
public void buildTrieGraph() {
    Queue<Integer> queue = new LinkedList<>();

    // 初始化第一层
    for (int c = 0; c < ALPHABET_SIZE; c++) {
        if (nodes[0].children[c] != -1) {
            int child = nodes[0].children[c];
            nodes[child].fail = 0;
            queue.offer(child);
        } else {
            nodes[0].children[c] = 0;  // 缺失的转移指向根节点
        }
    }

    while (!queue.isEmpty()) {
        int u = queue.poll();

        for (int c = 0; c < ALPHABET_SIZE; c++) {
            int v = nodes[u].children[c];
            if (v != -1) {
                // 有子节点：正常计算fail
                nodes[v].fail = nodes[nodes[u].fail].children[c];
                nodes[v].output.addAll(nodes[nodes[v].fail].output);
                queue.offer(v);
            } else {
                // 无子节点：补全转移，指向父节点fail指针对应字符c的转移
                nodes[u].children[c] = nodes[nodes[u].fail].children[c];
            }
        }
    }
}

// Trie图优化后的匹配：无需while循环回溯
public List<MatchResult> matchOptimized(String text) {
    List<MatchResult> results = new ArrayList<>();
    int state = 0;

    for (int i = 0; i < text.length(); i++) {
        int c = text.charAt(i) - 'a';
        state = nodes[state].children[c];  // 直接转移，O(1)

        if (!nodes[state].output.isEmpty()) {
            for (int idx : nodes[state].output) {
                results.add(new MatchResult(i, idx));
            }
        }
    }
    return results;
}

经过Trie图优化后，AC自动机变成了一个完全确定的有限状态自动机（DFA）。每个状态对任意输入字符都有唯一的转移目标，匹配速度极快，非常适合在高性能场景中使用。

6.2 后缀链接（Suffix Link）优化

在基础实现中，每个节点都合并了其fail指针指向节点的output列表。但在某些场景中（如只需要知道是否匹配到了，不需要知道具体是哪个模式串），合并output带来了不必要的内存和计算开销。

后缀链接（也称为"字典后缀链接"）优化将output的合并延迟到匹配时按需进行：在每个节点上额外维护一个 dictSuffix 指针，指向fail链上最近的一个"有output的节点"：

// 后缀链接优化
// 在TrieNode中增加字段：
// int dictSuffix;  // 指向fail链上最近的、有output的节点

public void buildDictSuffix() {
    // 在BFS构建fail指针之后，额外构建dictSuffix
    for (int i = 0; i < nodeCount; i++) {
        int f = nodes[i].fail;
        if (f != 0 && !nodes[f].output.isEmpty()) {
            nodes[i].dictSuffix = f;
        } else {
            nodes[i].dictSuffix = nodes[f].dictSuffix;
        }
    }
}

// 匹配时遍历后缀链接获取所有匹配结果
private void reportMatches(int state, int pos, List<MatchResult> results) {
    while (state != 0) {
        for (int idx : nodes[state].output) {
            results.add(new MatchResult(pos, idx));
        }
        state = nodes[state].dictSuffix;
    }
}

6.3 输出链接（Output Link）

输出链接与后缀链接类似，但它是从已匹配节点出发，沿着fail链查找所有以当前位置结尾的模式串。在实际应用中，输出链接常用于需要找出所有匹配模式串的场景：

// 输出链接示例：通过fail链收集所有匹配
private void collectOutput(int state, int pos, List<MatchResult> results) {
    for (int cur = state; cur != 0; cur = nodes[cur].fail) {
        if (nodes[cur].isEnd) {
            // 当前节点是一个模式串的结尾
            results.add(new MatchResult(pos, nodes[cur].patternId));
        }
    }
    // 注意：不要重复访问已处理过的节点
}

// 三种优化综合对比：
// 1. Trie图：空间 O(m*Σ)，匹配时间严格 O(1) 每字符
// 2. 后缀链接：减少output合并开销，匹配时需要遍历链接
// 3. 输出链接：按需收集输出，灵活性最高

在实际工程中，通常将Trie图优化和后缀链接结合使用：Trie图保证每个字符的转移时间为严格的 O(1)，后缀链接保证output检查具有按需执行的灵活性。这样既达到了最高的匹配速度，又保持了内存的高效利用。

七、应用场景

AC自动机凭借其线性时间完成多模式匹配的能力，在以下领域有着广泛的应用：

1. 敏感词过滤系统

互联网平台（如论坛、社交网络、即时通讯）需要实时过滤用户输入中的敏感词。敏感词库可能包含成千上万个词条，使用AC自动机可以在 O(n) 时间内完成过滤，且不受敏感词数量影响。例如将敏感词库构建为AC自动机，每次用户提交内容时扫描一次即可标记所有敏感词。配合Trie图优化，即使是在高并发场景下也能保持稳定的响应时间。

2. 网络安全与入侵检测

在入侵检测系统（IDS，如Snort）和防病毒软件中，需要实时检测网络流量或文件内容中是否包含已知的恶意特征码（signature）。特征码库通常包含数万条规则，AC自动机可以同时对所有规则进行一次扫描匹配，是实现深度包检测（DPI）的核心算法之一。Snort等知名开源IDS就使用了AC自动机作为其模式匹配引擎。

3. 生物信息学：基因序列多模式匹配

在生物信息学领域，研究人员常常需要在一段DNA序列（可能长达数十亿碱基对）中查找大量已知的基因片段、重复序列或motif（序列模体）。AC自动机可以在线性时间内完成这类"大海捞针"式的多模式匹配任务。例如在人类基因组中搜索所有已知的microRNA靶点序列，或在大规模宏基因组测序数据中同时检测数百种病原体的特征序列。

4. 自然语言处理

在中文分词、命名实体识别（NER）、词典最大匹配等NLP任务中，AC自动机可用于高效地查找文本中所有出现在词典中的词汇。例如基于词典的分词算法中，可以使用AC自动机一次性找出文本中所有可能的词边界，避免了逐词匹配的低效。

5. 搜索引擎与全文检索

在搜索引擎的查询处理中，AC自动机可用于同时对多个查询词进行匹配。例如在广告系统中，需要判断用户搜索的关键词是否触发了某些广告关键词，利用AC自动机可以在毫秒级别完成数万条广告关键词的匹配。

八、完整代码实现

以下是一份完整的AC自动机Java实现，包含了Trie树构建、失败指针构建（Trie图优化）、多模式匹配以及一个完整的测试入口：

import java.util.*;

/**
 * AC自动机（Aho-Corasick Automaton）
 * 多模式字符串匹配算法
 * 预处理时间: O(m * Sigma)，匹配时间: O(n + k)
 * 其中 m = 所有模式串总长，Sigma = 字符集大小，n = 主串长度，k = 匹配次数
 */
public class AhoCorasickFull {

    static final int ALPHABET_SIZE = 26;

    static class TrieNode {
        int[] next = new int[ALPHABET_SIZE];
        int fail;
        List<Integer> output = new ArrayList<>();

        TrieNode() {
            Arrays.fill(next, -1);
        }
    }

    private List<TrieNode> nodes = new ArrayList<>();

    public AhoCorasickFull() {
        nodes.add(new TrieNode()); // 根节点，索引0
    }

    /** 插入一个模式串 */
    public void insert(String word, int index) {
        int cur = 0;
        for (char ch : word.toCharArray()) {
            int c = ch - 'a';
            if (nodes.get(cur).next[c] == -1) {
                nodes.get(cur).next[c] = nodes.size();
                nodes.add(new TrieNode());
            }
            cur = nodes.get(cur).next[c];
        }
        nodes.get(cur).output.add(index);
    }

    /** 构建失败指针（Trie图优化版本） */
    public void build() {
        Queue<Integer> q = new LinkedList<>();

        // 初始化第一层
        for (int c = 0; c < ALPHABET_SIZE; c++) {
            if (nodes.get(0).next[c] != -1) {
                int child = nodes.get(0).next[c];
                nodes.get(child).fail = 0;
                q.offer(child);
            } else {
                nodes.get(0).next[c] = 0; // 缺失转移指向根
            }
        }

        while (!q.isEmpty()) {
            int u = q.poll();

            for (int c = 0; c < ALPHABET_SIZE; c++) {
                int v = nodes.get(u).next[c];
                if (v != -1) {
                    // 有子节点: fail指向父节点fail的c转移
                    nodes.get(v).fail = nodes.get(nodes.get(u).fail).next[c];
                    // 合并output
                    nodes.get(v).output.addAll(
                        nodes.get(nodes.get(v).fail).output
                    );
                    q.offer(v);
                } else {
                    // 无子节点: 补全转移
                    nodes.get(u).next[c] = nodes.get(nodes.get(u).fail).next[c];
                }
            }
        }
    }

    /** 多模式匹配 */
    public Map<Integer, List<Integer>> match(String text) {
        Map<Integer, List<Integer>> result = new HashMap<>();
        int state = 0;

        for (int i = 0; i < text.length(); i++) {
            int c = text.charAt(i) - 'a';
            state = nodes.get(state).next[c]; // Trie图: O(1)转移

            for (int idx : nodes.get(state).output) {
                result.computeIfAbsent(idx, k -> new ArrayList<>())
                      .add(i);
            }
        }
        return result;
    }

    // ========== 测试入口 ==========
    public static void main(String[] args) {
        String[] patterns = {"he", "she", "his", "hers"};
        String text = "ushers";

        AhoCorasickFull ac = new AhoCorasickFull();
        for (int i = 0; i < patterns.length; i++) {
            ac.insert(patterns[i], i);
        }
        ac.build();

        Map<Integer, List<Integer>> matches = ac.match(text);

        System.out.println("主串: " + text);
        System.out.println("模式串: " + Arrays.toString(patterns));
        System.out.println("匹配结果:");
        for (var entry : matches.entrySet()) {
            int idx = entry.getKey();
            for (int pos : entry.getValue()) {
                int start = pos - patterns[idx].length() + 1;
                System.out.printf("  \"%s\" 在位置 [%d, %d]%n",
                    patterns[idx], start, pos);
            }
        }

        // 预期输出:
        //   "she" 在位置 [1, 3]
        //   "hers" 在位置 [1, 5]
    }
}

九、核心要点总结

AC自动机知识图谱

基础组成：Trie树（前缀共享存储）+ 失败指针（KMP思想的泛化推广）= 多模式匹配自动机
失败指针本质：每个节点的fail指针指向Trie树上另一个节点，该节点对应的是当前字符串的最长真后缀，且该后缀是某个模式串的前缀。构建方式为BFS逐层确定
匹配机制：沿Trie树和fail指针转移，每个字符处理时间为摊还 O(1)，主串指针永不回溯
时间复杂度：预处理 O(m × Σ)，匹配 O(n + k)，其中 m 为所有模式串总长度，Σ 为字符集大小，n 为主串长度，k 为匹配次数。当 Σ 为常数时，整体为线性时间
Trie图优化：通过补全所有缺失转移将自动机确定化（DFA），使匹配阶段彻底消除回溯，每字符处理时间为严格的 O(1)
后缀链接：延迟output合并到匹配时按需执行，减少预处理开销和内存占用
核心应用：敏感词过滤、入侵检测系统（Snort等）、基因序列多模式匹配、自然语言处理中的词典匹配、搜索引擎广告关键词匹配
重要性质：不论模式串数量有多少（成千上万甚至数十万），匹配速度始终与主串长度线性相关，与模式串数量无关

                面试常见问题
                AC自动机与KMP的关系是什么？—— KMP处理单模式串，AC自动机将KMP的next数组思想推广到Trie树上处理多模式串
为什么AC自动机匹配是线性的？—— 主串指针从不回溯，fail回退次数受成功转移次数限制，摊还分析证明均摊 O(1)
Trie图优化做了什么？—— 将所有缺失的转移补全为fail链跳转的最终结果，使自动机变为完全确定的DFA
AC自动机的空间复杂度是多少？—— 数组实现为 O(m × Σ)，可用哈希表压缩到 O(m) 但牺牲部分性能
AC自动机如何支持大字符集（如Unicode）？—— 使用哈希表/字典代替数组存储子节点转移，或使用双数组Trie（Double-Array Trie）技术压缩

            

十、进一步思考与实践

工程实践中的注意事项

字符集处理：实际应用中字符集可能很大（如中文的数千汉字、Unicode的百万字符）。此时数组实现的 "O(m × Σ)" 空间开销不可接受，应改用哈希表或双数组Trie（Double-Array Trie）来存储转移
内存管理：当模式串数量极大（百万级）时，节点数量可能非常庞大。可考虑使用内存池或池化分配技术减少GC压力
增量更新：标准AC自动机不支持高效的动态插入/删除。如果模式串集合在运行时频繁变化，需要重新构建整个自动机。解决方案包括使用"可重构AC自动机"或分桶策略
多字节编码：处理UTF-8等多字节编码时，AC自动机需要按字节或按码点匹配，不同的处理方式会影响性能和正确性
并行化：对于超长文本（如TB级日志），可以将文本分片后在多个线程或机器上并行匹配，每个分片独立扫描，最后合并结果

实践练习

基础实现：用你熟悉的语言（Python、C++、Go等）实现基础版AC自动机，并在LeetCode上搜索相关题目练习
敏感词过滤器：实现一个完整的敏感词过滤系统，支持敏感词的动态添加和替换（将敏感词替换为 ***）
性能对比：将AC自动机与朴素多模式匹配进行性能对比测试，观察模式串数量增加时两种方法的运行时间变化
Trie图优化：在基础实现上添加Trie图优化，对比优化前后的匹配速度
中文支持：修改实现使其支持中文字符集（提示：使用HashMap代替数组）