```mermaid graph LR A[Mermaid Keeper] --> B[保持激活] ```

前言

比较两个字符串是否相同,朴素方法是逐字符比较,O(长度)O(\text{长度})。但如果要比较 10510^5 次子串呢?每次最长 10510^5 个字符——总时间 101010^{10},太慢了。

字符串哈希(String Hashing / Rolling Hash)的思路极其巧妙:把字符串映射成一个整数。如果两个字符串的哈希值相同,它们大概率是相同的字符串(有极小概率冲突,但竞赛中通常可以忽略)。

核心技巧:用前缀哈希 + 前缀和的方法,在 O(1)O(1) 时间内算出任意子串的哈希值。预处理 O(n)O(n),每次查询 O(1)O(1)

问题的本质

把字符串变成多项式

选一个基数 BB 和模数 MM(通常 M=264M = 2^{64},用 unsigned long long 自然溢出)。字符串 S=s1s2snS = s_1 s_2 \ldots s_n 的哈希值为:

H(S)=s1Bn1+s2Bn2++snB0(modM)H(S) = s_1 \cdot B^{n-1} + s_2 \cdot B^{n-2} + \cdots + s_n \cdot B^0 \pmod{M}

这就像把字符串当成一个 BB 进制的数。不同的字符串(大概率)对应不同的数。

前缀哈希:O(1) 子串查询

关键洞察:预处理前缀哈希 h[i]=s1Bi1+s2Bi2++siB0h[i] = s_1 B^{i-1} + s_2 B^{i-2} + \cdots + s_i B^0。那么子串 S[l..r]S[l..r] 的哈希值为:

hash(l,r)=h[r]h[l1]Brl+1\text{hash}(l, r) = h[r] - h[l-1] \cdot B^{r-l+1}

类比前缀和:子串的和 = 后缀前缀和 - 前缀前缀和(再乘以适当的 BB 的幂来对齐位数)。

为什么哈希冲突概率极低?

unsigned long long 自然溢出(模 2642^{64}),基数选 131 或 911382629。两个不同字符串哈希相同的概率约 1/2641/2^{64},即 5×10205 \times 10^{-20}。竞赛中几乎不会遇到冲突。

理论 + 代码

前缀哈希预处理

#include <cstdio>
using namespace std;

typedef unsigned long long ull;
const ull B = 131;  // ① 基数,通常选质数

ull h[MAXN], pw[MAXN]; // h[i]=前缀哈希, pw[i]=B^i

void build(const char* s, int n) {
    pw[0] = 1;
    for (int i = 1; i <= n; i++) pw[i] = pw[i-1] * B; // ② 预计算 B 的幂
    h[0] = 0;
    for (int i = 1; i <= n; i++)
        h[i] = h[i-1] * B + s[i-1]; // ③ 递推前缀哈希
}

ull getHash(int l, int r) { // 1-indexed, 闭区间 [l, r]
    return h[r] - h[l-1] * pw[r - l + 1]; // ④ O(1) 子串哈希
}

逐行解析

  • ① 基数 BB 选一个比字符集大的质数(小写字母 26 个,B=131B=131 足够)。
  • pw[i] = B^i,用于查询时对齐位数。
  • ③ 递推:h[i]=h[i1]B+sih[i] = h[i-1] \cdot B + s_i。每多一个字符,旧的哈希值左移一位(乘 BB),加上新字符。
  • h[r] - h[l-1] * pw[r-l+1]:类比前缀和,但需要对齐位数。

模拟走一遍

S="abcbabc"S = \text{"abcbabc"}B=131B = 131(简化用小数演示):

is[i]h[i]说明
0-0初始
1’a’=97970×131+97
2’b’=9897×131+98 = 12805
3’c’=9912805×131+99 = 1677464

查询 S[1,3]=“abc” 的哈希 = h[3] - h[0]×pw[3] = 1677464 - 0 = 1677464。

回文判断

回文 = 正着读和反着读一样。所以:

  • 预处理正串哈希和反串哈希
  • 子串 S[l..r]S[l..r] 是回文 ⟺ 正串哈希 == 反串哈希

例题

例题 1:TB A56 — String Hash

题目:长度 NN 的字符串 SSQQ 个查询:S[ai..bi]S[a_i..b_i]S[ci..di]S[c_i..d_i] 是否相同?

数据范围1N,Q2×1051 \le N, Q \le 2 \times 10^5

—— AtCoder Tessoku Book A56

分析:裸的字符串哈希模板题。预处理前缀哈希,每次查询 O(1)O(1) 比较两个子串的哈希值。

代码

#include <cstdio>
using namespace std;

typedef unsigned long long ull;
const int MAXN = 200006;
const ull B = 131;

ull h[MAXN], pw[MAXN];

void build(const char* s, int n) {
    pw[0] = 1;
    for (int i = 1; i <= n; i++) pw[i] = pw[i-1] * B;
    h[0] = 0;
    for (int i = 1; i <= n; i++) h[i] = h[i-1] * B + s[i-1];
}

ull getHash(int l, int r) {
    return h[r] - h[l-1] * pw[r - l + 1];
}

int main() {
    int N, Q;
    char S[MAXN];
    scanf("%d%d", &N, &Q);
    scanf("%s", S);
    build(S, N);
    while (Q--) {
        int a, b, c, d;
        scanf("%d%d%d%d", &a, &b, &c, &d);
        printf("%s\n", getHash(a, b) == getHash(c, d) ? "Yes" : "No");
    }
    return 0;
}

逐行解析

  • build 预处理前缀哈希和 BB 的幂。
  • getHash(l, r) O(1)O(1) 计算子串哈希。
  • 比较两个子串的哈希值,相同则”大概率”字符串相同。

验证:S="abcbabc"S=\text{"abcbabc"}S[1,3]S[1,3]=“abc” vs S[5,7]S[5,7]=“abc”→Yes。S[1,5]S[1,5]=“abcba” vs S[2,6]S[2,6]=“bcbab”→No。✓


例题 2:TB B56 — Palindrome Queries

题目:长度 NN 的字符串 SSQQ 个查询:子串 S[Li..Ri]S[L_i..R_i] 是否是回文?

数据范围1N,Q1051 \le N, Q \le 10^5

—— AtCoder Tessoku Book B56

分析:预处理正串和反串的哈希。子串是回文 ⟺ 正串 [L,R][L, R] 的哈希 = 反串 [NR+1,NL+1][N-R+1, N-L+1] 的哈希。

代码

#include <cstdio>
using namespace std;

typedef unsigned long long ull;
const int MAXN = 100006;
const ull B = 131;

ull h[MAXN], rh[MAXN], pw[MAXN];
char S[MAXN], rS[MAXN];

void build(int n) {
    pw[0] = 1;
    for (int i = 1; i <= n; i++) pw[i] = pw[i-1] * B;
    h[0] = rh[0] = 0;
    for (int i = 1; i <= n; i++) {
        h[i] = h[i-1] * B + S[i-1];      // ① 正串哈希
        rh[i] = rh[i-1] * B + rS[i-1];    // ② 反串哈希
    }
}

ull getHash(ull h[], int l, int r) {
    return h[r] - h[l-1] * pw[r - l + 1];
}

int main() {
    int N, Q;
    scanf("%d%d", &N, &Q);
    scanf("%s", S);
    for (int i = 0; i < N; i++) rS[i] = S[N-1-i]; // ③ 构造反串
    build(N);
    while (Q--) {
        int L, R;
        scanf("%d%d", &L, &R);
        int rL = N - R + 1, rR = N - L + 1; // ④ 反串中的对应区间
        printf("%s\n", getHash(h, L, R) == getHash(rh, rL, rR) ? "Yes" : "No");
    }
    return 0;
}

逐行解析

  • ③ 反转字符串 SS 得到 rSrS
  • ④ 正串 [L,R][L, R] 在反串中对应 [NR+1,NL+1][N-R+1, N-L+1]。例如正串 [1,4][1,4](长度 4)对应反串 [N3,N][N-3, N]
  • 比较正串和反串对应区间的哈希值,相同则是回文。

验证:S="mississippi"S=\text{"mississippi"}S[5,8]S[5,8]=“issi”,反串=“ippississim”,对应 [4,7][4,7]=“issi”。哈希相等 → Yes。✓


例题 3(练习):T90 047 — Monochromatic Diagonal(★7)

题目:两个由 ‘R’,‘G’,‘B’ 组成的字符串 S,TS, T(长度 NN)。构造 N×NN \times N 矩阵,其中 (i,j)(i,j) 的颜色由 sis_itjt_j 决定。求有多少条对角线(左上到右下)是单色的。

数据范围1N2×1051 \le N \le 2 \times 10^5

—— AtCoder Typical 90 047

思路提示:★7 难题。关键观察:对角线 (i,j)(i,j) 上所有格子 si+ks_{i+k}tj+kt_{j+k} 的颜色由某种规则确定。通过字符串哈希可以高效判断同一对角线上所有位置的颜色是否一致。

参考文献

教材讲解 — 競技プログラミングの鉄則 第 8 章

系统练习 — 競技プログラミングの鉄則

实战练习 — 競プロ典型 90 問


系列索引

第零章 基础工具

第一章 搜索技术

第二章 数学基础

第三章 数据结构

第四章 图论

第五章 动态规划

第六章 贪心

第七章 字符串

第八章 进阶