InoueMoby's Blog

前言

比较两个字符串是否相同，朴素方法是逐字符比较， $O(\text{长度})$ 。但如果要比较 $10^5$ 次子串呢？每次最长 $10^5$ 个字符——总时间 $10^{10}$ ，太慢了。

字符串哈希（String Hashing / Rolling Hash）的思路极其巧妙：把字符串映射成一个整数。如果两个字符串的哈希值相同，它们大概率是相同的字符串（有极小概率冲突，但竞赛中通常可以忽略）。

核心技巧：用前缀哈希 + 前缀和的方法，在 $O(1)$ 时间内算出任意子串的哈希值。预处理 $O(n)$ ，每次查询 $O(1)$ 。

问题的本质

把字符串变成多项式

选一个基数 $B$ 和模数 $M$ （通常 $M = 2^{64}$ ，用 unsigned long long 自然溢出）。字符串 $S = s_1 s_2 \ldots s_n$ 的哈希值为：

$H(S) = s_1 \cdot B^{n-1} + s_2 \cdot B^{n-2} + \cdots + s_n \cdot B^0 \pmod{M}$

这就像把字符串当成一个 $B$ 进制的数。不同的字符串（大概率）对应不同的数。

前缀哈希：O(1) 子串查询

关键洞察：预处理前缀哈希 $h[i] = s_1 B^{i-1} + s_2 B^{i-2} + \cdots + s_i B^0$ 。那么子串 $S[l..r]$ 的哈希值为：

$\text{hash}(l, r) = h[r] - h[l-1] \cdot B^{r-l+1}$

类比前缀和：子串的和 = 后缀前缀和 - 前缀前缀和（再乘以适当的 $B$ 的幂来对齐位数）。

为什么哈希冲突概率极低？

用 unsigned long long 自然溢出（模 $2^{64}$ ），基数选 131 或 911382629。两个不同字符串哈希相同的概率约 $1/2^{64}$ ，即 $5 \times 10^{-20}$ 。竞赛中几乎不会遇到冲突。

理论 + 代码

前缀哈希预处理

#include <cstdio>
using namespace std;

typedef unsigned long long ull;
const ull B = 131;  // ① 基数，通常选质数

ull h[MAXN], pw[MAXN]; // h[i]=前缀哈希, pw[i]=B^i

void build(const char* s, int n) {
    pw[0] = 1;
    for (int i = 1; i <= n; i++) pw[i] = pw[i-1] * B; // ② 预计算 B 的幂
    h[0] = 0;
    for (int i = 1; i <= n; i++)
        h[i] = h[i-1] * B + s[i-1]; // ③ 递推前缀哈希
}

ull getHash(int l, int r) { // 1-indexed, 闭区间 [l, r]
    return h[r] - h[l-1] * pw[r - l + 1]; // ④ O(1) 子串哈希
}

逐行解析：

① 基数 $B$ 选一个比字符集大的质数（小写字母 26 个， $B=131$ 足够）。
② pw[i] = B^i，用于查询时对齐位数。
③ 递推： $h[i] = h[i-1] \cdot B + s_i$ 。每多一个字符，旧的哈希值左移一位（乘 $B$ ），加上新字符。
④ h[r] - h[l-1] * pw[r-l+1]：类比前缀和，但需要对齐位数。

模拟走一遍

$S = \text{"abcbabc"}$ ， $B = 131$ （简化用小数演示）：

i	s[i]	h[i]	说明
0	-	0	初始
1	’a’=97	97	0×131+97
2	’b’=98	97×131+98 = 12805
3	’c’=99	12805×131+99 = 1677464

查询 S[1,3]=“abc” 的哈希 = h[3] - h[0]×pw[3] = 1677464 - 0 = 1677464。

回文判断

回文 = 正着读和反着读一样。所以：

预处理正串哈希和反串哈希
子串 $S[l..r]$ 是回文 ⟺ 正串哈希 == 反串哈希

例题

例题 1：TB A56 — String Hash

题目：长度 $N$ 的字符串 $S$ 。 $Q$ 个查询： $S[a_i..b_i]$ 和 $S[c_i..d_i]$ 是否相同？

数据范围： $1 \le N, Q \le 2 \times 10^5$

—— AtCoder Tessoku Book A56

分析：裸的字符串哈希模板题。预处理前缀哈希，每次查询 $O(1)$ 比较两个子串的哈希值。

代码：

#include <cstdio>
using namespace std;

typedef unsigned long long ull;
const int MAXN = 200006;
const ull B = 131;

ull h[MAXN], pw[MAXN];

void build(const char* s, int n) {
    pw[0] = 1;
    for (int i = 1; i <= n; i++) pw[i] = pw[i-1] * B;
    h[0] = 0;
    for (int i = 1; i <= n; i++) h[i] = h[i-1] * B + s[i-1];
}

ull getHash(int l, int r) {
    return h[r] - h[l-1] * pw[r - l + 1];
}

int main() {
    int N, Q;
    char S[MAXN];
    scanf("%d%d", &N, &Q);
    scanf("%s", S);
    build(S, N);
    while (Q--) {
        int a, b, c, d;
        scanf("%d%d%d%d", &a, &b, &c, &d);
        printf("%s\n", getHash(a, b) == getHash(c, d) ? "Yes" : "No");
    }
    return 0;
}

逐行解析：

build 预处理前缀哈希和 $B$ 的幂。
getHash(l, r) $O(1)$ 计算子串哈希。
比较两个子串的哈希值，相同则”大概率”字符串相同。

验证： $S=\text{"abcbabc"}$ 。 $S[1,3]$ =“abc” vs $S[5,7]$ =“abc”→Yes。 $S[1,5]$ =“abcba” vs $S[2,6]$ =“bcbab”→No。✓

例题 2：TB B56 — Palindrome Queries

题目：长度 $N$ 的字符串 $S$ 。 $Q$ 个查询：子串 $S[L_i..R_i]$ 是否是回文？

数据范围： $1 \le N, Q \le 10^5$

—— AtCoder Tessoku Book B56

分析：预处理正串和反串的哈希。子串是回文 ⟺ 正串 $[L, R]$ 的哈希 = 反串 $[N-R+1, N-L+1]$ 的哈希。

代码：

#include <cstdio>
using namespace std;

typedef unsigned long long ull;
const int MAXN = 100006;
const ull B = 131;

ull h[MAXN], rh[MAXN], pw[MAXN];
char S[MAXN], rS[MAXN];

void build(int n) {
    pw[0] = 1;
    for (int i = 1; i <= n; i++) pw[i] = pw[i-1] * B;
    h[0] = rh[0] = 0;
    for (int i = 1; i <= n; i++) {
        h[i] = h[i-1] * B + S[i-1];      // ① 正串哈希
        rh[i] = rh[i-1] * B + rS[i-1];    // ② 反串哈希
    }
}

ull getHash(ull h[], int l, int r) {
    return h[r] - h[l-1] * pw[r - l + 1];
}

int main() {
    int N, Q;
    scanf("%d%d", &N, &Q);
    scanf("%s", S);
    for (int i = 0; i < N; i++) rS[i] = S[N-1-i]; // ③ 构造反串
    build(N);
    while (Q--) {
        int L, R;
        scanf("%d%d", &L, &R);
        int rL = N - R + 1, rR = N - L + 1; // ④ 反串中的对应区间
        printf("%s\n", getHash(h, L, R) == getHash(rh, rL, rR) ? "Yes" : "No");
    }
    return 0;
}

逐行解析：

③ 反转字符串 $S$ 得到 $rS$ 。
④ 正串 $[L, R]$ 在反串中对应 $[N-R+1, N-L+1]$ 。例如正串 $[1,4]$ （长度 4）对应反串 $[N-3, N]$ 。
比较正串和反串对应区间的哈希值，相同则是回文。

验证： $S=\text{"mississippi"}$ 。 $S[5,8]$ =“issi”，反串=“ippississim”，对应 $[4,7]$ =“issi”。哈希相等 → Yes。✓

例题 3（练习）：T90 047 — Monochromatic Diagonal（★7）

题目：两个由 ‘R’,‘G’,‘B’ 组成的字符串 $S, T$ （长度 $N$ ）。构造 $N \times N$ 矩阵，其中 $(i,j)$ 的颜色由 $s_i$ 和 $t_j$ 决定。求有多少条对角线（左上到右下）是单色的。

数据范围： $1 \le N \le 2 \times 10^5$

—— AtCoder Typical 90 047

思路：★7 难题。矩阵 $(i,j)$ 的颜色由 $s_i$ 和 $t_j$ 决定。对角线上所有格子的 $(i+k, j+k)$ 要求 $s_{i+k}$ 和 $t_{j+k}$ 对产生的颜色都一致。

实际上，对角线 $d = i - j + N$ （平移后的差值）上，位置 $(i+k, j+k)$ 的”颜色值”需要满足 $f(s_{i+k}, t_{j+k})$ 全部相同。将每条对角线上的 $s$ 和 $t$ 子串分别哈希，可以快速判断是否所有位置的 $(s,t)$ 对都给出相同结果。

代码：

#include <cstdio>
#include <cstring>
using namespace std;
typedef unsigned long long ull;
const ull BASE = 131;

int N;
char S[200005], T[200005];
ull pw[200005], hs[200005], ht[200005];

ull get_h(ull* h, int l, int r) { return h[r] - h[l-1] * pw[r-l+1]; }

int main() {
    scanf("%d%s%s", &N, S+1, T+1);
    pw[0] = 1;
    for (int i = 1; i <= N; i++) pw[i] = pw[i-1] * BASE;
    for (int i = 1; i <= N; i++) hs[i] = hs[i-1] * BASE + (S[i] * 3 + 7);
    for (int i = 1; i <= N; i++) ht[i] = ht[i-1] * BASE + (T[i] * 3 + 7);

    long long ans = 0;
    // 对角线 d = i - j（范围 -(N-1) 到 N-1）
    for (int d = -(N-1); d <= N-1; d++) {
        int i1 = (d >= 0) ? 1 : 1 - d;   // ① 对角线的起始 i
        int j1 = i1 - d;                   // ② 对应的起始 j
        int len = min(N - i1 + 1, N - j1 + 1);
        if (len <= 0) continue;
        // 检查对角线上所有 (s_{i}, t_{j}) 对是否颜色一致
        // 用哈希检查 s 子串和 t 子串是否各自全相同
        // 如果所有 s[i+k] 相同且所有 t[j+k] 相同，则对角线单色
        ull sv = get_h(hs, i1, i1 + len - 1);  // ③ s 子串哈希
        ull tv = get_h(ht, j1, j1 + len - 1);  // ④ t 子串哈希
        // 单色要求：所有字符相同 = 哈希等于 c * (1 + base + base^2 + ...)
        // 简化：直接枚举 9 种颜色组合
        for (int cs = 0; cs < 3; cs++) {
            for (int ct = 0; ct < 3; ct++) {
                ull expected_s = 0, expected_t = 0;
                for (int k = 0; k < len; k++) {
                    expected_s = expected_s * BASE + ("RGB"[cs] * 3 + 7);
                    expected_t = expected_t * BASE + ("RGB"[ct] * 3 + 7);
                }
                if (sv == expected_s && tv == expected_t) ans++;
            }
        }
    }
    printf("%lld\n", ans);
}

逐行解析：

①② 确定每条对角线的起始位置 $(i_1, j_1)$ 和长度 $len$ 。
③④ 对每条对角线，取 $S$ 和 $T$ 的对应子串哈希。
枚举 9 种颜色组合 $(c_s, c_t)$ ，检查 $S$ 子串是否全为 $c_s$ 且 $T$ 子串是否全为 $c_t$ 。

参考文献

教材讲解 — 競技プログラミングの鉄則第 8 章

8.6 B56 Palindrome Queries（字符串哈希+回文判定解说，含完整哈希实现）

系统练习 — 競技プログラミングの鉄則

实战练习 — 競プロ典型 90 問

047 Monochromatic Diagonal（★7，哈希应用）【例题】

系列索引

第零章基础工具

第一章搜索技术

第二章数学基础

第三章数据结构

第四章图论

第五章动态规划

第六章贪心

第七章字符串

第八章进阶

竞技编程 03-08 字符串哈希

怎么在 O(1) 内判断两个子串是否相同？——把字符串变成一个数

前言

问题的本质

把字符串变成多项式

前缀哈希：O(1) 子串查询

为什么哈希冲突概率极低？

理论 + 代码

前缀哈希预处理

模拟走一遍

回文判断

例题

例题 1：TB A56 — String Hash

例题 2：TB B56 — Palindrome Queries

例题 3（练习）：T90 047 — Monochromatic Diagonal（★7）

参考文献

系列索引

竞技编程 03-08 字符串哈希