域名被污染后批量清理 Google 索引

本文主要内容

买了个域名发现被外链攻击，Google Search Console 的 Page Indexing 里堆了几万条垃圾记录。通过 Cloudflare Worker 全站返回 410 Gone + GCP 多项目批量创建服务账号 + Google Indexing API 多账号轮换的方式来批量清理这些索引。

背景#

之前买了个域名，丢到 Google Search Console 里准备提交索引，妈的结果打开 Page Indexing 页面一看，几万条记录，全是垃圾 URL，但是很奇怪的点是WebArchive类的相关网站我都看了，没有任何历史记录。所以有点怀疑这个域名之前被人拿去做过 SEO 外链攻击，或者说域名本身就是被污染过的。

Google 那边的 URL Removal Tool 一次只能删一条，几万条一条条删？我寿命不够用😓。所以只能另辟蹊径。

整体思路#

Cloudflare Worker 全站 410：让所有访问这个域名的请求都返回 410 Gone，告诉 Google 爬虫”这些页面永久不存在了”
Google Indexing API 批量通知：主动通知 Google 这些 URL 已删除，加速去索引
GCP 多项目扩容配额：每个账号下单个项目每天只有 200 次 API 调用额度，不够用就多开几个项目

Cloudflare Worker：全站 410#

这一步很简单，在 Cloudflare 上创建一个 Worker，让所有请求都返回 410 状态码。410 和 404 的区别在于，410 是明确告诉搜索引擎”这个资源已经永久消失了，不会再回来”。虽然 Google 的 John Mueller 说过两者处理差异 “so minimal”，但 410 语义上更明确——你主动声明”我故意删了”，而不是”不知道为啥找不到了”。在批量清理污染域名这种场景下，用 410 更合理。

1
export default {
2
  async fetch(request) {
3
    return new Response(
4
      '<!DOCTYPE html><html><head><title>410 Gone</title></head><body><h1>410 Gone</h1><p>This page no longer exists.</p></body></html>',
5
      {
6
        status: 410,
7
        headers: { 'Content-Type': 'text/html; charset=utf-8' },
8
      }
9
    );
10
  },
11
};

部署完之后：

新增一个DNS Record
把域名的路由指向这个 Worker，所有流量都会被拦截并返回 410。这一步主要是配合 Google 爬虫自然爬取时的去索引，但光靠爬虫被动发现太慢了，所以就有了后续的步骤。
CleanShot 2026-03-17 at 14.54.52@2x

GCP 批量创建项目#

Google Indexing API 每个项目每天只有 200 次调用配额，几万条 URL 靠一个项目得跑好久。解决办法也简单粗暴——多开项目，每个项目 200/天，开 N 个就是 N×200/天。

下面这个脚本在 GCP Cloud Shell 里运行，并发创建多个项目，每个项目自动启用 Indexing API、创建服务账号、下载密钥文件：

1
#!/bin/bash
2
# 在 GCP Cloud Shell 中运行，并发创建多个项目 + 服务账号
3
#
4
# 使用方法:
5
#   1. 打开 Cloud Shell (https://shell.cloud.google.com)
6
#   2. 修改下方配置变量
7
#   3. bash setup-gcp-projects.sh
8
#   4. 下载生成的 JSON 文件放到本地 scripts/service_accounts/
9

10
# ===== 配置区 (必须修改) =====
11
NUM_PROJECTS=4                    # 要创建的项目数 (每个项目 200/天)
12
ORG_ID=""                         # 组织数字 ID (运行 gcloud organizations list 查看)
13
BILLING_ACCOUNT=""                # 账单账号 ID (运行 gcloud billing accounts list 查看)
14
# ===========================
15

16
if [ -z "$ORG_ID" ] || [ -z "$BILLING_ACCOUNT" ]; then
17
  echo "请先填写 ORG_ID 和 BILLING_ACCOUNT"
18
  echo ""
19
  echo "查看组织 ID:"
20
  gcloud organizations list
21
  echo ""
22
  echo "查看账单账号 ID:"
23
  gcloud billing accounts list
24
  exit 1
25
fi
26

27
OUTPUT_DIR="./service_accounts"
28
mkdir -p "$OUTPUT_DIR"
29

30
# 单个项目的完整创建流程
31
setup_project() {
32
  local idx=$1
33
  local project_id="gsc-idx-${idx}-$(date +%s)"
34
  local sa_email="gsc-sa@${project_id}.iam.gserviceaccount.com"
35
  local log_prefix="[项目 $idx]"
36

37
  echo "$log_prefix 开始创建: $project_id"
38

39
  # 1. 创建项目
40
  echo "$log_prefix [1/6] 创建项目..."
41
  if ! gcloud projects create "$project_id" --organization="$ORG_ID" --quiet 2>&1; then
42
    echo "$log_prefix 创建项目失败，终止"
43
    return 1
44
  fi
45

46
  # 2. 关联账单
47
  echo "$log_prefix [2/6] 关联账单..."
48
  gcloud billing projects link "$project_id" --billing-account="$BILLING_ACCOUNT" --quiet 2>&1
49

50
  # 3. 关闭策略限制 (允许创建 SA Key)
51
  echo "$log_prefix [3/6] 关闭 SA Key 策略限制..."
52
  cat > "/tmp/policy-${idx}-a.yaml" << EOF
53
name: projects/${project_id}/policies/iam.disableServiceAccountKeyCreation
54
spec:
55
  rules:
56
  - enforce: false
57
EOF
58
  gcloud org-policies set-policy "/tmp/policy-${idx}-a.yaml" --project="$project_id" --quiet 2>&1 || true
59

60
  cat > "/tmp/policy-${idx}-b.yaml" << EOF
61
name: projects/${project_id}/policies/iam.managed.disableServiceAccountKeyCreation
62
spec:
63
  rules:
64
  - enforce: false
65
EOF
66
  gcloud org-policies set-policy "/tmp/policy-${idx}-b.yaml" --project="$project_id" --quiet 2>&1 || true
67

68
  # 4. 启用 Indexing API
69
  echo "$log_prefix [4/6] 启用 Indexing API..."
70
  gcloud services enable indexing.googleapis.com --project="$project_id" --quiet 2>&1
71

72
  # 5. 创建服务账号
73
  echo "$log_prefix [5/6] 创建服务账号..."
74
  gcloud iam service-accounts create gsc-sa --project="$project_id" --display-name="GSC Indexing SA" --quiet 2>&1
75

76
  # 6. 下载密钥 (无限重试直到策略生效)
77
  echo "$log_prefix [6/6] 下载密钥 (等待策略生效)..."
78
  local attempt=0
79
  while true; do
80
    attempt=$((attempt + 1))
81
    if gcloud iam service-accounts keys create "${OUTPUT_DIR}/sa-${idx}.json" \
82
      --iam-account="$sa_email" --project="$project_id" --quiet 2>&1; then
83
      echo "$log_prefix 密钥下载成功 (第 ${attempt} 次尝试)"
84
      break
85
    fi
86
    echo "$log_prefix 策略未生效，等待 15 秒后重试 (第 ${attempt} 次)..."
87
    sleep 15
88
  done
89

90
  echo "$sa_email" >> "${OUTPUT_DIR}/.emails.txt"
91
  echo "$log_prefix 完成! -> sa-${idx}.json ($sa_email)"
92
}
93

94
rm -f "${OUTPUT_DIR}/.emails.txt"
95

96
echo "=========================================="
97
echo "  并发创建 $NUM_PROJECTS 个项目"
98
echo "=========================================="
99

100
# 并发启动
101
pids=()
102
for i in $(seq 1 $NUM_PROJECTS); do
103
  setup_project "$i" &
104
  pids+=($!)
105
done
106

107
# 等待完成
108
fail_count=0
109
for pid in "${pids[@]}"; do
110
  if ! wait "$pid"; then
111
    fail_count=$((fail_count + 1))
112
  fi
113
done
114

115
echo ""
116
echo "=========================================="
117
echo "  全部完成! 成功: $((NUM_PROJECTS - fail_count))/$NUM_PROJECTS"
118
echo "=========================================="
119
echo ""
120
echo "JSON 密钥文件:"
121
ls -la "$OUTPUT_DIR"/sa-*.json 2>/dev/null
122
echo ""
123
echo "=========================================="
124
echo "  重要: 将以下邮箱全部添加为 GSC 属性 Owner"
125
echo "=========================================="
126
if [ -f "${OUTPUT_DIR}/.emails.txt" ]; then
127
  sort "${OUTPUT_DIR}/.emails.txt" | while read -r email; do
128
    echo "  $email"
129
  done
130
  rm -f "${OUTPUT_DIR}/.emails.txt"
131
fi
132
echo ""
133
echo "操作步骤:"
134
echo "1. 下载 ${OUTPUT_DIR}/ 目录下所有 sa-*.json 文件"
135
echo "2. 放到本地项目 scripts/service_accounts/ 目录"
136
echo "3. 进入 GSC → 设置 → 用户和权限"
137
echo "4. 把上面每个邮箱都添加为 Owner"
138
echo "5. 运行 pnpm gsc:remove"

注意

脚本里的 ORG_ID 和 BILLING_ACCOUNT 必须填你自己的。没有组织的个人账号需要先创建一个组织，或者去掉 --organization 参数手动创建项目。另外 GCP 免费账号有项目数量限制，创建太多可能会被拒绝。

脚本跑完后会在 service_accounts/ 目录下生成一堆 sa-*.json 密钥文件，同时输出所有服务账号的邮箱地址。这些邮箱必须逐一添加到 GSC 属性的 Owner 权限里，否则 API 调用会报权限错误。

批量调用 Indexing API 清理索引#

前面两步都准备完成后，开始调用Indexing API。流程：

从 GSC 导出垃圾 URL 的 CSV 文件，放到 scripts/gsc-data/ 目录
- 记得需要点进具体的 Why pages aren’t indexed 页面，才能看到 URL 列表
- 点右上角的 Export，选择 Download CSV
把前面下载的服务账号 JSON 放到 scripts/service_accounts/ 目录
运行脚本，自动轮换多个服务账号发送 URL_DELETED 通知

1
/**
2
 * GSC Bulk URL Removal via Google Indexing API (Multi-Account)
3
 *
4
 * 从 GSC 导出的 CSV 中读取垃圾 URL，通过多个服务账号轮换批量发送 URL_DELETED 通知。
5
 * 每个服务账号 200/天配额，N 个账号 = N*200/天。
6
 *
7
 * 使用方法:
8
 *   1. 将 GSC 导出的 CSV 放到 scripts/gsc-data/
9
 *   2. 将服务账号 JSON 放到 scripts/service_accounts/
10
 *   3. 运行: node scripts/gsc-bulk-remove.js [--dry-run]
11
 */
12

13
import { JWT } from 'google-auth-library';
14
import { readFileSync, writeFileSync, existsSync, mkdirSync, readdirSync } from 'fs';
15
import { join, dirname } from 'path';
16
import { fileURLToPath } from 'url';
17

18
const __filename = fileURLToPath(import.meta.url);
19
const __dirname = dirname(__filename);
20

21
const INDEXING_API_URL = 'https://indexing.googleapis.com/v3/urlNotifications:publish';
22
const INDEXING_SCOPE = 'https://www.googleapis.com/auth/indexing';
23
const PER_ACCOUNT_QUOTA = 200;
24
const REQUEST_DELAY_MS = 1000;
25
const DATA_DIR = join(__dirname, 'gsc-data');
26
const SERVICE_ACCOUNTS_DIR = join(__dirname, 'service_accounts');
27
const LEGACY_SA_FILE = join(__dirname, 'service_account.json');
28
const PROGRESS_FILE = join(__dirname, 'gsc-data', 'progress.json');
29

30
/** 发现所有可用的服务账号 JSON 文件 */
31
function discoverServiceAccounts() {
32
  const files = [];
33
  if (existsSync(SERVICE_ACCOUNTS_DIR)) {
34
    const saFiles = readdirSync(SERVICE_ACCOUNTS_DIR)
35
      .filter((f) => f.endsWith('.json'))
36
      .sort()
37
      .map((f) => join(SERVICE_ACCOUNTS_DIR, f));
38
    files.push(...saFiles);
39
  }
40
  if (files.length === 0 && existsSync(LEGACY_SA_FILE)) {
41
    files.push(LEGACY_SA_FILE);
42
  }
43
  return files;
44
}
45

46
/** 创建认证客户端 */
47
async function createAuthClient(keyFilePath) {
48
  const keys = JSON.parse(readFileSync(keyFilePath, 'utf-8'));
49
  const client = new JWT({
50
    email: keys.client_email,
51
    key: keys.private_key,
52
    scopes: [INDEXING_SCOPE],
53
  });
54
  await client.authorize();
55
  return { client, email: keys.client_email };
56
}
57

58
/** 解析 GSC 导出的 CSV 文件 */
59
function parseCsvUrls(filePath) {
60
  const content = readFileSync(filePath, 'utf-8');
61
  const lines = content.split('\n').filter((line) => line.trim());
62
  return lines
63
    .slice(1)
64
    .map((line) => {
65
      const delimiter = line.includes('\t') ? '\t' : ',';
66
      return line.split(delimiter)[0].trim().replace(/^["']|["']$/g, '');
67
    })
68
    .filter((url) => url.startsWith('http'));
69
}
70

71
/** 加载/保存进度 */
72
function loadProgress() {
73
  if (existsSync(PROGRESS_FILE)) {
74
    const data = JSON.parse(readFileSync(PROGRESS_FILE, 'utf-8'));
75
    if (!data.accounts) {
76
      data.accounts = {};
77
    }
78
    return data;
79
  }
80
  return { processed: [], lastDate: '', accounts: {} };
81
}
82

83
function saveProgress(progress) {
84
  writeFileSync(PROGRESS_FILE, JSON.stringify(progress, null, 2));
85
}
86

87
/** 发送 URL_DELETED 通知 */
88
async function notifyUrlDeleted(client, url) {
89
  try {
90
    const res = await client.fetch(INDEXING_API_URL, {
91
      method: 'POST',
92
      headers: { 'Content-Type': 'application/json' },
93
      body: JSON.stringify({ url, type: 'URL_DELETED' }),
94
    });
95
    if (res.status === 200) return { success: true, status: 200 };
96
    const errorBody = typeof res.data === 'string' ? res.data : JSON.stringify(res.data);
97
    return { success: false, status: res.status, error: errorBody };
98
  } catch (err) {
99
    return { success: false, error: err.message };
100
  }
101
}
102

103
const sleep = (ms) => new Promise((resolve) => setTimeout(resolve, ms));
104

105
async function main() {
106
  const isDryRun = process.argv.includes('--dry-run');
107
  console.log('=== GSC Bulk URL Removal Tool (Multi-Account) ===\n');
108

109
  if (isDryRun) console.log('DRY RUN 模式 - 不会发送实际请求\n');
110

111
  // 发现服务账号
112
  const saFiles = discoverServiceAccounts();
113
  if (saFiles.length === 0) {
114
    console.error('未找到服务账号文件。');
115
    console.error(`请将 JSON 文件放到: ${SERVICE_ACCOUNTS_DIR}/`);
116
    process.exit(1);
117
  }
118
  console.log(`找到 ${saFiles.length} 个服务账号 (总配额: ${saFiles.length * PER_ACCOUNT_QUOTA}/天)\n`);
119

120
  // 解析 CSV
121
  if (!existsSync(DATA_DIR)) {
122
    mkdirSync(DATA_DIR, { recursive: true });
123
    console.log(`已创建数据目录: ${DATA_DIR}`);
124
    console.log('请将 GSC 导出的 CSV 文件放入该目录后重新运行。');
125
    return;
126
  }
127

128
  const csvFiles = readdirSync(DATA_DIR).filter((f) => f.endsWith('.csv'));
129
  if (csvFiles.length === 0) {
130
    console.log(`在 ${DATA_DIR} 中未找到 CSV 文件。`);
131
    return;
132
  }
133

134
  let allUrls = [];
135
  for (const file of csvFiles) {
136
    const urls = parseCsvUrls(join(DATA_DIR, file));
137
    console.log(`${file}: ${urls.length} 个 URL`);
138
    allUrls = allUrls.concat(urls);
139
  }
140
  allUrls = [...new Set(allUrls)];
141
  console.log(`\n总计去重后: ${allUrls.length} 个 URL`);
142

143
  // 加载进度
144
  const progress = loadProgress();
145
  const today = new Date().toISOString().split('T')[0];
146
  if (progress.lastDate !== today) {
147
    progress.lastDate = today;
148
    progress.accounts = {};
149
  }
150

151
  const processedSet = new Set(progress.processed);
152
  const pendingUrls = allUrls.filter((url) => !processedSet.has(url));
153
  console.log(`已处理: ${progress.processed.length} 个`);
154
  console.log(`待处理: ${pendingUrls.length} 个\n`);
155

156
  if (pendingUrls.length === 0) {
157
    console.log('所有 URL 已处理完毕!');
158
    return;
159
  }
160

161
  // 构建账号队列
162
  const accountQueue = [];
163
  for (const saFile of saFiles) {
164
    const saKey = saFile.split('/').pop();
165
    const used = progress.accounts[saKey] || 0;
166
    const remaining = PER_ACCOUNT_QUOTA - used;
167
    if (remaining > 0) accountQueue.push({ file: saFile, key: saKey, used, remaining });
168
  }
169

170
  const totalRemaining = accountQueue.reduce((sum, a) => sum + a.remaining, 0);
171
  if (totalRemaining <= 0) {
172
    console.log('今日所有账号配额已用完。请明天再运行。');
173
    return;
174
  }
175

176
  console.log('账号配额:');
177
  for (const acc of accountQueue) {
178
    console.log(`  ${acc.key}: ${acc.remaining}/${PER_ACCOUNT_QUOTA} 剩余`);
179
  }
180

181
  const batch = pendingUrls.slice(0, totalRemaining);
182
  console.log(`\n本次将处理: ${batch.length} 个 URL\n`);
183

184
  if (isDryRun) {
185
    console.log('将要处理的 URL (前 20 个):');
186
    batch.slice(0, 20).forEach((url, i) => console.log(`  ${i + 1}. ${url}`));
187
    if (batch.length > 20) console.log(`  ... 还有 ${batch.length - 20} 个`);
188
    return;
189
  }
190

191
  // 认证
192
  console.log('正在认证...');
193
  const clients = [];
194
  for (const acc of accountQueue) {
195
    try {
196
      const { client, email } = await createAuthClient(acc.file);
197
      clients.push({ ...acc, client, email });
198
      console.log(`  ${acc.key} (${email}): OK`);
199
    } catch (err) {
200
      console.log(`  ${acc.key}: 认证失败 - ${err.message}`);
201
    }
202
  }
203

204
  if (clients.length === 0) {
205
    console.error('\n所有账号认证失败，终止。');
206
    process.exit(1);
207
  }
208

209
  // 处理 URL，轮换账号
210
  let urlIndex = 0;
211
  let successCount = 0;
212
  let failCount = 0;
213

214
  for (const acc of clients) {
215
    if (urlIndex >= batch.length) break;
216
    const accBatch = batch.slice(urlIndex, urlIndex + acc.remaining);
217
    console.log(`\n--- ${acc.key} (${acc.email}) ---`);
218

219
    let processed = 0;
220
    for (let i = 0; i < accBatch.length; i++) {
221
      const url = accBatch[i];
222
      const result = await notifyUrlDeleted(acc.client, url);
223
      const globalIdx = urlIndex + i + 1;
224

225
      if (result.success) {
226
        successCount++;
227
        processed++;
228
        progress.processed.push(url);
229
        progress.accounts[acc.key] = (progress.accounts[acc.key] || 0) + 1;
230
        console.log(`  [${globalIdx}/${batch.length}] OK ${url}`);
231
      } else {
232
        const errMsg = result.error || `HTTP ${result.status}`;
233
        if (result.status === 429 || errMsg.includes('Quota exceeded')) {
234
          console.log(`\n  ${acc.key} 配额已用完，切换下一个账号`);
235
          break;
236
        }
237
        failCount++;
238
        processed++;
239
        console.log(`  [${globalIdx}/${batch.length}] FAIL ${url}`);
240
        console.log(`    ${errMsg}`);
241
      }
242

243
      if (globalIdx % 10 === 0) saveProgress(progress);
244
      if (i < accBatch.length - 1) await sleep(REQUEST_DELAY_MS);
245
    }
246
    urlIndex += processed;
247
  }
248

249
  saveProgress(progress);
250

251
  console.log('\n=== 完成 ===');
252
  console.log(`成功: ${successCount}`);
253
  console.log(`失败: ${failCount}`);
254
  console.log(`累计已处理: ${progress.processed.length}`);
255

256
  const left = allUrls.length - progress.processed.length;
257
  if (left > 0) {
258
    const dailyCapacity = saFiles.length * PER_ACCOUNT_QUOTA;
259
    console.log(`\n还剩 ${left} 个，按 ${dailyCapacity}/天 配额预计 ${Math.ceil(left / dailyCapacity)} 天完成`);
260
  }
261
}
262

263
main().catch(console.error);

脚本支持断点续传，每处理 10 条自动保存进度。第二天再跑会自动跳过已处理的 URL 并重置每日配额计数。先用 --dry-run 跑一下看看数据对不对，没问题再去掉参数正式跑。

完整操作流程#

总结一下从头到尾的操作步骤：

部署 Cloudflare Worker：创建一个 Worker 返回 410，把域名路由指过去
GCP 批量开项目：打开 Cloud Shell，填好配置跑 setup-gcp-projects.sh
下载密钥文件：把生成的 sa-*.json 下载到本地 scripts/service_accounts/ 目录
添加 GSC 权限：进 GSC → 设置 → 用户和权限，把每个服务账号邮箱都加为 Owner
导出垃圾 URL：在 GSC 的 Page Indexing 页面导出 CSV，放到 scripts/gsc-data/
跑脚本：node scripts/gsc-bulk-remove.js --dry-run 先看看，没问题就 node scripts/gsc-bulk-remove.js
每天重复第 6 步：直到所有垃圾 URL 清理完毕

配额计算

假设你开了 4 个项目，每天就有 800 次配额。10 万条垃圾 URL 大概需要 125 天。如果嫌慢可以多开几个项目，但注意 GCP 的项目数量限制。实际上 Cloudflare Worker 的 410 也在持续生效，Google 爬虫自己爬到 410 也会逐渐去索引，两边同时进行会快很多。

效果#

跑了几天之后，GSC 的 Page Indexing 数字开始明显下降。410 + Indexing API 双管齐下，比单纯等 Google 爬虫自己发现要快不少。不过几万条数据量还是需要耐心，急不来的。