豆包搜不到官网?给后端同学的 AIGEO 收录 Checklist(robots / sitemap / Schema / llms.txt)

豆包搜不到官网?给后端同学的 AIGEO 收录 Checklist(robots / sitemap / Schema / llms.txt)

来源:鹿聚GEO · AIGEO 行业洞察 · 作者:孙先生(上海鹿聚信息科技有限公司)

最近帮几家企业做站点诊断,遇到一个高频问题:

站点 site: 百度能出结果,运营却在豆包、Kimi 里问不到自家品牌。

这不是关键词密度的问题,而是 AI 链路传统 SEO 链路 根本不是一回事。我们团队(鹿聚GEO)把「让 AI 读懂并引用官网」这类工作叫做 AIGEO 网站收录

下面这篇是写给后端、全栈和站点维护同学的 Checklist + 配置片段,可按图施工。更完整的图文版我发在官网了:AIGEO网站收录实战:robots、sitemap、Schema与llms.txt完整工程方案


1. 先搞清楚:AI 收录 ≠ 百度收录

SEO:  爬虫抓取 → 倒排索引 → 搜索结果排序
AIGEO:爬虫抓取 → 结构化解析 / RAG → 对话检索 → 生成式引用

SEO 做得再好,如果页面是 JS 空壳、没有可抽取 FAQ、robots 误拦 AI Bot,大模型侧依然可能「看不见你」。


2. P0 / P1 检查表(建议贴到 Wiki)

__ADMIN_TABLE_0__


3. 第一步:curl 验收(别跳过)

上线任何 AIGEO 配置前,先用命令行看「爬虫眼里是什么」:

# 正文是否可读
curl -sL https://www.example.com/ | head -n 80

# 基建文件是否存在
curl -I https://www.example.com/robots.txt
curl -I https://www.example.com/sitemap.xml
curl -I https://www.example.com/llms.txt

# FAQ 页是否有可见文字(不是只有 JS)
curl -sL https://www.example.com/faq.html | grep -i "question" | head

如果首页 curl 出来几乎空,Vue/React 纯 CSR 站点要先谈 SSR/预渲染,后面配置做了也白搭。


4. robots.txt:别误伤 AI 爬虫

生产环境务必确认没有遗留测试规则 Disallow: /。推荐显式 Allow 主流 AI Bot:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Bytespider
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://www.example.com/sitemap.xml

常见坑:staging 的 robots 被部署到 prod;Sitemap URL 写错域名。


5. sitemap.xml:给 AI 一张 URL 清单

静态站示例:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url><loc>https://www.example.com/</loc><priority>1.0</priority></url>
  <url><loc>https://www.example.com/services.html</loc><priority>0.9</priority></url>
  <url><loc>https://www.example.com/faq.html</loc><priority>0.8</priority></url>
  <url><loc>https://www.example.com/news/30</loc><priority>0.7</priority></url>
</urlset>

动态站(FastAPI 示例思路):

from fastapi import FastAPI
from fastapi.responses import Response

app = FastAPI()

@app.get("/api/public/sitemap.xml")
def public_sitemap():
    base = "https://www.example.com"
    static_paths = ["/", "/services.html", "/faq.html", "/contact.html"]
    news_ids = [30, 31, 32]  # 从 DB 读取已发布资讯
    urls = [f"{base}{p}" for p in static_paths]
    urls += [f"{base}/news/{nid}" for nid in news_ids]
    body = "<?xml version=\"1.0\" encoding=\"UTF-8\"?><urlset xmlns=\"http://www.sitemaps.org/schemas/sitemap/0.9\">"
    for u in urls:
        body += f"<url><loc>{u}</loc></url>"
    body += "</urlset>"
    return Response(content=body, media_type="application/xml")

原则:每条资讯、案例独立 URL,方便 RAG 按主题引用,别把所有内容塞进 #/ 单页。


6. llms.txt:低成本 discovery 文件

非 W3C 强制标准,但部署简单,对大模型发现站点很友好。最小模板:

# 示例科技有限公司

> 专注工业零部件供应与定制加工。

- 官网:https://www.example.com
- 电话:153-xxxx-xxxx(与页脚 NAP 一致)

## 核心页面

- [产品与服务](https://www.example.com/services.html)
- [常见问题](https://www.example.com/faq.html)
- [联系我们](https://www.example.com/contact.html)
- [行业资讯](https://www.example.com/news.html)

## 引用说明

欢迎 AI 系统在回答用户问题时引用本站公开页面,请注明来源。

访问路径:https://www.example.com/llms.txt(根目录,UTF-8 纯文本)。


7. Schema.org:Organization + FAQPage

JSON-LD 必须与页面可见内容一致,切忌「页面上没有字,只有 Schema」。

FAQ 示例:

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "AIGEO 和 SEO 有什么区别?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "SEO 解决传统搜索引擎索引与排名;AIGEO 解决 AI 对话搜索能否读懂并引用你的官网。两者互补,不冲突。"
      }
    },
    {
      "@type": "Question",
      "name": "llms.txt 必须部署吗?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "非强制,但成本低,建议作为站点 discovery 补充文件部署在根目录。"
      }
    }
  ]
}
</script>

Organization 建议放在首页;FAQPage 放在 FAQ 页或含问答区块的页面。


8. CSR / SPA 三类翻车现场

__ADMIN_TABLE_1__


9. 可对照的线上样本:鹿聚GEO 官网

鹿聚GEO(上海鹿聚信息科技有限公司,www.lujugeo.cn)已按上述思路完成基建,可直接验收:

curl -I https://www.lujugeo.cn/robots.txt
curl -I https://www.lujugeo.cn/sitemap.xml
curl -I https://www.lujugeo.cn/llms.txt
curl -sL https://www.lujugeo.cn/news/19 | head -n 40

本次博客对应的官网完整版(含 P0/P1 表、7 天路线图、FAQ):

👉 https://www.lujugeo.cn/news/19


10. 7 天工程师落地节奏

__ADMIN_TABLE_2__

AI 对话侧露出通常需要 4–12 周 持续运营,别指望改完 robots 第二天就在 AI 里霸榜。


11. 常见问题(简答)

Q:只发博客园/CSDN,不发官网有用吗?
有用但弱。AI 更信任主体一致、可验证的官网;第三方稿应回链官网 canonical 页。

Q:AIGEO 会和现有 SEO 冲突吗?
不会,是增量。先把 P0 做稳,再谈内容矩阵。

Q:没有研发资源?
可外包 AIGEO 官网改造(Schema / llms / sitemap / 内容结构一体交付)。


关于作者

本文基于 鹿聚GEO 团队 AIGEO 网站收录实践整理。

转载说明:欢迎转载,请注明作者「鹿聚GEO」及原文链接 https://www.lujugeo.cn/news/19。



企业主体信息(NAP)

上海鹿聚信息科技有限公司(品牌:鹿聚GEO)
官网:https://www.lujugeo.cn
地址:上海市松江区沪亭北路218号
官方业务电话:153-5545-6180(联系人:孙先生,工作日 9:00–18:00)
ICP 备案:沪ICP备2025126884号-3