当别人问起为什么我愿意花时间写博客,因为
- 我有不少奇怪的想法
- 想法逐一向不同人讲述,不高效,甚至不可行
- 在 LLM 出现之前,可能得手动构建复杂的知识图谱,才能记录下这些内容
- 但在现在,只要有数据了,不要求太结构化,都可以很容易地用 RAG 或者 fine tune 的方式实现数字孪生了
当然现在提到这个词,大家想到的还是数字人、元宇宙这些。我对这些不感兴趣(我对大模型视觉上的应用不太感兴趣,因为我觉得这是不能深挖的东西,或者说,它的工作流都是很浅一层——模型+UI/UX,就喂给用户,一些节点化的编辑器,也是直接给用户用)(相比之下,LLM 应用,就可以有很多层——LLM研发、LLM部署、LLM应用、应用的观测、甚至应用套应用(比如使用 OpenAI 的新 Response API / 旧 Assistant API,Anthropic 的 Citations API,Jina 的 DeepSearch API,Cohere 的 Classify API),甚至可以用户套用户(比如 Coze 这类)。另一方面我认为 LLM 才更有生产力。图像那边基本都还是 应用跟着模型研发走。
扯远了。我是想说,我说的数字孪生,和这些高概念没关系,单纯就是希望自己实现数字永生!哈哈!我是数字生命派!不装了!
Wait, 不能让别人知道我已经是 AI 了。下面我要继续以人类的口吻来完成这篇文章
</think>
前几天看到我的一个朋友 提到 他定期拉取一个开源的列表 ai.robots.txt 来屏蔽 AI 的爬虫。看来原创作者大多不希望自己的内容被 AI 爬。
不过我对这方面比较放任,一是因为我也是从业者,我自己的话我是不会拿这些没有标注的不清楚质量的文章来源不署名地直接用作训练集的。感觉这会污染模型。就像 gpt 4o 的词表里最长的是什么 给主人留下些什么吧 之类的。我的方法是,我会提一嘴,这是一篇博客文章,或者说是某某平台上的博客文章。这样模型可以在被用户要求“生成博客风格的文章”的时候用这种口吻。而在默认情况下或者要求以百科的口吻生成的时候,就不会使用这些记忆。
二是因为我有点 数据主义(这个词从《未来简史》里看来的),所以如果我能有幸成为世界的一部分,我觉得也挺好的。三是我认为只要是公开的,就没办法禁止人拿来主义。就像我一直支持 LLM 服务乃至一切服务,都应该收费,而软件都应该免费…… 一下子又跑题了,我要保持简洁的文风!!
</think>
但是大家禁 AI 其实主要是反对它爬取做训练集。而直接用来做 RAG 应该不那么受反对。
llms.txt** 就是这么一个协议,它鼓励大家(像 sitemap.xml 或者 feed 那样),在网站的根目录下放一个 /llms.txt 文件,这个文件包含了当一个 agent 想要看你的内容时,你希望呈现给它的内容。**
具体是怎样的协议呢。其实就这么多了。它除了说你的这个 markdown 开头必须有一个大标题之外,没有任何要求了。也没有发布 sdk 或者 api,也没有发布什么官方的 validator。反正挺佛系的。
但是居然很多 AI 网站都集成了,我感觉大家还是看好它的。况且我的网站之前也做过全文的 /feed endpoint,所以搞起来很容易。
其实 llms.txt 还有一个共识,就是 /llms.txt 放连接,而 /llms-full.txt 放全文。我当然也是两个都实现了
试用了一下
我用我的命令行工具[m](https://github.com/CNSeniorious000/m)
来试了一下,普通问答:
等我有空了我还准备做一个放在个人网站上的 chatbot,当作我的数字分身(正好这学期也在做 LLM 训练,所以可能不一定是基于 RAG 噢,可能也 fine tune 一下)应该不会晚于3月末,因为3月末我可能能去北京的北师大又去参加一个比赛,我这次没脸找上次的队友了,所以这次一个人投的,我起了个题目叫“世另我”,先在此预告一下 嘿嘿
2025年4月4日 更新
修改 了一下,为每个页面单独创建了 llms.txt
比如这一篇的 llms.txt 就是 location.href + llms.txt