感觉 gpt 的 vision 能力不太行

对 gpt 的 vision 能力持怀疑态度了。

最近有在做毕设项目（前段时间经理了很严重的怠惰期），需要用到对 PDF 的 RAG，我想在这方面尝试一点彻底的东西，于是就准备用 LLM 过一遍抽取出来的内容（相当于重新排版），然后解析 markdown 的 AST 来做 chunking，还能加上目录信息来实现 contextual embedding

文本的效果很好，非常好，但是图片有问题。似乎 PDF 抽取之后图片摆放的位置是页的开头还是结尾，总之不是中间，所以需要 LLM 来插入。另外似乎图片都没有 alt 之类的东西，所以只有个序号，如果要 LLM 来排的话肯定得把内容显示给它看。

于是写了一套 vision 的 utility，最后的格式是，紧接着就会自动插入图片。

但是效果非常不满意。

我一直 fail to 让 LLM 保留所有的图片，插入的位置也不对
LLM 似乎认为图标、广告那些元素比插图更重要。我也是服了

可能是我确实在写 prompt 上低人一等吧，总之我是放弃了

加上我之前一直没干活，师兄对我应该也是没什么耐心。现在决定放弃图片了（就当是模型能力还不够）

然后刚刚在删代码，发现真的要删了好多巧思，有点伤心，就来记录一下

当然，我觉得有可能跟 gpt 对图片的 tokenizing 方式有关。一方面我没试过别的 VLM，另一方面似乎只有 gpt 着重有一章讲他们对图片的处理，就是 low 分辨率有一部分 token，然后 high 分辨率的话是分成多个 tile 这样。我不太懂模型所以不知道为什么要这么干。但我感觉这样子可能会对低分辨率的图标啊头像啊logo啊这些东西反而更关注。