感觉 gpt 的 vision 能力不太行


对 gpt 的 vision 能力持怀疑态度了。

最近有在做毕设项目(前段时间经理了很严重的怠惰期),需要用到对 PDF 的 RAG,我想在这方面尝试一点彻底的东西,于是就准备用 LLM 过一遍抽取出来的内容(相当于重新排版),然后解析 markdown 的 AST 来做 chunking,还能加上目录信息来实现 contextual embedding

文本的效果很好,非常好,但是图片有问题。似乎 PDF 抽取之后图片摆放的位置是页的开头还是结尾,总之不是中间,所以需要 LLM 来插入。另外似乎图片都没有 alt 之类的东西,所以只有个序号,如果要 LLM 来排的话肯定得把内容显示给它看。

于是写了一套 vision 的 utility,最后的格式是, 紧接着就会自动插入图片。

但是效果非常不满意。

  1. 我一直 fail to 让 LLM 保留所有的图片,插入的位置也不对
  2. LLM 似乎认为图标、广告那些元素比插图更重要。我也是服了

可能是我确实在写 prompt 上低人一等吧,总之我是放弃了

加上我之前一直没干活,师兄对我应该也是没什么耐心。现在决定放弃图片了(就当是模型能力还不够)

然后刚刚在删代码,发现真的要删了好多巧思,有点伤心,就来记录一下


当然,我觉得有可能跟 gpt 对图片的 tokenizing 方式有关。一方面我没试过别的 VLM,另一方面似乎只有 gpt 着重有一章讲他们对图片的处理,就是 low 分辨率有一部分 token,然后 high 分辨率的话是分成多个 tile 这样。我不太懂模型所以不知道为什么要这么干。但我感觉这样子可能会对低分辨率的图标啊头像啊logo啊这些东西反而更关注。