如何让AI处理超长PDF
- 量子位
- 2025-02-07 20:27:41
如何让AI处理超长PDF
让AI阅读并理解超长PDF,一直是个难题,文字识别、表格解析、Markdown转换,一套组合拳下来,让人头都大了。
而数据科学家Sergey发现,Gemini 2.0 Flash不仅OCR接近完美,还能以极低的成本,阅读并理解超长的PDF。
成本有多低?One刀乐就能解析6000页PDF,直接把PDF处理砍成白菜价。
对比【图1】可以发现,相同的价格,GPT-4o才处理200页,而Claude-3.5-Sonnet甚至只能处理100页。
有人要问了,这么便宜会不会牺牲精度?
【图2】的测试发现,Gemini精度上虽然比不上Reducto这样的专业方案,但其精度已然领先了其他一众方案。
此外,Sergey还提到,光是把PDF里的内容转成Markdown还不够,真正想要做RAG或者其他下游应用,就必须把文本拆分成更小的段落——也就是所谓的分块(Chunking)。
这一步虽然听起来简单,但处理超长PDF场景下非常昂贵。
而Gemini Flash 2.0的文档智能分块,仅需5000美元,就能把1亿页文档的分块。
遗憾的是,Gemini目前不太能搞定文本的边界框(bounding box)。
像【图3】和【图4】这样的边界,包含了PDF里数据的精准位置,Gemini还不能在PDF中精准定位,生成的Markdown里,位置可能被标注得乱七八糟。
Sergey表示,希望谷歌未来能补上这个短板,让大模型在二维布局理解上更进一步。
感兴趣的小伙伴可以阅读原文:
网页链接
让AI阅读并理解超长PDF,一直是个难题,文字识别、表格解析、Markdown转换,一套组合拳下来,让人头都大了。
而数据科学家Sergey发现,Gemini 2.0 Flash不仅OCR接近完美,还能以极低的成本,阅读并理解超长的PDF。
成本有多低?One刀乐就能解析6000页PDF,直接把PDF处理砍成白菜价。
对比【图1】可以发现,相同的价格,GPT-4o才处理200页,而Claude-3.5-Sonnet甚至只能处理100页。
有人要问了,这么便宜会不会牺牲精度?
【图2】的测试发现,Gemini精度上虽然比不上Reducto这样的专业方案,但其精度已然领先了其他一众方案。
此外,Sergey还提到,光是把PDF里的内容转成Markdown还不够,真正想要做RAG或者其他下游应用,就必须把文本拆分成更小的段落——也就是所谓的分块(Chunking)。
这一步虽然听起来简单,但处理超长PDF场景下非常昂贵。
而Gemini Flash 2.0的文档智能分块,仅需5000美元,就能把1亿页文档的分块。
遗憾的是,Gemini目前不太能搞定文本的边界框(bounding box)。
像【图3】和【图4】这样的边界,包含了PDF里数据的精准位置,Gemini还不能在PDF中精准定位,生成的Markdown里,位置可能被标注得乱七八糟。
Sergey表示,希望谷歌未来能补上这个短板,让大模型在二维布局理解上更进一步。
感兴趣的小伙伴可以阅读原文:
