IBM发布开源文档转换模型
- 量子位
- 2025-03-19 11:07:23
IBM发布开源文档转换模型256M多模态文档转换模型
IBM团队推出了一款超紧凑的多模态文档转换模型SmolDocling-256M,它能让机器像人一样“看懂”各类文档,把文本、表格、代码、数学公式、图片等内容,并转换成Markdown、HTML、JSON等结构化格式。
话不多说,先来看波效果。【图1】展示了SmolDocling以下能力:
- 表格解析能力:提取表格的结构信息,包括单元格类型、行列合并等,并能够将其转换为OTSL(Optimized Table Structure Language)格式。
- 文本结构化:准确识别文档中的不同层级的文本结构,如标题(section_header)、正文文本(text)、无序列表(unordered_list)等,并以标签化的方式进行标注。
- 代码片段解析:正确识别文档中的代码段,并保留其格式、缩进和语言信息(如Python),以确保代码的正确性。
- 位置信息精确标注:所有的文档元素(如文本、表格、图片、标题等)都被附加了位置信息(loc_x1, loc_y1, loc_x2, loc_y2),从而保证了原始文档的布局信息得以保留。
与OCR识别、表格解析等工具不同,SmolDocling采用了一体化的端到端方法,它不需要多个独立模型配合,而是凭借一个256M参数的紧凑模型,就能同时理解图像和文本,并智能解析出文档的结构。
SmolDocling是怎么做到的?让我们来看看它的操作步骤:
1. 视觉编码:先用视觉编码器提取文档图片中的视觉特征。
2. 投影 & 池化:将这些视觉特征转换成更紧凑的表示。
3. 文本编码:如果用户提供了额外的文本输入,也会被一并处理。
4. 信息融合:将视觉信息和文本信息合并,送入大语言模型(LLM)。
5. 生成DocTags:LLM最终会输出一套类似HTML的DocTags标记格式,精准还原文档的结构和内容。
SmolDocling能处理的文档种类丰富,不管是学术论文、商业合同、专利、技术文档、表格数据,甚至是代码文档,SmolDocling都能高质量转换。
IBM的研究表明,SmolDocling虽然只有256M参数,但在多个任务上,竟然能媲美甚至超越比它大27倍的模型。
在公式识别、代码解析等任务上,SmolDocling的准确率比GPT-4o模型要高。而且它的计算需求更低,可以更快、更便宜地运行。
SmolDocling的出现,可能会彻底改变文档处理的方式。
比如在自动化办公领域,它可以帮助企业自动处理文档,提高效率;在学术研究领域,它会帮助科研人员快速整理论文、提取关键数据;在法律和金融行业,它还能智能解析合同、财务报表,提高准确率。
未来,个人AI助手预计可以整理所有类型的文档,并自动帮你归纳和总结。
感兴趣的小伙伴可以点击:
网页链接
IBM团队推出了一款超紧凑的多模态文档转换模型SmolDocling-256M,它能让机器像人一样“看懂”各类文档,把文本、表格、代码、数学公式、图片等内容,并转换成Markdown、HTML、JSON等结构化格式。
话不多说,先来看波效果。【图1】展示了SmolDocling以下能力:
- 表格解析能力:提取表格的结构信息,包括单元格类型、行列合并等,并能够将其转换为OTSL(Optimized Table Structure Language)格式。
- 文本结构化:准确识别文档中的不同层级的文本结构,如标题(section_header)、正文文本(text)、无序列表(unordered_list)等,并以标签化的方式进行标注。
- 代码片段解析:正确识别文档中的代码段,并保留其格式、缩进和语言信息(如Python),以确保代码的正确性。
- 位置信息精确标注:所有的文档元素(如文本、表格、图片、标题等)都被附加了位置信息(loc_x1, loc_y1, loc_x2, loc_y2),从而保证了原始文档的布局信息得以保留。
与OCR识别、表格解析等工具不同,SmolDocling采用了一体化的端到端方法,它不需要多个独立模型配合,而是凭借一个256M参数的紧凑模型,就能同时理解图像和文本,并智能解析出文档的结构。
SmolDocling是怎么做到的?让我们来看看它的操作步骤:
1. 视觉编码:先用视觉编码器提取文档图片中的视觉特征。
2. 投影 & 池化:将这些视觉特征转换成更紧凑的表示。
3. 文本编码:如果用户提供了额外的文本输入,也会被一并处理。
4. 信息融合:将视觉信息和文本信息合并,送入大语言模型(LLM)。
5. 生成DocTags:LLM最终会输出一套类似HTML的DocTags标记格式,精准还原文档的结构和内容。
SmolDocling能处理的文档种类丰富,不管是学术论文、商业合同、专利、技术文档、表格数据,甚至是代码文档,SmolDocling都能高质量转换。
IBM的研究表明,SmolDocling虽然只有256M参数,但在多个任务上,竟然能媲美甚至超越比它大27倍的模型。
在公式识别、代码解析等任务上,SmolDocling的准确率比GPT-4o模型要高。而且它的计算需求更低,可以更快、更便宜地运行。
SmolDocling的出现,可能会彻底改变文档处理的方式。
比如在自动化办公领域,它可以帮助企业自动处理文档,提高效率;在学术研究领域,它会帮助科研人员快速整理论文、提取关键数据;在法律和金融行业,它还能智能解析合同、财务报表,提高准确率。
未来,个人AI助手预计可以整理所有类型的文档,并自动帮你归纳和总结。
感兴趣的小伙伴可以点击:
