当前市场上固然有不少工具,可以将不可编辑的 PDF 文件转换为可编辑文档,但转换之后很难保留原始布局。
微软最新论文名称为《从不可编辑文档生成可编辑文档的方法和系统》,利用人工智能保留字体、颜色、布局和不同格式图像等视觉元素。
IT之家简要介绍下该系统的操作步骤,该系统先查看不可编辑的文档,找出各种元素(如文本、图像和表格)的排列方式,并使用边界框确定这些元素的位置和大小。
系统可识别不可编辑文档中文本使用的字体,然后使用人工智能模型,根据原始文档中使用的颜色选择配色方案。
系统会使用确定的布局、字体和配色方案创建一个新的可编辑文档。新文档保持了原始不可编辑文档的外观和感觉,但允许编辑。