大宗商品行业市场规模巨大、关系国计民生,它的三个核心类别——能源商品、基础原材料、农副产品均在我国经济发展进程中起着举足轻重的作用。这其中,大宗商品供应链的顺畅运行和稳定发展对整个产业链的运作至关重要。
数链科技,一家致力于用人工智能等先进科技手段实现大宗商品实时交易数字化的公司,基于飞桨文字识别开发套件PaddleOCR、自然语言处理模型库PaddleNLP,开发了大宗商品数字供应链智能识别与管理系统。聚焦线下单据识别场景难题,基于PaddleNLP的通用信息抽取模型UIE-X(以文档智能大模型文心ERNIE-Layout为模型底座,ERNIE-Layout创新性引入布局知识增强,在多个文档问答榜单登顶,为各类上层应用提供了SOTA模型底座),通过实现非标单据的识别及关键字段提取,破除大宗商品供应链环节信息壁垒,完善系统数据质量的同时显著提高了交易效率。
以非标单据数字化为切入点,破除“不透明、不标准”信息壁垒
基于对大宗商品行业的深刻认知及对行业供应链的痛点洞察,数链科技团队敏锐地认识到,要让大宗商品交易实现升级提效,首先要让所有交易信息实现高效精准的数字化。
“传统的大宗商品供应链中,比如物流票据、合同之类的交易信息,都以实物形式存在,需要人工拍照、存档,然后人工进行信息录入。一旦出现问题,也需要人工审查、回溯图片信息。”数链科技总裁助理张越介绍,“而各个企业的单据标准常常不一样,也就是存在大量线下非标单据,这就导致人工录入单据和追溯复查的难度极大。于是我们希望能够找到一种方式,先提升非标单据数字化的效率,然后以此为切入点,推动行业的整体数字化升级。人工智能技术,就是我们的最优选。”
结合业务流程,数链科技技术团队将实现非标单据数字化的目光锁定在文字识别与信息抽取领域。然而团队调研后发现,虽然市场上已经存在文字识别技术供应商,但鲜少有针对于大宗商品供应链开发的解决方案。另一方面,采购外部供应商的产品也缺乏灵活性,系统升级改造需要花费大量时间与供应商对接调校,遇到供应商人力无法支持时,更会严重影响投入使用的进度。因此,自研一种高效灵活的产品,成为团队当务之急。
飞桨技术+生态,助力非标单据识别效率提升20倍
最终,团队选择基于飞桨文字识别开发套件PaddleOCR和自然语言处理模型库PaddleNLP和通用信息抽取模型UIE-X开展自研项目。通过PaddleOCR提供的丰富实用的工具库,训练针对大宗供应链非标单据识别模型,并通过PaddleNLP调用UIE-X的基础上,使用自己的数据集进行微调,极大降低训练开发成本。
在文字识别过程中,传统的光学字符识别过程为:图像预处理(彩色图像灰度化、二值化处理、图像变化角度检测、矫正处理等)、版面划分(直线检测、倾斜检测)、字符定位切分、字符识别、版面恢复、后处理、校对等。使用飞桨文字识别开发套件PaddleOCR,首先降低了入门门槛,不需要最基础的光学字符识别理论,其次PaddleOCR拥有丰富的组件和公开的文字检测、文字识别等一系列基础预训练模型,大大降低了AI入门难度。对于开发者来说,只需具备一定的python开发能力即可在开源模型基础上进行测试、调优,最终短时间内完成部署上线。
自然语言处理模型库PaddleNLP内的跨模态文档通用信息抽取模型UIE-X,以文心大模型为基础,在没有专业标注团队的情况下,使用小样本训练,进行定制化开发,大量节省了标注成本。在此基础上,数链只需准备几十份合同样本,使用PaddleLabel进行标注、训练,最终关键信息抽取精度达到87.5%。
在部署过程中,PaddleOCR支持hubserving服务,PaddleNLP支持SimpleServing服务,并且支持半精度推理方式,加快推理速度,可进行一键部署。还支持CPU、GPU多种服务器部署,在测试过程中降低了调试难度。部署过程使用docker一键安装方式,降低了运维部署负担。
最终,项目团队成功自研出大宗商品数字供应链智能识别与管理系统,在大宗商品供应链线下单据的识别场景下,实现了线下非标单据的识别及关键字段提取,极大提高了人工补录相关单据的效率。原本人工补录线下合同需要5分钟,现在只需人工确认结果及部分纠正即可,时间提升至15秒以内,识别效率达到原先的20倍。
项目在大宗供应链典型的表格识别场景下表现优秀。团队重新训练标注表格识别模型,将单行数据提取以单元格为维度进行矫正输出,最终使表格识别精度从87%上升到98%,大大提升合同中表格识别的准确率,对大宗商品业务场景中大量的表格式单据(如财报、铁路大票、发票、磅单、化验凭证等)的信息提取有重大意义。
目前,数链科技大宗商品数字供应链智能识别与管理系统,已经实现线下合同、铁路大票、汽运磅单等非标单据的自动识别与信息提取,为1000余家煤炭、粮食等大宗商品领域不同规模的供应链企业提供商业化服务。
引入先进AI技术,为行业带来数字智能化转型,飞桨和文心大模型也将携手更多供应链服务企业持续助力行业转型升级,探索人工智能在大宗商品行业的落地路径,创造经济与社会价值。(李京)
来源: 光明网