青年报首席记者 范彦萍
企业个人递交信息审批流程很长,财务报告繁杂财务们看花眼……类似这样的文本处理,以前都要花许多人力来处理,但有了“AI文秘”机器人,它们能快速阅读分析大量重复枯燥的文本,为企业、政府部门、专业人士减负。
上海张江浦东软件园有一家人工智能文本处理企业——达观数据是该赛道的“独角兽”,创始人陈运文是复旦大学计算机博士和杰出毕业生。曾先后担任百度核心技术研发工程师、盛大文学首席数据官、腾讯文学高级总监等职的他有一天突发奇想,既然AI能在文学领域发力,为何不能将它们的技能应用到其他诸如金融、制造、物流、能源、政府、医药等垂直领域呢?
预测未来10年之内
50%的日常文档处理将由机器人完成
80后博士陈运文的创业梦始于2015年,就在“大众创业、万众创新”的时代背景下,他脱离了打工人角色,创办了专注于智能文本处理的公司——达观数据。
创业初期,陈运文组建了一个算法团队,人不多,却颇有实力。在参加ACM CIKM 算法竞赛和EMI Hackathon 数据竞赛两大国际赛事时,团队成员分别拿下了赛事的全球冠军。
公司的第一间办公室位于张江天之骄子(孵化器),面积只有约二十个平方米。达观的第一行代码,就是在这个弹丸之地写出来的。
7年,几百万行代码!这些年,陈运文和团队的工作一直围绕着“人工智能”和“文本处理”,不断精进文本智能处理,为企业提升效率而努力。
曾经的工作经历让他对文字处理尤其敏感,在创业界有一个法则是“做熟不做生”。陈运文告诉记者,以前他所就职的公司主要是将AI应用于小说、剧本等文本的处理。但他发现,诸如金融、政府行政部门等行业的人工智能文本处理尚处于空白,“因此,我们开发的机器人就聚焦政府公文、大型企业报告等文本的处理,切中客户的刚需”。
但所谓隔行如隔山,这样的定律对于机器人来说也是一样的。陈运文形容说,自己啃的是块硬骨头。达观所从事的自然语言处理领域相较传统的领域,特点是技术难度更高、应用价值更大。比如替财务处理财务报表、自动对账、写报告、报税等金融工作;替信贷员做银行信贷审核贷款、撰写贷后管理报告等;替证券从业人员写证券说明书、招股说明书,处理企业合同、订单、用户手册等;替政府工作人员做行政审批。“打个比方,以前为何企业办证要一个月,因为需要靠人去查很多资料,但AI系统处理的话可以大幅提高效率,甚至做到秒批。”
“我们落地场景的难点在于实际应用中的文字语义变化多端,蕴含的行业知识庞杂。其实在金融、制造、物流、能源、政府、医药等领域里,文字资料的审核、比对、搜索、写作、报送等都大量存在。”陈运文介绍说。
“虽然研发过程困难但是应用前景是巨大且广阔的。”陈运文预计,在未来10年之内,50%的日常文档处理工作将由计算机完成。
“让计算机系统代替人类来处理办公文字”是陈运文创业之初就立下的目标,他希望未来公司能将人从日常繁琐的文字工作中解放出来,去做更有意义、更有价值的工作。
经过多年的努力,达观的团队已发展成600多人的企业,成为这一赛道的明星企业。
坚持自主创新
积极研发国产GPT“曹植”大模型
从2023年开始,陈运文敏锐地意识到这是人工智能进入新阶段的大年。行业内有句话,自然语言理解是人工智能皇冠上的明珠。陈运文之前估计,人工智能的水平超过人类,需要5-10年,但现在这一时间进程大大加快,便是得益于ChatGPT的发展。
陈运文解释说,达观所从事的文档资料的智能处理,与ChatGPT的工作原理类似。ChatGPT背后的大模型技术,是通过海量文档资料进行深度学习,智能程度已经达到非常高的水平。不仅能直接给出选择题的答案,还可以帮用户写代码、找bug,写各种各样的文档资料。
达观目前正在积极研发的国产版GPT“曹植”大语言模型LLM系统可以说是站在了ChatGPT“巨人的肩膀”上。“ChatGPT是非常优秀的技术,但它的应用是大众化的,我们产品则应用在企业级领域,面向更为垂直的行业。所以,国产版GPT‘曹植’属于专业版的ChatGPT,比如财务询问非常复杂的财务问题,我们的系统也可以定向答复。”陈运文解释说,作为垂直、专用、自主可控的国产版ChatGPT模型,GPT“曹植”可以针对金融等垂直行业来开发特定应用;系统可以为每个客户量身定制、私有化部署,确保数据安全私密;坚持原创自主,训练数据和算法模型自主可控。
不仅如此,该系统还结合先进的自然语言处理(NLP)、智能文档处理(IDP)、光学字符识别(OCR)、机器人流程自动化(RPA)、知识图谱等技术,为大型企业和政府机构提供文档智能审阅、文档智能写作、知识搜索与问答、办公流程自动化等智能文本机器人产品。达观数据通过持续投入研发和创新,不断提升产品和服务的质量与效率,为企业提供更好的文本智能化解决方案,让计算机协助人工完成业务流程自动化。
近期达观研发新的“曹植”大语言模型系统,让陈运文也对达观大语言模型的应用前景有了更多期望,他希望在专用语言模型方面有所突破,为我国国产大模型的建设也能添砖加瓦。
寻找专业合作伙伴
注重人才与客户服务
“创业像跑一场无止境的马拉松。”在陈运文看来,一旦选择创业,就要做好打持久战的准备,这个过程非常漫长和崎岖,所谓“进窄门、走远路、见微光”,要选择一个自己认定的方向,不随大流;要目光长远,始终保持热情和信念,克服各种困难。
“我们不缺客户,这些年,客户们提了很多要求,难度有高有低。有些非常难的任务需要我们持续做技术研发。”陈运文举例说,有的客户希望“AI文秘”能快速把中文报告自动转变成各种语言的报告,且行文流畅。这对于研发团队提出了很高的要求。
除去核心技术产品的研发,陈运文还十分注重培养技术和业务双结合的人才。因此,他在达观设置了行业专家团队,构成人员均为各行各业的资深从业者,他们与技术工程师配合,让工程师听懂业务专家描述的技术概念,再把这些概念变成计算机的程序代码,让机器人学习,从而实现技术更好地落地。
他也注重技术和产品的交付和客户服务。因为交付质量和客户服务是企业的生命线,是企业行业口碑的来源。大模型技术要转化为优势的产品和服务,才可以真正为企业赋能,如果是面向企业服务,还要考虑不同企业和客户的繁琐需求,和客户共同探索新场景的应用,共同沉淀项目成果。
他还和全国各大财经类高校合作。“很多高校的教授对财务知识很精通,但对人工智能技术不是很了解。我们积极和高校开展专业领域的产学研合作,也和高校合作培养复合型人才。”
创业7年,陈运文获得的荣誉很多,有中国五四青年奖章、上海市十大青年科技杰出贡献奖等,他是国际计算机学会(ACM)和中国计算机学会(CCF)高级会员,中国人工智能学会和中文信息学会专委会委员,兼任复旦大学和上海财经大学校外研究生导师;在人工智能领域有丰富的研究成果,申请有30余项国家发明专利,多篇会议论文发表在高水平国际期刊上。他还带领达观数据荣获工信部专精特新“小巨人”企业、2018中国人工智能界最高奖“吴文俊人工智能奖”。
青年报首席记者 范彦萍