拓尔思信息技术股份有限公司(以下简称“拓尔思”或“公司”)6月30日晚间发布公告称,公司于6月28-29日接受了多家机构投资者的特定对象调研并进行了路演活动。在活动中,拓尔思透露,公司产品拓天大模型目前拥有内容生成、多轮对话、语义理解、跨模态交互、知识型搜索、逻辑推理、安全合规、数学计算、编程能力和插件扩展十大基础能力。拓天大模型聚焦优势行业,利用自有的高质量数据进行预训练,推出适用于媒体、金融、政务的三大行业大模型。
拓尔思公告截图
拓尔思向投资者介绍,公司产品拓天大模型目前拥有内容生成、多轮对话、语义理解、跨模态交互、知识型搜索、逻辑推理、安全合规、数学计算、编程能力和插件扩展十大基础能力。
拓天大模型具有中文特性增强的可控生成技术、融合搜索引擎的生成结果可信核查、融合稠密向量的跨模态能力加强以及支持外界知识及时更新四大创新点。
拓尔思称,拓天大模型聚焦优势行业,利用自有的高质量数据进行预训练,推出适用于媒体、金融、政务的三大行业大模型。选择这三个行业的原因,主要有两点:其一,公司在自然语言处理领域拥有30年的技术积累,这三个行业的数据特点适合公司开发的模型。语言大模型是大模型的核心,也是多模态大模型的基石;其二,公司在这三个行业拥有优质客户基础和行业知识积累,渗透率较高,具备一定优势。未来,公司还将陆续推出网络舆情、公安、知识产权、法律、审计等行业大模型。
投资者询问,公司千亿级数据具有哪些特点?不同行业大模型的专业训练数据有哪些差别?拓尔思回答:公司拥有千亿级“全、准、新”的无监督训练数据和微调优化知识数据,可针对优势行业训练出高质量的行业大模型,为媒体行业的内容生产与搜索推荐、金融行业的智能风控与投研、政府的政策分析与公文辅助写作等垂直领域提供深度赋能,满足行业用户的专业化智能创新需求。
在媒体大模型上,公司基于自有的1000亿+互联网媒体资讯数据,100亿+官媒数据,200万+人民数据,14大类知识标引规范,12000+知识标引规则作为专业训练数据。
在金融大模型上,公司基于自有的110亿+金融主题数据、百亿级产业指标数据、30亿+产业要素明细数据、2亿+产业动态本体、500+以上标引维度、10000+知识标引规则、10万+产业标签作为专业训练数据。
在政务大模型上,公司基于自有的200万公文、政策文件、政务办事指南等数据作为专业训练数据。
关于三个行业大模型主要覆盖哪些业务场景,拓尔思称,媒体大模型主要覆盖内容生产智能助手、新一代搜索与推荐、多模态传播与服务三大业务场景。金融大模型主要覆盖智能风控、智能客服、智能投研、自动业务批处理等业务场景。政务大模型主要覆盖公文辅助写作、政策大脑和新一代政务互动等业务场景。
拓尔思表示,针对大模型训练的成本过高,其生成内容中的数据不能及时更新的问题,拓天大模型通过外挂知识库的方式接入实时数据,结合自研搜索引擎技术实现专业领域实时数据的融合利用。
拓尔思透露,公司目前没有申请大模型牌照。
有投资者询问,拓天大模型是否支持私有化部署?拓尔思回答:拓天大模型通过剪枝、量化、稀疏、蒸馏等部署优化方案,可有效降低大模型对算力资源的要求。拓天大模型推出的垂类大模型参数在百亿级,当前市场主流推理卡单卡就可以满足运行要求,能够实现模型轻量化部署。
公司的生成式AI技术水平方面,拓尔思透露,随着人工智能、大数据等技术的快速发展,对话式AI产品可广泛赋能语音交互、客户服务、营销运营等场景,受到市场高度关注。目前,其他厂商发布的大模型在对话问答、文案设计、代码生成、文章撰写等方面表现较好,具备较强的语义理解和逻辑推理能力,加速了对话式AI技术向对话、问答、搜索、翻译等领域的渗透。
今年3月,中国信通院启动了对话式AI首轮专项评测工作,同时开放功能、性能、体验和场景四个模块,包含30余个能力项。公司自主研发的TRS小思智能问答机器人系统参与中国信通院首轮对话式AI专项评测工作,并顺利通过对话功能模块评测。作为自研的一款智能问答云服务系统,TRS小思智能问答机器人系统综合运用了自然语言处理、信息检索、知识表示与推理等技术,通过问题解析、语义分析、意图分类、信息源自动识别与评价、实体识别与关系抽取、信息检索、知识表示与推理、答案证据搜寻与强度计算等一系列处理流程,实现问题解答与人机交互。该系统可辅助人类快速、准确地获取信息,已广泛应用于政务智能问答、企业智能客服、行业知识问答等多个领域。
读创财经综合
审读:孙世建