“大模型的核心是语言大模型。语言大模型虽然统一了NLP(自然语言处理)的研究范式,但它并没有统一的解决方案,以往人工智能难以落地、难以复制的情况仍然存在。并不是有一个厉害的大模型就能解决一切问题。”在谈及大模型当下存在的局限性时,拓尔思()总裁施水才如是说道。
今日,拓尔思正式发布“拓天大模型”,并率先面向媒体、金融、政务领域推出了行业大模型。财联社记者现场获悉,今年下半年,拓尔思还将陆续推出网络舆情、公安、知识产权、法律、审计等行业大模型。
(施水才正在介绍拓天大模型财联社记者摄)
(相关资料图)
之所以选择切入上述行业,施水才向记者表示,一方面因为这些行业的数据特点非常契合拓尔思的模型,也就是文本文档型数据占比高,与自然语言处理高度相关。另一方面拓尔思在这些行业具备一定的优势和话语权,客户基础好、渗透率高。
根据拓尔思2022年年报,来自金融、制造、能源等企业客户收入占总营收比重%,公共安全客户收入占%,政府行业客户占%,互联网和传媒占%。
最近一段时间,国内大模型扎堆涌现,让不少投资者感叹“每天都有企业发布大模型”。而随着行业技术和市场认知的快速迭代,业界关注点也从通用大模型向垂直大模型转变。
但目前,通用大模型在专业领域落地存在巨大的挑战,包括质量、时效、可控、成本等。同时每一个领域都有专业或私域的知识体系,拥有极为庞杂的知识量,仅靠通用大模型无法满足垂直领域的需求。
施水才表示,在具体行业应用落地时,拓尔思最大的优势在于跟业务系统高度吻合,同时有强大的工程和服务能力,“能用”且“好用”。
拓尔思副总裁林松涛现场演示了拓天媒体行业大模型,该模型主要功能——内容生产智能助手,页面左侧为编辑器、右侧为对话框。借助对话框搜索到的资料同步显示来源,并且能一键拖拽到编辑器里进行修改、续写,以及自动配图。
(拓天媒体行业大模型现场演示财联社记者摄)
据悉,这一媒体行业大模型基于拓尔思自有的超1000亿互联网媒体资讯数据、超100亿官媒数据,超200万人民数据,14大类知识标引规范,12000多知识标引规则作为专业训练数据打造而来。
“一个大模型好不好,数据非常重要,数据要求类型广、质量高,我们本身有1500亿的大规模的数据,它的特点就是信息源是非常地权威可靠。”施水才提到,他曾把自家数据列表拿给国内五六个头部大模型公司看,结果有四家来要案例,三家问怎么买,这也侧面印证了公司的数据资产质量可靠。
而在大模型基座上,拓尔思采取开放策略,既有自研模型,也能够在开源模型上进行增强,还可以跟国内外同行进行商业合作。施水才表示,这是出于减少风险的考虑。
此外,拓尔思相关负责人还现场演示了政务公文写作、研究报告撰写、智能客服等大模型功能。记者注意到,这些功能普遍满足的是某一特定行业的场景化需求。比如政务咨询客服,当被问到异地办理购房贷款问题时,拓天大模型不仅能完成多轮对话,给出肯定的回答,还会以图表形式列出办理业务所需的证件材料,以及相关事务中心的交通信息和办公时间。
施水才透露,接下来还会增加新的场景、拓展新的行业。大模型只是阶段性成果,公司未来真正的核心赛道,一个是数据要素市场,另一个是将商业模式从落地项目制向提供云服务转型。
(文章来源:财联社)