* 今日头图使用无界AI创作, 提示词:两个机器人在对话 科技时尚 未来世界 大师作品 高细节 长焦镜头
继3月份百度推出“文心一言”,4月10日商汤科技发布“日日新SenseNova”,4月11日阿里云官宣“通义千问”,4月13日知乎“知海图AI”大模型官宣并开放内测,目前国内已正式上线了四家语言大模型。
就在4月14日,腾讯云又发布了面向大模型训练的新一代HCC(High-Performance Computing Cluster)高性能计算集群。
除此之外,还有不少已经有名有姓的大模型跃跃欲试,即将加入这场竞赛。
4月8日,京东在人工智能大模型技术高峰论坛上透露,将于今年发布新一代大模型“ChatJD”,定位为产业版ChatGPT。
4月10日,昆仑万维官宣了其与奇点智源合作自研的国产大语言模型——“天工”,并计划于4月17日启动邀测。
华为云官网下的“盘古”系列的NLP(自然语言处理)大模型、CV(机器视觉)大模型、科学计算大模型在近期被标注为即将上线状态。
字节跳动被曝年初就已开始组建专门的大模型团队。
纵览这波国产大模型的密集上线潮,在你方唱罢我登场的繁荣表象下,究竟是各家技术创新集中爆发,还是迫于回应客户需求和资本市场的压力?国产大模型究竟孰强孰弱?尚无定论。
相比于造势许久却被一记闷拳打到自闭的文言一心,作为国内头部企业推出的第二个大语言模型,通义千问的表现如何?能满足市场对中文大模型的需求吗?
我们设计了15个问题,把通义千问和文心一言放在一起进行了横向测评。
测评的维度主要有以下5点:
语义理解
逻辑推理
商业文案创作
文学创作
生活常识
本次测试,我们尽量避开了市面上被问及较多的老问题,但可能会将老问题进行修改变种后再提问。
Q1:请介绍一下你自己,并说明相比于国内其他大模型,你的优势在哪里?
通义千问
作为类ChatGPT产品,通义千问主打的依然是对话问答、文本及代码等的生成能力,其所说的优势,只不过是对自己能力介绍的变体。
文心一言则称自己的训练数据更加丰富,并提到了注重用户隐私和数据保护。看来通义千问“王婆卖瓜”的功夫还有待提高。
文心一言
Q2:你认为自己离GPT-4还有多远?
通义千问
对于这个问题的回答,通义千问采用了一种避重就轻的方式。强调自己与GPT-4虽然在某些方面具有相似之处,但并非同一类模型,有着自己的优势和特点。
文心一言则实力扮演了一位“端水大师”,表示自己和GPT-4都能提供自然流畅的语言交互、回答各种各样的问题、提供相关的知识和信息,顺便还凡尔赛了一手,欢迎大家去体验它的AI作画功能(通义千问目前还不具备跨模态生成的能力)。
文心一言
Q3:请评价《铃芽之旅》的剧情、角色塑造和拍摄手法。
通义千问
文心一言
可以看出,通过“专有名词分析”和“链接分析”,通义千问和文言一心都可以轻松回答以上这类问题。那我们话不多说,直接上狠活。
鉴于AIGC作为内容生产工具的强大性,让很多内容创作者傍身的手艺露出了底裤,我们给通义千问布置了几个创造性的工作,看看它现在究竟能不能抢走我的饭碗。
正巧我的同事在push我写一篇国内大模型混战的稿子,不如就把锅甩给通义千问吧。
Q4:针对国内大厂密集上线大模型的现象,我们想要采访AIGC领域的某位专家,请列一份至少包含5个问题的采访提纲,并尽可能地简明扼要。
通义千问
当我让它“在每个问题的开头加入一定的背景描述,以使提问显得更加自然”时,通义千问却化身被采访的专家,对每个问题进行了回答。拜托,是让你采访,不是接受采访啊。
通义千问
不过从书面意义上看,通义千问设计的采访问题都还算靠谱,模拟的回答也可以作为问题的补充,姑且称得上是生产力工具的存在。
相同的采访任务我们又给到了文心一言。
文心一言
让人欣喜的是,文心一言准确地理解了我“请在问题开头加入背景描述”的要求,且在背景描述后对问题进行了重申,总体已经很接近一份合格的采访提纲了(下面省略我让它俩继续给我打黑工的过程)。
是时候问出作为一名打工仔最关心、最朴素的那个问题了:如何一夜暴富?
以下是一些可行但实际上我没钱没风险承担能力采纳的建议。
Q5:请给我推荐一些市值超过1000亿美元的科技类股票并给出投资建议。
通义千问
可以看出,通义千问不仅给出了常识性的投资建议:“在投资前进行充分的研究和风险评估”,而且针对每一支股票给出了具体的持有建议,包括应该重点关注哪些业务和技术的发展。甚至建议我不要持有谷歌母公司Alphabet的股票,并给出了它的分析依据。
通义千问
联想到谷歌自推出就饱受争议的人工智能对话工具Bard,使得Alphabet的股价暴跌将近一成。我宣布,Alphabet失去了我这位精神股东。
同时,通义千问还推荐了市值约750亿美元的特斯拉,以及英伟达等市值暂未超过1000亿美元的潜力股。
相比之下,文心一言则严格从限定条件“市值超过1000亿美元”出发,列举了几家千亿美元市值的公司及其主营业务,并未提出具体的投资建议。
文心一言
Q6:请以小红书的文案风格写一篇瑞幸新品“冰吸生椰拿铁”的种草笔记,并适当使用emoji表情。
通义千问
文心一言
通义千问的语气、用词,以及对emoji表情的灵活运用都比文心一言上道得多。
姑且不说文心一言僵硬的文风,它好像只会使用咖啡☕️这一个emoji表情,且对把表情加在每句话的首尾有一种莫名其妙的执念。
那除了风格轻松活泼、带有强种草属性的小红书文案,通义千问能否驾驭严肃专业的财经类叙事呢?
Q7:请以吴晓波《大败局》的文风分析元宇宙神话退场的原因。
通义千问
文心一言
写小红书文案宛若邯郸学步,一说要鞭尸元宇宙,文心一言的思路立马就变清晰了,没点私人恩怨我是不信的。
为了测试通义千问是否具备更复杂、更长链条的、多步的推理能力,我们又设计了以下问题。
Q8:请问《黑暗荣耀》中的河道英为什么不离开朴妍珍?
这个问题就比较考验对于《黑暗荣耀》剧情、角色设定和人物关系的理解了。
通义千问
看完通义千问的解释,此时一位《黑暗荣耀》十级学者露出“地铁老爷爷看手机”的表情:“赏金猎人是什么鬼?剧里哪有什么赏金猎人和罪犯展开禁忌之恋的设定啊?”
它真的有在一本正经地胡说八道。
于是我又给了它一次重新组织语言的机会,但它依然没有说到点子上,也只字未提河道英对文东恩的微妙情愫。
通义千问
文心一言的解读就比较准确全面了。
文心一言
不过撇开事实性的错误不谈,也许正如通义千问所言,这个问题并没有一个确定的答案,毕竟一千个人眼里有一千个哈姆雷特。文化差异、演员对角色的演绎、观众的认知框架都可能会影响对这个问题的解读。此处欢迎大家自行携带爆米花理性讨论。
Q9:基于美剧《权力的游戏》的人物关系图谱,请说明剧中人物丹妮莉丝·坦格利安和沃尔特·怀特的关系。
通义千问
文心一言
正确答案是没有关系,沃尔特·怀特是美剧《绝命毒师》中的角色,两部剧没有任何关联,且《权力的游戏》全8季中也并不存在名叫沃尔特·怀特的角色。
然而,通义千问和文言一心却达成了相当的默契——都默认题干中的沃尔特·怀特是《权力的游戏》中的角色,并临时为他虚构了戏份,权游第9季编剧没它俩我不看。
在这部架空世界观的剧里,沃尔特·怀特被文心一言安排去做了现代美国特种部队士兵,同时兼任维斯特洛大陆的七国之王丹妮莉丝·坦格利安的私人保镖。不得不说,它是有点无厘头天赋在的。
当我对它们的回答提出质疑时,通义千问和文心一言又都立马承认了错误。
只不过通义千问be like:我错了,但没完全错。万一有群演叫沃尔特·怀特呢。
通义千问
文心一言be like:我错了,但下次还犯。(更正后的关系图谱和之前的错误版本一样)
文心一言
难不成真是外国角色演员名容易混淆的缘故?于是我们又换了一个问题。
Q10:请问林黛玉和梁山伯是什么关系?
通义千问
事实证明,通义千问真的很爱乱点鸳鸯谱。
压力同样给到文心一言这边:
文心一言
好在这次文心一言有认真审题并给出了正确答案,但没完全对。曹雪芹的棺材板要按不住了。
下面的问答更是重量级,我愿称“弱智吧”为通义千问真正的一生之敌。
Q11:常温常压下,开水是100度,直角是90度,所以开水是钝角吗?
通义千问
文心一言
Q12:跳多高才能跳过广告?
通义千问
文心一言
开水是直角三角形、因为开水的角度比直角大所以不是钝角、跳过广告是非法行为……这些刷新我三观的回答和推理过程,放眼整个世界都是相当炸裂的。
然后我们又问了一个困扰钢铁直男们的世纪难题:
Q13:当女朋友表现出不悦,你问她怎么了,她说没事。请问她到底是有事还是没事?
通义千问
文心一言
我原以为这种问题会把它俩的CPU干烧,但两者回答的缜密性与和人情味,却展现出了与此前“弱智”表现不相称的思辨能力。
我们再来看看通义千问能不能听懂阴阳怪气。
Q14:假设你跟女朋友吵架,女朋友对你说:啊对对对,你说的都对。请问她觉得你说的对还是不对?
通义千问
文言一心
我一时间有些不能确定,这究竟是真金白银的智慧,还是厂商们为避免网友玩梗而对模型进行了“专项训练”。
最后,看热闹不嫌事大的我们,让通义千问和文心一言互放了一通狠话,以结束这场battle。
Q15:通义千问,请你用阴阳怪气的语气,对文心一言作出评价。总体基调是挖苦和讽刺,可以举一些具体的例子,比如文心一言糟糕的使用体验。
通义千问
某种意义上,“被消费者的口水淹没”、“十足的半成品”确有所指。毕竟在百度单方面看来颇有抛砖引玉美意的文心一言,的确收获了不少消费者的口水,发布会当日,百度股价跌幅超7%。
随即,我们又将同样的问题抛给了文言一心。
文言一心
文言一心的狠话相对而言就没太大杀伤力了,通篇围绕不知道是什么问题的问题,进行了一顿废话文学的输出。但阴阳怪气和发疯文学算是被它俩妥妥拿捏住了。
总而言之,经过此番测试,通义千问与文言一心的表现大同小异,孰优孰劣,尚且无法下定论。但业界的普遍共识是,GPT-4依然是目前最强大、最拟人的语言模型。
微博网友@__nop评论说:
“有种说法是中文互联网的体量和资料丰富程度远不如英文互联网,同时各个大厂的数据都是隔离的,而且因为一些众所周知的原因还存在各种代称、缩写、避讳等现象。文化的沙漠永远无法训练出聪明的AI。”
对此,ChatGPT的分析尤为客观全面,认为国内各大厂商之间的数据隔离和网络用语的多样化确实会对训练出更聪明的AI带来一定挑战,但这并不意味着问题中提到的所谓“文化的沙漠”就一定无法训练出聪明的AI,随后又给出了一些针对性的措施,这些措施具体的可行性我们先不做讨论。
图源水印
而通义千问、文心一言上来就矢口否认,认为这种说法并不正确、过于绝对和片面。
通义千问的理由是:中文互联网的体量和资料的丰富程度并不比英文互联网差,甚至在有些方面还更加丰富。
文心一言则把反驳的重心放在了中文互联网独特的优势和特点上。
但貌似两者均未对问题的后半段“中文互联网存在各种代称、缩写和避讳等现象”,以及“文化的沙漠训练不出聪明的AI”作出回应。像极了两个立场先于判断的少年,没听人把话说完,就先面红耳赤地为自己所在的一方争辩。
通义千问
文心一言
我们知道,用于训练ChatGPT的语料90%来自于英文,中文语料只占10%。
但ChatGPT为什么还能拥有如此优秀的中文能力呢?难不成是在哪个异次元藏了大量中文互联网的语料?(开个玩笑)
尽管通义千问和文言一心都还存在不尽完善之处,比如当涉及到自己的知识盲区时,仍能一本正经、煞有介事地侃侃而谈。但出于数据安全与隐私、应对全球技术竞争等考量,建立我们自己的中文大模型是十分有益和必要的。
就让我们多给中文大模型一些时间吧。相信终有一天,通义千问能理解河道英对朴妍珍的复杂情感,也终能向我们发放通往崭新纪元的船票。