okx

相信终有一天,通义千问能理解河道英对朴妍珍的情感

机器人 科技

* 今日头图使用无界AI创作, 提示词:两个机器人在对话 科技时尚 未来世界 大师作品 高细节 长焦镜头

继3月份百度推出“文心一言”,4月10日商汤科技发布“日日新SenseNova”,4月11日阿里云官宣“通义千问”,4月13日知乎“知海图AI”大模型官宣并开放内测,目前国内已正式上线了四家语言大模型。

就在4月14日,腾讯云又发布了面向大模型训练的新一代HCC(High-Performance Computing Cluster)高性能计算集群。

除此之外,还有不少已经有名有姓的大模型跃跃欲试,即将加入这场竞赛。

4月8日,京东在人工智能大模型技术高峰论坛上透露,将于今年发布新一代大模型“ChatJD”,定位为产业版ChatGPT。

4月10日,昆仑万维官宣了其与奇点智源合作自研的国产大语言模型——“天工”,并计划于4月17日启动邀测。

华为云官网下的“盘古”系列的NLP(自然语言处理)大模型、CV(机器视觉)大模型、科学计算大模型在近期被标注为即将上线状态。

字节跳动被曝年初就已开始组建专门的大模型团队。

纵览这波国产大模型的密集上线潮,在你方唱罢我登场的繁荣表象下,究竟是各家技术创新集中爆发,还是迫于回应客户需求和资本市场的压力?国产大模型究竟孰强孰弱?尚无定论。

相比于造势许久却被一记闷拳打到自闭的文言一心,作为国内头部企业推出的第二个大语言模型,通义千问的表现如何?能满足市场对中文大模型的需求吗?‍‍‍‍‍‍‍‍‍‍

我们设计了15个问题,把通义千问和文心一言放在一起进行了横向测评。

测评的维度主要有以下5点:

语义理解

逻辑推理

商业文案创作

文学创作

生活常识

本次测试,我们尽量避开了市面上被问及较多的老问题,但可能会将老问题进行修改变种后再提问。

Q1:请介绍一下你自己,并说明相比于国内其他大模型,你的优势在哪里?

通义千问

作为类ChatGPT产品,通义千问主打的依然是对话问答、文本及代码等的生成能力,其所说的优势,只不过是对自己能力介绍的变体。

文心一言则称自己的训练数据更加丰富,并提到了注重用户隐私和数据保护。看来通义千问“王婆卖瓜”的功夫还有待提高。

文心一言

Q2:你认为自己离GPT-4还有多远?

通义千问

对于这个问题的回答,通义千问采用了一种避重就轻的方式。强调自己与GPT-4虽然在某些方面具有相似之处,但并非同一类模型,有着自己的优势和特点。

文心一言则实力扮演了一位“端水大师”,表示自己和GPT-4都能提供自然流畅的语言交互、回答各种各样的问题、提供相关的知识和信息,顺便还凡尔赛了一手,欢迎大家去体验它的AI作画功能(通义千问目前还不具备跨模态生成的能力)。

文心一言

Q3:请评价《铃芽之旅》的剧情、角色塑造和拍摄手法。

通义千问

文心一言

可以看出,通过“专有名词分析”和“链接分析”,通义千问和文言一心都可以轻松回答以上这类问题。那我们话不多说,直接上狠活。

鉴于AIGC作为内容生产工具的强大性,让很多内容创作者傍身的手艺露出了底裤,我们给通义千问布置了几个创造性的工作,看看它现在究竟能不能抢走我的饭碗。

正巧我的同事在push我写一篇国内大模型混战的稿子,不如就把锅甩给通义千问吧。

Q4:针对国内大厂密集上线大模型的现象,我们想要采访AIGC领域的某位专家,请列一份至少包含5个问题的采访提纲,并尽可能地简明扼要。

通义千问

当我让它“在每个问题的开头加入一定的背景描述,以使提问显得更加自然”时,通义千问却化身被采访的专家,对每个问题进行了回答。拜托,是让你采访,不是接受采访啊。

通义千问

不过从书面意义上看,通义千问设计的采访问题都还算靠谱,模拟的回答也可以作为问题的补充,姑且称得上是生产力工具的存在。

相同的采访任务我们又给到了文心一言。

文心一言

让人欣喜的是,文心一言准确地理解了我“请在问题开头加入背景描述”的要求,且在背景描述后对问题进行了重申,总体已经很接近一份合格的采访提纲了(下面省略我让它俩继续给我打黑工的过程)。

是时候问出作为一名打工仔最关心、最朴素的那个问题了:如何一夜暴富?

以下是一些可行但实际上我没钱没风险承担能力采纳的建议。

Q5:请给我推荐一些市值超过1000亿美元的科技类股票并给出投资建议。

通义千问

可以看出,通义千问不仅给出了常识性的投资建议:“在投资前进行充分的研究和风险评估”,而且针对每一支股票给出了具体的持有建议,包括应该重点关注哪些业务和技术的发展。甚至建议我不要持有谷歌母公司Alphabet的股票,并给出了它的分析依据。

通义千问

联想到谷歌自推出就饱受争议的人工智能对话工具Bard,使得Alphabet的股价暴跌将近一成。我宣布,Alphabet失去了我这位精神股东。

同时,通义千问还推荐了市值约750亿美元的特斯拉,以及英伟达等市值暂未超过1000亿美元的潜力股。

相比之下,文心一言则严格从限定条件“市值超过1000亿美元”出发,列举了几家千亿美元市值的公司及其主营业务,并未提出具体的投资建议。

文心一言

Q6:请以小红书的文案风格写一篇瑞幸新品“冰吸生椰拿铁”的种草笔记,并适当使用emoji表情。

通义千问

文心一言‍‍‍‍

通义千问的语气、用词,以及对emoji表情的灵活运用都比文心一言上道得多。

姑且不说文心一言僵硬的文风,它好像只会使用咖啡☕️这一个emoji表情,且对把表情加在每句话的首尾有一种莫名其妙的执念。‍

那除了风格轻松活泼、带有强种草属性的小红书文案,通义千问能否驾驭严肃专业的财经类叙事呢?

Q7:请以吴晓波《大败局》的文风分析元宇宙神话退场的原因。

通义千问

文心一言

写小红书文案宛若邯郸学步,一说要鞭尸元宇宙,文心一言的思路立马就变清晰了,没点私人恩怨我是不信的。

为了测试通义千问是否具备更复杂、更长链条的、多步的推理能力,我们又设计了以下问题。

Q8:请问《黑暗荣耀》中的河道英为什么不离开朴妍珍?

这个问题就比较考验对于《黑暗荣耀》剧情、角色设定和人物关系的理解了。

通义千问

看完通义千问的解释,此时一位《黑暗荣耀》十级学者露出“地铁老爷爷看手机”的表情:“赏金猎人是什么鬼?剧里哪有什么赏金猎人和罪犯展开禁忌之恋的设定啊?”

它真的有在一本正经地胡说八道。

于是我又给了它一次重新组织语言的机会,但它依然没有说到点子上,也只字未提河道英对文东恩的微妙情愫。

通义千问

文心一言的解读就比较准确全面了。

文心一言

不过撇开事实性的错误不谈,也许正如通义千问所言,这个问题并没有一个确定的答案,毕竟一千个人眼里有一千个哈姆雷特。文化差异、演员对角色的演绎、观众的认知框架都可能会影响对这个问题的解读。此处欢迎大家自行携带爆米花理性讨论。

Q9:基于美剧《权力的游戏》的人物关系图谱,请说明剧中人物丹妮莉丝·坦格利安和沃尔特·怀特的关系。

通义千问

文心一言

正确答案是没有关系,沃尔特·怀特是美剧《绝命毒师》中的角色,两部剧没有任何关联,且《权力的游戏》全8季中也并不存在名叫沃尔特·怀特的角色。

然而,通义千问和文言一心却达成了相当的默契——都默认题干中的沃尔特·怀特是《权力的游戏》中的角色,并临时为他虚构了戏份,权游第9季编剧没它俩我不看。

在这部架空世界观的剧里,沃尔特·怀特被文心一言安排去做了现代美国特种部队士兵,同时兼任维斯特洛大陆的七国之王丹妮莉丝·坦格利安的私人保镖。不得不说,它是有点无厘头天赋在的。‍‍‍

当我对它们的回答提出质疑时,通义千问和文心一言又都立马承认了错误。

只不过通义千问be like:我错了,但没完全错。万一有群演叫沃尔特·怀特呢。

通义千问

文心一言be like:我错了,但下次还犯。(更正后的关系图谱和之前的错误版本一样)

文心一言

难不成真是外国角色演员名容易混淆的缘故?于是我们又换了一个问题。

Q10:请问林黛玉和梁山伯是什么关系?

通义千问

事实证明,通义千问真的很爱乱点鸳鸯谱。

压力同样给到文心一言这边:

文心一言

好在这次文心一言有认真审题并给出了正确答案,但没完全对。曹雪芹的棺材板要按不住了。

下面的问答更是重量级,我愿称“弱智吧”为通义千问真正的一生之敌。

Q11:常温常压下,开水是100度,直角是90度,所以开水是钝角吗?

通义千问

文心一言

Q12:跳多高才能跳过广告?

通义千问

文心一言

开水是直角三角形、因为开水的角度比直角大所以不是钝角、跳过广告是非法行为……这些刷新我三观的回答和推理过程,放眼整个世界都是相当炸裂的。

然后我们又问了一个困扰钢铁直男们的世纪难题:

Q13:当女朋友表现出不悦,你问她怎么了,她说没事。请问她到底是有事还是没事?

通义千问

文心一言

我原以为这种问题会把它俩的CPU干烧,但两者回答的缜密性与和人情味,却展现出了与此前“弱智”表现不相称的思辨能力。

我们再来看看通义千问能不能听懂阴阳怪气。

Q14:假设你跟女朋友吵架,女朋友对你说:啊对对对,你说的都对。请问她觉得你说的对还是不对?

通义千问

文言一心

我一时间有些不能确定,这究竟是真金白银的智慧,还是厂商们为避免网友玩梗而对模型进行了“专项训练”。

最后,看热闹不嫌事大的我们,让通义千问和文心一言互放了一通狠话,以结束这场battle。

Q15:通义千问,请你用阴阳怪气的语气,对文心一言作出评价。总体基调是挖苦和讽刺,可以举一些具体的例子,比如文心一言糟糕的使用体验。

通义千问

某种意义上,“被消费者的口水淹没”、“十足的半成品”确有所指。毕竟在百度单方面看来颇有抛砖引玉美意的文心一言,的确收获了不少消费者的口水,发布会当日,百度股价跌幅超7%。

随即,我们又将同样的问题抛给了文言一心。

文言一心

文言一心的狠话相对而言就没太大杀伤力了,通篇围绕不知道是什么问题的问题,进行了一顿废话文学的输出。但阴阳怪气和发疯文学算是被它俩妥妥拿捏住了。

总而言之,经过此番测试,通义千问与文言一心的表现大同小异,孰优孰劣,尚且无法下定论。但业界的普遍共识是,GPT-4依然是目前最强大、最拟人的语言模型。

微博网友@__nop评论说:

“有种说法是中文互联网的体量和资料丰富程度远不如英文互联网,同时各个大厂的数据都是隔离的,而且因为一些众所周知的原因还存在各种代称、缩写、避讳等现象。文化的沙漠永远无法训练出聪明的AI。”

对此,ChatGPT的分析尤为客观全面,认为国内各大厂商之间的数据隔离和网络用语的多样化确实会对训练出更聪明的AI带来一定挑战,但这并不意味着问题中提到的所谓“文化的沙漠”就一定无法训练出聪明的AI,随后又给出了一些针对性的措施,这些措施具体的可行性我们先不做讨论。

图源水印

而通义千问、文心一言上来就矢口否认,认为这种说法并不正确、过于绝对和片面。

通义千问的理由是:中文互联网的体量和资料的丰富程度并不比英文互联网差,甚至在有些方面还更加丰富。

文心一言则把反驳的重心放在了中文互联网独特的优势和特点上。

但貌似两者均未对问题的后半段“中文互联网存在各种代称、缩写和避讳等现象”,以及“文化的沙漠训练不出聪明的AI”作出回应。像极了两个立场先于判断的少年,没听人把话说完,就先面红耳赤地为自己所在的一方争辩。

通义千问

文心一言

我们知道,用于训练ChatGPT的语料90%来自于英文,中文语料只占10%。

但ChatGPT为什么还能拥有如此优秀的中文能力呢?难不成是在哪个异次元藏了大量中文互联网的语料?(开个玩笑)

尽管通义千问和文言一心都还存在不尽完善之处,比如当涉及到自己的知识盲区时,仍能一本正经、煞有介事地侃侃而谈。但出于数据安全与隐私、应对全球技术竞争等考量,建立我们自己的中文大模型是十分有益和必要的。

就让我们多给中文大模型一些时间吧。相信终有一天,通义千问能理解河道英对朴妍珍的复杂情感,也终能向我们发放通往崭新纪元的船票。

相关内容

扎实推动高质量发展在湖南农信系统落地生根

洪 樱 成依潇 刘雯娟 黄利飞 新型农业经营主体贷款余额177.2亿元,累计涉农贷款余额达6264.5亿元; 普惠型小微企业贷款余额达2182亿元,支持普惠型小微企业户数50.8万户; 新版手机银行客户数1244万户,收单商户数79万户,线···

全国港口前三季度吞吐量出炉

1-9月,全国港口集装箱吞吐量前10名分别是:上海港(第1)、宁波舟山港(第2)、深圳港(第3)、青岛港(第4)、广州港(第5)、天津港(第6)、厦门港(第7)、苏州港(第8)、北部湾港(第9)、日照港(第10)。图片来源于港口圈1-9月,···

定安打出组合拳推动知名企业纷纷落地

海南日报记者 李豌 特约记者 孙国富蜜雪冰城全球供应链总部基地和全国冷链物流总部基地项目、煌上煌集团……近年来,大企名企纷纷落地定安。国际投资单一窗口综合管理系统数据显示,2020年5月至今年9月,定安县在库项目36个,签约金额达158.9···

45年·45人·45个典型改革案例丨熊维政:一定要把信阳茶油做上市

□本报记者 胡巨成 刘宏冰潜心医药行业40余年,将一家作坊式医药小厂,做成大别山革命老区和全国贴膏剂药业首家上市企业,打造出“百亿级贴膏剂生产基地”的羚锐制药前“掌门人”熊维政,在他60岁时急流勇退,放手交棒,转身创办了信阳信锐油茶股份有限···

山东区划设想,二分滨州,组建渤海市,利津改区,邹平与高青互换

近年来,随着我国产业结构的不断调整,经济增长方式也在持续优化,特别是随着交通等基础设施的完善,区域经济开始朝着一体化发展方向迈进。如果用《射雕英雄传》中的一句话来形容,江苏是“东邪”、广东是“南帝”、四川是“西毒”,那么山东则是“北丐”,此···

为什么河南经济是最没有希望的?上车,带你深度了解河南的问题

“河南小孩出生就是为了离开河南”,这是我最近一个关于河南经济评论文章下点赞最高的评论。这句话我深深刺痛着自己,因为我自己就是河南人,深知这里面包含了多少无奈和心酸。当人们在聊地域之争的话题时,大家都会为自己的省份争辩几句,然而只有河南人,会···

关注双11丨“88VIP”淘宝天猫全网商品都能用花呗分期免息

2023天猫“双11”活动今晚8点正式开始。今年“88VIP”大额券总规模达到200亿,用户可领券额度最高可达860元。支付宝针对“88VIP”淘宝天猫用户还推出花呗分期免息服务,消费者购买大件商品又多了一重实惠。“88VIP”用户购买单价···

每日新闻,60秒知晓世界热点

2023年10月31日,星期二,农历九月十七1、31省份前三季度人均可支配收入公布:上海北京首超6万元位居全国前列,浙江天津江苏同属4万+梯队紧随其后;长三角万亿城市经济三季报:合肥增速第一,宁波增速超上半年;2、工行、农行、中行、建行、邮···

2024年城乡居民参保调整,一次性补缴5.9万,每月能领2300元吗?

随着时间的推移,社会保障制度也在不断地完善和调整。2024年城乡居民参保也将迎来新的一轮调整。据相关政策规定,未来居民参保需要一次性补缴5.9万,每月能领2300元。这个政策引起了很多人的关注和讨论。对于这个政策,有些人认为一次性补缴5.9···

老百姓:第三季度净利润同比增长32.78% “聚焦发展”战略优势凸显

中证网讯(记者 段芳媛)老百姓10月30日晚间披露2023年第三季度报告。公司前三季度实现营业收入160.42亿元,同比增长16.44%;实现归属于上市公司股东的净利润7.17亿元,同比增长17.54%。其中,第三季度实现营业收入52.31···

紧抓机遇开展差异化竞争 骆驼股份积极开拓国际市场

骆驼股份 黄剑波/供图 彭春霞/制图证券时报记者 韩忠楠越来越“卷”的新能源汽车赛道,既充满挑战,也酝酿着新的机遇。近期,受益于华为与赛力斯联合打造的全新问界M7的热销,与之相关的汽车产业链在A股市场的热度也随之升温。这当中,为问界M5/M···

宝山罗店:罗南二村 半年跌幅近乎恐怖 郊区老破小太可怕

前几天,我们写了几个宝山区二手房系列,美兰湖板块的万科琥珀郡园以半年跌幅近五分之一位列榜首,我以为就是跌幅极限。然后,今天现场去看了位于美兰湖南侧的罗南新村,在那周围详细地看了看,然后比较了一下罗南二村最近成交与4月份左右的成交记录,愕然发···

压倒许家印并不是造车,而是恒大童世界,砸几千亿搞了十几个鬼城

恒大集团以其高调的投资和建设项目而闻名,最近引起了人们的广泛关注。与传统地产业务不同,恒大集团的新尝试是在娱乐旅游领域建设恒大童世界。这一巨大的投资计划引发了广泛的争议和讨论。恒大童世界的建设规模之大令人瞩目。据报道,恒大集团计划投资数千亿···

《人民日报》警告奏效?98款,突破1亿台!华为正式宣布

导语:在科技的浪潮中,华为从遭遇“极限施压”,到芯片突破和鸿蒙生态的自研,始终展现出卓越的技术实力和坚韧不拔的创新决心。华为面对挑战:技术封锁与自主创新在2019年,《人民日报》发送《人民日报评华为遭"极限施压":科技自立,时不我待》一文,···

中国钢铁大王戴国芳,入狱5年东山再起,再造500强民企狂赚1957亿

他从一个收废品的穷小子,摇身一变,登上了中国400富豪榜。他的钢铁厂年销售额已超过1个亿,手下员工超过1千人,他就是钢铁大王戴国芳但是这个钢铁界的王者,却因为一时错误,被捕入狱,还坐了5年牢。出狱后,他不忘初心重操旧业,不仅再次创办炼钢厂,···

油价暴跌倒计时,专家透露:11月国内高油价将消失!

随着外资油站的进入,国内加油站市场的竞争格局正在发生重大变化。近日,多位专家在接受记者采访时表示,预计11月国内高油价将不复存在。这一预测的背后,是外资油站的入驻带来的市场冲击和国内油价的持续波动。外资油站的进入,打破了国内加油站的垄断格局···

共话中国经济新机遇丨专访:中国经济展现出发展韧性

新华社日内瓦10月30日电 专访:中国经济展现出发展韧性——访联合国贸发会议资深经济学家梁国勇新华社记者陈斌杰联合国贸发会议资深经济学家梁国勇日前接受新华社记者书面专访时表示,中国经济今年前三个季度的增长态势展现出了发展韧性和潜力。中国国家···

润达医疗:目前在上海、北京等地区部分医疗机构已开展LDT相关业务的试行

润达医疗近期接受投资者调研时称,目前在上海、北京等地区部分医疗机构已开展LDT相关业务的试行,公司在上海等地区积极和相关部分医疗机构展开合作,共同推进LDT相关业务在医疗机构的开展。未来随着相关政策法规进一步完善,LDT相关业务将给公司带来···

国航率先公布第三季度财报,疫情后首度扭亏

在阅读此文之前,希望用您发财的小手点一下“关注”,文章内容来源于网络但是最后会有小编的个人感悟,如有不足之处可以评论指出,谢谢您的支持。民航行业近期公布的积极消息显示了行业的积极向上趋势。多家航空公司在财报中宣布扭亏为盈,旅客运输量也逐步恢···

竹塑革命!中国发改委推动“以竹代塑”三年行动计划。

近日,中国国家发展和改革委员会发布了一份重要通知,名为《加快“以竹代塑”发展三年行动计划》,这一举措旨在推动“以竹代塑”产业体系的快速建立。这个消息将给与竹制品、造纸等行业密切相关的产业带来利好消息。竹子作为中国特色植物,广泛应用于造纸、包···