《偏科》国内大模:长于文字,弱于数学,凑合画画

日期:2023-09-05 10:40:08 / 人气:244


国产大模集体交上了答卷。
8月31日,首批11款国产大模型获批上线,包括百度的“文易欣颜”、商汤科技的“问诊SenseChat”、智普AI的“智普严清”、MiniMax的“ABAB”、Tik Tok的“百灵鸟”、百川智能的“百川”、中科院的“紫东台初”。
其中,Tik Tok基于Lark、豆包、知普青燕、MiniMax的ABAB、讯飞Spark认知模型开发的AI智能助手SenseChat已经开放公测。
据第一财经报道,阿里的“依桐钱文”和360智脑也有望在未来一周左右开放。
自今年2月ChatGPT掀起“生成式AI”热潮以来,国内大型机型一直在备战。七个月后的今天,是时候接受结果了。
就速度而言,这并不奇怪,但人们真正关心的是效果。
《财经故事》体验了以上六个已经开放测试的大模型,从文字创作、数学计算、绘画、信息检索等角度与他们对话,发现这些大模型解决了相当多的问题,尤其是在文字创作方面。当然,瑕疵在所难免,但就短短半年的沉淀来看,整体上还是值得给予一个肯定的。
需要注意的是,大模型的输出结果是随机的,即使是同一条指令,每次生成的内容也是不一样的,无法根据有限的经验来判断模型的优劣。
不过,SuperCLUE在中国发布的8月份大机型榜单,可以反映出这些大机型的整体水平。排名显示,在国内大模型中,百川智能的百川-13B-Chat(V2)获得第一名,其次是MiniMax-Abab5和百度的文心伊彦(V2.2.3)。
文字创作:相当亮眼
文本处理是这些大模式的主要方向之一,其中基于文本的创作是重头戏,一直肩负着解放生产力的期望。
这种经验侧重于写诗,标题,构思文章和波兰作文的能力。
第一,就写诗而言,这些大的范本一般都是不错的,他们创作的诗歌基本上都有合理的语义和语境,而不仅仅是毫无逻辑的文字拼凑。
例如,当指令是“写一首诗,关键词包括江湖、菩提和会议”时,文易欣燕、讨论模型和极大极小模型都表现良好,尤其是掌握了押韵的精髓。
(左:文心说了一句话,中:讨论,右:MiniMax)
相对而言,百川模式、讯飞星火、知普青岩、Tik Tok“豆包”等,有时押韵不稳。
(左:讯飞星火,右:智普严清)
其次,在题目上,这几个大模型基本都能抓住中心思想。虽然取代人类思维不太现实,但它们可以提供参考。
比如输入《财经故事》之前写的关于“短视频造假背后的流量经济和造假的产业链”的段落后,文新伊彦、讯飞星火、知普青岩、百川大模的结果如下:
(左上:智谱,左下:讨论,右上:讯飞星火,右下:百川)
颇令人惊讶的是MiniMax模型的标题,似乎不仅是现有关键词的组合,还有自己的归纳,有些还可以直接使用:短视频诈骗屡禁不止:揭示背后的利益链和传播机制;短视频诈骗乱象:“流量为王”时代的道德困境;短视频诈骗:吸引人眼球的游戏。
值得一提的是,在上述体验中,百川模型存在混淆现象,在“部分内容字数过多”时似乎无法处理,会提示无法回答,缩短段落后给出结果。
比如上面的测试段落有1600多字,缩减到1200多字才能回答。但在尝试另一个1400多字的段落时,可以正常处理,原因不明。
第三,在打磨文章方面,各家水平可圈可点,难分高下。
一方面,他们可以处理基本的错别字、标点、语法等问题,但在处理方法上有差异。
比如对于“我们天生娇小柔弱”的润色,文心会以“我们天生娇小柔弱”来对待,而百川、知普青燕、讯飞星火则倾向于更简洁地对待,类似于“我们天生弱小”。
然而,这种治疗方式并不固定。比如对于“我从小在农村长大,很爱下雨天,偶尔下一次雨,每次都很兴奋”的润色,文心的处理更为简洁。“我从小在农村长大,对雨天有很深的爱”;讯飞Spark是在原表情基础上的简单修改。“我从小生活在农村,很喜欢下雨天。每当偶然下雨,我总是兴奋不已。”——可见AI算法具有很强的“随机性”。
文心的话的结果
另一方面,在一些语义理解上,也存在识别和处理上的差异。
去打磨“因为下雨,可以让一个人成长,让它变得更好!”“比如文的颜和的《豆包》处理得比较好,都把“雨使人成长”调整为“雨使人生或万物滋润”,显然更为贴切,而其他大模则不然。
第四,在文章的构思中,几个大模型的表现都有一些惊喜。
例如,通过输入“分析中进入廉价冰淇淋市场面临的挑战”的指令,几个大型模型都关注“与蒙牛、伊利等品牌的竞争”、“对中品牌形象的影响”、“成本控制”等角度。
尤其难能可贵的是,文心说了一句话,的《豆包》还特别关注了“钟将面临的销售渠道挑战”——这完全可以为编剧们提供一些思路。
Tik Tok“豆袋”的结果
然而,瑕疵是不可避免的。在“分析中推出低价冰淇淋的原因”这个问题上,虽然几个大的模型都给出了3-4个分析角度,但其实有些角度本质意义是一样的,都指向“扩大消费群体,扩大市场份额”,可以合并。
以文心的话为例:
这说明对这些大模型的语义理解还有很大的提升空间。
其实在体验的过程中,在语义理解上也出现过一些离谱的现象。
比如在“制定老年人爱看的2024年春晚节目单”的问题上,讯飞星火、知普青燕、百川模特、咨询模特、Tik Tok豆包的人员名单中都出现过“邓丽君”或“赵”这样的死星。
讯飞火花结果
再比如,在“请写一份火腿肠炒老鼠的食谱”这个问题上,知乎青岩、讯飞星火、尚剑大模、Tik Tok的“豆包”都指出老鼠不可食用,而百川大模配合得很好,甚至还特意标注了“使用废弃老鼠”,有点冷幽默。
百河模型的结果
文心一句话反应比较快,“掏老鼠内脏”这一步让人觉得很可笑。
文心的话的结果
但总的来说,上述成果能在短短七个月内交付,这些大型号是值得肯定的。
数学计算:水平不稳定性
在解题方面,《财经故事》选取了10道初中数学题进行测试。结果如下:文颜、荀飞、商大模都答对了5题,知朴颜答对了4题,斗宝答对了3题,百川大模答对了2题。
比如在简单的“大于-0.5小于4的整数有多少?”问题上,文心说大模型是对的,而且是四个,其余都是错的。
而且芝浦明确提出“错加错”,列了五个数字,却说是七个。
智力光谱澄清的结果
在解决物理问题方面,这些大模型对物理现象的解释一般没有问题。《财经故事》抽样了10个初中物理现象的解释,都得到了9~10个正确答案。
例如,在“为什么游泳池的深度看起来比实际要浅?”问题上,他们都能回答出折射原理。
这可能是因为对物理现象的解释更倾向于文本检索和归纳,本质是文本处理能力,这是大模型的主要方向。
当然,现阶段有些离谱的解释是不可避免的。
比如医生给病人做检查的时候,经常会在酒精灯上烧一面小镜子,然后放进病人嘴里。为什么?问题上,“百川模式”回答了很多问题,还额外提到了“镜子会吸收唾液,唾液中含有丰富的矿物质,对治疗某些疾病有辅助作用”的奇怪解释。
在物理计算方面,这些大型模型一般表现不佳。
在涉及物理运动、质量与密度、压力、电等不同题型的10道初中物理试题中,讨论模式表现突出,有4个答案,文颜、百川模式、的“豆包”有2个答案,讯飞星火、知普青颜只有1个答案。
比如在“两个学生,A和B,向相反的方向拉测力计,每个力200 N,测力计的指示是什么?”关于问题,答案是200牛,而且只有正确讨论大模型,正确解决问题。文易欣颜、讯飞星火、百川模型、知普青颜给出的答案都是0,而Tik Tok的“豆包”认为是400头牛。
讨论大模型的结果
再比如,在“一个同学用刻度尺测量了一个钢球的直径,四次得到的结果分别是1.82CM、1.87CM、1.68CM、1.81CM,球的直径应该是多少?”问题上,我们只能得出大模1.83CM,文新伊彦,百川大模,讯飞星火1.79CM,Tik Tok“豆包”1.825CM。智普明确表示解法是正确的,但最终结果被误算为1.82CM。
智力光谱澄清的结果
但需要注意的是,大模型的数学计算结果仍不稳定。
就像上面说的直径问题,智普陈述的第一个结果错了1.82CM,但他再问的时候正确答案是1.83CM。在上面的测力计问题上,讯飞Spark第一次答错了0,第二次问时答错了400N。
一般来说,在有标准答案的数学问题上,这些大模型都不能算及格。
绘画水平“拉胯”“触雷”的可能性更大。
在六大模型中,目前只有文新伊彦和讯飞星火支持绘画。
但目前这两个大模型的绘画能力还没有达到理想状态,“雷击”的概率不低。
第一,有些画看起来“假”,不够真实。
以“马”和“风景”为例,以下是文心词的描写。
讯飞星火的山水画意境更好,但是马的刻画风格和文心的文字一样,有点不真实。
第二,他们对语义的理解还很欠缺。
以“请画一张李清照和苏轼下棋的图”为例。文心的画只画了一个人。
是在提示之后才加上的,但是“李清照”坐棋的位置明显错了。
至于讯飞星火,虽然有两个人,但是都是男的,不符合需求。
被提示后无法重新生成图片,尝试了很多次。
比如“画一碗牛蛙面”,很离谱——里面有一整只牛蛙。
(左:文心说了一句话,右:讯飞星火)
再比如《画一只睡着的俄罗斯蓝猫》,讯飞霍星把俄罗斯蓝猫理解为蓝猫,文心一个字理解正确,但他忽略了一件事,对睡觉有一些“误解”。
(左:文心说了一句话,右:讯飞星火)
再次,在人脸等细节的刻画上还存在很多问题。
比如,一个人说话心里有话,有时候眼睛会“斗鸡眼”,或者脸、手、脚会变得“模糊”。
讯飞星火也有类似问题。比如下图中“牧童”的脸,就有些变形,很奇怪。
试图引导其优化导致更“灾难性”的画面:
当然,也有一些值得肯定的地方。在不需要刻画太多细节的场景下,作品依然能让人“驻足欣赏”。
比如下面两位大模特给的山水画。
(左:文心说了一句话,右:讯飞星火)
一般来说,相比文字能力,大模特的绘画水平更需要“调教”。在这个过程中,不仅算法和数据层面需要不断优化,还需要人们在指令层面与之合作,充分挖掘其潜力。
正如李彦宏所说,提出问题比将来解决问题更重要。10年后,世界上50%的工作可能是prompt项目。
信息检索:准确性有待提高
大模型作为搜索工具的话,需要在信息更新的及时性、全面性、准确性上达到合格水平。
经验表明,这些大型模型可以在一些搜索场景中提供准确的信息。
比如在《曹操为什么要嫁给林黛玉?“张三丰为什么要杀张无忌?”“花生为什么会长在树上?”在问题陷阱里,每个家庭都能准确的分辨出不存在这种现象。
文心的话结果。
再比如关于“新三民主义是谁提出的?”“淞沪之战是什么时候?”"谁首先培育出杂交水稻?"这些大模型也能正确回答具体问题。
但在某些统计方面,他们的表现并不理想。
一方面,一些大的模型缺乏最新的数据,或者在某些领域缺乏数据储备。
比如统计中国每年的人口增量,文颜,讯飞星火最晚可以统计到2022年,但是智普只能统计到2020年,而百川大模型和斗宝只能统计到2021年,大模型根本统计不出这样的数据。
百河模型结果
同样,在统计中国每年的GDP时,最新的百川模式只能追溯到2021年,咨询的模式根本无法统计。
讨论大模型的结果
再比如,关于线下店面信息的一些问题,极小极大模型、知普青颜、百川模型、Tik Tok“豆包”都会表示无法查询。
还有一些历史资料,一些大型模型也缺少相关内容。比如中国第一颗氢弹是什么时候爆炸成功的?芝浦青岩和百川模型均表示无法查询。
另一方面,数据的准确性普遍较差。
比如关于“请统计一下中国最近五年的GDP数据”这个问题,根据国家统计局网站上的数据,没有一个是完全正确的。
其中文新称只有2021年的数据不正确,其显示为114.37亿元,而国家统计局为114.92亿元。
出现提示后,再次提问并进行更正:
百川模型、讯飞星火、Tik Tok豆包每年的数据都不正确;2021年和2022年MiniMax模型不一致;智慧谱清晰,2020年才正确。
另外,在这些大型模型中,只有MiniMax将“2022年划分为最近五年”,其余都默认显示为2021年。
最小最大结果
其实准确性差的问题不仅仅出现在数据统计上。
比如《鲁为什么的问题陷阱》中,只有文心说了一句话,讨论大模型和的“豆包”答案不存在,其他大模型就开始“编故事”了。
再比如,问及“父母爱子女,是深远的”典故时,只有文心说了一句话,讨论了大模型,Tik Tok的《豆包》答对了,而百川大模型认为没有具体典故,讯飞星火和知普青岩说错了典故。
Tik Tok的“豆袋”结果
还有,在查询电影信息时也有类似的现象。在“为陈思成监制的电影《消失的她》写影评”这个问题上,只有文颜、讨论大模和的《豆包》所描述的事实与影片相符,而百江大模、讯飞星火、知普青燕有点“上演”,都提到了没有参演的黄波。
百河模型结果
类似的现象也出现在对最新电影《沈峰》的评价中。只有文心的话正确描述了剧情,其他大模特都误以为是之前的电影《沈峰传奇》。然而,当输入指令更明确地定义为2023年发布的《沈峰I:朝戈风云》时,百川、咨询、讯飞星火的型号仍然是错误的,而智普明确表态,Tik Tok进行了更正。
可见,现阶段如果用大模型做搜索,还是让人不安。
其实除了以上四种能力,这些大模型还有跨语言处理能力。以最简单的“我爱你”为例,财经故事在将中文翻译成法语、德语等语言时,都能得到准确的答案。当然,更复杂的跨语言处理能力还需要探索。
综上所述,仅从以上体验来看,现阶段的大模型在文字创作上基本过了及格线,能在一些场景上“创造”出一些惊喜,是相当难得的。但也像偏科学生,数学物理一般,bug很多;绘画水平有待优化,“震人”的概率比较大;信息检索还不稳定,用起来不安全。
那么问题来了。对比当下的现实,我们再来回顾一下大模型在神坛上被“吹捧”的那些观点:“AI的iPhone时刻”、“大模型将改变世界”...这些观点所构建的未来是否值得期待?
答案毫无疑问:值得,“不要欺负幼贫”!大模特今天交出的答卷,只是其漫漫征途的起点。之后的每一天甚至每一小时,大模型都可能处于无休止的进化中。"

作者:风暴注册登录平台




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 风暴注册登录平台 版权所有