《偏科》国内大模:长于文字，弱于数学，凑合画画

日期：2023-09-05 10:40:08 / 人气：301

国产大模集体交上了答卷。
8月31日，首批11款国产大模型获批上线，包括百度的“文易欣颜”、商汤科技的“问诊SenseChat”、智普AI的“智普严清”、MiniMax的“ABAB”、Tik Tok的“百灵鸟”、百川智能的“百川”、中科院的“紫东台初”。
其中，Tik Tok基于Lark、豆包、知普青燕、MiniMax的ABAB、讯飞Spark认知模型开发的AI智能助手SenseChat已经开放公测。
据第一财经报道，阿里的“依桐钱文”和360智脑也有望在未来一周左右开放。
自今年2月ChatGPT掀起“生成式AI”热潮以来，国内大型机型一直在备战。七个月后的今天，是时候接受结果了。
就速度而言，这并不奇怪，但人们真正关心的是效果。
《财经故事》体验了以上六个已经开放测试的大模型，从文字创作、数学计算、绘画、信息检索等角度与他们对话，发现这些大模型解决了相当多的问题，尤其是在文字创作方面。当然，瑕疵在所难免，但就短短半年的沉淀来看，整体上还是值得给予一个肯定的。
需要注意的是，大模型的输出结果是随机的，即使是同一条指令，每次生成的内容也是不一样的，无法根据有限的经验来判断模型的优劣。
不过，SuperCLUE在中国发布的8月份大机型榜单，可以反映出这些大机型的整体水平。排名显示，在国内大模型中，百川智能的百川-13B-Chat(V2)获得第一名，其次是MiniMax-Abab5和百度的文心伊彦(V2.2.3)。
文字创作:相当亮眼
文本处理是这些大模式的主要方向之一，其中基于文本的创作是重头戏，一直肩负着解放生产力的期望。
这种经验侧重于写诗，标题，构思文章和波兰作文的能力。
第一，就写诗而言，这些大的范本一般都是不错的，他们创作的诗歌基本上都有合理的语义和语境，而不仅仅是毫无逻辑的文字拼凑。
例如，当指令是“写一首诗，关键词包括江湖、菩提和会议”时，文易欣燕、讨论模型和极大极小模型都表现良好，尤其是掌握了押韵的精髓。
(左:文心说了一句话，中:讨论，右:MiniMax)
相对而言，百川模式、讯飞星火、知普青岩、Tik Tok“豆包”等，有时押韵不稳。
(左:讯飞星火，右:智普严清)
其次，在题目上，这几个大模型基本都能抓住中心思想。虽然取代人类思维不太现实，但它们可以提供参考。
比如输入《财经故事》之前写的关于“短视频造假背后的流量经济和造假的产业链”的段落后，文新伊彦、讯飞星火、知普青岩、百川大模的结果如下:
(左上:智谱，左下:讨论，右上:讯飞星火，右下:百川)
颇令人惊讶的是MiniMax模型的标题，似乎不仅是现有关键词的组合，还有自己的归纳，有些还可以直接使用:短视频诈骗屡禁不止:揭示背后的利益链和传播机制；短视频诈骗乱象:“流量为王”时代的道德困境；短视频诈骗:吸引人眼球的游戏。
值得一提的是，在上述体验中，百川模型存在混淆现象，在“部分内容字数过多”时似乎无法处理，会提示无法回答，缩短段落后给出结果。
比如上面的测试段落有1600多字，缩减到1200多字才能回答。但在尝试另一个1400多字的段落时，可以正常处理，原因不明。
第三，在打磨文章方面，各家水平可圈可点，难分高下。
一方面，他们可以处理基本的错别字、标点、语法等问题，但在处理方法上有差异。
比如对于“我们天生娇小柔弱”的润色，文心会以“我们天生娇小柔弱”来对待，而百川、知普青燕、讯飞星火则倾向于更简洁地对待，类似于“我们天生弱小”。
然而，这种治疗方式并不固定。比如对于“我从小在农村长大，很爱下雨天，偶尔下一次雨，每次都很兴奋”的润色，文心的处理更为简洁。“我从小在农村长大，对雨天有很深的爱”；讯飞Spark是在原表情基础上的简单修改。“我从小生活在农村，很喜欢下雨天。每当偶然下雨，我总是兴奋不已。”——可见AI算法具有很强的“随机性”。
文心的话的结果
另一方面，在一些语义理解上，也存在识别和处理上的差异。
去打磨“因为下雨，可以让一个人成长，让它变得更好！”“比如文的颜和的《豆包》处理得比较好，都把“雨使人成长”调整为“雨使人生或万物滋润”，显然更为贴切，而其他大模则不然。
第四，在文章的构思中，几个大模型的表现都有一些惊喜。
例如，通过输入“分析中进入廉价冰淇淋市场面临的挑战”的指令，几个大型模型都关注“与蒙牛、伊利等品牌的竞争”、“对中品牌形象的影响”、“成本控制”等角度。
尤其难能可贵的是，文心说了一句话，的《豆包》还特别关注了“钟将面临的销售渠道挑战”——这完全可以为编剧们提供一些思路。
Tik Tok“豆袋”的结果
然而，瑕疵是不可避免的。在“分析中推出低价冰淇淋的原因”这个问题上，虽然几个大的模型都给出了3-4个分析角度，但其实有些角度本质意义是一样的，都指向“扩大消费群体，扩大市场份额”，可以合并。
以文心的话为例:
这说明对这些大模型的语义理解还有很大的提升空间。
其实在体验的过程中，在语义理解上也出现过一些离谱的现象。
比如在“制定老年人爱看的2024年春晚节目单”的问题上，讯飞星火、知普青燕、百川模特、咨询模特、Tik Tok豆包的人员名单中都出现过“邓丽君”或“赵”这样的死星。
讯飞火花结果
再比如，在“请写一份火腿肠炒老鼠的食谱”这个问题上，知乎青岩、讯飞星火、尚剑大模、Tik Tok的“豆包”都指出老鼠不可食用，而百川大模配合得很好，甚至还特意标注了“使用废弃老鼠”，有点冷幽默。
百河模型的结果
文心一句话反应比较快，“掏老鼠内脏”这一步让人觉得很可笑。
文心的话的结果
但总的来说，上述成果能在短短七个月内交付，这些大型号是值得肯定的。
数学计算:水平不稳定性
在解题方面，《财经故事》选取了10道初中数学题进行测试。结果如下:文颜、荀飞、商大模都答对了5题，知朴颜答对了4题，斗宝答对了3题，百川大模答对了2题。
比如在简单的“大于-0.5小于4的整数有多少？”问题上，文心说大模型是对的，而且是四个，其余都是错的。
而且芝浦明确提出“错加错”，列了五个数字，却说是七个。
智力光谱澄清的结果
在解决物理问题方面，这些大模型对物理现象的解释一般没有问题。《财经故事》抽样了10个初中物理现象的解释，都得到了9~10个正确答案。
例如，在“为什么游泳池的深度看起来比实际要浅？”问题上，他们都能回答出折射原理。
这可能是因为对物理现象的解释更倾向于文本检索和归纳，本质是文本处理能力，这是大模型的主要方向。
当然，现阶段有些离谱的解释是不可避免的。
比如医生给病人做检查的时候，经常会在酒精灯上烧一面小镜子，然后放进病人嘴里。为什么？问题上，“百川模式”回答了很多问题，还额外提到了“镜子会吸收唾液，唾液中含有丰富的矿物质，对治疗某些疾病有辅助作用”的奇怪解释。
在物理计算方面，这些大型模型一般表现不佳。
在涉及物理运动、质量与密度、压力、电等不同题型的10道初中物理试题中，讨论模式表现突出，有4个答案，文颜、百川模式、的“豆包”有2个答案，讯飞星火、知普青颜只有1个答案。
比如在“两个学生，A和B，向相反的方向拉测力计，每个力200 N，测力计的指示是什么？”关于问题，答案是200牛，而且只有正确讨论大模型，正确解决问题。文易欣颜、讯飞星火、百川模型、知普青颜给出的答案都是0，而Tik Tok的“豆包”认为是400头牛。
讨论大模型的结果
再比如，在“一个同学用刻度尺测量了一个钢球的直径，四次得到的结果分别是1.82CM、1.87CM、1.68CM、1.81CM，球的直径应该是多少？”问题上，我们只能得出大模1.83CM，文新伊彦，百川大模，讯飞星火1.79CM，Tik Tok“豆包”1.825CM。智普明确表示解法是正确的，但最终结果被误算为1.82CM。
智力光谱澄清的结果
但需要注意的是，大模型的数学计算结果仍不稳定。
就像上面说的直径问题，智普陈述的第一个结果错了1.82CM，但他再问的时候正确答案是1.83CM。在上面的测力计问题上，讯飞Spark第一次答错了0，第二次问时答错了400N。
一般来说，在有标准答案的数学问题上，这些大模型都不能算及格。
绘画水平“拉胯”“触雷”的可能性更大。
在六大模型中，目前只有文新伊彦和讯飞星火支持绘画。
但目前这两个大模型的绘画能力还没有达到理想状态，“雷击”的概率不低。
第一，有些画看起来“假”，不够真实。
以“马”和“风景”为例，以下是文心词的描写。
讯飞星火的山水画意境更好，但是马的刻画风格和文心的文字一样，有点不真实。
第二，他们对语义的理解还很欠缺。
以“请画一张李清照和苏轼下棋的图”为例。文心的画只画了一个人。
是在提示之后才加上的，但是“李清照”坐棋的位置明显错了。
至于讯飞星火，虽然有两个人，但是都是男的，不符合需求。
被提示后无法重新生成图片，尝试了很多次。
比如“画一碗牛蛙面”，很离谱——里面有一整只牛蛙。
(左:文心说了一句话，右:讯飞星火)
再比如《画一只睡着的俄罗斯蓝猫》，讯飞霍星把俄罗斯蓝猫理解为蓝猫，文心一个字理解正确，但他忽略了一件事，对睡觉有一些“误解”。
(左:文心说了一句话，右:讯飞星火)
再次，在人脸等细节的刻画上还存在很多问题。
比如，一个人说话心里有话，有时候眼睛会“斗鸡眼”，或者脸、手、脚会变得“模糊”。
讯飞星火也有类似问题。比如下图中“牧童”的脸，就有些变形，很奇怪。
试图引导其优化导致更“灾难性”的画面:
当然，也有一些值得肯定的地方。在不需要刻画太多细节的场景下，作品依然能让人“驻足欣赏”。
比如下面两位大模特给的山水画。
(左:文心说了一句话，右:讯飞星火)
一般来说，相比文字能力，大模特的绘画水平更需要“调教”。在这个过程中，不仅算法和数据层面需要不断优化，还需要人们在指令层面与之合作，充分挖掘其潜力。
正如李彦宏所说，提出问题比将来解决问题更重要。10年后，世界上50%的工作可能是prompt项目。
信息检索:准确性有待提高
大模型作为搜索工具的话，需要在信息更新的及时性、全面性、准确性上达到合格水平。
经验表明，这些大型模型可以在一些搜索场景中提供准确的信息。
比如在《曹操为什么要嫁给林黛玉？“张三丰为什么要杀张无忌？”“花生为什么会长在树上？”在问题陷阱里，每个家庭都能准确的分辨出不存在这种现象。
文心的话结果。
再比如关于“新三民主义是谁提出的？”“淞沪之战是什么时候？”"谁首先培育出杂交水稻？"这些大模型也能正确回答具体问题。
但在某些统计方面，他们的表现并不理想。
一方面，一些大的模型缺乏最新的数据，或者在某些领域缺乏数据储备。
比如统计中国每年的人口增量，文颜，讯飞星火最晚可以统计到2022年，但是智普只能统计到2020年，而百川大模型和斗宝只能统计到2021年，大模型根本统计不出这样的数据。
百河模型结果
同样，在统计中国每年的GDP时，最新的百川模式只能追溯到2021年，咨询的模式根本无法统计。
讨论大模型的结果
再比如，关于线下店面信息的一些问题，极小极大模型、知普青颜、百川模型、Tik Tok“豆包”都会表示无法查询。
还有一些历史资料，一些大型模型也缺少相关内容。比如中国第一颗氢弹是什么时候爆炸成功的？芝浦青岩和百川模型均表示无法查询。
另一方面，数据的准确性普遍较差。
比如关于“请统计一下中国最近五年的GDP数据”这个问题，根据国家统计局网站上的数据，没有一个是完全正确的。
其中文新称只有2021年的数据不正确，其显示为114.37亿元，而国家统计局为114.92亿元。
出现提示后，再次提问并进行更正:
百川模型、讯飞星火、Tik Tok豆包每年的数据都不正确；2021年和2022年MiniMax模型不一致；智慧谱清晰，2020年才正确。
另外，在这些大型模型中，只有MiniMax将“2022年划分为最近五年”，其余都默认显示为2021年。
最小最大结果
其实准确性差的问题不仅仅出现在数据统计上。
比如《鲁为什么的问题陷阱》中，只有文心说了一句话，讨论大模型和的“豆包”答案不存在，其他大模型就开始“编故事”了。
再比如，问及“父母爱子女，是深远的”典故时，只有文心说了一句话，讨论了大模型，Tik Tok的《豆包》答对了，而百川大模型认为没有具体典故，讯飞星火和知普青岩说错了典故。
Tik Tok的“豆袋”结果
还有，在查询电影信息时也有类似的现象。在“为陈思成监制的电影《消失的她》写影评”这个问题上，只有文颜、讨论大模和的《豆包》所描述的事实与影片相符，而百江大模、讯飞星火、知普青燕有点“上演”，都提到了没有参演的黄波。
百河模型结果
类似的现象也出现在对最新电影《沈峰》的评价中。只有文心的话正确描述了剧情，其他大模特都误以为是之前的电影《沈峰传奇》。然而，当输入指令更明确地定义为2023年发布的《沈峰I:朝戈风云》时，百川、咨询、讯飞星火的型号仍然是错误的，而智普明确表态，Tik Tok进行了更正。
可见，现阶段如果用大模型做搜索，还是让人不安。
其实除了以上四种能力，这些大模型还有跨语言处理能力。以最简单的“我爱你”为例，财经故事在将中文翻译成法语、德语等语言时，都能得到准确的答案。当然，更复杂的跨语言处理能力还需要探索。
综上所述，仅从以上体验来看，现阶段的大模型在文字创作上基本过了及格线，能在一些场景上“创造”出一些惊喜，是相当难得的。但也像偏科学生，数学物理一般，bug很多；绘画水平有待优化，“震人”的概率比较大；信息检索还不稳定，用起来不安全。
那么问题来了。对比当下的现实，我们再来回顾一下大模型在神坛上被“吹捧”的那些观点:“AI的iPhone时刻”、“大模型将改变世界”...这些观点所构建的未来是否值得期待？
答案毫无疑问:值得，“不要欺负幼贫”！大模特今天交出的答卷，只是其漫漫征途的起点。之后的每一天甚至每一小时，大模型都可能处于无休止的进化中。"

作者：风暴注册登录平台

《偏科》国内大模:长于文字，弱于数学，凑合画画

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →