零一万物最新发声:不涉及套壳、抄袭,权威榜单排名直追GPT-4
撰文 | 李信马
编辑 | 杨博丞
题图 | IC Photo
时隔近一个月之后,零一万物再次发声。
此前,由李开复创办的AI独角兽零一万物,在11月6日正式发布了首款开源中英双语大模型——Yi。
不过在原阿里技术副总裁、深度学习框架Caffe发明者贾扬清暗指某国内大厂新模型套壳LLaMA架构后,零一万物受到波及,陷入了“套壳”风波。LLaMA是Meta创建的大语言模型,在今年7月发布并完全开源。曾有开发者表示,除了两个张量被重命名外,Yi完全使用了LLaMA的架构 。
面对质疑,在11月15日,零一万物官微发布了《零一万物对 Yi-34B 训练过程的说明》,其中提到“大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数”。零一万物在训练模型过程中,沿用了GPT/LLaMA的基本架构,得以快速起步,对开发者也更友好。Yi-34B和Yi-6B模型则是零一万物从0开始训练的,并做了大量原创性的优化和突破工作。
至于沿用LLaMA部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,执行对比实验,对部分推理参数进行了重新命名,并非为了刻意隐瞒。
图片来源:零一万物
今日,零一万物对表示,公司内部经过几个周的国际国内法律研判,已经确认完全不涉及套壳、抄袭,并给出了进一步的澄清。
Eric Hartford就是本次风波的起点之一,在Yi-34B开源发布后,他向官方发出邮件:“感谢你们提供了一个优秀的模型。Yi模型使用了与LLaMA模型完全相同的架构,只是将两个张量改了名字。由于围绕LLaMA架构有很多投资和工具,保持张量名称的一致性是有价值的。”
之后,零一万物接受了Eric建议,很快在各开源平台重新提交模型及代码,完成了开源社区的版本更新。虽然依旧在国内引起了风波,但Eric却自发且不遗余力为Yi辩护,并在X(twitter)上写道:“他们没有在任何事情上撒谎。所有的模型都是在相互借鉴架构。架构是学术研究的产物,已经发表在论文中,任何人都可以自由使用,这丝毫不减损Yi团队的成就。他们从零开始使用自己创建的数据集训练Yi,对开源领域的贡献是值得赞扬的。”
图片来源:X
值得一提的是,选择在一个月后再次发声,还有一个原因是,近期零一万物在多个榜单上凭实力 “扬眉吐气”。
11月24日,Yi-34B-Chat微调模型开源上线,在斯坦福大学研发的大语言模型评测 AlpacaEval Leaderboard 中,Yi-34B-Chat以94.08%的胜率,超越LLaMA2 Chat 70B、Claude 2、ChatGPT,成为经由Alpaca官方认证的,全球仅次GPT-4英语能力的大语言模型。
AlpacaEval Leaderboard排行榜(发布于2023年12月7日)
图片来源:零一万物
在加州大学伯克利分校主导的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo评分,晋升最新开源SOTA开源模型之列,性能表现追平GPT-3.5。而且,伯克利LMSYS ORG排行榜采用的是接近用户体感的“聊天机器人竞技场”特殊测评模式,让众多大语言模型在评测平台随机进行比试,通过众筹真实用户来进行线上实时盲测和匿名投票。LMSYS ORG 在12月8日官宣11月份总排行时评价:“Yi-34B-Chat 和 Tulu-2-DPO-70B 在开源界的进击表现已经追平 GPT-3.5”。
LMSYS ORG榜单(发布于2023年12月8日)
图片来源:零一万物
在中文能力方面,11月底发布的《SuperCLUE中文大模型基准评测报告 2023》中 ,Yi-34B Chat迅速晋升到“卓越领导者”象限,在“SuperCLUE 大模型对战胜率” 这项关键指标上,Yi-34B-Chat 取得31.82%的胜率,仅次于GPT4-Turbo。
中文SuperCLUE排行榜(发布于2023年11月28日)
图片来源:零一万物
目前,Yi模型在Hugging Face社区下载量为16.8万,魔搭社区下载量1.2万。在GitHub 获得超过4900个Stars。多家知名公司和机构也推出了基于Yi模型基座的微调模型,比如猎豹旗下的猎户星空公司推出的OrionStar-Yi-34B-Chat模型,南方科技大学和粤港澳大湾区数字经济研究院认知计算与自然语言研究中心联合发布的SUS-Chat-34B等,AMD和Hugging Face合作的GPU加速大模型的实验中,也选择了Yi-6B作为范例项目。
知名技术写作者苏洋表示,在他观察的近期Hugging Face榜单中,前三十名有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型,原本占据榜单头部的68B和70B模型的数量目前只留有几个,“从这点看 Yi 对于开源生态的帮助还是非常巨大的。”
随着新成就的不断取得,和更多开发者与权威机构的认可,外界对零一万物的质疑,想必也会逐渐平息。除了表现出的硬实力外,也期待,零一万物能在应用落地方面,创造出更多的价值。