北京电标出分了，哪款大模型猜对了？

2024-05-26 11:59 由精选发表于 #商业

撰文 | 小不董

编辑 | 李信马

题图 | 文心一格

就在5月26日，北京市新能源小客车指标发布了。

根据此前截至2024年3月8日24时的申请，经审核，新能源小客车指标申请数量如下：

2023年，北京家庭新能源指标配置的积分排序入围名单中，分数最高的家庭为258分，分数最低的家庭为60分，入围“分数线”比2022年提高了4分。

在积分排序入围名单上，排在第一位、总积分258分的家庭有三代人参与摇号，成员最早注册时间为2011年2月19日。

并且，有将近1600个家庭的积分都是60。以最后一名入围的60分家庭来看，共有三代人参与摇号，成员最早注册时间为2013年3月3日。数相同的情况下，按家庭成员中最早在系统注册时间先后排序。

以过去三年间，从最低入围分数来看在逐步上升，难度一年大过一年，不少人都在担心，自己的积分够了吗？会不会有一个配额属于自己呢？

对此，我们决定用几款大模型对于2024年家庭新能源指标入围积分线进行了预测，看看哪款大模型更了解中国的实际情况，给出的答案最准确。经整理结果如下：

首先，是直接选择“弃权”的选手，比如字节跳动旗下的豆包大模型就表示无法准确预测，建议关注官方。

图片来源：豆包

与之类似的还有讯飞星火大模型，只是模糊的表示，竞争会更激烈。

图片来源：讯飞星火

腾讯的混元大模型也是无法预测，不过给出了些建议，俗称 “甩锅”。

图片来源：腾讯混元助手

相比之下，阿里云的通义千问，虽然没有给出具体答案，但是认为会超过60，即使这个范围很宽泛，但比前三个还是要有进步。

图片来源：通义千问

而给出的答案最符合要求的大模型，当属百度的文心一言，明确给出会在64-66分之间，理由也比较清晰。

图片来源：文心一言

此外，作为对比，我们还向chatGPT也询问了这个问题，其干脆利落地给出了无法提供未来数据的答案。

不过最终，在5月26日实际发布的的本期配置中，分数最高的家庭282分，分数最低的家庭60分，与去年的入围“分数线”持平。某种意义上来说，是“全军覆没”了，可见在预测方面，大模型还有不小的进步空间。最后，恭喜成功入围的朋友们啦！