当前位置:笔趣阁>其他小说>学霸的征途是星辰大海> 第139章 新的SOTA
阅读设置(推荐配合 快捷键[F11] 进入全屏沉浸式阅读)

设置X

第139章 新的SOTA(2 / 2)

[爱笔趣]ibiqu. v i p 一秒记住!

紧随其后的是OpenAI的GPT-4o(Fine-tuned),经过专门的微调后,在这个任务上也跑出了91.8%的高分。

再往下,是Meta的LLaMA-3-70B,得分88.5%。

「最高92.4%……」

徐辰看着这个数字,若有所思。

「看来这两年,工业界也没闲着,确实在逻辑推理上下了不少功夫。能把概率模型逼到这个份上,已经是工程学的奇迹了。」

随后,徐辰还搜到OpenAI的灵魂人物伊利亚对于这类问题的感叹:「缩放定律在逻辑任务上开始显示出边际效应递减。我们投入了10倍的数据和算力,却只换来了0.5%的提升。我们需要一个新的范式,但我们还不知道它是什麽。」

看着这段文字,徐辰心中涌起一股奇异的感觉。

其实,站在金字塔顶端的那群人——无论是哈萨比斯丶伊利亚,还是杨立昆——他们比谁都清楚,当前的LLM已经撞上了一堵看不见的墙。

他们就像是把「炼丹术」发挥到极致的古代方士,虽然能炼出璀璨的琉璃,却始终无法触及化学的本质。他们知道单纯靠堆算力丶堆数据,永远无法让概率模型产生真正的丶严谨的逻辑闭环。

他们在黑暗中在此徘徊,焦灼地等待着。

……

就在这时,终端窗口发出「叮」的一声轻响。

测试完成。

徐辰深吸一口气,将目光移回终端。

屏幕的最下方,一行白色的字符静静地停在那里。

【测试准确率:95.3%】

徐辰愣了一下,随即揉了揉眼睛,凑近屏幕确认了一遍。

95.3%。

比DeepMind那个集结了全球顶尖算力与智慧丶结构复杂到令人发指的SOTA模型,还要高出整整3个百分点!

在机器学习这个卷到极致的领域,通常提升0.5个百分点,就足以让一篇论文登上CVPR或者NeurIPS这样的顶会;提升1个百分点,那就是年度最佳论文的有力竞争者。

提升3个百分点?

那不叫提升。

那叫代差。

更可怕的是,DeepMind那个模型,可是经过了无数工程师日夜调优丶用了数千张TPU训练了几个月才得到的「完全体」。

而徐辰眼前这个呢?

这只是一个他花了两天时间手搓出来的丶甚至连Dropout丶LayerNorm这些基础的神经网络优化技巧都还没来得及加的基础模型。

徐辰靠回椅背,看着屏幕,忍不住感叹了一句。

「这就是数学的降维打击啊……」

……

徐辰看着那个接近满分的数字,心中虽然高兴,但并没有狂喜。

毕竟这只是离线测试,也就是在自己家门口跑跑,谁知道会不会有过拟合的嫌疑?

他打开了CLUTRR数据集的官方评测网站。

这是一个全球AI研究者公认的竞技场。你需要下载官方提供的「测试集」,这部分数据是绝对保密的,不仅没见过,而且难度更高,逻辑链条更长。

然后,徐辰将模型预测的结果文件上传到伺服器,由官方进行评分。

由于只上传预测结果,不上传模型,并不会泄露模型,所以徐辰也就放心地提交了。

在注册帐号时,徐辰犹豫了一下。

「起个什麽名字好呢?」

他想了想,手指在键盘上敲下了一个字母。

X

「就用这个吧,Xu的首字母,简单好记。」

……

屏幕上出现了一个旋转的加载图标,几秒钟后,页面刷新。

准确率95.12%。

徐辰看着这个数字,满意地点了点头。

线上和线下的成绩几乎一致,说明模型的泛化能力极强,没有过拟合。

「对于一个还没怎麽调参丶连Dropout都没加的『玩具模型』来说,这个成绩,勉强及格吧。」徐辰凡尔赛道。

他伸了个懒腰,看了一眼窗外已经泛白的天空。

「困了,睡觉。」

他随手关掉了网页,合上了电脑,就像是刚刚打完了一局普通的单机游戏,爬上床,拉过被子,秒睡。

然后徐辰不知道的是,这个测试虽然不会泄露模型,但是测试的分数会即时更新到排行榜……

🅘  𝙱🅘  🅠u.v  🅘  🅟

章节报错(免登录)

上一页 目录 +书签 下一章