当前位置:笔趣阁>其他小说>学霸的征途是星辰大海> 第168章 重启SLRM研究 四
阅读设置(推荐配合 快捷键[F11] 进入全屏沉浸式阅读)

设置X

第168章 重启SLRM研究 四(2 / 2)

[爱笔趣]ibiqu. v i p 一秒记住!

但现在,每当Qwen-7B生成一个推理步骤,SLRM就会在后台的高维几何空间里构建一个「逻辑盒子」。如果下一步的推理超出了这个盒子的范围,SLRM会立刻施加惩罚梯度,强迫它修正逻辑。

测试开始。

进度条走动。

最终分数定格:94.5%。

「嘶……」徐辰自己都吸了口凉气。

原始水平:~75%。

加持后:94.5%。

GPT-4水平:~92%。

「在NLI这种基础任务上,直接超越了SOTA(当前最佳)!」

……

第二战:LogiQA。

这是一个硬骨头。题目全是类似「如果A去,B就不去;如果B不去,C必须去……」这种绕口令。

Qwen-7B原始水平大约是38%,这个水平基本就是蒙的。

GPT-4的水平大约是76%。

徐辰加载模型,运行测试。

十分钟后。

最终分数:81.2%。

翻倍!直接翻倍!

在这个榜单上,即便是千亿参数的LLaMA-3-70B,也还在65%左右徘徊。徐辰用7B的模型,跑出了比GPT-4还高5个点的成绩!

……

第三战:ProofWriter。

这是终极考验。不仅要对,还要对得有理有据。

Qwen-7B原始水平大约是45%,会经常胡编乱造证明过程)。

LAART(Qwen-7B+SLRM):98.4%。

「98.4%……」

徐辰看着这个数字,忍不住感叹SLRM的逻辑能力确实够强。

「虽然推理速度慢得像蜗牛,泛化能力也有限,但在『逻辑严谨性』这一块,它就是当之无愧的王者。」

「有了这些数据,这篇论文,稳了。」

……

随着徐辰将一份份测试结果上传到HuggingFace的Leaderboard,整个AI界,再次被那个神秘的「X」给震动了。

这一次,不再是CLUTRR一个榜单的孤立事件。

SNLI丶LogiQA丶ProofWriter……

几乎所有主流的丶公认最难啃的逻辑推理榜单,在一夜之间,全部被那个简单的字母「X」给血洗了!

而且,分数不是微弱的领先,而是断层式的碾压!

在LogiQA这种「智商测试」榜单上,X的模型甚至比第二名高出了整整5个百分点!

那一连串绿色的「NewSOTA」标志,就像是一排排闪烁的霓虹灯,刺痛了所有AI巨头的眼睛。

更可怕的是,这些成绩的背后,依然没有公开任何模型权重,没有一行代码,甚至连那个「X」到底是谁,依然是个谜。

……

𝑰  𝙱𝑰  ⓠu.v  𝑰  ℙ

章节报错(免登录)

上一页 目录 +书签 下一章