[爱笔趣]ibiqu. v i p 一秒记住!
当晚,徐辰收到张乐阳发来的消息,语音里透着掩饰不住的兴奋,甚至连称呼都变了:
「徐神!搞定了!彻底收敛了!精度比我们预期的还要高两个百分点!老板刚才看了结果,高兴得差点没把桌子拍碎,直夸我们这次效率高!我跟老板提了一嘴是您帮忙改的算法,老板说改天一定要请您吃饭!」
紧接着,是一张截图。
图片上是校级计算中心的任务队列管理界面。
「我跟中心那边打好招呼了,我们课题组的帐号权限已经给你开通了。这是SSH密钥和IP位址。你直接远程登录就行,不用再跑一趟了。现在四张A100全空着,优先级调到了最高,你随便造!」
「谢了,学长。」
(请记住找台湾好书上台湾小说网,t??w??k??a??n??.c??o??m??超方便网站,观看最快的章节更新)
徐辰回了个抱拳的表情。
这个忙也不算白帮,几个小时前,他还得排队填表看人脸色;现在,他手里握着物理学院国家重点项目的算力通道,享受着VIP级别的待遇。
……
徐辰打开终端,输入指令,连接伺服器。
「来吧,LAART,让我看看你的成色。」
他敲下了那行早已准备好的指令。
运行!
……
这个阶段是AI的训练阶段,在这个阶段,模型需要通过海量的文本数据,学习语言的语法丶词汇之间的关联,以及基础的世界知识。
风扇的轰鸣声仿佛透过网络传了过来。
屏幕上,一行行日志开始飞速滚动。
Epoch1/100|Loss:2.4582|Accuracy:12.4%
Epoch2/100|Loss:1.8923|Accuracy:28.7%...
起初,Loss曲线的下降并不算快,这在徐辰的预料之中。因为LAART模型引入了复杂的几何约束,模型在初期需要花费大量时间去「寻找」那些逻辑盒子在向量空间中的正确位置。
这就像是在玩拼图,刚开始总是最慢的。
徐辰没有盯着屏幕发呆,他起身给自己泡了杯咖啡,顺便看了会美剧。
两个小时后。
当他再次回到屏幕前时,终端里的数据已经发生了翻天覆地的变化。
Epoch50/100|Loss:0.1245|Accuracy:94.2%
「收敛速度比预想的要快。」
徐辰眉毛一挑。
普通的Transformer模型在处理逻辑推理任务时,往往需要海量的数据「喂」进去,靠概率去「蒙」出逻辑关系,所以收敛极慢,且很容易过拟合。
但LAART不一样。
它的「逻辑门控单元」就像是一个严厉的老师,一旦模型试图「瞎蒙」,就会被几何约束狠狠地惩罚。这迫使模型必须去学习真正的因果链条,而不是统计规律。
「差不多了。」
徐辰终止了训练,保存了模型权重。
……
接下来,是见证奇迹的时刻——推理测试。也就是看一下刚刚训练好的AI在实际推理上的成绩怎麽样。
他打开了那个专门用来测试逻辑能力的CLUTRR数据集,随机抽取了一道题输入模型。
Context(上下文):「爱丽丝的丈夫是鲍勃。鲍勃的女儿是克莱尔。克莱尔的哥哥是大卫。大卫的儿子是艾瑞克。」
Question(问题):「爱丽丝是艾瑞克的什麽人?」
徐辰按下了回车。
如果是普通的GPT-3级别的模型,面对这种多跳推理,很容易因为「注意力分散」而答错,可能会回答「阿姨」或者「妈妈」。
屏幕上光标闪烁了0.1秒。
回答:Grandmother(祖母)
逻辑路径:爱丽丝->(妻子)->鲍勃->(女儿)->克莱尔->(哥哥)->大卫->(儿子)->艾瑞克.
「漂亮!」
徐辰打了个响指。
不仅仅是答案正确,更重要的是那个逻辑路径。这说明模型不是在「猜」,而是在那个高维的几何空间里,真正地构建出了人物关系图谱,并通过向量运算,一步步推导出了结果!
……
但这只是单例测试,说明不了大问题。真正的考验,是全量数据集的泛化能力测试。
他首先进行了离线测试。也就是用CLUTRR数据集中,预先划分好的「验证集」来跑分。这部分数据模型在训练时是没见过的,可以初步检验模型的泛化能力。
他敲下了测试指令,看着进度条一点点向前推进。
趁着测试的空档,他打开了PapersWithCode网站,搜索了CLUTRR数据集的最新排行榜。
排名第一的,是DeepMind在半年前发布的Neuro-SymbolicGNN(v2),准确率达到了92.4%。这是一个专门为逻辑推理设计的丶极其复杂的混合架构,号称融合了神经网络和符号AI的精髓。
𝐈 𝓑𝐈 𝑄u.v 𝐈 P
本章未完,请点击下一页继续阅读