当前位置:首页 >> 电脑
电脑

谷歌:安全性不佳的微调模型不要扔,求一下平均权重就能提升安全性

2025-09-01 12:19

如何最大限度地降低静态准确度?

最近,谷歌等机构推断出:

耐用性不好的更正静态必先不要投掷,求一下少于举例来说!

就能在不增大侦探小说等待时间以及线程开支的情况下,增大静态的准确性和鲁棒性。

比如,学术研究人员就运用于该方法孕育了ImageNet1K的上新纪录:90.94%。

将它遍及多个图表类群以及大语义处理执行里,也能增大静态的分布外耐用性,并改善上新下游执行的零结果显示耐用性。

而这个方法还有一个有趣的名字,叫Module soup——

有没有让人一下子全都人隐喻到了行列式那契豆腐的开玩笑?(昨天的豆腐+近日的豆腐=从前的上新豆腐)

△ 知乎网路上@hzwer,已许可权

一共三种果汁

记得一下以后,大家是如何给静态涨点的呢?

有没有必先用各种微匹配锻炼出多个更正静态,然后再挑出实验者集上展现很好的那一个遗留下来,其余丢掉?

由于神经网络是非线性的,在多种不同的loss basin里可能有许多解,因此Module soup这一采用移去所有更正静态的举例来说,对其开展少于的方法就可以增大耐用性,还是让人有一点惊讶的。

不过,最近就就有学术研究推断出,从相同的绑定配置里里实质上优化的更正静态,位于相同的标准差范围 (lie in the same basin of the error landscape)。

以后也有学术研究证明,沿单个锻炼方向上开展举例来说少于,可以增大随机绑定锻炼静态的耐用性。

所写正是从这些结论里受到着迷。

Module soup一共有三种“果汁”(构建):统一豆腐(uniform soup)、贪婪豆腐(greedy soup)和学习豆腐(learned soup)。

其里greedy soup是最主要采用的构建,因为它的耐用性比从外部不规则地少于所有举例来说更高。

仅仅只是,Greedy soup通过顺序添加每个静态作为“豆腐”里的潜在成分构建而成,并且只有在保持稳定实验者集上的耐用性有所增大时则将可视静态移去在“豆腐”里。

排序按实验者集准确度的降序分列。

耐用性微越单个最佳更正静态

所写开展了全面的更正实验来相符Module soup的正确性。

首必先是更正CLIP和ALIGN,这两个静态在图表-评注对上开展了对比损失先于锻炼。

结果经过module soup加载后,两者在分布内和大自然分布转移(distribution shifts)次测试集上的展现都比最佳的单个更正静态耐用性更佳。

△ 左为CLIP,右为ALIGN

然后是在JFT原始数据集上先于锻炼的ViT-G静态。

也就是它在ImageNet1K原始数据集构建了90.94%的准确度,冲破了此前CoAtNet保持稳定的90.88%,同时在侦探小说过渡阶段还减少了25%的FLOPs。

在图表类群执行以外,所写在NLP领域也对module soup开展了实验者。

下表是BERT和T5静态在GLUE benchmark的四个评注类群执行上的结果:

可以推断出,虽然改进不如图表类群里的效果明显,但在同样执行下,greedy soup都可以相较很好的单个静态增大耐用性。

当然,所写也指出,module soup在就其等各个方面不存在局限,比如现在次测试的都是在大型异构原始数据集上先于必先锻炼的静态,在这些静态之外,效果并不是非常明显。

最后,知乎网路上@宫酱手艺人表示,其实这样的静态匹配少于是一个经典之作trick,transformer完整学术研究成果就用了。

你推断出了吗?

学术研究成果地址:

知乎@宫酱手艺人、@hzwer问到(已许可权):

— 下回 —

量子位 QbitAI · 头条号签约

关注我们,第一等待时间获知21世纪科技动态

复方草珊瑚含片和西瓜霜含片哪个好
宝宝消化不良的症状
怎么预防高血糖

上一篇: 武侠小说界的八美与九美,吸引武侠迷的眼前,质量堪称上乘

下一篇: 飘移“免费宽带”没人用?大家宁肯花钱装电信宽带,都是咋想的?

相关阅读
太美医疗IPO融资20亿 能否经受科创属性“拷打”?

,低价扩大到却显然难言坦率。2013年正式成立至今,的发展十年爱女诊疗仍始终保持财务危机稳定状态。据介绍,SaaS表达方法是近年来兴起的插件领域方法在。SaaS跨平台营运商将领域插件实质上作战

喜上喜!上半年贵人八方来,运势反弹,让人高攀不上的3大生肖

大家好!我是朵朵,接下来要讲的是关于太岁与货势的文章,希望大家看过以后,必须福气环绕,心想事成!同属牛之人熬到年内,前脚货势畅福,前脚富得流油不差钱,告别上个月底财货不理想,努力升至先兆

友情链接