20篇最佳论文,一篇完整的论文范文

首页 > 经验 > 作者:YD1662022-10-31 13:20:37

3、Parameter-Efficient Prompt Tuning Makes Generalized and Calibrated Neural Text Retrievers

Weng Lam Tam, Xiao Liu, Kaixuan Ji, Lilong Xue, Xingjian Zhang, Yuxiao Dong, Jiahua Liu, Maodi Hu, Jie Tang.

在过去的几年中,Prompting在NLP方面取得了长足的进步,现在它在信息检索方面似乎也有了进步。

Prompting调优是一种通过向序列模型的输入添加可训练的Prompting标记,使预先训练的冻结模型适应给定任务的技术。与更常见的完整模型微调相比,这种方法的主要优点之一是,它只需要重新训练一小部分参数,这样效率更高,而且可以提高原始预训练模型的可重用性。

他们训练Dense Passage Retriever (通过查询和文档嵌入的最近邻搜索进行检索)和带有后期交互的ColBERT模型(包括查询和文档的联合建模)的方法不是微调整个模型,他们只微调一个Prompting,同时保持预训练的LM权重都是冻结的。通过实现基于P-Tuning v²方法,可训练的Prompting不仅被添加到输入,而且还被添加到Transformer的每一层。

20篇最佳论文,一篇完整的论文范文(5)

结果中最有趣的部分是泛化。尽管在域内基准测试中,Prompting调优的性能与fine-tuning相当,但它在各种来自BEIR³基准测试的跨域数据集上的性能要好得多。

20篇最佳论文,一篇完整的论文范文(6)

这项研究再次强化了:Prompting是fine-tuning的可行替代方案,而且可能会越来越受欢迎。

4、DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale

Reza Yazdani Aminabadi, Samyam Rajbhandari, Minjia Zhang, Ammar Ahmad Awan, Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji Ruwase, Yuxiong He.

DeepSpeed——微软开发并使用的用于大型神经网络大规模分布式训练的框架——现在除了训练,还用于推理。

大型transformer架构在过去的一年里已经多样化,它们的通过大尺寸增加了表达能力,在推理时只使用与输入相关的权值子集,这使它们更高效(如果实现也经过优化的话!)但是缺点也很明显,有效地训练和运行这些模型涉及更多的内容,因为大多数现有的深度学习库和硬件在设计时都没有使用这种类型的计算。

DeepSpeed之前是为训练大型transformer而设计的,但最新的更新则侧重于在所有类型的transformer(包括稀疏激活的架构)上提高推理的延迟和吞吐量。

论文谈论的是一个能够在数百个GPU、CPU和NVMe内存规模的异构硬件上实现并行的系统,它能够使用无法在GPU内存中单独载入的大型模型实现高速推理。

20篇最佳论文,一篇完整的论文范文(7)

尽管大多数阅读这篇文章的人从来没有必要使用这样的框架来训练万亿规模的模型,但如果对训练和运行大规模神经网络工程感兴趣,可以看看这篇论文

5、Language Models (Mostly) Know What They Know

Saurav Kadavath et al.

性能远非ML模型唯一的指标。准确地知道他们对自己的输出的确定程度可能更重要,尤其是在以安全为重点的应用程序中。

Calibration 是机器学习中的概念,用于表明一个模型的预测置信度有多好(例如,一个具有90%确定性输出的完美校准模型应该是正确的9/10次,不少也不会不多)。

这项工作首先研究了lm回答问题的Calibration,假设一个单一的令牌是一个答案,概率可以直接从模型输出的可能性计算。

虽然lm对格式非常敏感,但只要给出适当的问题公式,大型lm就会得到很好的Calibration。有趣的是,这种能力在较小的范围内崩溃(见下图)。

20篇最佳论文,一篇完整的论文范文(8)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.