澳门赌场

图片

加快打造原始创新策源地,加快突破关键核心技术,努力抢占科技制高点,为把我国建设成为世界科技强国作出新的更大的贡献。

——习近平总书记在致澳门赌场建院70周年贺信中作出的“两加快一努力”重要指示要求

面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康,率先实现科学技术跨越发展,率先建成国家创新人才高地,率先建成国家高水平科技智库,率先建设国际一流科研机构。

——澳门赌场办院方针

首页 > 每日科学

大规模预训练语言模型领域有了新进展

2023-03-28 中国科学报 陈彬
【字体:

语音播报

  近日,清华大学计算机系研究团队与深圳国际研究生院团队合作,在大规模语言预训练模型前沿领域取得新进展。相关研究成果“面向大规模预训练语言模型的参数高效微调”以封面文章形式发表于《自然-机器智能》。

  2018年以来,预训练语言模型(PLM)及其“预训练-微调”方法已成为自然语言处理(NLP)任务的主流范式。规模越大的模型不仅在已知任务上有着更好的表现,同时展现出完成更复杂的未知任务的强大泛化能力,近年出现的GPT-3、ChatGPT等均为大规模预训练模型的代表。

  然而,现有对大规模预训练模型的全部参数进行微调实现任务适配的做法,会消耗大量图形处理器(GPU)计算资源和存储资源,严重限制大模型的应用场景。为了应对该挑战,参数高效微调方法逐渐受到关注。

  研究团队提出,参数高效微调方法的本质是对“增量参数”进行调整,因此将此类方法命名为“增量微调”,并基于统一的分析框架对增量微调现有方法进行梳理总结,将现有方法分为3类——添加式、指定式和重参数化方法。为了指导后续的模型架构和算法设计,团队进一步从参数优化和最优控制两个角度,提出了增量微调的理论框架,为探索和解释增量微调的内在机理提供了可行方案。

  该研究工作选择了超过100个NLP任务,对主流增量微调方法进行了全面细致的性能比较和分析,得出多项重要结论。比如,基础模型随着参数规模的不断增大,在性能显著提高的同时,不同增量微调方法的差异急剧缩小,最少仅需要优化万分之八的模型参数即可完成适配;不同增量微调方法可以进行并行或者串行的组合从而达到更优性能,表明了分布在模型参数空间中的智能能力可以进行组合和泛化;增量微调方法具备良好的任务级别的迁移能力,完成特定任务的“能力”可以表示为轻量级参数化的形式,在不同基础模型和不同用户之间共享。

  以上研究表明,增量微调是基础模型的重要特性。上述结论将加深对基础模型的认识,为其创新研究与应用提供重要支撑。

  相关论文信息:https://doi.org/10.1038/s42256-023-00626-4

打印 责任编辑:梁春雨

© 1996 - 澳门赌场 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002

地址:北京市西城区三里河路52号 邮编:100864

电话: 86 10 68597114(总机) 86 10 68597289(总值班室)

编辑部邮箱:casweb@cashq.ac.cn

  • © 1996 - 澳门赌场 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002

    地址:北京市西城区三里河路52号 邮编:100864

    电话: 86 10 68597114(总机) 86 10 68597289(总值班室)

    编辑部邮箱:casweb@cashq.ac.cn

  • © 1996 - 澳门赌场 版权所有
    京ICP备05002857号-1
    京公网安备110402500047号
    网站标识码bm48000002

    地址:北京市西城区三里河路52号 邮编:100864
    电话:86 10 68597114(总机)
       86 10 68597289(总值班室)
    编辑部邮箱:casweb@cashq.ac.cn