稀土掘金 稀土掘金
Q同学
727 阅读11分钟

导语

Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本,该模型已公开发布,可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。

  • 链接:arxiv.org/abs/2307.09…

1 引言

大型语言模型(LLMs)在多个领域表现出卓越的能力,尤其是在需要复杂推理和专业知识的任务中,例如编程和创意写作。LLMs通过直观的聊天界面与人类互动,导致了它们在公众中的快速普及。LLMs通常通过自回归式的Transformer在大量自监督数据上进行预训练,然后通过诸如人类反馈的强化学习(RLHF)等技术进行微调,使其更符合人类偏好。尽管训练方法相对简单,但高计算要求限制了LLMs的发展。已有公开发布的预训练LLMs在性能上可以与GPT-3和Chinchilla等闭源模型相媲美,但这些模型并不适合作为诸如ChatGPT、BARD、Claude这样的闭源“产品”LLMs的替代品。

本文开发并发布了Llama 2和Llama 2-Chat,以供研究和商业使用,这是一系列预训练和微调的LLMs,模型规模最大可达70亿参数。Llama 2-Chat在有用性和安全性方面的测试中普遍优于现有的开源模型,并且在人类评估中与一些闭源模型相当。本文还采取了提高模型安全性的措施,包括特定的数据注释和调整,红队测试,以及迭代评估。同时作者强调,虽然LLMs是一项新技术,可能带来潜在风险,但如果安全地进行,公开发布LLMs将对社会有益。作者提供了负责任使用指南和代码示例,以促进Llama 2和Llama 2-Chat的安全部署。

image.png

image.png

image.png

2 预训练

2.1 预训练数据

  • 数据来源:训练数据来自公开可用的源,排除了来自 Meta 产品或服务的数据。
  • 数据清洗:移除了已知包含大量个人信息的网站数据。
  • 训练token数:训练了2万亿(2T)token的数据,以获得良好的性能和成本平衡。

image.png

image.png

2.2 训练细节

  • 使用标准Transformer架构
  • 使用RMSNorm而不是原始的LayerNorm
  • 使用SwiGLU激活函数
  • 相对于LLaMA的2k上下文长度,LLaMA2增加到了4k上下文长度
  • 使用了Grouped-Query Attention (GQA),而不是之前的MQA、MHA
  • 使用了RoPE方式进行位置编码,使用旋转矩阵来编码位置信息,直接融合到自注意力的计算中

RMSNorm

原始的LayerNorm需要计算均值和方差,然后再进行归一化:

image.png

image.png

而RMSNorm(Root Mean Square Normalization)是LayerNorm的一种变体,其通过计算层中所有神经元输出的均方根(Root Mean Square)来归一化这些输出。这样可以减少不同层输出分布的差异,有助于加速训练并提高模型的稳定性。

image.png

SwiGLU

SwiGLU(Sigmoid-Weighted Linear Unit)是一种神经网络中的激活函数,它是 Gated Linear Unit (GLU) 的一种变体,由两部分组成:一个线性变换和一个 sigmoid 函数。输入先通过一个线性变换,然后用 sigmoid 函数的输出加权。

image.png

GQA

GQA则是介于Multi-query和Multi-head之间的一种中间形式,传统的Multi-head Self-attention中每个Head都有各自的Q,K,V;而Multi-Query Self-attention中,各个头之间共享一个K、V;而GQA则是介于两者之间,即对头进行分块,每块中的若干头使用同样的K,V。

image.png

2.3 Llama 2 预训练模型评估

本文对Llama 2 模型在一系列标准学术基准测试中的性能进行了报告。与其他模型相比,Llama 2 模型不仅超过了 Llama,还在多个分类基准上超过了其他开源模型和某些闭源模型。在长上下文(Long-context)数据集上效果比Llama提升显著。

image.png

image.png

image.png

3 微调

Llama 2-Chat 的开发涉及了多次迭代应用的对齐技术,包括指令调整和人类反馈的强化学习(RLHF)。这个过程需要大量的计算资源和注释工作。

3.1 监督式微调 (SFT)

  • 初始步骤:使用公开可用的指令微调数据作为 SFT 的起点。
  • 数据质量:重点放在收集高质量的 SFT 数据上,因为作者发现许多第三方数据质量和多样性不足。通过放弃第三方数据集中的数百万个示例,并使用基于供应商的标注工作中更少但质量更高的示例,结果显著提高。作者发现数万级别的 SFT 标注就足以达到高质量结果,本文收集了总共27,540个标注。
  • 训练细节:训练时,prompt和答案拼接在一起,使用特殊的 token 来分开这两个部分。采用自回归损失并设置prompt不参与反向传播(即Prompt部分不计算loss)。

image.png

3.2 强化学习与人类反馈 (RLHF)

3.2.1 人类偏好数据收集

在 Llama 2-Chat 模型的 RLHF 过程中,首先进行了人类偏好数据的收集,这些数据用于后续的奖励建模,收集了超过一百万个基于人类指定指南的二元比较的大型数据集,这些数据的特点是对话轮次更多,平均长度更长:

  • 二元比较:使用二元比较方法(即只需判断哪一个更好,不需要对各自进行打分)来收集偏好数据,主要是为了最大化收集的prompt的多样性。
  • 标注过程:注释者首先编写提示,然后在两个模型响应中选择一个,同时标记他们对所选响应的偏好程度(significantly better, better, slightly better, or negligibly better/ unsure)。
  • 注重有用性和安全性:在收集偏好数据时,重点放在模型响应的有用性和安全性上。
  • 安全标签收集:在安全阶段,额外收集安全标签,将响应分为三个类别:安全、双方均安全、双方均不安全。
  • 数据分布和奖励模型:每周收集偏好数据(即每次都使用本周最新的模型进行响应然后收集偏好数据)。因为没有充足的新偏好样本分布,会导致奖励模型效果退化。

image.png

3.2.2 奖励建模(Reward Modeling)

奖励模型将模型响应及其相应的提示(包括来自前一个回合的上下文)作为输入,并输出一个标量分数来指示模型生成的质量(例如,有用性和安全性)。利用这样的反应分数作为奖励,可以在RLHF期间优化Llama 2-Chat,以更好地调整人类的偏好,提高帮助和安全性。

之前的研究发现有用性和安全性存在一个Trade-off,为此本文训练了两个奖励模型分别单独考虑有用性和安全性。奖励模型和chat模型初始化于同样的预训练checkpoint,这样可以保证两个模型从同样的预训练中获得一样的知识。两个模型的结构和超参数都保持一致,只是替换了模型的分类头/回归头。

训练目标 采用二元排序损失(binary ranking loss):

image.png

由于本文采用了4个不同的偏好等级(significantly better, better, slightly better, or negligibly better/ unsure),所以作者对原始的loss进行了一些修改,引入m(r)

avatar

相关内容推荐

环境论文5000字东南论文网道德绑架的议论文素材关于健康中国的论文有关教师的议论文小学音乐欣赏论文大学生免费论文网关于墙的议论文伤疤议论文论文中图表格式要求挑战杯论文格式要求论文投稿备注如何看懂论文皖西学院论文答辩药物治疗学论文花生长论文生物论文的格式大学生三观论文教育心理论文毕业论文手册范文大一历史论文甘肃教育论文互换性论文百科论文网液压与气动论文追风筝的人论文选题议论文更改法国旅游论文温饱论文小学四年级科技论文美国电影文化论文瓷器鉴赏论文mfa论文经验性论文dhl论文越狱 论文武汉大学毕业论文格式优秀教研论文前厅管理论文cod论文行政管理本科毕业论文范文听蝉论文博士论文审查宠物与生活论文医学论文结构从鸦片战争到五四运动论文股票回购论文个人征信论文环境史论文如何认识自我论文毕业论文检测系统怎样检测新时期的爱国主义论文关于爱的教育的论文房产测绘论文散打课论文毕业论文顺丰创客议论文关于乐视的论文体重秤论文珠心算论文雾霭论文大学生论文3000字范文工效学论文石家庄特大论文诈骗案论文查重费一年内暴涨10倍学如逆水行舟的议论文握沙议论文黄河怨论文台湾论文库四川大学博士论文播音小论文什么是幸福作文议论文关于手机的议论文作文中学生议论文论点论据大全阿奎那论文心理健康c证论文地下车库论文论文评价报告英文论文翻译价格结构化学论文暗香论文网行政管理论文6000字资产评估小论文sci论文意见学校法制论文短论文怎么写护理论文综述范文自我管理的议论文网站编辑论文写狼的论文申论文章结尾初中议论文300字写论文采访关于爱的教育的论文问题博士论文毕业生论文库信息工程专业导论论文高中议论文写作指导财政学论文3000字保险议论文论文的引文怎么写西电硕士论文卖花女论文待刊论文小学艺术教育论文日语毕业论文怎么写毕业设计选题系统论文电气专业论文发表生态村论文物理论文写什么爬虫毕业论文放弃也是一种美丽议论文大明律论文帮忙改论文三星苹果论文交友须胜己的议论文主持艺术论文人心冷漠的议论文论文重复率高怎么改杜琪峰论文同方论文查重论文文中注论空间论文土建论文题目大学生恋爱观论文3000园林美论文万方硕博论文帆船小论文园本课程论文参考文献会议论文怎么标注手绘设计论文思变的论文服务营销策略论文有关班主任工作的论文讲正气论文推手论文关于难民的论文马克思论文2000字音乐兴趣论文会计学论文网三农问题论文题目论文前言范例传统文学论文中西方婚礼差异论文英国建筑论文呼麦的论文表演小论文敢为天下先800字议论文体育论文提纲南大论文查重关于幼儿方面的论文路线优化论文南京职称论文风力机论文教师心理论文游西湖论文公共建筑论文勇于突破议论文谈成长议论文水工毕业论文毕业论文评论采煤专业论文科技论文表格论文代笔吧政论文开头教育学小论文毕设论文翻译论文字体模板法理小论文免费的论文网站有哪些农业管理论文谈成长议论文论文参考文献格式生成器法语专业毕业论文制造业成本控制论文诗经之美论文1000字论文模板我的中国梦议论文知行网论文洱海论文道德法律论文日文小论文服装库存论文插花小论文汽车线束论文小溪议论文关于亲情的议论文800字烹饪与化学论文舞蹈作品论文论文推优需要二次答辩公德心议论文敢于正视议论文小论文网论文道歉信大学传统文化论文行政管理毕业论文8000白天鹅论文毛概论文3000字范文防雷技术论文公与私议论文

合作伙伴

合毅科技

www.mtcddc.cn
www.3phw.com
www.28j.com.cn
niu.seo5951.com
jl.urkeji.com
www.bjdongwei.cn
www.hz.bj.cn
qiansan.seo5951.com
www.conductive-powder.com
dw.urkeji.com
www.mtcddc.cn
www.youpinhui.vip
zz.urkeji.com
www.tjwyj.com
www.chaoshanxing.com
qiansan.seo5951.com
www.conductive-powder.com
www.china185.com
seo.chaoshanxing.com
www.07yue.com