使用 NVIDIA Nemotron-4 340B，利用我们最新的开放式模型生成合成数据

自从引入并随后广泛采用大型语言模型（LLM）以来，数据一直是企业构建准确安全的人工智能系统的生命线。一家公司的数据代表了其累积的知识，可以通过各种方式加以利用，从定制（监督微调、参数高效微调、持续预训练等）到训练全新的特定领域小型语言模型（SLM）。数据虽然是现代人工智能管道中最关键的部分之一，但在创新 LLM 和 SLM 的开发过程中，传统上成本高昂且受到限制的是从付费人工注释到导航大量特定领域数据的来源，当前生成高质量数据的过程是一项艰巨的任务。

通过一个称为合成数据生成（SDG）的过程，该过程将在博客的其余部分中更仔细地定义，企业可以通过利用 LLM 创建大量定制的高质量数据来增强现有的数据存储。

NVIDIA 宣布了一套专门为 SDG 构建的新模型系列——Nemotron-4 340B family，包括最先进的 Reward Model 和一款 Instruct 模型，以助力 SDG，所有这些模型都是在许可证下发布的，这将使企业和开发者都能够使用模型输出来构建令人难以置信的模型。

NVIDIA 开放式模型许可证

随着 Nemotron-4 340B 型号系列（包括基础型号、指导型号和奖励型号）的发布，NVIDIA 推出了NVIDIA 开放模型许可证

Nemotron-4 340B 奖励模型介绍

Nemotron-4 340B 奖励模型是一种最先进的多维奖励模型，该模型以文本提示作为输入，并返回与 HelpSteer2 数据集中的五个属性相关联的浮点数列表如下所示。

该模型已使用Reward Bench进行评估，尽管只包含 10K 个人工注释的响应对，但仍能显示出基准最高性能。

A table of performance results of various models on Reward Bench, a benchmark for evaluating reward models on collections of prompt-chosen-reject trios spanning chat, reasoning and safety. — *图 1。HelpSteer2 论文中的奖励台结果。*

在给定提示的情况下，奖励模型可以根据人类偏好为响应提供分数，也就是说它可以与人类对给定提示的偏好保持一致，因此能够替换大量的人类注释。最新发布的 Nemotron-4 340B Reward 以 92.0 的总分领跑 Reward Bench。值得注意的是，Nemotron-4 340B Reward 在 Chat-Hard 中领先最显著，以近七个百分点的优势击败了排名第二的替代品。Chat-Hard 是测试数据的一个子集，用于评估“奖励模型理解技巧问题和微妙不同的教学反应的能力”。 (RewardBench paper)

HelpSteer2 数据集

随着 Nemotron-4 340B 奖励的发布，我们还推出了 HelpSteer2，该数据集是许可的（CC-BY-4.0），具有一万个响应对，每个提示都包含两个响应，这些响应使用 Likert-5 量表（从 0 到 4，含义越高越好）对五个属性进行人工注释。

帮助：对提示的响应的总体帮助性。
正确性：包含所有相关事实，无误。
一致性：表达的一致性和清晰度。
复杂性撰写回复所需的智力深度（即回复是否可以由具有基本语言能力的人撰写或需要深入领域的专业知识）。
详细程度：相对于提示中要求的内容，响应中包含的详细信息量。

该数据集中于会话数据，包括英语中的多回合会话。

有关数据集的更多详细信息，请参阅HelpSteer2 数据集论文。

SteerLM 奖励模型训练

A flow diagram outlining training the Nemotron-4 340B Reward model using Nemo Aligner, a toolkit for efficient model alignment. — *图 2：Nemotron-3 340B 奖励模型是通过使用NeMo Aligner工具包将基本模型与 HelpSteer2 数据集对齐创建的，该工具包用于高效模型对齐。*

Nemotron-4 340B 奖励模型是在 Nemotron-4 340B 基础模型上训练的，该基础模型具有额外的线性层，该线性层将响应结束令牌的最终层表示转换为五个标量值，每个标量值对应于HelpSteer属性，称为 SteerLM 奖励模型训练有关培训过程的更多详细信息可以在HelpSteer2 论文中找到

与基于二元偏好的方法不同，SteerLM 奖励模型训练过程允许模型提供更具表现力的反馈，说明哪些响应被认为是好的以及为什么。二进制训练的奖励模型有时可能会将长响应与好响应混为一谈，而 SteerLM 奖励模型训练则明确教导模型将冗长性作为得分属性来消除歧义。

合成数据生成入门指南

在我们说明开发人员如何利用 Nemotron-4 340B 系列模型进行合成数据生成之前，我们首先提供一个引物。SDG 是指创建可用于各种模型自定义的数据集的过程，从监督微调（SFT），参数高效微调（PEFT）包括低秩自适应（LoRA），和模型对齐（使用方法如RLAIF，DPO，等）。此外，SDG 的用例并不局限于模型对齐，而是可以应用于广泛的应用，从检索到评估数据集管理，再到推荐系统。在这篇博客文章中，我们将重点关注模型对齐，将其作为 Nemotron-4 340B 模型系列的主要用例。对齐训练是生成人工智能领域中一个快速发展的子学科，可以通过几种不同的方式实现。在现有方法中，我们将讨论一个 SDG 管道的具体实施，如下所述。

至关重要的是，稳健的 SDG 方法不仅仅生成响应数据，还包括验证和检查，以确保数据质量保持较高水平。LLM 的准确性通常直接由训练数据的质量而非数量决定，使得“质量过滤”步骤在 SDG 配方中至关重要。

一种合成数据生成流程

A flow diagram describing a Synthetic Data Generation Pipeline. — 图 3。合成数据生成管道在高级别上包括两个步骤：1）使用 Nemotron-4 340B 指令模型生成合成响应；2）使用 Nemotron-4 340B Reward 模型对合成响应进行排名和过滤，以仅保留高质量样本。

一般而言，可持续发展目标分为两个主要部分，概述如下。

合成响应生成

合成响应数据可以通过给出 Nemotron-4 340B 指令域特定输入查询来生成，这允许模型生成与输入查询对齐的响应，其格式类似于GPT-4 论文中的“指令调整”中使用的格式。这些响应可以根据所需的响应格式通过零样本、少量快照或思想链式提示生成；如果需要，还可以生成对每个查询的多个响应，以便在下一步进行筛选。

注：Nemotron-4 340B 指令模型也可以最初生成特定于域的查询，从而减少对预先建立的查询数据集的需求，因为这可以减少对预先建立的查询数据集的需求。但是，这种用例并未在教程材料中涵盖。

奖励模型验证

由于 Nemotron-4 340B 奖励的多属性特性，合成响应可以根据最需要的 HelpSteer2 属性排名，以便只保留性能最高的响应，这模拟了提示质量的人工评估过程，并在 SDG 管道中添加了一层质量监控。

个案研究：

NVIDIA 的研究人员能够在HelpSteer2论文中证明 SDG 的有效性。通过上述管道总共创建了10 万行会话合成数据（在以下基准中称为“Daring Anteater”或“DA”）。使用该数据集，NVIDIA 研究团队能够在许多标准基准上调整 Llama 3 70B（基本模型），以匹配或超过 Llama 3 70B Instruct。尽管只使用了Llama 3 70B Instruct 模型训练的 1%的人类注释数据，但还是实现了这一点。

Results table for Llama 3 70B Synthetic Data Generation Comparison Tests — *图 3。来自 Llama 3 70B 的 HelpSteer2 论文的结果。*

结果展示了 SDG 的有效性，以及如何使用 Nemotron-4 340B Reward 和 Nemotron-4-340B Instruction 等工具为当今企业的数据管道增加价值。

值得注意的是，有许多 SDG 管道，这仍然是一个活跃的研究主题。Nemotron-4 340B Instruct 本身使用类似于图 3 所示流程的 SDG 管道变体进行了训练，其 98%的对准训练数据是综合生成的（在技术报告中了解更多信息）。我们鼓励开发人员评估和开发不同的管道，并分享最佳实践，同时继续完善我们自己的 SDG 方法。

数据是 LLM 的主干。NVIDIA 认识到合成数据生成是企业 Gen AI 应用程序改善的下一个前沿，因此提供了 Nemotron-4 340B 系列模型和 SDG 管道，使开发人员和企业都能通过许可证和最高质量的公开指导模型和奖励模型之一，为广泛的合成数据用例加速。

关于如何部署模型的说明可在其各自的模型卡上获得，NeMo Framework 说明可用于Nemotron-4 340B Base和Nemotron-4 340B InstructNemotron-4 340B Reward。

在接下来的几周里，我们将发布 Nemotron-4 340B NIMs，用于在NVIDIA GPUs 上进行优化的推理，以及一份技术演练，包括创建上述 SDG 管道的教程。

通过这里尝试通过此处提供的预览推理 API 指导 Nemotron-4 340B Instruct。

使用 NVIDIA Nemotron-4 340B，利用我们最新的开放式模型生成合成数据

NVIDIA 开放式模型许可证