得到一个语言模型后,我们需要对其生成能力进行评测,以判断其优劣。评测语言模型生成能力的方法可以分两类。第一类方法不依赖具体任务,

直接通过语言模型的输出来评测模型的生成能力,称之为内在评测 (Intrinsic Evaluation)。第二类方法通过某些具体任务,如机器翻译、摘要生成等,

来评测语言模型处理这些具体生成任务的能力,称之为外在评测(Extrinsic Evaluation)。

1. 内在评测

由上式可以看出,如果语言模型对测试文本越“肯定”(即生成测试文本的概率越高),则困惑度的值越小。而语言模型对测试文本越“不确定”

(即生成测试文本的概率越低),则困惑度的值越大。由于测试文本和预训练文本同分布,预训练文本代表了我们想要让语言模型学会生成的文本,

如果语言模型在这些测试文本上越不“困惑”,则说明语言模型越符合我们对其训练的初衷。因此,困惑度可以一定程度上衡量语言模型的生成能力。

对困惑度进行改写,其可以改写成如下等价形式

可以看作是生成模型生成的词分布与测试样本真实的词分布间的交叉熵,

其中D次语言模型所采用的词典。因为P(wilw<i)≤1,所以此交叉熵是生成模型生成的词分布的信息熵的上界,即

因此,困惑度减小也意味着熵减,意味着模型“胡言乱语”的可能性降低。

2. 外在评测

在外在评测中,测试文本通常包括该任务上的问题和对应的标准答案,其依赖于具体任务。通过外在评测,我们可以评判语言模型处理特定任务的能力。

外在评测方法通常可以分为基于统计指标的评测方法和基于语言模型的评测方法两类。

2.1. 基于统计指标的评测

基于统计指标的方法构造统计指标来评测语言模型的输出与标准答案间的契

合程度,并以此作为评测语言模型生成能力的依据。BLEU (Bilingual EvaluationUnderstudy) # ROUGE (Recall-Oriented Understudy for Gisting Evaluation) *E/V.

最为广泛的两种统计指标。其中,BLEU 是精度导向的指标,而 ROUGE 是召回导向的指标。以下分别对这两个指标展开介绍。

例如,当N=3时,BLEU 是 unigram 精度,bigram 精度,trigram 精度的几何平均。在以上原始BLEU 的基础上,

我们还可以通过对不同的 n-gram 精度进行加权或对不同的文本长度设置惩罚项来对 BLEU 进行调整,从而得到更为贴近人类评测的结果。

ROUGE 被提出用于评价模型在摘要生成(Summarization) 任务上的效果。

常用的 ROUGE 评测包含 ROUGE-N,ROUGE-L, ROUGE-W, 和 ROUGE-S 四种。

其中,ROUGE-N 是基于 n-gram 的召回指标,ROUGE-L 是基于最长公共子序列(Longest Common Subsequence, LCS) 的召回指标。ROUGE-W

 是在ROUGE-L的基础上,引入对LCS的加权操作后的召回指标。ROUGE-S 是基于 Skip-bigram 的召回指标。下面给出 ROUGE-N, ROUGEL 的定义。

基于统计指标的评测方法通过对语言模型生成的答案和标准答案间的重叠程度进行评分。这样的评分无法完全适应生成任务中表达的多样性,

与人类的评测相差甚远,尤其是在生成的样本具有较强的创造性和多样性的时候。为解决此问题,可以在评测中引入一个其他语言模型作次“裁判”,

利用此“裁判”在预训练阶段掌握的能力对生成的文本进行评测。下面对这种引入“裁判”语言模型的评测方法进行介绍。

3. 基于语言模型的评测

目前基于语言模型的评测方法主要分为两类:

(1)基于上下文词嵌入(Contex-tual Embeddings) 的评测方法;

(2)基于生成模型的评测方法。典型的基于上下文词嵌入的评测方法是 BERTScore。典型的基于生成模型的评测方法是G-EVAL。

与BERTScore 相比,G-EVAL. 无需人类标注的参考答案。这使其可以更好的适应到缺乏人类标注的任务中。

BERTScore从精度(Precision),召回(Recall) 和 FI量度三个方面对生成文档进行评测。其定义分别如下:

相较于统计评测指标,BERTScore 更接近人类评测结果。但是,BERTScore依赖于人类给出的参考文本。这使其无法应用于缺乏人类标注样本的场景中。得益于生成式

大语言模型的发展,G-EVAL 利用GPT-4 在没有参考文本的情况下对生成文本进行评分。G-EVAL 通过提示工程(Prompt Engineering) 引导GPT-4输出评测分数。

如下图所示,G-EVAL 的 Prompt 分三部分:

(1)任务描述与评分标准;

(2)评测步骤;

(3)输入文本与生成的文本。

在第一部分中,任务描述指明需要的评测的任务是什么(如摘要生成),评分标准给出评分需要的范围,评分需要考虑的因素等内容。

第二部分的评测步骤是在第一部分内容的基础上由GPT-4 自己生成的思维链(Chain-of-Thoughts, CoT)。

第三部分的输入文本与生成的文本是源文本和待评测模型生成的文本。例如摘要生成任务中的输入文本是原文,而生成的文本就是生成摘要。

将上述三部分组合在一个prompt 里面然后输入给GPT-4,GPT-4便可给出对应的评分。直接将 GPT-4给出的得分作评分会出现区分度不够的问题,

因此,G-EVAL 还引入了对所有可能得分进行加权平均的机制来进行改进。

除 G-EVAL 外,近期还有多种基于生成模型的评测方法被提出。其中典型的有 InstructScore,其除了给出数值的评分,

还可以给出对该得分的解释。基于生成模型的评测方法相较于基于统计指标的方法和基于上下文词嵌入的评测方法而言,在准确性、灵活性、

可解释性等方面都具有独到的优势。可以预见,未来基于生成模型的评测方法将得到更为广泛的关注和应用。