摘要
思维链(Chain of thought, CoT)提示使大语言模型能够按照具体推理步骤处理复杂的任务,让大语言模型在常识推理、数学逻辑推理和可解释性等方面表现出更强的能力。然而,CoT方法的主要缺点在于其对庞大语言模型的依赖,这些模型通常拥有数百亿的参数,在大规模部署方面面临挑战。为此,本文提出一种基于思维链的大模型知识蒸馏方法,主要目标在于充分利用大型语言模型的思维推理能力,通过知识蒸馏技术,引导小模型解决复杂任务。以大型模型为教师模型,小型模型为学生模型,通过获取教师模型的推理数据来微调学生模型。通过更改数据生成方式、基于聚类的问答示例采样、示例启发式纠错以及答案的自适应生成等一系列精心设计的方法,使教师模型的生成过程更高效,生成的推理数据质量更高、数量更多,从而更好地微调学生模型,使其获得强大的推理能力,实现高效的知识蒸馏。这一研究框架旨在建立一个有效的知识传递机制,使得大模型的深度思考能够有效指导小模型,为解决复杂任务提供更为智能且高效的解决方案。通过这种方式,希望能够克服大模型部署的挑战,并促进语言模型在现实世界中的应用和进步。
随着大型语言模型(Large language model,LLM
思维推理能力是人类智能的重要组成部分,也是人工智能的核心目标之一。拥有思维推理能力的大型语言模型,可以为人类提供更多的智能服务和辅助,解决一些难以用传统方法解决的问题,创造一些新的价值和可能性。尽管大型语言模型具有较强的思维推理能力,但仍然面临着一些挑战和局限,需要进一步的研究和改进。一方面,大型语言模型的训练和使用需要消耗大量的计算资源和能源,导致高昂的成本和环境影响。另一方面,大型语言模型的思维推理能力并不稳定和可靠,可能会产生一些错误、偏差或不道德的结果,导致不良的后果和风险。例如,大型语言模型可能会因为数据的质量、数量或多样性的问题,而出现一些不符合逻辑、事实或伦理的推理,影响其正确性、可解释性和可信度。
因此,为了充分利用大语言模型的思维推理能力,同时降低部署模型的成本,本文使用一种基于知识蒸馏的方法,通过引导小型模型学习大语言模型的思维链(Chain of thought, CoT)推理能力,从而解决复杂任务。具体来说,首先利用思维链方法从LLM中生成多个推理路径,并对其进行筛选和重构,形成高质量的推理样本。然后,使用这些推理样本对小模型进行微调,使其能够模仿LLM的推理过程,并在需要时调用 LLM 进行高阶推理。方法实现过程如

图1 大模型知识蒸馏方法示意图
Fig.1 Schematic diagram of large model knowledge distillation method
本文在多个复杂任务上进行了广泛实验,结果表明,提出的方法可以显著提升小模型的性能,同时大幅减少了LLM的调用次数和计算成本。本文的贡献在于,提出了一种有效的方法,可以通过思维链技术将大型语言模型的思维推理能力迁移到小模型中。这种方法不仅能够充分发挥大型语言模型的优势,还能够降低其成本和风险,从而为复杂任务的解决提供一种新的思路和可能性。
(1)思维链提示。思维链是一种创新的提示工具,旨在辅助语言模型进行深层次的推理和思考。这一技术的核心在于通过分步骤地引导,使模型能够清晰地展示其推理的思路和逻辑关系,从而实现复杂的思维过程。思维链提示的基本理念在于将复杂的推理过程细分为一系列简单的步骤,并在每个步骤中提供明确的指导,以帮助模型逐步建立起完整的推理链

图2 思维链技术示意图
Fig.2 Conceptual diagram of CoT technology
思维链的概念最早由美国谷歌大脑的研究员Wei
国内对思维链的研究相对较晚,主要从2022年下半年开始,一些高校和企业的研究者开始关注思维链的概念和应用。国内的思维链研究主要借鉴和参考国外的成果,尝试在国内的数据集和任务上复现和验证思维链的效果,如在数学问题解答、阅读理解和对话生成等方面进行实验。国内的思维链研究还面临一些挑战,如缺乏统一的思维链标准和评价体系、缺乏适合国内语境的思维链数据集和任务、缺乏思维链的理论基础和深入分析等。
为了使小型模型能够进行复杂的推理,来自韩国科学技术院的研究者提出了一种名为Fine‑tune‑CoT 的方
(2)知识蒸馏。知识蒸馏是一种利用大型或复杂的模型(称为教师模型)来指导小型或简单的模型(称为学生模型)学习知识的方法,既可以实现模型的压缩,也可以提升模型的性
知识的形式。知识蒸馏中的知识可以有不同的形式,包括输出特征知识、中间特征知识、关系特征知识、结构特征知识和参数知
学习的方式。知识蒸馏中的学习方式可以有不同的方式,包括知识合并、多教师学习、教师助理、跨模态蒸馏、相互蒸馏、终身蒸馏和自蒸
学习的目的。知识蒸馏中的学习目的可以有不同的目的,包括模型压缩和模型增
技术的融合。知识蒸馏中的技术融合是指将知识蒸馏与其他技术进行结合,以提高知识蒸馏的效果或拓展知识蒸馏的应用范围。其中,常见的技术有生成对抗网络、神经架构搜索、强化学习、图卷积、其他压缩技术、自动编码器、集成学习和联邦学习
基于CoT方法的主要缺点是它需要依赖于拥有数百亿参数的巨大语言模型,由于计算要求和推理成本过于庞大,这些模型难以大规模部署。因此,为了使小型模型能够进行复杂的推理,已有的Fine‑tune‑CoT方法是一种从非常大的教师模型生成推理样本以微调较小模型的方法,在小模型中实现了很好的推理能力,但其仍存在很多不足。本文主要是在Fine‑tune‑CoT方法的基础上提高教师模型生成推理数据的质量以及提升学生模型的推理能力,首先对问题进行聚类采样,选出最有代表性的问题,然后对选出的问题用思维链提示生成推理过程和答案,最后将生成好的样本输入教师模型中用few‑shot‑cot方式生成对问题的推理过程和答案,以达到提高教师模型生成数据质量的目的,本文将改进后的方法命名为New‑Fine‑tune‑CoT。总体技术路线如

图3 New‑Fine‑tune‑CoT技术路线图
Fig.3 New‑Fine‑tune‑CoT technology roadmap
Fine‑tune‑CoT方法教师模型生成的推理及答案,存在数据量小以及错误率高的问题。为了解决这个问题,现决定更改教师模型生成数据的方式,以few‑shot‑cot方式从教师模型生成关于问题的更高质量数据,去微调学生模型,从而实现对学生模型推理能力的提升,更好地进行大模型的知识蒸馏,本文将该方法命名为New‑Fine‑tune‑Cot。要更改教师模型的数据生成方式,首先需对问题库进行聚类,然后再从聚类好的问题中进行采样,采样出每一类最具代表性的问题或相同类别的问题,作为后续教师模型生成思维链推理过程的样例。
教师模型的生成数据过程分为两步:在第一步中,对问题集中的问题进行聚类采样。这一步骤的目的是识别并选择具有代表性的示例,以便大模型能够基于这些示例生成高质量的推理数据。聚类采样确保了所选示例能够涵盖问题集中的各种特征和复杂性,从而为大模型的zero‑shot‑cot生成提供丰富的上下文信息;在第二步中,使用生成的示例数据对大模型进行few‑shot‑cot提示。这一步骤的关键在于利用少量的示例数据来引导大模型生成问题集中所有问题的推理数据,通过少量的示例数据,模型能够快速适应并生成新的推理数据,从而大大提高了生成效率。
以上措施可以提高教师模型生成的推理数据质量,更好地指导小模型进行复杂问题的推理,教师模型本文使用gpt‑3.5‑turbo‑instruct,生成推理数据的过程如

图4 教师模型生成推理数据过程图
Fig.4 Flowchart of the teacher model’s reasoning data generation process
本文对给定的问题集Q进行聚类分析。首先通过 Sentence‑BERT计算Q中的每个问题的向量表
算法1 问题的聚类采样
(1) procedure
聚类(Q,k)
Input: 一个问题集Q和示例数k,一个空示例列表d
Output: 将每一个聚类i(i=1,2,…,k)中的问题排序为q(i)=[q1(i),q2(i),…],得到一个示例列表d=[d(1),d(2),…,d(k)]
(2) for 问题q in Q do ⇨文本编码
(3) 用Sentence‑BERT对q编码
(4) end for
(5) 将所有编码好的问题聚类为k个簇
(6) for 聚类簇i=1,2,…,k
do ⇨聚类排序
(7) 将聚类 i (i=1,2,…,k)中的问题按照距离聚类中心的远近排序为q(i)=[q1(i),q2(i),…]
(8) for
qj(i) in q(i) do ⇨采样示例
(9) 从聚类中心开始查找符合条件的样本作为示例d(i)
(10) 将示例d(i) 加入列表d中
(11) break
(12) return d
(13) end procedure
当教师模型使用采样的示例进行few‑shot‑cot提示生成推理数据时,示例的答案正确与否会产生很大影响,因此需要确保示例答案的正确,从而提高生成的问题推理链的质量。因之前的实验过程中,在教师模型第一步生成示例推理过程时,模型对数据集先采样再生成答案,因此无法确定第二步生成时示例答案的正确性。本实验采取了一种优化的方法,即将聚类过程置于初始阶段之后进行。具体而言,首先指导教师模型生成针对所有提问的推理链数据。待这一步骤完成后,再对提出的问题进行聚类抽样。得益于预先生成的答案,此流程允许引入一个额外的判断环节,即只挑选那些答案准确的问题推理链作为样本。通过这种筛选机制,在后续的第二步中,当使用这些抽样示例来指导大型模型对问题集中的各个问题生成推理链时,所得到的数据的准确性将得到显著提升。修改后的生成过程如

图5 增加示例纠错之后的生成过程
Fig.5 Generation process after adding example correction
由于教师模型采用GPT‑3.5模型,其推理过程依赖于OpenAI的API调用,这无疑增加了实验的成本考量。在传统的Fine‑tune‑Cot方法中,教师模型的推理过程分为两步:首先,通过API输入问题生成推理链;其次,再次调用API,将问题和推理作为输入,生成答案。
然而,在本实验中,发现通过示例提示大模型生成推理链时,示例的形式为{问题,推理,答案}的字典。GPT‑3.5的强大学习能力使得在生成推理链的过程中,推理链中往往已经包含了答案。鉴于此,不必再进行第二次API的调用,而是直接从推理链中提取答案。
为了优化这一流程,增加了一步判断过程:首先,检查推理链中是否包含答案。如果包含,则直接提取答案;如果不包含,则再次调用API,将问题和推理输入教师模型中,以生成答案。
由于大部分情况下推理链中已经包含了答案,因此本实验只需调用一次API即可生成完整的推理链和答案。这一改进不仅将实验的成本降低了一半,还提高了生成数据的正确性。通过这种方法,能够更加高效地利用GPT‑3.5的强大学习能力,生成高质量且成本效益高的推理数据,为后续学生模型的训练提供了有力支持。答案自适应生成的过程如

图6 答案自适应生成流程图
Fig.6 Flowchart of adaptive answer generation
为了深入探讨和优化Fine‑tune‑CoT方法,本文对其进行了全面的对比实验和进一步的改进。首先针对教师模型的推理生成方法进行了革新,以期提高其性能。然后通过对改进前后的效果进行细致比较,得以评估这些变更的有效性。
在第一部分实验中,选取了AddSu
在第二部分实验中,扩大了实验范围,选择了SingleE
在涉及3类复杂推理的8个数据集上评估了本文的方法,包括算数、符号和其他逻辑推理任务,关于这些数据集的简介如下。
对于算法推理,考虑以下4个数据集:(1)SingleEq,(2)AddSub,(3)MultiArith,(4)SVAMP。前3个来自经典的数学世界问题
对于符号推理,使用如下两个数据集:Last Letter concatation要求模型连接每个单词的最后一个字母,本文为每个样本随机选择了4个名字。Coin Flip让模型回答在人们抛硬币或不抛硬币后,硬币是否仍然是正面朝上的,本文创建了4次翻转或不翻转试验的样本。尽管这些任务对人类来说很容易,但LMs通常表现出平坦的缩放曲线。
对于其他逻辑推理任务,从BIG‑benc
训练集与测试集的划分。本文实验需要将样本划分为训练子集与测试子集,如果数据集原本提供了训练和测试的子集,就使用数据集原本提供的,否则以7∶3的比例随机划分训练集和测试集。这部分信息如
数据集 | 训练样本/个 | 测试样本/个 | 数据划分 | 参考文献 |
---|---|---|---|---|
SingleEq | 356 | 152 | 70∶30 |
[ |
AddSub | 276 | 119 | 70∶30 |
[ |
MultiArith | 420 | 180 | 70∶30 |
[ |
SVAMP | 700 | 300 | 70∶30 |
[ |
Date Understanding | 258 | 111 | 70∶30 |
[ |
Tracking Shuffled Objects | 525 | 225 | 70∶30 |
[ |
Last Letter Concatenation | 350 | 150 | 70∶30 |
[ |
Coin Flip | 350 | 150 | 70∶30 |
[ |
模型和API 本文使用InstructGP
模型 | 参数量 | 角色 | 种类/名称 |
---|---|---|---|
InstructGPT | 175 B | 教师 | gpt‑3.5‑turbo‑instruct |
T5 T5 |
60 M 220 M |
学生 学生 |
Small Base |
Flan‑T5 Flan‑T5 |
60 M 220 M |
学生 学生 |
Small Base |
GPT‑2 GPT‑2 |
125 M 255 M |
学生 学生 |
Small Medium |
在第一部分实验中,实验数据集是AddSu
紧接着在教师模型的生成过程中增加示例的启发式纠错和答案的自适应生成两个改进,考查教师模型生成数据的质量,最后将教师模型生成的数据用来微调学生模型,对比效果,本文将此次更改后的方法称为第二次更改后的方法,实验结果分别如
方法 | 教师模型 | GPT2 | GPT2‑Medium |
---|---|---|---|
Fine‑tune‑CoT | 76.71 | 4.2 |
5.8 |
第一次更改后的方法 | 83.54 | 6.7 | 9.24 |
第二次更改后的方法 | 91.13 | 8.4 | 10.1 |
注:
方法 | 教师模型 | GPT2 | GPT2‑Medium |
---|---|---|---|
Fine‑tune‑CoT | 67.58 | 17.12 |
20. |
第一次更改后的方法 | 76.35 | 19.8 | 22.5 |
第二次更改后的方法 | 78.68 | 23.4 | 26.1 |
在这部分实验中,本文采取了一种针对每个问题生成一个推理结果的策略。通过这一策略,不仅验证了各个方法的独立有效性,还展现了它们之间的协同效应。具体而言,经过两次对教师模型的更改,在数据集AddSub上的准确率实现了显著提升,从76.71%提升至83.54%,再进一步提升至91.13%。同样,在数据集Date Understanding上,准确率也从67.58%提升至76.35%,并最终达到78.68%。这些结果清楚地表明,本文方法能够有效地提升模型的推理能力,从而为复杂问题的解决提供了坚实的支持。
此外,这些改进在学生模型上(本实验中选择了GPT2和GPT2‑Medium两个学生模型)也取得了显著成效。学生模型的性能得到了大幅提升,进一步验证了本文方法的有效性。
本文将两次更改后的方法称为New‑Fine‑tune‑CoT,在第二部分实验中将实验对象扩大到SingleEQ、AddSub、MultiArith、SVAMP、Last Letter Concatenation、Coin Flip、Date Understanding、Tracking Shuffled Objects八个数据集上,并在生成推理结果时增加了Fine‑tune‑CoT方法中的多样性推理(Diverse reasoning)策略,用以增加学生模型的训练数据。实验结果如
方法 | 参数量 | 准确率/% | |||||||
---|---|---|---|---|---|---|---|---|---|
Single EQ | Add Sub | Multi Arith | SVAMP | Date Understanding | Tracking Shuffled Objects | Last Letter Concatenation | Coin Flip | ||
Teacher: InstructGPT 175B (GPT‑3.5‑turbo‑instruct) | |||||||||
Fine‑tune‑CoT | 175 B | 81.50 | 76.71 | 78.79 | 64.20 | 67.58 | 53.20 | 57.71 | 90.04 |
New‑Fine‑tine‑CoT | 175 B | 91.33 | 91.13 | 98.09 | 79.28 | 78.68 | 63.04 | 82.00 | 100 |
Student: T5‑{Small, Base} | |||||||||
Fine‑tune‑cot |
60 M 220 M |
2.63 4.61 |
5.04 7.56 |
5.56 10.56 |
9.33 7.00 |
77.48 80.18 |
40.00 42.67 |
29.33 47.33 |
100 98.67 |
New‑Fine‑tine‑CoT |
60 M 220 M |
3.95 5.26 |
7.56 10.10 |
8.33 12.20 |
7.67 8.67 |
78.40 79.30 |
52.00 59.60 |
44.70 60.00 |
100 100 |
Fine‑tune‑CoT (diverse) |
60 M 220 M |
5.26 5.26 |
7.56 10.10 | - | - |
81.08 82.88 |
59.11 65.33 |
46.67 60.67 |
100 100 |
New‑Fine‑tine‑CoT(diverse) |
60 M 220 M |
5.92 5.92 |
10.10 13.40 |
78.40 82.90 |
69.80 75.10 |
46.70 62.70 |
100 100 | ||
Student: Flan‑T5‑{Small, Base} | |||||||||
Fine‑tune‑CoT |
60 M 220 M |
6.58 4.61 |
5.88 9.24 |
8.33 12.22 |
5.67 6.00 |
80.18 83.78 |
36.00 48.89 |
35.33 50.00 |
100 100 |
New‑Fine‑tine‑CoT |
60 M 220 M |
7.89 8.55 |
9.24 11.80 |
16.10 19.40 |
8.67 14.00 |
76.60 79.30 |
61.80 66.70 |
46.70 65.30 |
100 100 |
Fine‑tune‑CoT (diverse) |
60 M 220 M |
7.24 9.21 |
10.92 10.92 |
84.68 84.68 |
62.22 67.11 |
46.00 56.67 |
100 100 | ||
New‑Fine‑tine‑CoT(diverse) |
60 M 220 M |
7.24 10.50 |
10.90 11.80 |
78.40 81.10 |
71.10 72.90 |
50.00 70.00 |
100 100 | ||
Student: GPT‑2{Small, Medium} | |||||||||
Fine‑tune‑CoT |
124 M 355 M |
4.61 3.29 |
4.22 5.88 |
10.00 7.22 |
5.67 7.33 |
17.12 20.7 |
38.67 35.56 |
4.67 10.67 |
88.0 80.0 |
New‑Fine‑tine‑CoT |
124 M 355 M |
6.58 7.24 |
8.40 10.10 |
11.10 17.80 |
10.70 9.00 |
23.40 26.10 |
56.00 66.20 |
16.00 14.00 |
92.0 88.0 |
Fine‑tune‑CoT (diverse) |
124 M 355 M |
7.24 5.92 |
9.24 9.24 |
21.62 20.72 |
57.33 56.00 |
10.67 20.00 |
86. 93. | ||
New‑Fine‑tine‑CoT(diverse) |
124 M 355 M |
7.89 8.55 |
10.10 14.30 |
21.60 25.20 |
72.00 72.90 |
17.30 28.00 |
92.0 93.3 |
注:
多样性推理即为:在Fine‑tune‑CoT方法中,采纳一种直观的教学策略,最大化教学效果,为每个问题生成多个推理解释,从而通过多个推理路径来解决复杂问
思维链作为大型模型涌现能力的主要来源,自提出之日起就备受关注。然而,基于思维链的大型模型知识蒸馏的研究却鲜有人涉足。这一现象的根本原因在于人们普遍认为逻辑推理能力只能由百亿级别参数量的大型模型拥有。然而,本文的研究却颠覆了这一观念,证明了即使是规模较小的模型也能通过知识蒸馏的方法获得出色的逻辑推理能力。这一发现不仅拓展了人们对于模型规模与能力关系的认识,更为未来的研究指明了方向。本文的成果为自然语言模型的轻量级部署提供了崭新的解决方案,为构建更加智能和高效的人工智能系统铺平了道路。
但该方向目前仍存在许多问题,因此本文展望未来可研究的方向,以进一步加强现在的工作。
(1)教师模型的选择。在进行本实验时OpenAI将所有的补全节点都弃用了只保留了一个gpt‑3.5‑turbo‑instruct模型,为了和Fine‑tune‑CoT方法进行对比,本文只能选择这个模型,但是未来工作可以选择其他或许性能更好的大模型,以进一步提高教师模型生成数据的质量。
(2)生成数据的提升。本实验通过一系列改进大大提高了教师模型生成数据的质量和数量,但依然存在不足,其中最明显的问题就是进行多样化生成时,教师模型对于同一个问题生成多个答案的相似性过高,这影响了对学生模型的训练,虽然生成数据的数量增加很多,但是对于学生模型的训练提升并没有达到相应的效果,这是未来一个重要的研究方向。
(3)学生模型的改进。目前本文的一切工作都是针对教师模型进行的,主要是提升教师模型生成数据的数量和质量,从而为学生模型提供更多更好的训练数据,但是如何提高学生模型本身的推理能力是一个值得思考的方向。这是未来工作的要点。
本文介绍了一种基于思维链的大模型知识蒸馏方法,在前人工作的基础上,通过改进教师模型生成数据的方法,在不改变模型的前提下,实现了性能的大幅度提升。以Fine‑tune‑CoT为基线,采用更改教师模型生成数据的方式,以及增加示例的启发式纠错和答案的自适应生成两步改进,大大提高了教师模型生成数据的质量和数量,从而有效提高了学生模型的思维链推理能力。在多个数据集上进行实验,都取得了很好的效果,这有力地证明了本方法效果的普遍性,同时证明通过知识蒸馏的方法引导小模型进行思维推理是可行的。
参考文献
夏润泽,李丕绩.ChatGPT大模型技术发展与应用[J].数据采集与处理,2023,38(5): 1017‑1034. [百度学术]
XIA Runze,LI Piji.Large language model ChatGPT: Evolution and application[J]. Journal of Data Acquisition and Processing,2023,38(5): 1017‑1034. [百度学术]
Wei Jason, Wang Xuezhi, Schuurmans D, et al.Chain of thought prompting elicits reasoning in large language models[C]//Proceedings of thirty‑sixth Conference on Neural Information Processing Systems (NeurIPS 2022).[S.l.]:[s.n.], 2022: 11903. [百度学术]
WANG X, WEI J, SCHUURMANS D, et al. Self-consistency improves chain of thought reasoning in language models [EB/OL].(2022). https://arxiv.org/abs/2203.11171. [百度学术]
Kojima T, Gu S S, Reid M, et al. Large language models are zero‑shot reasoners[J]. Advances in Neural Information Processing Systems, 2022, 35: 22199‑22213. [百度学术]
ZHOU D, SCHÄRLI N, HOU L, et al. Least-to-most prompting enables complex reasoning in large language models [EB/OL].(2022). https://arxiv.org/abs/2205.10625. [百度学术]
Li Yifei, Lin Zeqi, Zhang Shizhuo,et al. On the advance of making language models better reasoners [EB/OL].(2022). https://arxiv.org/abs/2206.02336. [百度学术]
ZHANG Z, ZHANG A, LI M, et al. Automatic chain of thought prompting in large language models [EB/OL].(2022). https://arxiv.org/abs/2210.03493. [百度学术]
Ho Namgyu, Schmid Laura, Yun Se Young. Large language models are reasoning teachers[C]//Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics(Volume 1: Long Papers).Toronto: Association for Computational Linguistics, 2023 : 14852‑14882. [百度学术]
Stanton S, Izmailov P, Kirichenko P, et al. Does knowledge distillation really work[J]. Advances in Neural Information Processing Systems, 2021, 34: 6906‑6919. [百度学术]
Ojha U, Li Y, S Rajan A S, et al. What knowledge gets distilled in knowledge distillation[J]. Advances in Neural Information Processing Systems, 2024, 36: 1‑12. [百度学术]
Wang L, Yoon K J. Knowledge distillation and student‑teacher learning for visual intelligence: A review and new outlooks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44(6): 3048‑3068. [百度学术]
Xu X, Li M, Tao C, et al. A survey on knowledge distillation of large language models [EB/OL].(2024). https://arxiv.org/abs/2402.13116. [百度学术]
Gou J, Yu B, Maybank S J, et al. Knowledge distillation: A survey[J]. International Journal of Computer Vision, 2021, 129: 1789‑1819. [百度学术]
Pham Q T, Pham T T, Nguyen T Q. Knowledge distillation: A comprehensive review and new perspectives[J]. ACM Computing Surveys, 2020, 53(6): 1‑37. [百度学术]
REIMERS N , GUREVYCH I. Sentence‑BERT: Sentence embeddings using siamese BERT‑networks[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP‑IJCNLP).Hong Kong, China:Association for Computational Linguistics, 2019: 3982‑3992. [百度学术]
HOSSEINI M J, Hajishirzi H, Etzioni O, et al . Learning to solve arithmetic word problems with verb categorization[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP). Doha:Association for Computational Linguistics, 2014: 523‑533. [百度学术]
SRIVASTAVA A, RASTOGI A, RAO A, et al. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models[EB/OL].(2022).https://arxiv.org/abs/2206.04615. [百度学术]
Koncel‑Kedziorski R, Hajishirzi H, Sabharwal A, et al. Parsing algebraic word problems into equations[J].Transactions of the Association for Computational Linguistics, 2015,3: 585‑597. [百度学术]
ROY S, ROTH D. Solving general arithmetic word problems[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon: Association for Computational Linguistics, 2015: 1743‑1752. [百度学术]
Patel A, Bhattamishra S, Goyal N. Are NLP models really able to solve simple math word problems?[C]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S.l.]: Association for Computational Linguistics, 2021: 2080‑2094. [百度学术]
Evans J S BT . Intuition and reasoning:A dual‑process perspective[J]. Psychological Inquiry, 2010, 21(4): 313‑326. [百度学术]
KONCEL-KEDZIORSKI R, ROY S, AMINI A, et al. MAWPS: A math word problem repository[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016, 10: 1152-1157. [百度学术]
Srivastava A, Rastogi A, Rao A, et al. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models [EB/OL]. (2022). https://arxiv.org/abs/ 2206.04615. [百度学术]
OUYANG L, WU J, JIANG X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744. [百度学术]
HUANG J, GU S S, HOU L, et al. Large language models can self-improve[EB/OL]. (2022). https://arxiv.org/abs/ 2210.11610. [百度学术]
LI S, CHEN J, SHEN Y, et al. Explanations from large language models make small reasoners better [EB/OL]. (2022). https://arxiv.org/abs/ 2210.06726. [百度学术]