文章提出了一种名为
G-RAG
的方法,通过结合文档图和抽象意义表示(AMR)图来优化检索增强生成(RAG)系统中大型语言模型的回答质量,特别是在处理信息不全或上下文关联度较低的文档时。该方法旨在改善现有重排序
技术对文档间
连接利用不足的问题,从而减少过拟合并降低计算资源消耗,从而提高RAG系统的性能。
点关注不迷路
研究主要方法
1.文档图的构建
-
对每个 问题-文档对
,将问题和文档文本拼接后使用 AMR BART 解析生成AMR图。 -
基于这些 AMR图 构建无向文档图,其中 节点
表示文档
,边
表示文档之间的共同概念
。 -
通过消息传递机制更新边特征。
2.节点特征的生成
-
使用预训练语言模型对所有检索到的文档进行编码,得到初始节点表示。 -
通过识别从“question”节点到其他节点的最短单源路径(SSSP),提取路径上的节点概念,构建AMR信息序列,并将其与文档文本拼接后再次编码,得到最终的节点特征。
3.边特征的生成
-
计算文档之间的 共同节点数
和共同边数
,作为边的特征,并进行归一化处理。
4.图神经网络的表示更新
-
基于初始节点和边特征,使用图神经网络进行多轮迭代更新,通过 聚合邻居节点
的特征来更新每个节点的表示。
5.重排序得分和训练损失
-
使用 余弦相似度计算
每个文档的重排序得分,并使用交叉熵损失函数
和成对排名损失函数
进行训练。成对排名损失函数能够更好地处理排名分数的平局情况
。
涉及公式
-
文档嵌入公式: ,其中, 表示与文档 相关的AMR信息。 -
节点表示更新公式: ,其中,是特征计算函数, 是数据聚合操作, 是节点表示更新函数。 -
成对排名损失函数: ,其中, 表示文档的排序关系。
实验相关
1.数据集
-
使用 自然问题(NQ)
和TriviaQA
数据集进行实验。NQ数据集包含来自Google搜索查询的文本块,而TQA数据集包含来自 trivia和 quiz-league网站的问答对。
2.模型细节
-
使用DPR进行文档检索,生成100个文档,并使用AMRBART解析每个 问题-文档对
生成AMR图。 -
采用 2层
图卷积网络(GCN)作为GNN模型,隐藏维度
从{8, 64, 128}中选择,dropout率
从{0.1, 0.2, 0.4}中选择,学习率
从{5e-5, 1e-4, 5e-4}中选择。 -
AdamW 优化器
,学习率5e-5至1e-4,批量大小5,总训练步数50k,每10k步评估一次。
3.评估指标
-
使用平均倒数排名(MRR)、平均命中率@10(MHits@10)及其变体(MTRR和TMHits@10)评估重排序性能。
结果与分析
1.重排序性能
-
G-RAG方法在NQ和TQA数据集上的MRR和MHits@10指标上均 优于
现有方法。 -
在NQ数据集上,G-RAG的 MRR
达到了27.3,而BART的MRR为25.7;在TQA数据集上,G-RAG的MHits@10
达到了42.9,而BART的MHits@10为38.5。
2.PaLM 2评估
-
使用PaLM 2作为重排序器时,发现其在重排序任务中的 表现不如G-RAG
。这可能是由于PaLM 2生成的相关性得分中存在大量平局,导致排名效果不佳。 -
使用提出的 MTRR 和 TMHits@10 指标进行评估,结果显示G-RAG方法 显著提高
了重排性能。
3.不同嵌入模型的比较
-
在相同设置下,Ember模型表现最佳,尤其是在引入超参数调优后,其MRR达到了28.9。其次是GTE和BGE,而BART-GST和BERT表现略低。
总结
论文提出的G-RAG方法通过利用文档之间
的连接关系和AMR信息,显著提高了RAG系统在ODQA任务
中的性能。该方法不仅提高了文档的识别精度,还提出了新的评估指标来公平地评估各种排名场景。此外,研究还表明,即使在LLM时代,重排器模型
设计在RAG中仍然具有重要意义。未来的研究方向包括设计更复杂的模型以更好地处理AMR信息,并将这些信息整合到节点和边特征中,以及微调预训练LLM以提高RAG系统的性能
。
论文读后感
优点与创新
-
提出了一种 基于文档图的重新排序器G-RAG
:该方法利用文档之间的连接信息来提高RAG的性能,特别是在文档与问题上下文连接较弱的 情况下。 -
引入了 新的评估指标
:为了更公平地评估各种排名场景,包括得分相同的排名情况,提出了Mean Tied Reciprocal Ranking(MTRR)和Tied Mean Hits@10(TMHit@10)两个新指标。 -
评估了PaLM 2作为重新排序器的性能:发现即使使用最先进的预训练大型语言模型,重新排序器模型设计在RAG中的重要性也不容忽视。 -
高效的计算资源使用 :G-RAG在保持较小计算足迹的同时,优于现有的最先进方法。 -
利用AMR图的关键信息:通过识别有助于重新排序器识别更相关文档的关键因素,而不是将所有AMR相关的标记都添加为节点级特征,从而提高了性能并避免了过拟合。
不足与反思
-
未来研究方向:尽管G-RAG在大多数情况下表现出色,但仍有进一步改进的空间。例如,设计更复杂的模型 以更好地处理AMR信息,并将其整合到节点和边特征中,可能会带来进一步的改进。 -
微调大型语言模型:尽管预训练的大型语言模型本身在重新排序任务中表现不佳,但对其进行微调可能会显著提 高RAG系统的性能。 -
解决排名得分的平局问题:目前正在研究更先进的技术,以更有效地解决大型语言模型生成的排名得分中的平局问题。
关键QA
-
问题1:G-RAG模型在处理文档连接关系方面有哪些创新之处?
-
文档图的构建:G-RAG利用AMR图的信息为检索到的文档构建文档图。每个节点代表一个文档,每条边表示两个文档之间有共同的概念。通过消息传递机制更新边特征,从而捕捉文档之间的连接关系。
-
路径识别和节点概念提取:在生成节点特征时,G-RAG不仅使用文档文本,还结合了AMR信息。具体步骤包括路径识别(确定从“问题”节点出发的最短单源路径)和节点概念提取(从这些路径中提取节点概念),从而更全面地理解文档的语义信息。
-
边特征的利用:除了节点特征外,G-RAG还充分利用AMR图中无向边的特征,如共同节点数和共同边数。这些特征有助于捕捉文档之间的相似性和关联性。
-
问题2:G-RAG模型在处理冗余AMR信息方面采取了哪些措施?
-
路径识别和节点概念提取:通过路径识别和节点概念提取,G-RAG仅选择与文档最相关的AMR信息。具体来说,G-RAG从AMR图中提取最短单源路径上的节点概念,而不是将所有AMR信息都纳入节点特征中。
-
特征归一化:在计算边特征时,G-RAG对特征进行了归一化处理,以避免在图卷积操作中输出节点特征的规模过大。这种归一化处理有助于减少冗余信息的干扰。
-
节点表示更新:在图神经网络的节点表示更新中,G-RAG通过聚合邻居节点的特征来更新当前节点的表示,从而确保更新的特征中不包含冗余的AMR信息。
-
问题3:G-RAG模型在评估重排器性能方面提出了哪些新的度量指标?
-
Mean Tied Reciprocal Ranking (MTRR):为了更公平地评估重排器的性能,特别是当存在排名平局时,G-RAG提出了MTRR指标。MTRR通过平均乐观排名和悲观排名来计算MRR,从而减少平局对评估结果的影响。
-
Tied Mean Hits@10 (TMHit@10):同样,针对排名平局的情况,G-RAG提出了TMHit@10指标。TMHit@10通过将命中数除以平局数来计算Top-10排名的命中率,从而更准确地评估重排器在平局情况下的性能。这些新的度量指标使得G-RAG能够更全面地评估重排器在各种排名场景下的表现,包括存在平局的情况。
引用
-
https://arxiv.org/pdf/2405.18414
关于我
点关注不迷路
往期推荐
原文始发于微信公众号(老贾探AI):G-RAG重排: 基于图神经网络的多文档重排方法来提升RAG性能