RAG准确率提升10.6%,多项基准拿下新SOTA!
ACL 2025最新研究提出Lexical Diversity-aware RAG(DRAG)框架,首次系统性地将词汇多样性引入RAG的检索与生成过程,提供了一个轻量、通用且易扩展的解决方案。
在多项基准任务中,该方法带来了显著性能提升,尤其在HotpotQA上刷新了当前最优结果。

在大语言模型的浪潮下,Retrieval-Augmented Generation(RAG)已经成为提升模型事实性和时效性的重要手段。然而,现有方法普遍忽视了一个看似细微却极为关键的问题——词汇多样性(lexical diversity)。
同一个问题,不同的表达方式,往往让检索模型“晕头转向”,最终导致错误答案。
由此,来自北航、北大、中关村实验室的研究团队提出了这项最新工作,他们首次将“词汇多样性”引入检索增强生成的相关性评估过程,并通过新颖的风险稀疏校准机制解决了生成阶段被无关信息干扰的问题。
团队认为,该方法对信息检索、问答系统、专业领域大模型应用都具有重要价值。未来,他们计划进一步拓展该方法到更多专业场景,让大模型不仅能“读懂”,更能“理解”复杂的人类语言表达。
词汇多样性:RAG的隐形痛点
研究团队指出,现有RAG方法大多通过“单一标准”判断检索文档是否相关,但现实情况要复杂得多。如图所示,以问题“What is Hattie McDaniel’s occupation?”为例,其中的语义成分表现出不同程度“词汇多样性”:
- 不变词(Invariant):人名“Hattie McDaniel”一般不会变形;
- 可变词(Variant):词语“occupation”可以对应“profession”“actress”甚至“Academy Award”;
- 补充信息(Supplementary):答案可能依赖“American celebrity”等扩展语境。

这种词汇多样性往往导致模型错误地将部分相似但无关的文档判为相关,或者忽略了真正有用的信息。
两大关键创新
为解决“词汇多样性”带来的挑战,研究团队提出了该框架,核心在于两个互补模块:
1、Diversity-sensitive Relevance Analyzer(DRA)
传统检索相关性评估往往“一刀切”,把整体查询和检索文档进行比较。该方法则进一步拆解查询语义,针对不同成分采用差异化策略:
- 不变成分:如人名、地名等必须精确匹配的关键词,该方法强调其检索文档应与该成分严格匹配;
- 可变成分:如“occupation”—“profession”,DRA借助LLM的语义扩展和分析能力,在检索时允许一定语义灵活性;
- 补充成分:如“American celebrity”,该方法通过检索需求的明确程度来判断是否需要真正提供有用的补充证据。
在此基础上,该方法通过该模块对相似度检索结果进行重排序,输出一个更细粒度、多维度的相关性评分,避免检索时存在的“假阳性”和“假阴性”的常见问题。