CDF-RAG: Causal Dynamic Feedback for Adaptive Retrieval-Augmented Generation

只挂了arxiv,粗看,了解一下各模块的实现方式。

1.Motivation

现有的RAG框架主要是静态检索,且依赖于语义相似性和关联性,这些方法优先考虑主题相关的文档,而并非提供解释或因果关系的文档。这导致响应结果是基于事实的,但是没能理解因果关系。

此外,基于大规模观察语料库训练的语言模型倾向于建模共现模式而非因果依赖,这使得它们容易将相关性与因果关系混淆——尤其是在存在不完整或模糊证据的情况下。这些局限性在多跳检索中尤为明显。

另外,用户的提问可能是模糊的,现有机制缺乏动态适应和因果机制。

2.Contributions

本文提出了CDFRAG框架,将强化学习查询优化、多跳因果图检索和基于对齐的幻觉检测整合到一个推理循环中。

证明了基于强化学习的查询重写显著提升了多跳因果推理和检索质量,优于先前的细化方法。

本方法在四个数据集中均sota,在因果正确性、一致性和可解释性方面均有所改进。

3.Method

1.构建因果知识图谱

使用UniCausal提取因果对(Causal,Effect)。经过GPT4验证后,编码为(C,E,Relation)并存入有向图G。

2.根据强化学习进行查询重写

给定用户初始查询q,重写q的过程是一个马尔可夫决策过程(MDP),有三种操作:

  1. 扩展:添加相关的因果因素
  2. 简化:去除多余的细节
  3. 分解:复杂查询拆解为子查询

策略通过SFT微调生成,然后使用PPO优化。

  1. 监督微调(Supervised Fine-Tuning, SFT)
  • 目的:用标注的示范数据(如人工修正的样本)初始化策略 $$\pi_\theta(a|s)$$,使其初步具备期望的行为模式。
  • 方法:通过最大化对数似然来微调模型参数,损失函数为: $$L_{\text{SFT}} = -\sum_{t=1}^{T} \log P_\phi(y_t \mid y_{
  • $$y_t$$ 是时间步 $$t$$ 的正确动作(或词元)。
  • $$y_{
  • $$x$$ 是输入状态(如提示或环境状态)。
  • 核心是让模型输出的概率分布贴近人工标注的数据。
  1. 近端策略优化(Proximal Policy Optimization, PPO)
  • 目的:在SFT的基础上,通过与环境交互进一步优化策略,平衡探索与利用,同时避免训练不稳定。
  • 损失函数: $$L_{\text{PPO}}(\theta) = \mathbb{E}_t \left[ \min\left( \text{比率项} \cdot A_t, \text{截断后的比率项} \cdot A_t \right) \right]$$
    • 比率项:新策略与旧策略的概率比
    • $$\frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(at|st)}$$,衡量策略变化程度。
    • 优势函数 $$A_t$$:评估动作 $$a$$ 在状态 $$s$$ 下比平均表现好多少(由评论家模型或蒙特卡洛估计)。
    • 截断机制:限制比率项在 $$[1-\epsilon, 1+\epsilon]$$ 之间,防止单步更新过大,确保训练稳定。

3.语义+因果双路径检索

使用MiniLM对优化后的查询进行编码,在向量数据库进行相似性搜索。(整句话编码的稠密检索)

遍历因果图,沿有向边获取因果信息。

4.检查输出

对回答计算一个因果一致性分数,如果小于阈值,则在更严格的条件下重新生成回答

5.幻觉检测和修正

回答和提取出的知识计算幻觉分数,超过阈值则以更严格条件重写

4.Experiments

1.评估任务

  • CosmosQA、MedQA评估常识性和领域特定的因果推理

  • MedMCQA、AdversrialQA评估多跳和跨文档推理

2.基线

  • 标准RAG方法

    • 传统RAG,使用BM25

    • SmartRAG

    • CausalRAG

  • 查询重写方法

    • GymRAG
    • RQRAG
  • 图增强模型

    • Causal-First Graph RAG
  • 使用GPT-4、LLaMA 3-8B、Mistral和Flan-T5大模型

3.评估方法

  • 传统指标:acc、pre、recall、F1
  • Context Relevance上下文相关性,通过BRET嵌入后的余弦相似度来量化查询和检索的语义一致性。
  • 因果检索覆盖率(CRC)。CRC反映了系统优先考虑因果证据而非松散关联或语义相关的其他内容的能力。
  • Groundness,评估生成的答案是否明确得到检索内容的支持。

多个模块拼在一起的模型,基础模块的处理方法可以学习