RAG 数据集及评价标准

1.使用LLM生成问题及答案 2.使用标注数据集 1.LightRAG 数据集 使用MemoRAG提出的Benchmark。 在UltraDomain里,包含多个领域的数据,每个数据包括多本书。以cs为例,共含有100本书和100个对应的问题。该领域专注于计算机科学,涵盖数据科学和软件工程的关键领域。它特别强调机器学习和大数据处理,内容涉及推荐系统、分类算法以及使用Spark进行实时分析。: { input: How does Spark Streaming enable real-time data processing? answers: ['Spark Streaming extends ...... '] context: "Whole Book......" length: 131651 context_id: 7bcef8714a477fd61fc8fb0d499b2cc3 _id: b2fd8d9c6d1499d521d778ce3d6d06fa label: cs meta: {'title': 'Machine Learning With Spark', 'authors': 'Nick Pentreath'} } 数据集地址:TommyChien/UltraDomain · Datasets at Hugging Face 问题生成 生成问题的方法来自于From Local to Global: A Graph RAG Approach to Query-Focused Summarization 提供文本,让大模型生成K个使用该数据集的用户身份(比如数据集是财经新闻,user就可能是收集金融市场趋势的财经记者),对于每个用户再生成N个任务,每个用户-任务提出M个高层次问题(理解整个数据集、无需提取具体事实) User: A tech journalist looking for insights and trends in the tech industry Task: Understanding how tech leaders view the role of policy and regulation Questions: 1. Which episodes deal primarily with tech policy and government regulation? 2. How do guests perceive the impact of privacy laws on technology development? 3. Do any guests discuss the balance between innovation and ethical considerations? 4. What are the suggested changes to current policies mentioned by the guests? 5. Are collaborations between tech companies and governments discussed and how? 评价标准 不使用黄金标准答案,使用LLM评价。包括 ...

May 4, 2025

Inference Scaling for Long-Context Retrieval Augmented Generation

ICLR2025,来自Google DeepMind团队的工作 https://arxiv.org/abs/2410.04343v2 0.目标 先前对于RAG推理扩展的研究主要集中于提供更多的知识,但只增加知识的数量是不够的。当前的LLM在处理长上下文时仍存在挑战。比如,在超长序列中定位有效信息的能力有限、最佳性能往往是在没有充分利用上下文的情况下实现的、超过一定阈值(文档数量)的检索会使性能停滞甚至下降。 目标是找到上下文长度与最优配置之间的关系,能够预测最佳推理参数,最大限度提高RAG性能。其中DRAG的参数为检索到的文档数量和示例数量。IterDRAG的参数为生成次数。 1.贡献 提出两种RAG方法:DRAG(基于演示的RAG,为LLM提供多个RAG示例)和IterDRAG(基于迭代演示的RAG,将输入查询分解为更简单的子查询,迭代检索)。并证明了这两种方法优于仅提供知识的RAG。 得到了RAG的推理缩放定律:在最佳配置下,RAG性能随有效上下文长度线性变化。 根据定律对RAG性能与不同推理参数建模,推导出计算分配模型,为长上下文RAG的优化提供了指导。 2.相关工作 2.1长上下文LLMs 早期采用稀疏/低秩核来减少内存需求。 I. Beltagy, M. E. Peters, and A. Cohan. Longformer: The long-document transformer. arXiv preprint arXiv:2004.05150, 2020. K. Choromanski, V. Likhosherstov, D. Dohan, X. Song, A. Gane, T. Sarlos, P. Hawkins, J. Davis, A. Mohiuddin, L. Kaiser, et al. Rethinking attention with performers. arXiv preprint arXiv:2009.14794,2020. N. Kitaev, L. Kaiser, and A. Levskaya. Reformer: The efficient transformer. In International Conference on Learning Representations, 2019. ...

May 7, 2025

RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models

1.Motivation 尽管有了RAG的帮助,LLM仍有可能给出与所提供知识不符的回答。因此需要构建一个数据集来检测幻觉。 2.Contributions 提出RAGTruth,一个大规模词级别的幻觉检测数据集,由LLM自然产生(作者认为故意触发的幻觉与自然产生的幻觉存在差异) 对现有幻觉检测方法进行比较 提出了微调LLM用于幻觉检测的基线。Llama-2-13B在RAGTruth training data上微调后比得上GPT4 证明了使用微调得到的幻觉检测器,能降低幻觉 3.Related Work 4.Methods 1.Hallucination Taxonomy幻觉类型 本文将幻觉类型分为: Evident Conflict明显冲突:与提供的文本明显相反,容易辨别,如事实错误、拼写错误、数字错误。 Subtle Conflict轻微冲突:生成的信息与提供的文本有歧义,比如术语的替换,需要结合上下文判断。 Evident Introduction of Baseless Information明显引入无根据知识:生成的内容不在提供的信息之内。 Subtle Introduction of Baseless Information轻微引入无根据知识:生成内容超出了提供的信息,比如主观的假设或推断。 2.Response Generation回答生成 选择三个任务: Question Answering,Data-to-text Writing, and News Summarization.(问题回答、数据到文本的写作、新闻摘要),生成回答并人工标注幻觉部分。 Question Answering:从MS MARCO选择与生活相关的QA,每个问题保留三段提取内容,然后使用LLM根据内容回答问题。 Data-to-text Writing:从Yelp数据集选择有关商家的结构化信息和用户的评论,用LLM生成对商家的描述。如果数据出现空值而大模型将其解释为“假”,认为这是出现了幻觉。 News Summarization:数据来自CNN/Daily Mail dataset+某新闻平台的新闻,使用LLM对每篇内容生成摘要。 使用的LLM:GPT-3.5-turbo-0613、GPT-4-0613、Mistral-7b-Instruct、Llama-2-7B-chat、 Llama-2-13B-chat、 Llama-2-70B-chat 每个任务都用6个模型跑一遍,得到6个回答。 5.Result 各项任务中幻觉类型的比例: 如图2所示,在上下文中无根据的信息生成显著多于与上下文冲突的信息生成,尤其是在问答任务中。在两大类无根据信息和冲突信息中,更严重的幻觉,即明显的无根据信息和明显的冲突信息,占据了相当大的比例。这一观察结果说明即使有RAG,还是存在严重幻觉。 数据转文本的任务幻觉率最高,可能与JSON格式有关。另外,较新的新闻的幻觉率不比过时新闻高,可能是由于较新的新闻的文本长度较短。 各模型出现幻觉的比例: (span、density什么意思) 表3显示,在我们收集的数据中,OpenAI的两个模型表现出显著较低的幻觉率。具体来说,GPT-4-0613的幻觉频率最低。为了更清晰地比较不同模型的幻觉率,我们计算了每个模型在三个任务中的幻觉密度。幻觉密度定义为每一百个单词响应中平均出现的幻觉跨度数。在Llama2系列中,除了数据总文本写作任务外,模型规模与幻觉密度之间存在明显的负相关关系。尽管Mistral-7B-Instruct模型在各种基准和排行榜上的表现强劲(Zheng等人,2023),但它生成的包含幻觉的回答数量最多。 幻觉与文本长度的关系: 对于上下文长度(CLB),只有新闻摘要呈现出上下文越长,越容易幻觉的特点。 对于回答长度(RLB),都有回答越长,越容易幻觉的特点。 幻觉与位置的关系: 在问答和新闻摘要任务中,幻觉更倾向于出现在回答的末尾。数据到文本写作任务在前半部分较易出现幻觉。

May 7, 2025

CDF-RAG: Causal Dynamic Feedback for Adaptive Retrieval-Augmented Generation

CDF-RAG: Causal Dynamic Feedback for Adaptive Retrieval-Augmented Generation 只挂了arxiv,粗看,了解一下各模块的实现方式。 1.Motivation 现有的RAG框架主要是静态检索,且依赖于语义相似性和关联性,这些方法优先考虑主题相关的文档,而并非提供解释或因果关系的文档。这导致响应结果是基于事实的,但是没能理解因果关系。 此外,基于大规模观察语料库训练的语言模型倾向于建模共现模式而非因果依赖,这使得它们容易将相关性与因果关系混淆——尤其是在存在不完整或模糊证据的情况下。这些局限性在多跳检索中尤为明显。 另外,用户的提问可能是模糊的,现有机制缺乏动态适应和因果机制。 2.Contributions 本文提出了CDFRAG框架,将强化学习查询优化、多跳因果图检索和基于对齐的幻觉检测整合到一个推理循环中。 证明了基于强化学习的查询重写显著提升了多跳因果推理和检索质量,优于先前的细化方法。 本方法在四个数据集中均sota,在因果正确性、一致性和可解释性方面均有所改进。 3.Method 1.构建因果知识图谱 使用UniCausal提取因果对(Causal,Effect)。经过GPT4验证后,编码为(C,E,Relation)并存入有向图G。 2.根据强化学习进行查询重写 给定用户初始查询q,重写q的过程是一个马尔可夫决策过程(MDP),有三种操作: 扩展:添加相关的因果因素 简化:去除多余的细节 分解:复杂查询拆解为子查询 策略通过SFT微调生成,然后使用PPO优化。 监督微调(Supervised Fine-Tuning, SFT) 目的:用标注的示范数据(如人工修正的样本)初始化策略 $$\pi_\theta(a|s)$$,使其初步具备期望的行为模式。 方法:通过最大化对数似然来微调模型参数,损失函数为: $$L_{\text{SFT}} = -\sum_{t=1}^{T} \log P_\phi(y_t \mid y_{...

May 2, 2025

DAPR A Benchmark on Document-Aware Passage Retrieval

1.Motivation 现有的神经检索(neural retrieval)的方法主要集中在短文本排序,在长篇文章中做检索效果并不好(由于自注意力机制token数量的限制;或者返回的文档过长,不便于用户使用)。另外,作者发现在先进检索器的检索错误中,半数错误与缺少上下文有关。 比如:在A剧场中演出过的演员有哪些?如果只检索关键字“A剧场”,可能找不到答案,需要结合上下文找到“……在这里演出过……”的内容才是真正答案。 因此,作者针对上下文强关联的任务建立了一个数据集,使用两类方法(hybrid retrieval with BM25、 contextualized passage representations)进行实验,并详细解释了实验结果。 2.Related work Document Question Answering(DocQA):要求模型回答关于输入文档的问题,通常假设文档在提问前就已给出。本文提出的(Document-Awarepassage Retrieval, DAPR)与DocQA类似,区别在于DAPR希望用户提问时不知道目标文档,由模型来寻找目标文档。 Long-document retrieval(长文档检索):对于长文档检索有一些简单的方法:将文档中段落相关性的最大值作为文档的相关性(MaxP);仅编码文档中的第一个段落(FirstP)……与DAPR相比,所有这些先前的工作都没有研究如何在考虑文档上下文的情况下检索段落。 Hybrid retrieval(混合检索):对于一个查询使用多个检索系统(常常是BM25+神经检索) rank fusion(排名融合)——通过凸组合、互逆排名等方法将不同检索系统的个体排名合并为一个。 hierarchical retrieval(层次检索)——首先检索文档,然后从这些文档中检索段落。只适用于段落本身足以对查询做出响应的情况。 本文探讨了段落排名和文档排名结合的有效性。 Relation to pre-training tasks(和预训练任务的关系):有的研究在预训练中加入上下文。但推理时仍然只关注独立的段落。 补充: NQ:谷歌的一个问答数据集 NDCG:评价检索序列的相关性和位置 共指信息:描述文本中不同表达式指向同一实体或概念的语言现象,如*“玛丽打开了门,她随后拿起包。”* → “她”与“玛丽”共指同一人。 共指消解(Coreference Resolution):自动识别文本中所有指向同一实体的表达式并分组。 3.Method DAPR任务要求系统提取+排序。给出段落集合$C$,文档集合$D$,对于查询集合$q \in Q$,检索系统$s$应该提取出最好的$K$个段落集合$R$。 3.1NQ-Hard 对SOTA的检索器(DRAGON+,SPLADEv2, and ColBERTv2)使用NQ数据集,发现一半的错误来自于不了解上下文。将这些数据命名为NQ-hard,并分为4类: 共指消解(CR):关键的共指信息需要通过特定文档上下文来解析; 主要主题(MT):只有了解文档的背景主题(通常是标题),才能回答查询; 多跳推理(MHR):连接查询和查询相关段落中的实体的推理路径包括文档上下文中的其他节点; 缩写(AC):在相关段落(或查询)中出现一个缩写,该缩写对应于查询(或相关段落)中的全称,文档上下文解释了这种映射; 3.2Datasets MS MARCO、Natural Questions、MIRACL、Genomics 和 ConditionalQA(具体处理方式见附录A)有语料库的直接用,没有的把黄金段落文本收集起来当语料库。(也是很神奇) 3.3Evaluation 使用nDCG@10和recall@100做指标。 将binary/3-scale转换为0-1/0-1-2,然后使用pytrec_eval计算指标。 考虑到现实世界中的检索系统多用于零样本、跨领域的情景,本文进行了一项测试:在MS MARCO训练集训练,然后在MS MARCO测试集测试,作为域内评估;在其它四个数据集上测试,作为域外评估。 4.Experiments 4.1基础检索器 BM25(使用PySerini的默认配置) neural retrievers:DRAGON+、SPLADEv2、ColBERTv2(在MS MARCO上训练) 4.2两种将上下文引入神经检索器的方法 4.2.1加入BM25的混合检索 (1)Rank fusion融合检索 ...

May 2, 2025

从0开始建立Github个人博客(hugo&PaperMod)

github提供给每个用户一个网址,用户可以建立自己的静态网站。 一、Hugo hugo是一个快速搭建网站的工具,由go语言编写。 1.安装hugo 到hugo的github标签页Tags · gohugoio/hugo选择一个版本,下载对应的安装包。比如hugo_extended_withdeploy_0.147.0_windows-amd64.zip。 解压后,在根目录打开cmd,输入 hugo new site YourSiteName 为你的网站建立文件夹。YourSiteName更改为你的网站的名字。 根目录会出现YourSiteName文件夹。 3.将根目录的hugo.exe复制到YourSiteName里。 在YourSiteName文件夹里打开cmd,输入 hugo server -D 会返回如下信息: | EN -------------------+----- Pages | 11 Paginator pages | 0 Non-page files | 0 Static files | 0 Processed images | 0 Aliases | 2 Cleaned | 0 Built in 79 ms Environment: "development" Serving pages from disk Running in Fast Render Mode. For full rebuilds on change: hugo server --disableFastRender Web Server is available at http://localhost:1313/ (bind address 127.0.0.1) Press Ctrl+C to stop 在浏览器中输入http://localhost:1313/,显示Page Not Found,说明服务器正常运行,但是此时网站还没有页面。 ...

May 2, 2025

Neural-IR Models(博客)

原文:Neural-IR Models.. Neural IR(Information Retrieval) is a… | by Muhammad Hammad Khan | Medium 译文:【翻译】一文详解神经信息检索领域的最新进展 - 知乎 神经信息检索(Neural Information Retrieval, Neural IR)是信息检索领域的一个重要研究课题。自从谷歌在2018年发布BERT以来,它在11个NLP任务上获得了最先进的结果,一举改变了整个NLP领域的研究范式。2019年1月,Nogueira和Cho在MS MARCO Passage Ranking测试集上首次使用BERT。从那时起,人们开始研究神经信息检索的范式,也提出了许多基于BERT的文本排序方法。这些方法用于多阶段搜索架构的重排阶段(Re-Ranker)。如下图所示。 Figure1 展示了一个简化的多阶段搜索结构。第一步:倒排索引(Inverted Index)+BM25得分进行排序,得到topK文档,这一步也叫候选项生成(Candidates Generation)。第二步,通过基于BERT的上下文排序模型来确定前N个文档的最终排序。 神经重排模型(Neural re-ranking models)一般可以分为以下四种,如Figure2所示: 基于表征(representation-focused) 基于交互(interaction-focused) 全交互(也被称作交叉编码器,)(all-to-all interaction(cross encoder) ) 迟交互(late interaction) 1.基于表征——双塔模型(Bi-encoder Models) 双塔模型将Query和Doc分别表征为密集的向量嵌入,用向量相似度分数来估计Q和D的相关性。在训练时需要正负样本进行对比学习,因为如果只给模型看正样本,它会偷懒——把所有向量都变成一样的,这样“相似度”永远最高。负样本强迫模型学会区分相关和不相关的内容。 在将模型训练好后,doc和query的表征可以独立进行,不用像交叉编码器那样每次都要把Query和Doc拼在一起重新计算。 1.1密集段落检索器(Dense passage retriever, DPR) 论文:Dense Passage Retrieval for Open-Domain Question Answering EMNLP 2020, Facebook Research Code: github.com/facebookresearch/DPR 讲解博客:【IR 论文】DPR — 最早提出使用嵌入向量来检索文档的模型_dpr模型-CSDN博客 DPR是一个应用于问答领域的双塔模型,旨在最大限度地提高查询与相关文档的相似度,同时最小化与非相关文档的相似度。DPR是RAG中R的经典方案。 正样本往往数据集已给定,而负样本比较难选择。为此,DPR提出了一种Batch内负采样的技术,从同一批次的其他样本中选择样本作为负样本。这种方法是有效且高效的。 1.2最近邻负对比估计 (Approximate nearest neighbour Negative Contrastive Estimation, ANCE) 该论文证明了强负样本能够加速模型收敛,提升模型性能。负样本分为易区别的和不易区别的,显然不易区别(即强负样本)的对模型学习帮助更大。本文使用ANN寻找强负样本。 ...

May 2, 2025