Neural-IR Models(博客)
原文:Neural-IR Models.. Neural IR(Information Retrieval) is a… | by Muhammad Hammad Khan | Medium 译文:【翻译】一文详解神经信息检索领域的最新进展 - 知乎 神经信息检索(Neural Information Retrieval, Neural IR)是信息检索领域的一个重要研究课题。自从谷歌在2018年发布BERT以来,它在11个NLP任务上获得了最先进的结果,一举改变了整个NLP领域的研究范式。2019年1月,Nogueira和Cho在MS MARCO Passage Ranking测试集上首次使用BERT。从那时起,人们开始研究神经信息检索的范式,也提出了许多基于BERT的文本排序方法。这些方法用于多阶段搜索架构的重排阶段(Re-Ranker)。如下图所示。 Figure1 展示了一个简化的多阶段搜索结构。第一步:倒排索引(Inverted Index)+BM25得分进行排序,得到topK文档,这一步也叫候选项生成(Candidates Generation)。第二步,通过基于BERT的上下文排序模型来确定前N个文档的最终排序。 神经重排模型(Neural re-ranking models)一般可以分为以下四种,如Figure2所示: 基于表征(representation-focused) 基于交互(interaction-focused) 全交互(也被称作交叉编码器,)(all-to-all interaction(cross encoder) ) 迟交互(late interaction) 1.基于表征——双塔模型(Bi-encoder Models) 双塔模型将Query和Doc分别表征为密集的向量嵌入,用向量相似度分数来估计Q和D的相关性。在训练时需要正负样本进行对比学习,因为如果只给模型看正样本,它会偷懒——把所有向量都变成一样的,这样“相似度”永远最高。负样本强迫模型学会区分相关和不相关的内容。 在将模型训练好后,doc和query的表征可以独立进行,不用像交叉编码器那样每次都要把Query和Doc拼在一起重新计算。 1.1密集段落检索器(Dense passage retriever, DPR) 论文:Dense Passage Retrieval for Open-Domain Question Answering EMNLP 2020, Facebook Research Code: github.com/facebookresearch/DPR 讲解博客:【IR 论文】DPR — 最早提出使用嵌入向量来检索文档的模型_dpr模型-CSDN博客 DPR是一个应用于问答领域的双塔模型,旨在最大限度地提高查询与相关文档的相似度,同时最小化与非相关文档的相似度。DPR是RAG中R的经典方案。 正样本往往数据集已给定,而负样本比较难选择。为此,DPR提出了一种Batch内负采样的技术,从同一批次的其他样本中选择样本作为负样本。这种方法是有效且高效的。 1.2最近邻负对比估计 (Approximate nearest neighbour Negative Contrastive Estimation, ANCE) 该论文证明了强负样本能够加速模型收敛,提升模型性能。负样本分为易区别的和不易区别的,显然不易区别(即强负样本)的对模型学习帮助更大。本文使用ANN寻找强负样本。 ...