Posts

论文解读 | Hipporag

PageRank算法： PageRank算法可以用来衡量有向图中节点的重要性，一个节点越容易被访问到，认为它越重要。互联网可以看作一个有向图，每个页面作为一个节点，页面中的超链接作为边，可以跳转到下一个节点。我们假设互联网中有一个随机游走者，他每次在当前页面随机选择一个超链接进行跳转。经过长时间后，这种随机跳转的行为模式会逐渐稳定，此时到达每个页面的概率，就是该页面的PageRank值。 PangRank有基本定义和一般定义，详见：PageRank算法详解 - 知乎

2025届CS保研经验贴

一路上受到了很多朋友和陌生网友的帮助，无以为报。因此，我也将自己的经验写下来，供后来者参考。（更适合双非四非的同学参考）个人背景 **学校：**北京普通一本 **GPA（rk）：**排名2 **英语：**CET-4：611；CET-6：583 **所获荣誉：**校三好、优团（国奖用处大，其它荣誉没啥用） **竞赛（用处不大）：**1.蓝桥杯C++省二；2.北京市校际合作市优秀奖；3.美赛H **科研：**一篇论文在投，一段科研 **最终去向：**计算所 0.写在前面 **你是否应该选择保研？**除了保研，升学的道路还有考研和留学。我们在努力之前，应该先问清自己的目标是什么。在时间上，保研意味着三年的持续付出，你需要在课内卷绩点，在课外卷竞赛和论文，比其它同学付出更多。而考研则可以享受前三年的大学生活，只紧张最后一年。当然，保研er可以更早解脱。当考研er还在紧张备考时，你已经上岸了。在去向上，考研的上限更高，只要你分数够高，就能去到对应的好的院校。保研的下限更高，一般大家都能去比本校高一个档次的院校。但是保研的上限较低，保研不是单一用分数评价人，同届有大量手握竞赛论文的大神和你竞争，而且有的院校根本不收双非四非的学生，所以想保研去tp华五这样的顶级院校还是挺难的。在风险上，保研的风险较小，三年的时间你有很多机会去提升自己，在夏令营预推免的时候你可以联系大量的老师，机会很多。而考研就是看分数，如果发挥不好也没有别的办法了。这也是我选择保研的原因，经历过高考以后，我再也不想参加这种一局定胜负的考试了。 **今年的保研形势？**今年和往年有很大变化：大部分夏令营停办或无效力，使得剩下开夏令营的学校人数暴涨，oq现象更严重，仍然是20%的人拿80%的offer。相当于少了一个占坑的机会。而且今年是第一年改革，很多人由于变化带来的担忧选择投递档次更低的院校，导致后面的人没了位置。由于夏令营大家没有offer，导致预推免的门槛也水涨船高。大家的offer比往年档次要低。院校保研率增加，但接收名额并未增加，保本校的学生会占掉更多名额。推免系统开放提前。而且今年是统一发复试、预录取通知，学生统一确定（往年是各院校按自己的时间），之间间隔时间变长为两天。这一点利于鸽子起飞，利于候补的学生拿offer。个人预测，夏令营没效力、保研名额增加会成为趋势。 1.保研术语名词含义夏令营保研途径1，5月-7月底，竞争非常激烈预推免保研途径2，8月底-9月底，难度比夏令营低一些九推保研途径3，925开系统之后参加面试，相当于补录，机会较少 rk/rank 专业排名，一般指学习成绩排名，夏令营指前五学期排名，预推免指前六学期排名 title 学校的title高不高，指学校的名气大不大，牌子响不响强com 学院的招生办和行政单位在招生中起决定性作用，导师不能决定能否录取你，如北航，人大等；弱com 与上述概念相反，导师在招生中起决定性作用，导师愿意要你的话，就基本稳了。 oq over qualified，你太强了，超过了投递院校的招生资格，不让你入营。如本科清北佬报名末九，学校会认为该生拿到优营也不会来，索性直接拒绝该生入营。 bar 入营的门槛，入营的难度，预推免的bar一般比夏令营低优营/offer 优秀营员，夏令营考核通过的人，一般优营就是指的offer，即学校发给你的预录取承诺，928填该校，就会录取你（信誉好的学校一定会录取你，有些学校会鸽人）。候补/wl waiting list，候补队列，如果前面有人鸽了，那么优营名额就会顺延到你，不是所有学校都有wl bg background，个人背景 2.保研准备论文=本科背景>项目>六级>竞赛>其它 2.1文书材料以下是保研填系统时要用到的材料。个人陈述可以用doc，其余都是pdf格式：材料内容证件照一般系统有不超过1M的要求，还有的系统有150*200像素的要求，用画图工具裁剪身份证扫描件学生证扫描件成绩单大三下成绩出来之前用前五学期的，出成绩后用前六学期的排名证明教务处开证明，大三下成绩出来之前用前五学期的，出成绩后用前六学期的教育部学籍在线验证报告去学信网开个人陈述 1000字、300字、100字四六级证书所有的获奖证书扫描件论文封面个人简历可以把这些文件都存在一个文件夹里。在这期间，你可能会得了奖或发表了论文，及时更新。 ...

CS336 Lec1

CS336: Language Models From Scratch (Spring 2025) 0.开场白为什么要从基础的角度学习大模型？我们可以用prompt操纵训练好的模型，但直接使用毕竟是高度抽象的，我们有必要深入了解其实现细节。想要理解大模型，最好的方法就是重建一个大模型。我们自制的小模型是否有效果？不一定，因为参数量的不同，不同的层（如MLP，MHA）的计算量大不相同，我们的所做的优化在参数扩大后不一定起作用。另外，模型存在“涌现”现象，在计算量达到一定量后，模型的表现会突然变好，所以模型必须有一定的参数量。这门课的重点是什么？1.全面从底层了解大模型；2.给定计算资源和时间限制，明白怎么去高效的训练模型。 1.课程主要内容 1.1Basics 得到一个能运行的简易pipeline，包括tokenizer（BPE算法）、model architecture（Transformer架构及其各个组件）、training（优化器、学习率等等）。 1.2Systems 如何进一步优化。kernels（数据在内存和GPU之间的传送）、parallelism（多卡训练）、inference（使用模型） 1.3scaling laws FLOPs和模型参量量，和训练使用token量成线性关系。 1.4data 如何选择并处理数据、如何进行模型评估 1.5alignment 将基础模型进行对齐，让其学会follow instructions、具有一定风格、避免输出有害内容。包括SFT、RLHF。 2.Tokenization 模型只能对数值进行运算，而人类需要自然语言进行输入输出。tokenizer就是负责将自然语言（string）转换为tokens（list(int)），以便传入模型。一个训练好的tokenizer可以对句子进行编码，可以将数组解码回句子。 compress_ratio：字节数/token数，它表示一个token平均对应几个字节。以下是tokenizer曾使用过的方法： chatacter_tokenizer：一个简单的想法是：将每个字符直接转换为对应的Unicode。 Unicode是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。这样做可行，但是token对应的数值范围会变得非常大；而且有很多字符并不常用，存在稀疏的问题。 byte_tokenizer：那么，也可以将句子全部转换为字节。英文字母对应一个字节，有些emoji（:earth_asia:）则对应四个字节。如果使用UTF-8编码，所有的数值都会限制在0-255之间。数值大、稀疏的问题解决了，但是token序列会很长。 word-based tokenization：将句子分为单词，然后对单词编码。但是，单词是无上限的，而且无法处理写错单词（UNK）的情况。 BPE：现在最常用的方法，最早应用于GPT-2。先使用word-based tokenization将句子进行粗略的拆分，然后在每一个分块上使用BPE算法。BPE算法可以简单理解为：把常用的字符组进行聚合，使用一个token表示；不常用的则用多个token表示。 BPE原理及实现：minbpe：BPE算法的极简实现

CS336 Lec2

CS336: Language Models From Scratch (Spring 2025) 1. Memory float32，32位浮点数，包括1位符号位，8位指数位，23位尾数位。也称为fp32，单精度。是tensor的默认存储精度。内存使用的估算： x = torch.zeros(4, 8) # 建立矩阵 assert x.dtype == torch.float32 # tensor默认精度为fp32 assert x.numel() == 4 * 8 assert x.element_size() == 4 # Float is 4 bytes assert get_memory_usage(x) == 4 * 8 * 4 # 128 bytes text("One matrix in the feedforward layer of GPT-3:") assert get_memory_usage(torch.empty(12288 * 4, 12288)) == 2304 * 1024 * 1024 # 2.3 GB float16，符号1位，指数5位，尾数10位，也叫半精度。相较于fp32内存可以减半。但是fp16的范围比较小，会出现上溢下溢的问题，影响模型。 bfloat16，bf16，符号1位，指数8位，尾数7位，在和fp16保持相同存储的同时和fp32有相同的动态范围，牺牲了部分精度但可以接受。 fp8，8位，有E4M3、E5M2两种形式。训练时用fp32效果最好，内存开销也最高；fp16、bf16、fp8内存开销小，但不稳定；一种折中的办法是使用混合精度，只在关键的层使用高精度。 2. Compute 2.1 tensor Pytorch中的tensor（张量）是一个多维数组，可以是1D的向量，2D的矩阵，3D的cube等。tensor是一个指向具体内存的指针+各种元数据。元数据包括shape和stride，shape告诉我们有几个维度，每个维度有多少个元素，stride告诉我们在内存中跳多少步才能访问下一个维度的元素。 tensor默认存储在cpu上，需要显式将其移动到gpu。 memory_allocated = torch.cuda.memory_allocated() x = torch.zeros(32, 32) assert x.device == torch.device("cpu") text("为了利用GPU的并行计算能力，将tensor迁移到GPU") text("Move the tensor to GPU memory (device 0).") y = x.to("cuda:0") assert y.device == torch.device("cuda", 0) text("Or create a tensor directly on the GPU:") z = torch.zeros(32, 32, device="cuda:0") new_memory_allocated = torch.cuda.memory_allocated() memory_used = new_memory_allocated - memory_allocated assert memory_used == 2 * (32 * 32 * 4) # 2 32x32 matrices of 4-byte floats 某些操作，如切片、转置、改变形状，并不会产生一个新的tensor，只是改变了tensor的元数据的值，例如： ...

CS336 Lec2

CS336: Language Models From Scratch (Spring 2025)

CS336 Lec3

CS336: Language Models From Scratch (Spring 2025) 本节主要讲了模型的架构设计和超参数选择。 1.Architecture 1.1Norm pre-norm, post-norm, ‘double’-norm 自从GPT之后大都采用pre-norm，把layernorm层放到FFN、MHA层之前。 prenorm和postnorm的效果一样好，而且不需要warm。更好的梯度反向传播，更少的spike。现在有的模型还使用’double’-norm，即FFN、MHA层之前之后都有layernorm。 LayerNorm, RMSNorm 原始的transformer和早期模型使用LN，现在都改为使用RMSN。 LN：$y = \frac{x - \text{E}[x]}{\sqrt{\text{Var}[x] + \epsilon}} * \gamma + \beta$ 其中 $\text{E}[x]$ 是均值，$\text{Var}[x]$ 是方差，$\epsilon$ 是防止分母为 0 的小量，$\gamma$（缩放因子）和 $\beta$（偏移因子）是可学习参数。 RMSN：$y = \frac{x}{\sqrt{\|x\|_2^2 + \epsilon}} * \gamma$ 其中 $\|x\|_2^2$ 是输入 x 的二范数平方，$\epsilon$ 是防止分母为 0 的小量，$\gamma$ 是可学习的缩放参数。不减去均值，也不添加偏置项$\beta$。 RMSN效果和LN一样好，而且更快。操作更少（无需计算平均值），参数更少（没有偏置项）。曾有研究表明，在模型运算中，矩阵乘法占用的flops达到99.8%，正则化的运算量只占到0.17%。从计算性能的角度看，norm没必要优化。但是内存开销也是一个重要的考量，该研究指出正则化所占的运行时间达到25.5%，在内存搬运上花了相当一部分时间，因此值得优化。现有的大部分transformer模型都没有bias项，只进行矩阵乘法。reason：更稳定（原因未知） 1.2 Activations ReLU、GeLU、SwiGLU、GeGLU GLU（门控线性单元）现在得到广泛使用 ReLU（Rectified Linear Unit，修正线性单元）是深度学习中最常用的激活函数之一。 ReLU 的函数形式非常简单，数学定义为：$\text{ReLU}(x) = \max(0, x)$即： ...

minbpe：BPE算法的极简实现

minbpe：BPE算法的极简实现 github 地址：karpathy/minbpe 1.BPE 算法 BPE(Byte Pair Encoding) 是大模型的 tokenizer 常用的算法。它对输入文本的字节进行编码。该算法因 GPT-2 的论文和代码而被广泛使用于 LLM。Sennrich et al. 2015被认为是 BPE 在 NLP 应用中的原始参考。简单来说，bpe 把文本看作 utf-8 编码的字节，然后将出现次数最多的相邻字节合并，生成一个新的编码。如此反复操作。 2.minbpe 简介 2.1quickstart from minbpe import BasicTokenizer tokenizer = BasicTokenizer() text = "aaabdaaabac" # 训练 tokenizer.train(text, 256 + 3) # 256tokens, 3merges # 编码 print(tokenizer.encode(text)) # 解码 print(tokenizer.decode([258, 100, 258, 97, 99])) # 保存 tokenizer.save("toy") # writes two files: toy.model (for loading) and toy.vocab (for viewing) 英语字母一个字母对应一个字节。对于"aaabdaaabac"，先计算相邻两字节的出现次数，然后选择次数最多的进行合并（“aa”，4次）。 “a”“a”合并为“aa”，编码为256。然后再计算相邻两字节的出现次数，再合并。在 toy.vocab 中可以看到所有字符及对应的编码。 toy.vocab ...... [a][a] -> [aa] 256 [aa][a] -> [aaa] 257 [aaa][b] -> [aaab] 258 2.2minbpe和GPT-4分词器功能相同 # 1.证明RegexTokenizer与GPT-4的分词器性能一致 text = "hello123!!!? (안녕하세요!) 😉" # pip install tiktoken import tiktoken enc = tiktoken.get_encoding("cl100k_base") print(enc.encode(text)) # [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037] from minbpe import GPT4Tokenizer tokenizer = GPT4Tokenizer() print(tokenizer.encode(text)) # [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037] # 2.标记特殊token text = "<|endoftext|>hello world" print(enc.encode(text, allowed_special="all")) # [100257, 15339, 1917] # ours print(tokenizer.encode(text, allowed_special="all")) # [100257, 15339, 1917] 调用 encode 时必须显示声明处理特殊标记。allowed_special 参数可以设置为"all"、“none"或一个特殊token列表。 ...

怎么快速写科研申请书

写这玩意真的太烦。先调研文献，直接找最新且认可度高的综述+一篇顶会论文，了解一下该领域大范围的发展历程和现在的优化方向。然后确定你的创新点，即优化方向，3个点。此时形成一个大背景——大方法——小方法——你的优化点的结构。比如LLM——RAG——GraphRAG——去除图谱同义词冗余等等。 1.研究背景大背景——大背景的问题——大方法怎么解决大背景的问题——大方法的问题——小方法怎么解决大方法的问题——小方法的问题——我们需要新的方案 2.国内外研究现状调研文献的结果。大方法+小方法。 3.研究意义小方法的问题——我们的做法能起到什么效果——宏大的社会意义、现实意义 4.研究内容分几个段落，一个小方法的问题详述+我们对应的解决方法简述。 5.研究思路与方法分几个段落，一个小方法的问题简述+我们对应的解决方法详述，具体什么做的要清除写出来。 6.创新点总结一下我们的解决方法。 7.计划进度安排文献综述和问题分析理论模型构建和算法设计数据采集和实验开展数据分析和结果评价论文撰写

在Autodl中使用LLaMA-Factory进行微调

一、环境准备 1.1创建虚拟环境 conda create -n lf python==3.11 conda init 然后重开cmd conda activate lf 1.2下载相关的包 conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.1 -c pytorch -c nvidia 验证GPU版本的Pytorch是否成功 python -c "import torch; print(torch.cuda.is_available())" 1.3下载llama factory sudo apt install git 开科学上网 git clone https://github.com/hiyouga/LLaMA-Factory.git 1.4安装依赖 python -m pip install --upgrade pip pip install -r requirements.txt pip install -e ".[torch,metrics]" 如果下载有问题，可以尝试清华源 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e ".[torch,metrics]" 1.5清理pip pip cache purge 二、下载模型 2.1从modelscope下载模型权重文件 pip install modelscope 可以下载到默认的内存，一般在/root/.cache/modelscope/hub/model/里面 ...

LumberChunker

EMNLP2024 0.主要贡献提出了Lumberchunker文本分割方法提出了GuntenQA数据集验证了Lumberchunker在下游RAG任务上的效果 1.LumberChunker 使用LLM动态的将文档分割为语义独立的片段。每个片段的长短是不固定的，确保每个片段的语义完整性、独立性。也就是说分割后，每一段包含的语义是完整的，同时与其它段有区别。由LLM来确定合适的分割点，这一决策过程考虑到文本的结构和语义，从而能够创建出大小最优且上下文连贯的片段。 1.先按照paragraph分割目标文档，然后把paragraph顺序连接，直到累计的token数超过一个阈值 $\theta$，形成 $ G_i$。该阈值如何设置后文会说。$\theta$ 应该足够大，防止把具有相关性的段落分开；同时 $\theta$ 也要足够小，防止过多内容影响LLM进行推理。 2.让LLM寻找 $G_i$ 中“语义断层”的地方，作为分割点。分割点之前即形成一个chunk。剩下的内容继续与paragraph顺序拼接、超过阈值停止、LLM分割……分割整体是串行进行的。 2.GutenQA 数据来源于Project Gutenberg电子图书馆。 1.100本英文书籍，手动提取HTML内容（附录里和NarrativeQA进行了对比，手动提取没有编码错误等问题） 2.使用ChatGPT3.5为每本书生成问题、答案和包含答案的原文片段，人工为每本书筛选30个高质量问题。问题需要基于给定片段中的具体信息，且不能用书中的其它地方的信息来回答。问题大多以‘what,’ ‘when,’ ‘where’ 开头， ‘why’ and ‘how’较少。 3.原文片段需要简短，以确保任何分块方法都不会把它切开。评估方法是在检索到的文本中精确匹配字符串。 3.Experiments 3.1 propmt的阈值怎么选择这个阈值就是paragraph顺序连接的阈值 $\theta$ 。由于是LLM寻找分割点，token过长会影响模型的推理能力。在不同阈值下使用DCG评估效果。DCG表明了是否检索到，检索结果是否靠前。 3.2 Lumberchunk是否增强了检索效果？与其它分块基准进行对比。评估指标为DCG@K、RECALL@K。此外，注意到semantic chunk和paragraph level的指标并没有随K有效增加，表明其在大规模文档检索方面的局限性。 proposition level的引用在哪？？？附录F展示了各分割方法的统计结果： Lumberchunk切分后的块平均长度为334，比预设的550阈值低了40%，这说明LLM有效的对文本进行了切分，而不是持续选择靠近末尾的ID。说明未出现Lost in the Middle现象。在论文《Lost in the Middle: How Language Models Use Long Contexts》中，作者发现，当针对长文本的不同位置信息设计专门问题，测试大语言模型对不同位置信息的记忆能力时，模型的性能呈现一种 “U 型” 表现，即对于前段与后段的信息有着较强的关注与记忆能力，能较好地解决问题，而对于中段信息的利用则有所逊色。这种现象的产生可能是由于训练数据中的无意偏差。LLM 的预训练侧重于根据最近的一些 token 预测下一个 token，而在微调过程中，真正的指令又往往位于上下文开始的位置，这在不知不觉中引入了一种立场偏见，让 LLM 认为重要信息总是位于上下文的开头和结尾。 ...