wsx 发表于 2025-2-11 11:04:22

HtmlRAG:RAG系统中,HTML比纯文本效果更好

<div id="container" data-v-1d7a5742="" data-element="root" contentScore="2794">HtmlRAG 方法通过使用 HTML 而不是纯文本来增强 RAG 系统中的知识表示能力。通过 HTML 清洗和两步块树修剪方法,在保持关键信息的同时缩短了 HTML 文档的长度。这种方法优于现有基于纯文本的RAG的性能。
方法

其实主要看下围绕html提纯思路,将提纯后的Html内容送入LLM进行增强问答。
图片
1. HTML 清洗

由于原始 HTML 文档过长(每个超过 80K),并且不需要考虑用户查询的语义特征,因此在这个步骤中使用基于规则的方法进行预处理。这个清洗过程移除无关内容并压缩冗余结构,保留原始 HTML 中的所有语义信息。清洗后的 HTML 适合于配备长上下文 LLM 的 RAG 系统,并且不希望在生成前丢失任何信息。清洗后的 HTML 还是后续 HTML 修剪的基础。
1.1 HTML 内容清洗

从网络上检索到的 HTML 文档包含大量对人类用户不可见的额外内容,如 HTML 标签、CSS 和 JavaScript。大多数 HTML 标签提供丰富的结构信息,帮助 LLM 理解 HTML,而 CSS 和 JavaScript 内容提供的帮助有限。具体的清洗步骤几乎是无损的:

[*]移除 CSS 样式、注释和 JavaScript。
[*]清理冗长的 HTML 标签属性。
1.2 无损结构压缩

在大多数 HTML 文档中,原始 HTML 结构包含冗余。对 HTML 结构进行以下压缩而不丢失语义信息:
<ol data-id="odd3d8fc-0kmN7fcl"><li data-id="ld70c578-JEEw8eCF">合并多层单嵌套标签。例如,将 
页: [1]
查看完整版本: HtmlRAG:RAG系统中,HTML比纯文本效果更好