知识图谱

May 12, 2025

知识图谱于14年出现，之后进入平稳期，23年由于大模型的出现再次火爆。

大模型的“幻觉”问题的解决方式
- 提高LLM的能力
- 框定边界（大量符合逻辑的facts），大模型在边界内通过自身的理解能力，提供回复
  - facts 来源于：一些网络/企业内部文档/企业内的数据库/结构化的知识图谱
知识图谱：一种存储facts的方式
采用了“实体&关系”的方法来存储信息
区别于简单的图：包含多种实体和多种关系
知识图谱的优势
1. 关系直观
2. 抓住重要信息
3. 弥补文本到向量直接的关系（GraphRAG：KG与向量数据库融合）

RAG 与知识图谱结合

知识图谱的必要性
e.g：问题:“感冒常用药物的负作用”；数据库存储的是“冲剂” 的描述，对应段落刚好没有出现“感冒” 这个关键词；两者相似度不够高，无法匹配
—— 使用知识图谱找到“感冒”和“冲剂”之间的关系

RAG 与知识图谱如何结合
基于知识图谱扩充问题，将问题具像化
- 改写后的问题进入向量数据库，作为 chunks
- 改写后的问题进入知识图谱，检索出与问题对应的相关子图(subgraph)；子图由很多三元组(如感冒-治疗的药物有-冲剂)构成，将所有的三元组转化为文字形式
将上述两部分合在一起，构造新的上下文包含我们的潜在答案。
存在的问题
1. 如何构建图谱：人工、通过 LLM…
2. 合并后存在冗余信息，如何过滤重复信息
3. 怎么抽取子图 (k-hop)
4. 抽出的子图是否可再次在向量库中检索，得到结果后再次合并
5. 如何更好地融入结构信息，让 LLM 更好地理解结构信息
  - 使用更结构化的 prompt
  - 结合图模型技术

SPARQL 是用于访问 RDF 的查询语言和协议。

**RDF **是一组三元组，指的是两个事物和它们之间的直接关系，在语法上呈现为"主语 + 谓语 + 宾语"。

每套谓语必须有一个明确的 URL，通过 URL 区分不同的谓语。RDF 官方定义了一套常用的谓语。

URL 比较冗长，引用不方便。RDF 通常用前缀rdf表示，代表 URL 地址：

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns>

每个 URL 里面可以包含多种谓语，通过"前缀 : 谓语"的形式来区分。

注意：每个 RDF 三元组的结尾是一个英文的句号，用来区分多个三元组。