「论文阅读」Augmented Knowledge Graph Querying leveraging LLMs

May 14, 2025

这篇论文引入了一个名为 SparqLLM 的框架，通过结合 RAG 与 LLM，实现了从自然语言到 SPARQL 查询的自动生成，以简化知识图谱的查询过程。

1 Introduction

背景：非技术员工不懂 SPARQL；KG + LLMs 无法生成精确高效的 SPARQL 查询，且存在幻觉问题。

SparqLLM：被设计为 RAG 框架，可自动从自然语言问题生成 SPARQL 查询，同时生成最适当的数据可视化以返回获得的结果。

目标：提高 KG 的准确性、可用性和可靠性，实现与语义数据的更直观和有效的交互。

自然语言接口 (NLI)：将非结构化输入转换为 SPARQL 等正式查询语言，使非技术用户更容易访问基于 RDF 的知识图谱。
LLMs：利用它们处理和生成复杂文本的能力，为自动生成查询提供了一个强大的框架，减少了人工干预的需要，使非专家用户也能访问知识图谱。
基于模板的方法：通过为查询生成提供确定性框架来补充上述方法。

e.g CatSQL 和基于 BERT 的方法等系统通过将预定义模板与语义校正和上下文嵌入相结合来增强 SQL 生成。

缺陷：对预定义模式的依赖限制了处理复杂或模糊查询的灵活性；在针对不同领域扩展这些系统并确保与 KG 的无缝交互方面仍然存在挑战。

3 SparqLLM

SparqLLM 的 RAG 组件的设计将自然语言查询转换为 SPARQL 查询，从而促进与 KG 的交互。

模板检索(Template Retrieval)：系统根据与用户问题的语义相似性识别最相关的 SPARQL 查询模板。

查询生成(Query Generation)：检索到的模板与用户的查询和 KG 本体相结合，由 LLM 进行处理，以生成结构化的 SPARQL 查询。

在此步骤中，生成的查询将在 KG 上执行。

数据可视化(Data Visualization)：将查询结果转换为可视化表示形式。

模板检索
系统不是从头开始生成 SPARQL 查询，而是检索并调整适当的模板。每个模板都表示一种特定类型的查询，如：
- SELECT：检索实体的特定属性而不执行聚合的查询。
- GROUP BY：涉及聚合的查询，例如平均值或计数。
- FILTER：请求按特定属性（例如日期范围或实体属性）筛选的信息的查询。
SparqLLM 为 KG 中的每个查询类型和实体创建了一组 15 个模板，总共有 360 个模板。在此之后，模板被集成到向量数据库中。
优化：使用 IVF_FLAT 索引方法，将向量组织成聚类，并允许在最相关的聚类中更快地进行搜索。
查询生成
利用 RAG 框架的 LLMs，使用之前检索到的模板，从自然语言输入生成 SPARQL 查询。
1. 根据用户的问题检索相关的查询模板。此模板连同用户的输入和 KG 本体一起提供给 LLM。
  本体(ontology)提供了特定于域的实体、关系和架构规则的完整视图，确保生成的查询在语义和结构上是正确的。
2. 自定义设计的提示将指导模型确定模板和本体特定术语的优先级，从而减少歧义，帮助模型生成简洁、有效的查询。
3. 生成查询后，将在 KG 上执行该查询。
  如果查询失败，系统将进入反馈循环，在该循环中，模型会分析错误、优化查询并重试。这种迭代方法会一直持续，直到生成有效的查询。
该过程结合了预定义模板、本体指导和 LLM 适应性的优势。
数据可视化
SPARQL 查询通常会生成大量的数据集，难以向用户有效地解释结果。故需要将原始查询输出转换为交互式可视化的表示形式。
1. 评估查询结果是以图形方式还是以表格格式最好地表示
2. 执行生成的代码，如果出现错误，系统会向 LLM 提供反馈，提示其优化代码。此循环将一直持续，直到成功创建可视化。
控制面板将 SPARQL 查询结果集成到一个可访问的界面中，使用Plotly库生成交互式图表，支持柱状图、折线图、散点图等多种可视化类型。

主要贡献

提出了一个基于 KG 的问答综合系统，解决了查询生成和数据可视化方面的挑战。该
解决方案从构建 KG 开始，使用灵活的 ETL 流水线，确保与 SemIoE 本体的兼容性；基于RAG 框架的混合 SPARQL 查询生成方法将模板匹配与 LLMs 集成在一起。
检索到的模板为 LLM提供了上下文，从而能够将自然语言查询转换为准确且可解释的 SPARQL 查询。
动态仪表板的实施有助于查询结果的直观和交互式可视化。
引入了特定于解决方案的评估指标来全面验证系统的性能，从而展示了模板检索、查询生成和控制面板可视化的稳健性。

未来的工作可以进一步改进可视化选择过程，支持更多类型的可视化，并实现实时查询执行和可视化功能。

Ontology 是知识图谱的“语义骨架”，通过定义类、属性和关系，赋予数据明确的含义，使其能被机器理解和推理。没有 Ontology 的知识图谱只是一堆松散关联的数据，缺乏逻辑一致性。

Paper

1 Introduction

2 Related Work

3 SparqLLM

模板检索

查询生成

数据可视化

主要贡献

Ontology 是知识图谱的“语义骨架”，通过定义类、属性和关系，赋予数据明确的含义，使其能被机器理解和推理。没有 Ontology 的知识图谱只是一堆松散关联的数据，缺乏逻辑一致性。