Below you will find pages that utilize the taxonomy term “Paper”

July 20, 2025

「源码阅读」KernelBench

任务描述

构建 KernelBench 有 4 个级别的任务：

Level 1 🧱: 单核算子(100 个问题)，如卷积、矩阵乘法、层归一化
Level 2 🔗: 简单融合模式(100 个问题)，如 Conv + Bias + ReLU，Matmul + Scale + Sigmoid
Level 3 ⚛️: 端到端全模型架构(50个问题)，如MobileNet、VGG、MiniGPT、Mamba）
Level 4 🤗: Hugging Face 优化过的整个模型架构

评估方法

正确性检查✅：确保模型生成的 kernel 在功能上与参考实现（如 PyTorch 的官方算子）完全一致。进行 n_correctness 次测试。
性能评估⏱️：验证生成的 kernel 是否比参考实现更高效。重复 n_trial 次消除偶然误差。指标是加速比。

实现代码位于： src/eval.py

评估脚本： scripts/run_and_check.py

总基准指标

fast_p ：既正确又加速大于阈值的任务的分数 p 。提高加速阈值 p 可使任务更具挑战性。
加速比：PyTorch 参考实现运行时间与生成的内核时间之比。

计算整体基准测试性能脚本： scripts/greedy_analysis.py

July 20, 2025

「论文阅读」KernelBench

KernelBench 是一个评估 LLMs 在生成高性能 GPU 内核代码上能力的基准测试框架。论文引入了新评估指标 fast_p：衡量生成的正确、且速度提升超过阈值p 的内核的比例。

Introduction

背景：每个硬件都有不同的规格和指令集，跨平台移植算法是痛点。

论文核心探讨：LM 可以帮助编写正确和优化的内核吗？

KernelBench 的任务：让 LMs 基于给定的 PyTorch 目标模型架构，生成优化的 CUDA 内核；并进行自动评估。

环境要求
自动化 AI 工程师的工作流程。
支持多种 AI 算法、编程语言和硬件平台。
轻松评估 LM 代的性能和功能正确性，并从生成的内核中分析信息。
测试级别
Individual operations:：如 AI 运算符、包括矩阵乘法、卷积和损失。
Sequence of operations：评估模型融合多个算子的能力。
端到端架构：Github 上流行 AI 存储库中的架构。

工作流程

July 7, 2025

GraphRAG

特点
1. 基于图的检索：GraphRAG 引入知识图谱来捕捉实体、关系及其他重要元数据。
2. 层次聚类：GraphRAG 使用 Leiden 技术进行层次聚类，将实体及其关系进行组织。
3. 多模式查询：支持多种查询模式。
4. 全局搜索：利用社区总结来进行全局性推理。
5. 局部搜索：通过扩展相关实体的邻居和关联概念来进行具体实体的推理。
6. DRIFT 搜索：结合局部搜索和社区信息，提供更准确和相关的答案。
7. 图机器学习：集成图机器学习技术，并提供来自结构化和非结构化数据的深度洞察。
8. Prompt 调优：提供调优工具，帮助根据特定数据和需求调整查询提示，提高结果质量。

工作流程

1 索引 (Indexing) 过程

将原始文档转化为知识图谱

July 2, 2025

「论文阅读」AlphaEvolve: A coding agent for scientific and algorithmic discovery

AlphaEvolve 使用进化方法，不断接收来自一个或多个评估者的反馈，迭代改进算法，从而有可能带来新的科学和实践发现。

Introduction

AlphaEvolve represents the candidates (for example, new mathematical objects or practical heuristics) as algorithms and uses a set of LLMs to generate, critique, and evolve a pool of such algorithms.

AlphaEvolve

June 25, 2025

「论文阅读」Kimi-Researcher

这篇技术报告提出了完全通过端到端 agentic reinforcement learning 进行训练的自主智能体 Kimi-Researcher，旨在通过多步骤规划、推理和工具使用来解决复杂问题。

—— End-to-end agentic RL is promising but challenging

传统 agent

基于工作流：需要随着模型或环境的变化而频繁手动更新，缺乏可扩展性和灵活性。
使用监督微调 (SFT)进行模仿学习：在数据标记方面存在困难；特定的工具版本紧密耦合。

Kimi-Researcher：给定一个查询，agent 探索大量可能的策略，获得正确解决方案的奖励 —— 所有技能（规划、感知和工具使用）都是一起学习的，无需手工制作的rule/workflow。

建模

给定状态观察(如系统提示符、工具声明和用户查询)，Kimi-Researcher 会生成 think和action (action 可以是工具调用，也可以是终止轨迹的指示)。

Approach

主要利用三个工具：a)并行、实时、内部的 search tool; b) 用于交互式 Web 任务的基于文本的 browser tool; c)用于自动执行代码的 coding tool.

May 14, 2025

「论文阅读」Augmented Knowledge Graph Querying leveraging LLMs

这篇论文引入了一个名为 SparqLLM 的框架，通过结合 RAG 与 LLM，实现了从自然语言到 SPARQL 查询的自动生成，以简化知识图谱的查询过程。

1 Introduction

背景：非技术员工不懂 SPARQL；KG + LLMs 无法生成精确高效的 SPARQL 查询，且存在幻觉问题。

SparqLLM：被设计为 RAG 框架，可自动从自然语言问题生成 SPARQL 查询，同时生成最适当的数据可视化以返回获得的结果。

目标：提高 KG 的准确性、可用性和可靠性，实现与语义数据的更直观和有效的交互。

自然语言接口 (NLI)：将非结构化输入转换为 SPARQL 等正式查询语言，使非技术用户更容易访问基于 RDF 的知识图谱。
LLMs：利用它们处理和生成复杂文本的能力，为自动生成查询提供了一个强大的框架，减少了人工干预的需要，使非专家用户也能访问知识图谱。
基于模板的方法：通过为查询生成提供确定性框架来补充上述方法。

May 14, 2025

「论文阅读」Generate-on-Graph: Treat LLM as both Agent and KG for Incomplete Knowledge Graph Question Answering

这篇论文提出了一种称为 Generate-on-Graph(GoG) 的免训练方法，它可以在探索 KG 时，生成新的事实三元组。

具体来说，在不完全知识图谱(IKGQA) 中，GoG 通过 Thinking-Searching-Generating 框架进行推理，它将 LLM 同时视为 Agent 和 KG。

「源码阅读」KernelBench

任务描述

评估方法

总基准指标

「论文阅读」KernelBench

Introduction

环境要求

测试级别

工作流程

GraphRAG

特点

工作流程

1 索引 (Indexing) 过程

「论文阅读」AlphaEvolve: A coding agent for scientific and algorithmic discovery

Introduction

AlphaEvolve

「论文阅读」Kimi-Researcher

传统 agent

建模

Approach

「论文阅读」Augmented Knowledge Graph Querying leveraging LLMs

1 Introduction

2 Related Work

「论文阅读」Generate-on-Graph: Treat LLM as both Agent and KG for Incomplete Knowledge Graph Question Answering

1 Introduction