Recent Articles

JSON

JSON Types

Strings：“Hello World” “Kyle”
Numbers：10 1.5 -30 1.2e10
Booleans：true false
null：null
Arrays：[1, 2, 3] [“Hello”, “World”]
Objects：{ “key”: “value” }: {“age”: 30}

可嵌套

{
	"name": "Kyle"
	"favoriteNumber": 3,
	"isProgrammer": true,
	"hobbies": ["Weight Lifting",
	"Bowling"],
	"friends": [{
		"name": "Joey",
		"favoriteNumber": 100,
		"isProgrammer": false,
		"friends": [...]
	}]
}

「源码阅读」KernelBench

任务描述

构建 KernelBench 有 4 个级别的任务：

Level 1 🧱: 单核算子(100 个问题)，如卷积、矩阵乘法、层归一化
Level 2 🔗: 简单融合模式(100 个问题)，如 Conv + Bias + ReLU，Matmul + Scale + Sigmoid
Level 3 ⚛️: 端到端全模型架构(50个问题)，如MobileNet、VGG、MiniGPT、Mamba）
Level 4 🤗: Hugging Face 优化过的整个模型架构

评估方法

正确性检查✅：确保模型生成的 kernel 在功能上与参考实现（如 PyTorch 的官方算子）完全一致。进行 n_correctness 次测试。
性能评估⏱️：验证生成的 kernel 是否比参考实现更高效。重复 n_trial 次消除偶然误差。指标是加速比。

实现代码位于： src/eval.py

评估脚本： scripts/run_and_check.py

总基准指标

fast_p ：既正确又加速大于阈值的任务的分数 p 。提高加速阈值 p 可使任务更具挑战性。
加速比：PyTorch 参考实现运行时间与生成的内核时间之比。

计算整体基准测试性能脚本： scripts/greedy_analysis.py

「论文阅读」KernelBench

KernelBench 是一个评估 LLMs 在生成高性能 GPU 内核代码上能力的基准测试框架。论文引入了新评估指标 fast_p：衡量生成的正确、且速度提升超过阈值p 的内核的比例。

Introduction

背景：每个硬件都有不同的规格和指令集，跨平台移植算法是痛点。

论文核心探讨：LM 可以帮助编写正确和优化的内核吗？

KernelBench 的任务：让 LMs 基于给定的 PyTorch 目标模型架构，生成优化的 CUDA 内核；并进行自动评估。

环境要求
自动化 AI 工程师的工作流程。
支持多种 AI 算法、编程语言和硬件平台。
轻松评估 LM 代的性能和功能正确性，并从生成的内核中分析信息。
测试级别
Individual operations:：如 AI 运算符、包括矩阵乘法、卷积和损失。
Sequence of operations：评估模型融合多个算子的能力。
端到端架构：Github 上流行 AI 存储库中的架构。

AJ's blog

The Sternstunden of mankind are always just a small number of moments in which a single individual shapes history.

Recent Articles

JSON

JSON Types

可嵌套

「源码阅读」KernelBench

任务描述

评估方法

总基准指标

「论文阅读」KernelBench

Introduction

环境要求

测试级别

工作流程

More

SGLang

vLLM

分布式并行训练 - FSDP

分布式并行训练 - DDP