Below you will find pages that utilize the taxonomy term “LLM”
BEV 论文学习
Vision-Centric BEV Perception: A Survey
许多方法被提出以解决从透视视图(Perspective View, PV)到 BEV 的转换问题,本文将它们分为基于几何、基于深度、基于 MLP 和基于 Transformer 的四类方法。
此外,本文还探讨了 BEV 感知的扩展应用,如多任务学习、多模态融合和语义占据预测等。
1. 背景介绍
BEV 感知的核心任务是将 PV 中的图像序列转换为BEV特征,并在BEV空间中进行感知任务(如3D目标检测和语义地图生成),能够提供精确的定位和绝对尺度信息,便于多视图、多模态和时间序列数据的融合。
但由于摄像头通常安装在车辆上,捕捉到的图像是透视视图,如何将 PV 转换为 BEV 仍然是一个具有挑战性的问题。
3. 主要方法分类
基于几何的方法
- 优势:这类方法主要依赖于逆透视映射(IPM),通过几何变换将 PV 图像转换为 BEV 图像。
- 缺陷:但 IPM 假设地面是平坦的,因此在复杂场景中(如存在高度变化的物体)会产生失真。为了减少失真,一些方法引入了语义信息或使用 GAN 。
基于深度的方法
通过深度估计将 2D 特征提升到 3D 空间,然后通过降维得到 BEV 表示。深度估计可以是显式的(如通过深度图)或隐式的(如通过任务监督)。
- 点云方法:将深度图转换为伪 LiDAR 点云,然后使用 LiDAR 检测器进行 3D 检测
- 体素方法:将 2D 特征映射到 3D 体素空间,并通过体素特征进行 BEV 感知
基于MLP的方法
- 优势:MLP 方法不依赖于摄像头的几何参数,而是通过学习隐式表示来完成视图转换。
- 缺陷:尽管 MLP 具有通用逼近能力,但由于缺乏深度信息和遮挡问题,视图转换仍然具有挑战性。
基于Transformer的方法:
MLLM
1基础
1. 特征提取
一、CV中的特征提取
1. 传统方法(手工设计特征)
(1) 低级视觉特征:颜色、纹理、 边缘与形状…
(2) 中级语义特征:SIFT(尺度不变特征变换)、SURF(加速鲁棒特征)、LBP(局部二值模式)…
2. 深度学习方法(自动学习特征)
(1) 卷积神经网络(CNN)
核心思想:通过卷积层提取局部特征,池化层降低维度,全连接层进行分类。
经典模型:LeNet-5、AlexNet、VGGNet、ResNet(使用残差可以训练更深的网络)…
(2) 视觉Transformer(ViT)
- 核心思想:将图像分割为小块(patches),通过自注意力机制建模全局关系。
- 优势:无需局部卷积先验,直接建模长距离依赖; 在ImageNet等任务上超越传统CNN。
二、NLP中的特征提取
1. 传统方法(基于统计与规则)
(1) 词袋模型(Bag of Words, BoW): 将文本表示为词汇表中单词的出现频率。
(2) TF-IDF(词频-逆文档频率): 衡量单词在文档中的重要性(TF-IDF值 = 词频 × 逆文档频率)。
(3) N-gram模型: 统计连续N个词的组合频率(如Bi-gram、Tri-gram)。
(4) 词嵌入(预训练词向量)
- Word2Vec(2013):
- 通过Skip-Gram或CBOW模型,将词映射为低维稠密向量。
- 相似词在向量空间中距离相近(如“国王-王后≈男人-女人”)。
- GloVe(2014):
- 基于全局词共现矩阵,结合统计信息和词向量学习。
(5) 局限性:无法建模长距离上下文依赖; 词向量静态,无法处理一词多义。
transformer
一、Transformer架构
基于编码器-解码器架构来处理序列对
跟使用注意力的seq2seq不同,Transformer是纯基于注意力
seq2seq
transformer
1. 多头注意力(Muti-head attention)
对同一key,value,query,希望抽取不同的信息*(类似卷积的多通道)*
- 例如短距离关系和长距离关系
多头注意力使用h个独立的注意力池化
- 合并各个头(head) 输出得到最终输出
- 通过全连阶层,映射到一个较低的维度
- 进行多个attention
- 对每一个attention的输出,进行concat
- 再通过一个全连接,得到输出的维度
数学原理
LLM
概述
大模型的演变
大模型的训练整体上分为三个阶段:
预训练
在这个阶段它会学习各种不同种类的语料,学习到语言的统计规律和一般知识。
但是大模型在这个阶段只是学会了补全句子,却没有学会怎么样去领会人类的意图(类似成语接龙)。
SFT(监督微调)
在这个阶段大模型可以学习各种人类的对话语料,甚至是非常专业的垂直领域知识。
但是模型的回答有时候可能并不符合人类的偏好,它可能会输出一些涉黄、涉政、涉暴或者种族歧视等言论。
RLHF(基于人类反馈的强化学习)
在这个阶段大模型会针对同一问题进行多次回答,人类会对这些回答打分。
大模型会在此阶段学习到如何输出分数最高的回答,使得回答更符合人类的偏好。
分类
大语言模型(LLM)
专注于自然语言处理(NLP),旨在处理语言、文章、对话等自然语言文本。
多模态模型
多模态大模型能够同时处理和理解来自不同感知通道(如文本、图像、音频、视频等)的数据,在这些模态之间建立关联和交互。
工作流程
分词化与词表映射
分词化(Tokenization)是指将段落和句子分割成更小的分词(token)的过程。
Diffusion Model
概述
影像生成模型本质上的共同目标
进一步:输入加入了文字表述
目标:产生的图片与真实图片越接近越好
原理
Reverse Process(多次Denoise)
reconstructing meaningful data from noise by iteratively removing noise that was added during the forward process.
Forward Process:
Gradually adds noise to data over multiple steps until the data becomes pure noise.
Denoise输入:图片 + 噪音程度
Denoise Model内部
Generative AI
ChatGPT
G:generative
P:pre-trained
T:transformer
ChatGPT 真正做的事:文字接龙
Autoregressive Generation:逐个生成
token
文字接龙时可以选择的符号
每次回答都随机(掷骰子)