Quantization
线性量化
量化和去量化
量化指将一个大集合映射到一个较小值集合的过程。
可以量化的内容
- The weights: Neural network parameters
- The activations: Values that propagate through the layers of the neural network
线性量化理论
参数
Scale:s(e.g. in FP32)
Zero point:z(e.g. INT8)
非对称性变体
缩放因子
零点