《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》
摘要
提出了一种量化方案:允许使用整型进行推理,在常用的只支持整型计算单元的硬件上可以比浮点推理效率更高。
还设计了一种训练方案,使得端到端模型精度和时延之间有更好的权衡。
引言
很广泛的研究:在精度损失较小的前提下,减小模型体积和推理时间。主要分为2类:
- 设计新网络架构,以高效利用计算/内存操作。
- 将32位浮点的权重或者激活量化到低比特的表示。