Posts 量化
Post
Cancel

量化

《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》

摘要

提出了一种量化方案:允许使用整型进行推理,在常用的只支持整型计算单元的硬件上可以比浮点推理效率更高。

还设计了一种训练方案,使得端到端模型精度和时延之间有更好的权衡。

引言

很广泛的研究:在精度损失较小的前提下,减小模型体积和推理时间。主要分为2类:

  • 设计新网络架构,以高效利用计算/内存操作。
  • 将32位浮点的权重或者激活量化到低比特的表示。
This post is licensed under CC BY 4.0 by the author.