给 Python 算法插上性能的翅膀——pybind11 落地实践
可以并行化执行是因为CPU在设计时,增加了一些专用的向量寄存器,这些寄存器的长度往往大于通用寄存器,比如SEE的XMM寄存器,位宽为128位;AVX和AVX2的YMM寄存器,位宽为256位;AVX512的ZMM寄存器,位宽为512位。这些专用的向量寄存器可以同时放入多个数据。 变量定义 第一部分,统一为__m; 第二部分为位数如64、128、256等; 第三部位为变量类型,i表示in...
什么是AES加密 常见加密分为两类: 对称加密 AES(Advanced Encrtption Standard)是对称加密的一种,即加密和解密使用相同的密钥。 非对称加密 加密和解密使用不同的密钥,非对程算法比对称算法更复杂,运算速度更慢。 AES加密流程关键概念 分组密码体制 分组密码体制是指将明文分成一段一段的来...
介绍 oneDNN(前身为mkl-dnn和dnnl),是intel开发的开源深度学习加速计算库,实现了部分常用神经网络算子,它是oneAPI的一部分。 开发oneDNN库的目的是为了提高intel处理器和显卡上开发深度学习应用的性能,因此该库主要针对intel的CPU和GPU进行优化,对AArch64和NVIDIA GPU实验性支持。目前使用了oneDNN的应用有TensorFlow、P...
NUMA
分布式框架Ray