POST TRAINING QUANTIZATION IN LENET-5 ALGORITHM FOR EFFICIENT INFERENCE
Keywords:
Post Training Quantization, Deep Neural Network, Inference, lenet-5Abstract
Ketika model jaringan saraf tiruan menjadi lebih baik , keinginan untuk mengimplementasikannya di dunia nyata semakin meningkat. Namun, konsumsi energi dan akurasi jaringan saraf tiruan sangat besar karena ukuran dan kompleksitasnya, sehingga sulit untuk diimplementasikan pada embedded devices. Kuantisasi jaringan saraf ini adalah sebuah teknik untuk dapat memecahkan masalah seperti mengurangi ukuran dan kompleksitas jaringan saraf tiruan dengan mengurangi ketepatan parameter dan aktivasi. Dengan jaringan yang lebih kecil, dimungkinkan untuk menjalankan jaringan saraf di lokasi yang diinginkan. Artikel ini mengkaji tentang kuantisasi yang telah berkembang dalam beberapa dekade terakhir. Dalam penelitian ini, kami mengimplementasikan kuantisasi dalam algoritma lenet-5, yang merupakan algoritma jaringan saraf convolutional pertama yang pernah ada, dan dievaluasi dalam dataset MNIST dan Fashion-MNIST.
Downloads
References
Banner, Ron, et al. "Scalable methods for 8-bit training of neural networks." Advances in neural information processing systems 31 (2018).
Denil, Misha, et al. "Predicting parameters in deep learning." Advances in neural information processing systems 26 (2013).
Jacob, Benoit, et al. "Quantization and training of neural networks for efficient integer-arithmetic-only inference." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018
Liang, Tailin, et al. "Pruning and quantization for deep neural network acceleration: A survey." Neurocomputing 461 (2021): 370-403.
Weng, Olivia. "Neural Network Quantization for Efficient Inference:A Survey." arXiv preprint arXiv:2112.06126 (2021).
Nagel, Markus, et al. "A white paper on neural network quantization." arXiv preprint arXiv:2106.08295 (2021).
LeCun, Yann. "LeNet-5, convolutional neural networks." URL: http://yann. lecun. com/exdb/lenet 20.5 (2015): 14.
LeCun, Yann. "LeNet-5, convolutional neural networks." URL: http://yann. lecun. com/exdb/lenet 20.5 (2015): 14.
Polino, Antonio, Razvan Pascanu, and Dan Alistarh. "Model compression via distillation and quantization." arXiv preprint arXiv:1802.05668 (2018).
Wang, Naigang, et al. "Training deep neural networks with 8-bit floating point numbers." Advances in neural information processing systems 31 (2018).
Vandersteegen, Maarten, Kristof Van Beeck, and Toon Goedemé. "Integer-Only CNNs with 4 Bit Weights and Bit-Shift Quantization Scales at Full-Precision Accuracy." Electronics 10.22 (2021): 2823.
Downloads
Published
How to Cite
Issue
Section
License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.