Mapping quantized convolutional layers on the SiLago platform
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis
Abstract [en]
Convolutional neural networks (CNNs) have been utilized in various applications, such as image classification, computer vision, etc. With development, the complexity and computation of CNNs also increase, which requires more memory and resources when deployed on devices, especially embedded systems. The most common approach to compress the CNN models is known as network quantization, converting floating-point numbers to fixed-point, which reduces the memory footprint and the computation amount. Many hardware frameworks were proposed to accelerate the inference of quantized neural networks. The SiLago platform is the hardware architecture proposed to address the issue of dark silicon and increase automation in VLSI design. It consists of two CGRAs that help to achieve high parallelism and ASIC-like efficiency. However, it only supported 16-bit datapath originally, which lacks the ability to process algorithms that use low-bitwidth data types, such as 4-bit and 8-bit. In this thesis, we extended the DPU module to support some extra modes for lowbitwidth data and modified the instruction set of Silago to configure different precision of the computation in DPUs. In addition, we proposed three mapping algorithms to map 4-bit, 8-bit and 16-bit convolutional layers of quantized CNNs on the Silago platform. The algorithms were implemented by writing instructions of SiLago ISA and validated on the hardware through simulations. Results show that we can map quantized convolutional layers on Silago with various precision.
Abstract [sv]
Konvolutionella neurala nätverk (CNN) har använts i olika applikationer, såsom bildklassificering, datorseende, etc. Med utvecklingen ökar också komplexiteten och beräkningen av CNN, vilket kräver mer minne och resurser när de distribueras på enheter, särskilt inbyggda system. Det vanligaste tillvägagångssättet för att komprimera CNN-modellerna är känt som nätverkskvantisering, som konverterar flyttalstal till fast punkt, vilket minskar minnesfotavtrycket och beräkningsmängden. Många hårdvara ramverk föreslogs för att påskynda slutsatsen av kvantiserade neurala nätverk. SiLago-plattformen är den hårdvaruarkitektur som föreslås för att ta itu med frågan om mörkt kisel och öka automatiseringen i VLSI-design. Den består av två CGRA som hjälper till att uppnå hög parallellitet och ASIC-liknande effektivitet. Den stödde dock endast 16-bitars dataväg ursprungligen, som saknar förmågan att bearbeta algoritmer som använder datatyper med låg bitbredd, såsom 4-bitars och 8-bitars. I den här avhandlingen utökade vi DPU-modulen för att stödja några extra lägen för data med låg bitbredd och modifierade instruktionsuppsättningen för Silago för att konfigurera olika precision för beräkningen i DPU:er. Dessutom föreslog vi tre mappningsalgoritmer för att kartlägga 4-bitars, 8-bitars och 16-bitars faltningslager av kvantiserade CNN på Silago-plattformen. Algoritmerna implementerades genom att skriva instruktioner från SiLago ISA och validerades på hårdvaran genom simuleringar. Resultaten visar att vi kan kartlägga kvantiserade faltningslager på Silago med olika precision.
Place, publisher, year, edition, pages
2022. , p. 47
Series
TRITA-EECS-EX ; 2022:844
Keywords [en]
SiLago, algorithm mapping, quantized neural networks, convolution
Keywords [sv]
SiLago, algoritmkartläggning, kvantiserade neurala nätverk, faltning
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-324439OAI: oai:DiVA.org:kth-324439DiVA, id: diva2:1740699
Supervisors
Examiners
2023-03-062023-03-012023-03-06Bibliographically approved