Evaluation and optimization of AI-based sensing for baseband systems: The effects of pruning, clustering, and quantization on line-of-sight blockage prediction
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Utvärdering och optimering av AI-baserad analys för basbandssystem : Effekterna av beskärning, klustring och kvantisering på neuronnätsförutsägelse av siktlinjeblockering (Swedish)
Abstract [en]
Millimeter-wave and sub-terahertz frequencies are emerging as key technolo- gies for future baseband networks in the telecommunications industry, as they enable higher data rates and lower latency, critical factors for both users and service providers. However, these media rely heavily on maintaining a clear line-of-sight between the emitter and the receiver to provide the desired service level. Machine learning and neural network-based models have demonstrated promising results in predicting future line-of-sight conditions between a base station and a client, particularly by leveraging radar to sense the surrounding environment. Research has been conducted on developing machine learning models for predicting future line-of-sight blockage using radar. However, no real-world implementation has yet been industrialized and deployed, as several challenges remain. Baseband equipment is subject to stringent hardware constraints to minimize energy consumption and production costs, as well as strict timing requirements that significantly influence the feasibility of executing such models on the system. This thesis specifically examines the hardware requirements associated with running a model for line-of-sight blockage prediction, how these requirements scale with the neural network optimizations: network pruning, weight clustering, and network quantization, and if it is feasible to run this model on real-world deployed hardware. To accomplish this, we tested the model with all different combinations of software optimization, on two different inference platforms based on TFlite and ONNX, on one ARM and one X86-based simulated hardware platform using the gem5 hardware simulator. Each hardware platform was designed to mirror hardware that is suitable for a real-world baseband system. This thesis examines the hardware requirements for running a model developed by Demirhan and Alkhateeb for line-of-sight blockage prediction, how these requirements scale with the three neural network optimization techniques network pruning, weight clustering, and quantization, and the feasibility of deploying this model on real-world hardware. To evaluate this, the model was tested with various combinations of software optimizations on two different inference platforms, based on TFLite and ONNX, respectively. These tests were conducted on simulated ARM- and x86-based hardware platforms using the gem5 hardware simulator. Each simulated hardware configuration was designed to reflect architectures suitable for real-world baseband systems. The results in this thesis concluded that neither unstructured pruning nor clustering affected the hardware requirements of running the model. Quantization greatly reduced the memory traffic volume and bandwidth by 44% and 62% respectively, but increased inference time by 48% on TFlite and 50% on ONNX. Structured pruning improved all hardware characteristics across the board, with a 34% to 80% decrease in the number of committed CPU instructions, a 51% to 70% decrease in memory volume, and a 25% decrease to a 45% increase in bandwidth depending on the platform, as well as providing the lowest inference time. Integer instructions, SIMD integer instructions, and SIMD floating-point instructions were the most utilized CPU instructions regardless of the platform, with quantization heavily skewing the results from SIMD floating-point to SIMD integer instructions. Lastly, we concluded that running this model for line-of-sight prediction on hardware suitable for baseband systems would be feasible, as the expected inference time on real hardware would be lower than 30ms, allowing for fast reactions to environmental changes.
Abstract [sv]
Millimetervågor och sub-terahertzfrekvenser är dominanta i framtida bas- bandsnätverk inom telekomindustrin. Dessa frekvenser möjliggör högre hastigheter och lägre latens, två avgörande faktorer för både användare och operatörer. Samtidigt är dessa tekniker starkt beroende av fri sikt mellan sändare och mottagare för att kunna uppnå önskad prestanda. Användning av maskininlärning och modeller baserade på neurala nätverk har visat stor potential för att förutsäga framtida förhållanden för fri sikt mellan en basstation och en användare, särskilt genom att använda radar för att kartlägga omgivningen. Tidigare forskning har tagit fram maskininlärningsmodeller för att förutse blockering av fri sikt med hjälp av radar. Än så länge har dock inga lösningar implementerats i verkliga industriella system då det fortfarande existerar flera utmaningar som behövar hanteras. Basbandsutrustning har strikta hårdvarukrav för att hålla energiförbrukning och produktionskostnader nere, samtidigt som hårda tidskrav begränsar vad som faktiskt kan köras på systemen. I den här projektet har vi undersökt vilka hårdvarukrav som krävs för att köra en modell för att förutsäga blockering av fri sikt. Vi har också studerat hur dessa krav påverkas av olika optimeringar av neurala nätverk, såsom nätverksbeskärning, viktklustring och kvantisering, samt om det är praktiskt möjligt att köra modellen på verklig hårdvara som används i basbandsystem. För att genomföra detta testades modellen med olika kombinationer av mjukvaruoptimeringar på två inferensplattformar baserade på TFlite och ONNX. Dessa kördes på en ARM- och en X86-baserad simulerad hårdvaruplattform med hjälp av hårdvarusimulatorn gem5. Varje plattform var utformad för att efterlikna hårdvara som kan förekomma basbandsystem. Resultaten visade att ostrukturerad beskärning och klustring inte hade någon större inverkan på modellens hårdvarukrav. Kvantisering däremot minskade både minnesåtkomstvolymen och minnesbandbredden markant, med 44% respektive 62%, men ledde också till en ökning av inferenstiden med 48% för TFlite och 50% för ONNX. Strukturerad beskärning förbättrade däremot alla aspekter av hårdvarukraven, med en minskning av CPU- instruktionerna med 34–80%, en minskning av minnesåtkomstvolymen med 51–70%, samt en förändring av minnesbandbredden som varierade mellan en minskning på 25% och en ökning på 45% beroende på plattform. Dessutom hade denna optimering de kortaste inferenstiderna. Vi fann också att heltalsinstruktioner, SIMD-heltalsinstruktioner och SIMD-flyttalsinstruktioner var de mest frekvent använda CPU-instruktionerna, oavsett plattform. Kvantisering påverkade kraftigt fördelningen mellan SIMD- flyttals- och heltalsinstruktioner och ledde till en ökad användning av heltalsinstruktioner. Sammanfattningsvis visar resultaten att det är möjligt att köra en modell för förutspå blockeringar av fri sikt på hårdvara som är lämplig för basbandsystem. Den beräknade inferenstiden för modellen på verklig hårdvara förväntas vara under 30 millisekunder, vilket gör att systemet kan reagera snabbt på förändringar i omgivningen.
Place, publisher, year, edition, pages
2025. , p. 86
Series
TRITA-EECS-EX ; 2025:70
Keywords [en]
Machine Learning, Baseband, Radar Sensing, Neural Network Pruning, Weight Clustering, Neural Network Quantization, Gem5
Keywords [sv]
Maskininlärning, Basband, Radar, Neuronnät-beskärning, Vikt-klustring, Neuronnät-kvantisering, Gem5
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-362882OAI: oai:DiVA.org:kth-362882DiVA, id: diva2:1955175
External cooperation
Huawei Technologies Sweden AB
Supervisors
Examiners
2025-05-062025-04-292025-05-06Bibliographically approved