Lightweight U-Net combination model for steel bar segmentation
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Effektiv variant av U-Net för segmentering av stålstänger (Swedish)
Abstract [en]
The U-Net convolutional neural network architecture has gained widespread popularity for image segmentation tasks due to its robust performance and ability to capture intricate features. This thesis presents a comprehensive evaluation of various U-Net architecture variations in the specific context of segmenting metal bars from images with the goal of determining their curvature. Accurately assessing their curvature is a critical quality control step in steel manufacturing where straight products are essential to satisfy customer needs. In this study, several modifications to the original U-Net architecture are explored, including the incorporation of attention mechanisms, full skip connectivity between encoder and decoder paths, and non-standard convolution blocks at various parts of the architecture. Each variation is assessed for its segmentation accuracy, and computational and space efficiency. At disposal was small a dataset comprising very high-resolution images of metal bars. Performance metrics such as Jaccard score, precision, recall, and inference time are employed to provide a holistic view of each model’s effectiveness. The experimental results demonstrate that certain U-Net variations signifi- cantly outperform the baseline model, particularly those incorporating full skip connections and a single decoder positioned at the second shallowest level, which exhibit superior accuracy. The findings of this thesis offer valuable insights into the design choices that enhance U-Net’s performance for industrial image segmentation tasks, paving the way for more efficient and reliable automated systems in metal bar processing industries. These results underscore the potential of advanced U-Net architectures in achieving high-precision segmentation in challenging environments, ultimately contributing to improved operational efficiencies and product quality in industrial settings.
Abstract [sv]
U-Nets konvolutionella neurala nätverksarkitektur har vunnit stor popularitet för bildsegmenteringsuppgifter på grund av dess robusta prestanda och förmåga att fånga intrikata egenskaper. Denna avhandling presenterar en omfattande utvärdering av olika U-Net-arkitekturvariationer i det specifika sammanhanget att segmentera metallstänger från bilder med målet att bestämma deras krökning. Att noggrant bedöma deras krökning är ett kritiskt kvalitetskontrollsteg vid ståltillverkning där raka produkter är avgörande för att tillfredsställa kundernas behov. I denna studie undersöks flera modifieringar av den ursprungliga U- Net-arkitekturen, inklusive inkorporering av uppmärksamhetsmekanismer, fullständiga skip-anslutningar mellan kodar- och avkodarvägar och icke- standardiserade konvolutionsblock i olika delar av arkitekturen. Varje variation bedöms för dess segmenteringsnoggrannhet och beräknings- och utrymmeseffektivitet. Till förfogande fanns ett litet dataset bestående av mycket högupplösta bilder av metallstänger. Prestandamått som Jaccard-poäng, precision, återkallelse och inferenstid används för att ge en helhetsbild av varje modells effektivitet. De experimentella resultaten visar att vissa U-Net-variationer avsevärt överträffar baslinjemodellen, särskilt de som innehåller full skip-anslutningar och en enda dekoder placerad på den näst grundaste nivån, som uppvisar överlägsen noggrannhet. Resultaten av denna avhandling erbjuder värdefulla insikter i designvalen som förbättrar U-Nets prestanda för industriella bildsegmenteringsuppgifter, vilket banar väg för effektivare och pålitligare automatiserade system inom metallstångsindustrin. Dessa resultat understryker potentialen hos avancerade U-Net-arkitekturer för att uppnå högprecisionssegmentering i utmanande miljöer, vilket i slutändan bidrar till förbättrad driftseffektivitet och produktkvalitet i industriella miljöer.
Place, publisher, year, edition, pages
2024. , p. 47
Series
TRITA-EECS-EX ; 2024:883
Keywords [en]
Computer vision, U-Net, Segmentation
Keywords [sv]
Datorsyn, U-Net, segmentering
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360852OAI: oai:DiVA.org:kth-360852DiVA, id: diva2:1942155
External cooperation
Swerim AB
Supervisors
Examiners
2025-03-072025-03-042025-03-07Bibliographically approved