Fine-Tuning a Deep Learning Model for grasping synthesis of unknown objects in recycling: Improving grasping success rate for scrap metal recycling
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis
Abstract [en]
This thesis addresses the challenge of robotic grasping of unknown objects in recycling environments, a critical aspect of automating waste management processes. Robotic grasping systems often face difficulties with the variability in shape, size, and material of items, particularly in unstructured settings like recycling plants. The significance of this problem lies in the pressing need for efficient, automated sorting systems that can manage the diverse nature of scrap metal. We define scrap metal as the rest from crushed metallic components. This automation would reduce human involvement in hazardous environments. The complexity of the problem arises from the limitations of traditional grasping methods, which frequently depend on detailed 3D models or predefined grasp points that are not viable when dealing with unfamiliar objects. To tackle this issue, the research focused on finetuning an existing deep learning model, PEGG-Net, initially trained on an everyday object dataset. The adaptation process involved using a custom dataset of reallife scrap metal, with a 4 Degrees of Freedom (DoFs) grasping approach. The method utilized RGB-D images to predict grasp quality, angle, and width for each pixel, and a robot equipped with a radial gripper to test the grasp generated. A critical insight from this study was the adjustment of the batch normalization layers within the network, ensuring better alignment between the input data and the original training data—a key factor for successful finetuning in optimizing model performance, as well as highlighting the necessity of a comprehensive, accurate dataset for finetuning. The dataset was generated by conducting robotic grasp attempts on various objects, with each grasp scored to provide target outputs for the network. The results showed a significant increase in grasp success rate, improving from 43% with the original model to 95% postfinetuning. This marked enhancement underscores the importance of adapting general models to specific applications. The finetuned model exhibited improved object detection and more consistent grasping across various types of scrap metal, demonstrating the potential of finetuning deep learning models for practical, realworld robotic applications. Future research directions include expanding the methodology to accommodate moving objects, integrating feedback mechanisms from the gripper, and exploring more sophisticated grasping strategies, such as 6-DoF approaches.
Abstract [sv]
Denna avhandling behandlar utmaningen med att låta robotar greppa okända objekt i återvinningsmiljöer – en kritisk aspekt av automatiseringen av avfallshanteringsprocesser. Robotiska greppsystem ställs ofta inför svårigheter relaterade till variationer i form, storlek och material hos föremål, särskilt i ostrukturerade miljöer som återvinningsanläggningar. Problemet är särskilt relevant med tanke på det akuta behovet av effektiva, automatiserade sorteringssystem som kan hantera metallskrotets mångfacetterade natur. Här definieras metallskrot som rester från krossade metallkomponenter. Genom att automatisera denna process kan man minska den mänskliga exponeringen för farliga arbetsmiljöer. Utmaningens komplexitet grundar sig i begränsningarna hos traditionella greppmetoder, som ofta bygger på detaljerade 3D - modeller eller fördefinierade greppunkter – strategier som inte är praktiskt genomförbara vid hantering av okända objekt. För att möta denna utmaning fokuserade forskningen på att finjustera en befintlig djupinlärningsmodell, PEGG-Net, som ursprungligen tränats på ett dataset bestående av vardagsföremål. Anpassningen innebar användning av ett skräddarsytt dataset med verkligt metallskrot, där greppstrategin baserades på fyra frihetsgrader. Metoden använde RGBD-bilder för att förutsäga greppkvalitet, vinkel och bredd för varje pixel, och ett robotsystem med en radiell griptång användes för att testa de genererade greppen. En avgörande insikt i studien var justeringen av batchnormaliseringslagren i nätverket, vilket förbättrade samspelet mellan indata och de ursprungliga träningsdata – en nyckelfaktor för lyckad finjustering och optimering av modellens prestanda. Studien underströk också vikten av ett omfattande och korrekt dataset vid finjusteringsprocessen. Datasetet togs fram genom att roboten genomförde greppförsök på olika objekt, där varje försök poängsattes för att generera måldata för nätverket. Resultaten visade en markant förbättring i antalet lyckade grepp – från 43 % med den ursprungliga modellen till 95 % efter finjusteringen. Denna påtagliga förbättring belyser vikten av att anpassa generella modeller till specifika tillämpningar. Den finjusterade modellen uppvisade förbättrad objektdetektering och mer konsekventa grepp över ett brett spektrum av metallskrot, vilket tydligt visar potentialen hos finjusterade djupinlärningsmodeller för praktisk, verklighetsnära robotik. Framtida forskningsvägar inkluderar att vidareutveckla metodiken för att hantera rörliga objekt, integrera återkopplingsmekanismer från gripdonet samt att utforska mer avancerade greppstrategier, såsom grepp med sex frihetsgrader.
Abstract [fr]
Ce mémoire de maîtrise aborde le défi de la préhension robotique d’objets inconnus dans les environnements de recyclage, un aspect critique de l’automatisation des processus de gestion des déchets. Les systèmes de préhension robotique sont souvent confrontés à des difficultés liées à la variabilité de la forme, de la taille et du matériau des objets, en particulier dans des environnements non structurés tels que les usines de recyclage. L’importance de ce problème réside dans le besoin de systèmes de tri efficaces et automatisés capables de gérer la nature diverse des déchets métalliques. Nous définissons ces déchets comme le reste de composants métalliques écrasés. Cette automatisation réduirait l’implication humaine dans des environnements dangereux. La complexité du problème provient des limites des méthodes de préhension traditionnelles, qui dépendent généralement de modèles 3D détaillés ou de points de préhension prédéfinis qui ne sont pas viables lorsqu’il s’agit d’objets non familiers. Pour résoudre ce problème, la démarche a été de se concentrer sur l’adaptation d’un modèle d’apprentissage profond existant, PEGG-Net, initialement formé sur un ensemble de données d’objets du quotidien. Le processus d’adaptation a impliqué l’utilisation d’un ensemble de données personnalisé de déchets métalliques réels, avec une approche de préhension à 4 degrées de libertés. La méthode utilise des images RVB-Profondeur (RGBD) pour prédire la qualité, l’angle et la largeur de la saisie pour chaque pixel, et un robot équipé d’une pince radiale pour tester la saisie générée. L’ajustement des couches de normalisation des lots au sein du réseau a constitué un élément essentiel de cette étude. Il a permis d’assurer un meilleur alignement entre les données d’entrée et les données d’apprentissage d’origine — un facteur clé pour une mise au point réussie en vue d’optimiser les performances du modèle — et de souligner la nécessité de disposer d’un ensemble de données complet et précis pour le réglage fin. L’ensemble des données a été généré par des tentatives de préhension robotique de divers objets, chaque préhension étant notée pour fournir des sorties cibles au réseau. Les résultats ont montré une augmentation significative du taux de réussite de la saisie, qui est passé de 43% avec le modèle original à 95% après le réglage fin. Cette nette amélioration souligne l’importance d’adapter des modèles généraux à des applications spécifiques. Le modèle affiné a permis une meilleure détection des objets et une saisie plus cohérente de divers types de déchets métalliques, ce qui démontre le potentiel de l’affinement des modèles d’apprentissage profond pour les applications robotiques pratiques et réelles. Les directions de recherche futures comprennent l’extension de la méthodologie pour prendre en compte les objets en mouvement, l’intégration de mécanismes de retour d’information de la part du préhenseur et l’exploration de stratégies de saisie plus sophistiquées, telles que les approches 6 degrées de libertés.
Place, publisher, year, edition, pages
2025. , p. 79
Series
TRITA-EECS-EX ; 2025:83
Keywords [en]
Robotic Grasping, Unknown Object, Recycling, Deep Learning, Finetuning
Keywords [fr]
Préhension robotique, Objet inconnu, Recyclage, Apprentissage Profond, Réglage Fin
Keywords [sv]
Robotgrepp, okänt objekt, återvinning, djupinlärning, finjustering
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-362884OAI: oai:DiVA.org:kth-362884DiVA, id: diva2:1955187
External cooperation
Enodo Robotics AB
Supervisors
Examiners
2025-05-072025-04-292025-05-07Bibliographically approved