kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Temporal Intent-Aware Multi-agent Learning for Network Optimization
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL. Ericsson Research, Stockholm, Sweden.ORCID-id: 0009-0007-9146-0027
Ericsson Research, Stockholm, Sweden.
Ericsson Research, Stockholm, Sweden.
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL.ORCID-id: 0000-0003-4173-2593
2026 (Engelska)Ingår i: Computer Safety, Reliability, and Security. SAFECOMP 2025 Workshops - CoC3CPS, DECSoS, SASSUR, SENSEI, SRToITS, and WAISE, 2025, Proceedings, Springer Nature , 2026, s. 29-40Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Cellular networks have grown in size and complexity in recent years. To meet increasing traffic demands, new approaches are needed to replace legacy rule-based controllers and network management systems. Among these, learning-based methods are appealing because they can discover control policies without relying on expert knowledge. Intent-based networking, which describes desired network behavior rather than specific configurations, introduces a new level of abstraction. However, satisfying network intents under temporal constraints remains an open challenge. In this paper, we present a reinforcement learning approach that leverages Signal Temporal Logic (STL) to quantitatively translate network intents into a reward signal. We combine this with a transformer-based neural network architecture to handle temporal dependencies and multi-agent coordination. We evaluate our method in a high-fidelity telecommunications simulator, demonstrating that it outperforms state-of-the-art baselines. Our experiments show an improvement in satisfying temporally dependent intents compared to prior methods.

Ort, förlag, år, upplaga, sidor
Springer Nature , 2026. s. 29-40
Nyckelord [en]
Intent-driven control, Network optimization, Reinforcement learning, Temporal logic
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:kth:diva-370457DOI: 10.1007/978-3-032-02018-5_3Scopus ID: 2-s2.0-105014755551OAI: oai:DiVA.org:kth-370457DiVA, id: diva2:2002067
Konferens
Co-Design of Communication, Computing and Control in Cyber-Physical Systems, CoC3CPS 2025 held in conjunction with the 44th International Conference on Computer Safety, Reliability, and Security, SAFECOMP 2025, Stockholm, Sweden, September 9, 2025
Anmärkning

Part of ISBN 9783032020178

QC 20250929

Tillgänglig från: 2025-09-29 Skapad: 2025-09-29 Senast uppdaterad: 2026-04-09Bibliografiskt granskad
Ingår i avhandling
1. Multi-Agent Learning Under Spatio-Temporal Constraints in Coordinated Communication Networks
Öppna denna publikation i ny flik eller fönster >>Multi-Agent Learning Under Spatio-Temporal Constraints in Coordinated Communication Networks
2026 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
Abstract [en]

Modern cellular networks have gotten more complex over the years, transitioning from sparse macro-cell deployments to ultra-dense, heterogeneous systems. In this thesis we consider a radio resource management (RRM) problem called remote electrical tilt (RET), in particular. The objective in RET opimization is to tune antenna tilt parameters in the network to allocate radio resources where they are the most needed. As cellular networks evolve toward 6G, we expect an unprecedented increased need for autonomous decision making in the networks, introducing new coordination challenges exacerbated by the denser networks. Traditional network management has been reliant on manual engineering and rule-based heuristics and is insufficient for the needs of the next generation as it scales poorly. While Multi-Agent Reinforcement Learning appears as a promising tool for autonomously adapting the network, currently deployed solutions often struggle with the large scale of the problem. Additionally, they fail to provide formal guarantees, and remain limited by myopic and step-wise reward structures that cannot capture complex constraints communication service providers (CSPs) may impose on the network. Lacking these attributes holds back deployment in live networks beyond small scale pilot studies.

This thesis proposes a series of approaches that aim to provide high-assurance autonomous network parameter control. The contributions progressively build on each other from spatial interference coordination to long-horizon, risk-aware planning to satisfy CSP network intents. First, we address the myopic constraints by leveraging graph-based decomposition and coordination graphs to factorize the joint action space, enabling scalable \textit{constrained} learning in dense urban environments. Recognizing that critical infrastructure demands reliability beyond mean performance, we also introduce a risk-aware constrained learning framework utilizing Conditional Value-at-Risk to provide probabilistic reasoning over constraints in the network.

To bridge the gap between low-level control and high-level CSP intents, we transition from scalar rewards to formal specifications. We utilize Signal Temporal Logic (STL) and transformer-based architectures to satisfy complex intents, enabling agents to reason over  long-horizon requirements. Finally, we move beyond traditional control policies toward generative planning of trajectory rollouts. We aim to enable the generation of safe, high-quality plans that respect hard constraints with probabilistic guarantees by using diffusion probabilistic.

The proposed methods are evaluated on high-fidelity simulators modeled after real-world urban topologies. The results demonstrate that by integrating structural coordination, formal logic, and generative modeling, it is possible to address many of the issues that plague contemporary autonomous network management. The policies that are obtained by these approaches are not only high-performing but also interpretable, safe, and aligned with the rigorous demands of next-generation telecommunications infrastructure.

Abstract [sv]

Moderna mobilnät har blivit alltmer komplexa genom åren och genomgår en övergång från glesa makrocellsutbyggnader till ultratäta, heterogena system. I denna avhandling fokuserar vi specifikt på ett problem inom radioresurshantering (RRM) kallat fjärrstyrd elektrisk lutning (Remote Electrical Tilt, RET). Målet med RET-optimering är att justera antennernas lutning för att fördela radioresurser där de behövs som mest. I takt med att mobilnäten utvecklas mot 6G förväntas en oöverträffad tillväxt i automatiseringsbehov, vilket introducerar nya koordinationsutmaningar som förstärks av de tätare näten. Traditionell nätverkshantering har varit beroende av manuell justering och regelbaserad heuristik, vilket är otillräckligt för nästa generations behov då det skalar upp dåligt. Även om förstärkningsinlärning i fleragentsystem (MARL) framstår som ett lovande verktyg för att autonomt nätverk, kämpar nuvarande lösningar ofta med problemets storskalighet. Dessutom misslyckas de med att ge garantier och begränsas av kortsiktiga, stegvisa belöningsstrukturer som inte kan fånga de komplexa krav som nätoperatörer ställer på nätverket. Bristen på dessa egenskaper hindrar live driftsättning i nät bortom småskaliga pilotstudier.

Denna avhandling föreslår en serie metoder som syftar till att tillhandahålla autonom kontroll av nätverksparametrar med hög tillförlitlighet. Bidragen bygger progressivt på varandra, från spatial interferenskoordinering till långsiktig, riskmedveten planering för att uppfylla operatörernas nätverksmål (intents). Först hanterar vi kortsiktiga begränsningar genom att utnyttja grafbaserad dekomponering och koordinationsgrafer för att faktorisera det gemensamma beslutsutrymmet, vilket möjliggör skalbar villkorad inlärning i täta stadsmiljöer. Med insikten att kritisk infrastruktur kräver tillförlitlighet bortom genomsnittlig prestanda, introducerar vi också ett riskmedvetet ramverk för villkorad inlärning som utnyttjar betingat riskvärde (Conditional Value-at-Risk) för att möjliggöra resonerande kring villkor i nätverket.

För att överbrygga gapet mellan kontroll på låg nivå och operatörers mål på hög nivå går vi från skalära belöningar till formella specifikationer. Vi använder Signal Temporal Logic (STL) och Transformer-baserade arkitekturer för att uppfylla komplexa mål, vilket gör det möjligt för agenter att resonera kring långsiktiga krav. Slutligen rör vi oss från traditionella kontrollstrategier mot generativ planering av trajektorier. Genom att använda probabilistiska diffusionsmodeller ämnar vi till att möjliggöra generering av säkra planer av hög kvalitet som respekterar hårda villkor med probabilistiska garantier.

De föreslagna metoderna utvärderas i avancerade simulatorer modellerade efter topologier från stadsmiljöer. Resultaten visar att det är möjligt--genom att integrera strukturell koordination, formell logik och generativ modellering--att adressera många av de problem som plågar samtida autonom nätverkshantering. De strategier som erhålls genom dessa metoder är inte bara högpresterande utan även tolkningsbara, säkra och anpassade till de rigorösa krav som finns i nästa generations telekommunikationsinfrastruktur.

Ort, förlag, år, upplaga, sidor
Stockholm: Kungliga Tekniska högskolan, 2026. s. 67
Serie
TRITA-EECS-AVL ; 2026:31
Nationell ämneskategori
Telekommunikation
Identifikatorer
urn:nbn:se:kth:diva-379072 (URN)978-91-8106-576-3 (ISBN)
Disputation
2026-05-07, https://kth-se.zoom.us/s/67709142389, F3 (Flodis), Lindstedtsvägen 26, Stockholm, 14:00 (Engelska)
Opponent
Handledare
Anmärkning

QC 20260410

Tillgänglig från: 2026-04-10 Skapad: 2026-04-09 Senast uppdaterad: 2026-04-10Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Person

Larsson Forsberg, AlbinTumova, Jana

Sök vidare i DiVA

Av författaren/redaktören
Larsson Forsberg, AlbinTumova, Jana
Av organisationen
Robotik, perception och lärande, RPL
Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 112 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf