Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Temporal Intent-Aware Multi-agent Learning for Network Optimization
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL. Ericsson Research, Stockholm, Sweden.ORCID-id: 0009-0007-9146-0027
Ericsson Research, Stockholm, Sweden.
Ericsson Research, Stockholm, Sweden.
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL.ORCID-id: 0000-0003-4173-2593
2026 (engelsk)Inngår i: Computer Safety, Reliability, and Security. SAFECOMP 2025 Workshops - CoC3CPS, DECSoS, SASSUR, SENSEI, SRToITS, and WAISE, 2025, Proceedings, Springer Nature , 2026, s. 29-40Konferansepaper, Publicerat paper (Fagfellevurdert)
Abstract [en]

Cellular networks have grown in size and complexity in recent years. To meet increasing traffic demands, new approaches are needed to replace legacy rule-based controllers and network management systems. Among these, learning-based methods are appealing because they can discover control policies without relying on expert knowledge. Intent-based networking, which describes desired network behavior rather than specific configurations, introduces a new level of abstraction. However, satisfying network intents under temporal constraints remains an open challenge. In this paper, we present a reinforcement learning approach that leverages Signal Temporal Logic (STL) to quantitatively translate network intents into a reward signal. We combine this with a transformer-based neural network architecture to handle temporal dependencies and multi-agent coordination. We evaluate our method in a high-fidelity telecommunications simulator, demonstrating that it outperforms state-of-the-art baselines. Our experiments show an improvement in satisfying temporally dependent intents compared to prior methods.

sted, utgiver, år, opplag, sider
Springer Nature , 2026. s. 29-40
Emneord [en]
Intent-driven control, Network optimization, Reinforcement learning, Temporal logic
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-370457DOI: 10.1007/978-3-032-02018-5_3Scopus ID: 2-s2.0-105014755551OAI: oai:DiVA.org:kth-370457DiVA, id: diva2:2002067
Konferanse
Co-Design of Communication, Computing and Control in Cyber-Physical Systems, CoC3CPS 2025 held in conjunction with the 44th International Conference on Computer Safety, Reliability, and Security, SAFECOMP 2025, Stockholm, Sweden, September 9, 2025
Merknad

Part of ISBN 9783032020178

QC 20250929

Tilgjengelig fra: 2025-09-29 Laget: 2025-09-29 Sist oppdatert: 2026-04-09bibliografisk kontrollert
Inngår i avhandling
1. Multi-Agent Learning Under Spatio-Temporal Constraints in Coordinated Communication Networks
Åpne denne publikasjonen i ny fane eller vindu >>Multi-Agent Learning Under Spatio-Temporal Constraints in Coordinated Communication Networks
2026 (engelsk)Doktoravhandling, med artikler (Annet vitenskapelig)
Abstract [en]

Modern cellular networks have gotten more complex over the years, transitioning from sparse macro-cell deployments to ultra-dense, heterogeneous systems. In this thesis we consider a radio resource management (RRM) problem called remote electrical tilt (RET), in particular. The objective in RET opimization is to tune antenna tilt parameters in the network to allocate radio resources where they are the most needed. As cellular networks evolve toward 6G, we expect an unprecedented increased need for autonomous decision making in the networks, introducing new coordination challenges exacerbated by the denser networks. Traditional network management has been reliant on manual engineering and rule-based heuristics and is insufficient for the needs of the next generation as it scales poorly. While Multi-Agent Reinforcement Learning appears as a promising tool for autonomously adapting the network, currently deployed solutions often struggle with the large scale of the problem. Additionally, they fail to provide formal guarantees, and remain limited by myopic and step-wise reward structures that cannot capture complex constraints communication service providers (CSPs) may impose on the network. Lacking these attributes holds back deployment in live networks beyond small scale pilot studies.

This thesis proposes a series of approaches that aim to provide high-assurance autonomous network parameter control. The contributions progressively build on each other from spatial interference coordination to long-horizon, risk-aware planning to satisfy CSP network intents. First, we address the myopic constraints by leveraging graph-based decomposition and coordination graphs to factorize the joint action space, enabling scalable \textit{constrained} learning in dense urban environments. Recognizing that critical infrastructure demands reliability beyond mean performance, we also introduce a risk-aware constrained learning framework utilizing Conditional Value-at-Risk to provide probabilistic reasoning over constraints in the network.

To bridge the gap between low-level control and high-level CSP intents, we transition from scalar rewards to formal specifications. We utilize Signal Temporal Logic (STL) and transformer-based architectures to satisfy complex intents, enabling agents to reason over  long-horizon requirements. Finally, we move beyond traditional control policies toward generative planning of trajectory rollouts. We aim to enable the generation of safe, high-quality plans that respect hard constraints with probabilistic guarantees by using diffusion probabilistic.

The proposed methods are evaluated on high-fidelity simulators modeled after real-world urban topologies. The results demonstrate that by integrating structural coordination, formal logic, and generative modeling, it is possible to address many of the issues that plague contemporary autonomous network management. The policies that are obtained by these approaches are not only high-performing but also interpretable, safe, and aligned with the rigorous demands of next-generation telecommunications infrastructure.

Abstract [sv]

Moderna mobilnät har blivit alltmer komplexa genom åren och genomgår en övergång från glesa makrocellsutbyggnader till ultratäta, heterogena system. I denna avhandling fokuserar vi specifikt på ett problem inom radioresurshantering (RRM) kallat fjärrstyrd elektrisk lutning (Remote Electrical Tilt, RET). Målet med RET-optimering är att justera antennernas lutning för att fördela radioresurser där de behövs som mest. I takt med att mobilnäten utvecklas mot 6G förväntas en oöverträffad tillväxt i automatiseringsbehov, vilket introducerar nya koordinationsutmaningar som förstärks av de tätare näten. Traditionell nätverkshantering har varit beroende av manuell justering och regelbaserad heuristik, vilket är otillräckligt för nästa generations behov då det skalar upp dåligt. Även om förstärkningsinlärning i fleragentsystem (MARL) framstår som ett lovande verktyg för att autonomt nätverk, kämpar nuvarande lösningar ofta med problemets storskalighet. Dessutom misslyckas de med att ge garantier och begränsas av kortsiktiga, stegvisa belöningsstrukturer som inte kan fånga de komplexa krav som nätoperatörer ställer på nätverket. Bristen på dessa egenskaper hindrar live driftsättning i nät bortom småskaliga pilotstudier.

Denna avhandling föreslår en serie metoder som syftar till att tillhandahålla autonom kontroll av nätverksparametrar med hög tillförlitlighet. Bidragen bygger progressivt på varandra, från spatial interferenskoordinering till långsiktig, riskmedveten planering för att uppfylla operatörernas nätverksmål (intents). Först hanterar vi kortsiktiga begränsningar genom att utnyttja grafbaserad dekomponering och koordinationsgrafer för att faktorisera det gemensamma beslutsutrymmet, vilket möjliggör skalbar villkorad inlärning i täta stadsmiljöer. Med insikten att kritisk infrastruktur kräver tillförlitlighet bortom genomsnittlig prestanda, introducerar vi också ett riskmedvetet ramverk för villkorad inlärning som utnyttjar betingat riskvärde (Conditional Value-at-Risk) för att möjliggöra resonerande kring villkor i nätverket.

För att överbrygga gapet mellan kontroll på låg nivå och operatörers mål på hög nivå går vi från skalära belöningar till formella specifikationer. Vi använder Signal Temporal Logic (STL) och Transformer-baserade arkitekturer för att uppfylla komplexa mål, vilket gör det möjligt för agenter att resonera kring långsiktiga krav. Slutligen rör vi oss från traditionella kontrollstrategier mot generativ planering av trajektorier. Genom att använda probabilistiska diffusionsmodeller ämnar vi till att möjliggöra generering av säkra planer av hög kvalitet som respekterar hårda villkor med probabilistiska garantier.

De föreslagna metoderna utvärderas i avancerade simulatorer modellerade efter topologier från stadsmiljöer. Resultaten visar att det är möjligt--genom att integrera strukturell koordination, formell logik och generativ modellering--att adressera många av de problem som plågar samtida autonom nätverkshantering. De strategier som erhålls genom dessa metoder är inte bara högpresterande utan även tolkningsbara, säkra och anpassade till de rigorösa krav som finns i nästa generations telekommunikationsinfrastruktur.

sted, utgiver, år, opplag, sider
Stockholm: Kungliga Tekniska högskolan, 2026. s. 67
Serie
TRITA-EECS-AVL ; 2026:31
HSV kategori
Identifikatorer
urn:nbn:se:kth:diva-379072 (URN)978-91-8106-576-3 (ISBN)
Disputas
2026-05-07, https://kth-se.zoom.us/s/67709142389, F3 (Flodis), Lindstedtsvägen 26, Stockholm, 14:00 (engelsk)
Opponent
Veileder
Merknad

QC 20260410

Tilgjengelig fra: 2026-04-10 Laget: 2026-04-09 Sist oppdatert: 2026-04-10bibliografisk kontrollert

Open Access i DiVA

Fulltekst mangler i DiVA

Andre lenker

Forlagets fulltekstScopus

Person

Larsson Forsberg, AlbinTumova, Jana

Søk i DiVA

Av forfatter/redaktør
Larsson Forsberg, AlbinTumova, Jana
Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetric

doi
urn-nbn
Totalt: 115 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf