Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Coresets remembered and items forgotten: submodular maximization with deletions
KTH, Skolan för elektroteknik och datavetenskap (EECS), Datavetenskap, Teoretisk datalogi, TCS.ORCID-id: 0000-0002-1252-7489
KTH, Skolan för elektroteknik och datavetenskap (EECS), Datavetenskap, Teoretisk datalogi, TCS.ORCID-id: 0000-0002-5211-112X
(engelsk)Manuskript (preprint) (Annet vitenskapelig)
Abstract [en]

In recent years we have witnessed an increase on the development of methods for submodular optimization, which have been motivated by the wide applicability of submodular functions in real-world data-science problems. In this paper, we contribute to this line of work by considering the problem of robust submodular maximization against unexpected deletions, which may occur due to privacy issues or user preferences. Specifically, we consider the minimum number of items an algorithm has to remember, in order to achieve a non-trivial approximation guarantee against adversarial deletion of up to d items. We refer to the set of items that an algorithm has to keep before adversarial deletions as a deletion-robust coreset.Our theoretical contributions are two-fold. First, we propose a single-pass streaming algorithm that yields a (1−2ϵ)/(4p)-approximation for maximizing a non-decreasing submodular function under a general p-matroid constraint and requires a coreset of size k+d/ϵ, where k is the maximum size of a feasible solution. To the best of our knowledge, this is the first work to achieve an (asymptotically) optimal coreset, as no constant-factor approximation is possible with a coreset of size sublinear in d. Second, we devise an effective offline algorithm that guarantees stronger approximation ratios with a coreset of size O(dlog(k)/ϵ). We also demonstrate the superior empirical performance of the proposed algorithms in real-life applications.

Emneord [en]
robust optimization, submodular maximization, streaming algorithms, approximation algorithms
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-322389OAI: oai:DiVA.org:kth-322389DiVA, id: diva2:1718864
Merknad

QC 20221214

Tilgjengelig fra: 2022-12-13 Laget: 2022-12-13 Sist oppdatert: 2025-01-27bibliografisk kontrollert
Inngår i avhandling
1. Optimization beyond a single submodular function: Submodular optimization for ranking, decision trees and diversity
Åpne denne publikasjonen i ny fane eller vindu >>Optimization beyond a single submodular function: Submodular optimization for ranking, decision trees and diversity
2022 (engelsk)Doktoravhandling, med artikler (Annet vitenskapelig)
Abstract [en]

Submodular functions characterize mathematically the ubiquitous ``diminishing-returns'’ property. They are widely used to describe core subjects in numerous applications, including economic utility, redundancy in information, spread of influence in social networks, and more. Optimization of submodular functions thus plays a central role in a broad range of applications in data science. However, existing works concentrate largely on optimizing a single submodular function, with a sole focus on succinct subset selection among massive data. Other circumstances have not been fully explored, for example, when there exists interplay between a submodular function and other components.

In this thesis, we study optimization beyond a single (non-decreasing) submodular function in the following three areas.

  • Ranking: Ranking arises naturally in the presence of multiple submodular functions, for instance, when a list of shared resources is sequentially served to satisfy multiple submodular demands with individual budgets. One concrete example is ranking web pages to satisfy multiple user intents with different ``patience.'' We first study this ranking problem under cardinality constraints, and then we consider extensions of the basic setting, including knapsack constraints, streaming settings, and robustness requirements.
  • Decision trees: A tree (or a policy) can be seen as an adaptive generalization of ranking. Popular decision trees for classification, including CART and C4.5, are constructed by recursive greedy splits, guided by some impurity function. These trees are accurate, but may not be easy to understand due to a potentially large tree size. A novel characterization of a decision tree is via adaptive intersection among multiple submodular functions, one for each object to be classified. We discover that this characterization enables one to analyze and control the tree complexity for a large family of impurity functions. As a consequence, we are able to produce accurate and interpretable decision trees with bounded complexity.
  • Diversity: Multi-objective optimization is frequently encountered in reality. One specific important form is a joint optimization of utility and diversity, where utility is often modeled by a submodular function. From the theoretical side, we discuss new techniques for such joint optimization over clustered input; from the practical side, we propose one novel application in learning diverse rule sets, where diversity encourages non-overlapping rules that deliver desirable unambiguous decisions.    

For each of the three areas discussed above, we introduce novel formulations for applications in data science, and devise algorithms that are efficient, easy to implement, and have provable approximation guarantees. In addition to theory, we also highlight their practical potential by presenting empirical performance in selected applications. Our work significantly enhances the modeling capabilities of submodular optimization for novel application domains.

Abstract [sv]

Submodulära funktioner karakteriserar matematiskt den allestädes närvarande egenskapen ``minskande avkastning''. De används ofta för att beskriva kärnämnen i många tillämpningar, inklusive ekonomisk nytta, redundans i information, spridning av inflytande i sociala nätverk och mer. Optimering av submodulära funktioner spelar således en central roll i ett brett spektrum av tillämpningar inom datavetenskap. Befintliga arbeten koncentrerar sig dock till stor del på att optimera en enda submodulär funktion, med enbart fokus på kortfattat urval av delmängder bland massiva data. Andra omständigheter har inte undersökts fullt ut, till exempel när det finns ett samspel mellan en submodulär funktion och andra komponenter.

I denna avhandling studerar vi optimering bortom en enda (icke-minskande) submodulär funktion inom följande tre områden.

  • Ranking: Rangordning uppstår naturligt i närvaro av flera submodulära funktioner, till exempel när en lista med delade resurser serveras sekventiellt för att tillfredsställa flera submodulära krav med individuella budgetar. Ett konkret exempel är att rangordna webbsidor för att tillfredsställa flera användares avsikter med olika ``tålamod''. Vi studerar först detta rankningsproblem under kardinalitetsbegränsningar, och sedan överväger vi utökningar av den grundläggande inställningen, inklusive ryggsäcksbegränsningar, strömningsinställningar och robusthetskrav.
  • Beslutsträd: Ett träd (eller en policy) kan ses som en adaptiv generalisering av rangordning. Populära beslutsträd för klassificering, inklusive CART och C4.5, är konstruerade av rekursiva giriga splittringar, styrda av någon orenhetsfunktion. Dessa träd är korrekta, men kanske inte är lätta att förstå på grund av en potentiellt stor trädstorlek. En ny karaktärisering av ett beslutsträd sker via adaptiv skärningspunkt mellan flera submodulära funktioner, en för varje objekt som ska klassificeras. Vi upptäcker att denna karakterisering gör det möjligt för en att analysera och kontrollera trädets komplexitet för en stor familj av föroreningsfunktioner.Som en konsekvens kan vi producera korrekta och tolkningsbara beslutsträd med begränsad komplexitet.
  • Mångfald: Multi-objektiv optimering påträffas ofta i verkligheten. En specifik viktig form är en gemensam optimering av nytta och mångfald, där nytta ofta modelleras av en submodulär funktion. Från den teoretiska sidan diskuterar vi nya tekniker för sådan gemensam optimering över klustrad input; Från den praktiska sidan föreslår vi en ny tillämpning för att lära sig olika regeluppsättningar, där mångfald uppmuntrar icke-överlappande regler som ger önskvärda entydiga beslut.

För vart och ett av de tre områden som diskuterats ovan, vi introducerar nya formuleringar för tillämpningar inom datavetenskap och utvecklar algoritmer som är effektiva, lätta att implementera och har bevisbara approximationsgarantier. Utöver teori lyfter vi också fram deras praktiska potential genom att presentera empiriska prestationer i utvalda tillämpningar. Vårt arbete förbättrar avsevärt modelleringsmöjligheterna för submodulär optimering för nya applikationsdomäner.

sted, utgiver, år, opplag, sider
Stockholm: KTH Royal Institute of Technology, 2022. s. 232
Serie
TRITA-EECS-AVL ; 2023:8
Emneord
Submodular optimization, Approximation algorithms, Ranking, Decision trees, Diversity
HSV kategori
Forskningsprogram
Datalogi
Identifikatorer
urn:nbn:se:kth:diva-322458 (URN)978-91-8040-459-4 (ISBN)
Disputas
2023-02-15, Zoom: https://kth-se.zoom.us/j/69024442639, F3, Lindstedtsvägen 26, Stockholm, 13:30 (engelsk)
Opponent
Veileder
Forskningsfinansiär
Wallenberg AI, Autonomous Systems and Software Program (WASP), 70101
Merknad

QC 20221220

Tilgjengelig fra: 2022-12-16 Laget: 2022-12-15 Sist oppdatert: 2025-01-27bibliografisk kontrollert

Open Access i DiVA

Fulltekst mangler i DiVA

Person

Zhang, GuangyiGionis, Aristides

Søk i DiVA

Av forfatter/redaktør
Zhang, GuangyiTatti, NikolajGionis, Aristides
Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric

urn-nbn
Totalt: 579 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf