Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Creating eye-catching headlines using BART
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2022 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgaveAlternativ tittel
Skapa intressanta rubriker med hjälp av BART (svensk)
Abstract [en]

Social media is a significant factor in information distribution today, and this information landscape contains a lot of different posts that compete for the user’s attention. Different factors can help catch the interest of the user, and one of them is the headline of the message. The headline can be more or less eye-catching, which can make the reader more or less interested in interacting with the post. The theme of this study is the automatized creation of eye-catching headlines that stay truthful to the content of the articles using Automatic Text Summarization. The exact method used consisted of fine-tuning the BART model, which is an existing model for Text Summarization. Other papers have been written using different models to solve this problem with more or less success, however, none have used this method. It was deemed an interesting method as it is less time- and energy-consuming than creating and training a new model entirely from scratch and therefore could be easily replicated if the results were positive. The BartForConditionalGeneration model implemented by the HuggingFace library was fine-tuned, using the Popular News Articles by Web.io. This method showed positive results. The resulting headlines were deemed faithful to the original ones, with a ROUGE-2 recall score of 0.541. They were comparably eye-catching to the human-written headlines, with the human respondents ranking them almost the same, with an average rank of 1.692 for the human-written headlines, and 1.821 for fine-tuned BART, and also getting an average score of 3.31 on a 1 to 5 attractiveness score scale. They were also deemed very comprehensible, with an average score of 0.95 on a scale from 0 to 1.

Abstract [sv]

Sociala medier är idag en viktig faktor i distributionen av information. Detta nya landskap innehåller många olika inlägg som tävlar om användarens uppmärksamhet. Olika faktorer kan hjälpa till att fånga användarens blick till specifika inlägg eller artiklar, och en av dessa faktorer är rubriken. Rubriken kan vara mer eller mindre fängslande, och göra läsaren mer eller mindre intresserad av att interagera med inlägget. Temat för denna studie är att automatiskt skapa iögonfallande och intressanta rubriker, som beskriver innehå llet i artiklarna på ett korrekt sätt. Den valda metoden är automatisk textsamman fattning, och mer specifikt finjusterades BART-modellen, som är en existerande modell för textsammanfattning. Andra metoder har använts tidigare för att lösa denna problematik med mer eller mindre framgång, men ingen studie hade använt den här. Den ansågs vara intressant eftersom den är mindre tids- och energikrävande än vad det skulle vara att skapa en ny modell från grunden, och därför skulle den lätt kunna replikeras om resultatet var positivt. BartForConditionalGeneration-modellen implementerad av HuggingFace-bib lioteket finjusterades därför med hjälp av artiklar och rubriker från datasetet ’Popular News Articles’ av Web.io. Metoden visade positiva resultat. De resulterande rubrikerna ansågs trogna de ursprungliga, med en ROUGE-2 recall score på 0,541. De var jämförbart iögonfallande gentemot de mänskligt skrivna rubrikerna, då respondenterna rankade dem nästan likadant, med en genomsnittlig rankning på 1,692 för de mänskligt skrivna rubrikerna och 1,821 för rubrikerna som finjusterade BART genererade. De fick också ett genomsnittligt betyg av 3,31 på en poängskala från 1 till 5. De ansågs dessutom vara mycket lättbegripliga, med ett medelpoäng på 0,95 på en skala från 0 till 1.

sted, utgiver, år, opplag, sider
2022. , s. 50
Serie
TRITA-EECS-EX ; 2022:553
Emneord [en]
Transformer, Natural Language Processing, Automatic Text Summarization, Headline Generation, BART
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-320768OAI: oai:DiVA.org:kth-320768DiVA, id: diva2:1707478
Eksternt samarbeid
Entecon AB
Veileder
Examiner
Tilgjengelig fra: 2022-11-02 Laget: 2022-10-31 Sist oppdatert: 2022-11-02bibliografisk kontrollert

Open Access i DiVA

fulltext(1709 kB)540 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 1709 kBChecksum SHA-512
0e0513ece60be26fc059460537090eb714b2fd86dbb89186804f606d8f36a55d63650d139349804f972b863bf9d0a42475bb9bb70bcf36dffa64ef22ff534222
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 540 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 975 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf