kth.sePublications
System disruptions
We are currently experiencing disruptions on the search portals due to high traffic. We are working to resolve the issue, you may temporarily encounter an error message.
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Zero-shot Text Classification of Sustainability Factors on Websites: Detecting Environmental, Social and Corporate Governance factors (ESG) with Natural Language Processing (NLP)
KTH, School of Electrical Engineering and Computer Science (EECS).
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Oövervakad textklassificering av hållbarhetsfaktorer på webbsidor : Detektering av faktorer inom miljö, socialt ansvar och bolagsstyrning (ESG) med hjälp av språkteknologi (NLP) (Swedish)
Abstract [en]

After a literature study on Environmental, Social and corporate Governance (ESG), 66 possible ESG factors were defined. The names of these ESG factors were then used as class labels to perform Multi-label classification of website texts from Swedish universities and research centres. The method used was Zero-shot Natural Language Inference (NLI) with pre-trained language models from the HuggingFace library. Different models and settings were evaluated by comparing predictions with a small set of 444 manually labeled texts. The best model and settings were used to make predictions on five selected universities and research centers. The model found a total of 230 texts on these websites which were then manually validated. The method showed a surprisingly high precision but also had a low recall which is something that could be improved in future work. It should be noted that this project does not claim to evaluate the actual ESG-quality of the universities or research centres, this thesis only explores how a language model can detect ESG-related texts on their websites.

Abstract [sv]

Efter en litteraturstudie av Miljö, Socialt ansvar och Bolagsstyrning (ESG), definierades 66 möjliga ESG-faktorer. Namnen på dessa ESG-faktorer användes sedan som etiketter för klasser för Multi-etiketts klassificering av texter från hemsidor från Svenska universitet och forskningsinstitut. Metoden som användes var Zero-shot Natural Language Inference (NLI) med förtränade språkmodeller från biblioteket HuggingFace. Olika modeller och inställningar utvärderades genom att jämföra språkmodellernas förutsägelser med ett litet dataset som innehöll 444 manuellt etiketterade texter. Den bästa modellen och dess inställningar användes sedan för att göra förutsägelser på fem utvalda hemsidor från universitet och forskningsinstitut. Modellen hittade totalt 230 texter på dessa hemsidor som sedan validerades manuellt. Metoden visade en överraskande hög förmåga i att göra korrekta klassificeringar, men presterade sämre i att hitta alla relevanta ESG-faktorer för en text, vilket är något som kan förbättras i framtida arbeten. Det bör nämnas här att detta projekt inte ämnar att utvärdera den faktiska ”ESG-kvalitén” på universiteten eller forskningsinstituten, det här examensarbetet utforskar endast hur en språkmodell kan upptäcka ESG-faktorer på deras hemsidor

Place, publisher, year, edition, pages
2022. , p. 76
Series
TRITA-EECS-EX ; 2022:707
Keywords [en]
Artificial Intelligence, AI, Natural Language Processing, NLP, Natural Language Inference, NLI, Deep Learning, Machine Learning, Transformers, Environmental, Social and corporate Governance, ESG, Corporate Sustainability, Sustainable Development
Keywords [sv]
Artificiell Intelligens, AI, Språkteknologi, NLP, Djupinlärning, Maskininlärning, Transformer, Miljö, Socialt ansvar och Bolagsstyrning, ESG, Hållbart Företagande, Hållbar Utveckling, Språkteknologisk Inferens, NLI
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-322261OAI: oai:DiVA.org:kth-322261DiVA, id: diva2:1716539
External cooperation
Dun & Bradstreet
Supervisors
Examiners
Available from: 2022-12-08 Created: 2022-12-06 Last updated: 2022-12-08Bibliographically approved

Open Access in DiVA

No full text in DiVA

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 429 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf