Zero-shot Text Classification of Sustainability Factors on Websites: Detecting Environmental, Social and Corporate Governance factors (ESG) with Natural Language Processing (NLP)
2022 (English) Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis Alternative title
Oövervakad textklassificering av hållbarhetsfaktorer på webbsidor : Detektering av faktorer inom miljö, socialt ansvar och bolagsstyrning (ESG) med hjälp av språkteknologi (NLP) (Swedish)
Abstract [en]
After a literature study on Environmental, Social and corporate Governance (ESG), 66 possible ESG factors were defined. The names of these ESG factors were then used as class labels to perform Multi-label classification of website texts from Swedish universities and research centres. The method used was Zero-shot Natural Language Inference (NLI) with pre-trained language models from the HuggingFace library. Different models and settings were evaluated by comparing predictions with a small set of 444 manually labeled texts. The best model and settings were used to make predictions on five selected universities and research centers. The model found a total of 230 texts on these websites which were then manually validated. The method showed a surprisingly high precision but also had a low recall which is something that could be improved in future work. It should be noted that this project does not claim to evaluate the actual ESG-quality of the universities or research centres, this thesis only explores how a language model can detect ESG-related texts on their websites.
Abstract [sv]
Efter en litteraturstudie av Miljö, Socialt ansvar och Bolagsstyrning (ESG), definierades 66 möjliga ESG-faktorer. Namnen på dessa ESG-faktorer användes sedan som etiketter för klasser för Multi-etiketts klassificering av texter från hemsidor från Svenska universitet och forskningsinstitut. Metoden som användes var Zero-shot Natural Language Inference (NLI) med förtränade språkmodeller från biblioteket HuggingFace. Olika modeller och inställningar utvärderades genom att jämföra språkmodellernas förutsägelser med ett litet dataset som innehöll 444 manuellt etiketterade texter. Den bästa modellen och dess inställningar användes sedan för att göra förutsägelser på fem utvalda hemsidor från universitet och forskningsinstitut. Modellen hittade totalt 230 texter på dessa hemsidor som sedan validerades manuellt. Metoden visade en överraskande hög förmåga i att göra korrekta klassificeringar, men presterade sämre i att hitta alla relevanta ESG-faktorer för en text, vilket är något som kan förbättras i framtida arbeten. Det bör nämnas här att detta projekt inte ämnar att utvärdera den faktiska ”ESG-kvalitén” på universiteten eller forskningsinstituten, det här examensarbetet utforskar endast hur en språkmodell kan upptäcka ESG-faktorer på deras hemsidor
Place, publisher, year, edition, pages 2022. , p. 76
Series
TRITA-EECS-EX ; 2022:707
Keywords [en]
Artificial Intelligence, AI, Natural Language Processing, NLP, Natural Language Inference, NLI, Deep Learning, Machine Learning, Transformers, Environmental, Social and corporate Governance, ESG, Corporate Sustainability, Sustainable Development
Keywords [sv]
Artificiell Intelligens, AI, Språkteknologi, NLP, Djupinlärning, Maskininlärning, Transformer, Miljö, Socialt ansvar och Bolagsstyrning, ESG, Hållbart Företagande, Hållbar Utveckling, Språkteknologisk Inferens, NLI
National Category
Computer and Information Sciences
Identifiers URN: urn:nbn:se:kth:diva-322261 OAI: oai:DiVA.org:kth-322261 DiVA, id: diva2:1716539
External cooperation
Dun & Bradstreet
Supervisors
Examiners
2022-12-082022-12-062022-12-08 Bibliographically approved