Web Information Extraction of Online Retailer Product Pages With Conditional Random Fields
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Informationsextrahering av e-handelsproduktsidor på webben med villkorligt slumpmässiga fält (Swedish)
Abstract [en]
Web information extraction is the process of applying techniques to automatically extract structured or unstructured information from documents on the web. This process is tedious and often associated with human-defined rules, such as targeting specific values. When extracting information from multiple websites with varying structures, the approach of specifying rules can be difficult to scale. This study aims to show that web information extraction that is implemented with conditional random fields can perform better than a rule-based script. With an input to the model of a preprocessed web page that contains a specific product from an online retailer. The output from the model is the product name, price, and currency of the product from the web page. This study is evaluated by using three methods, the first evaluation is the performance of the model, which is measured with F1 score, precision, and recall on the test dataset. The second is a comparison with a rule-based script that also extracts the product name, price, and currency. Lastly, a set of statistical simulations were conducted in order to decide the confidence of the model’s performance, and to see if the performance difference between the model and the rule-based script were statistically significant. When evaluating the performance on a test dataset, the model yielded a weighted average F1 score of 0.874, while the rule-based script provided a weighted average F1 result of 0.873. There is a larger discrepancy between the model and rule-based script when looking at the weighted average precision and weighted average recall metrics. The weighted average precision for the model was 0.918, while for the rule-based script 0.848. The weighted average recall was 0.837 for the model, while 0.900 for the rule-based script. The statistical evaluation of the difference between the model and rule-based script for both weighted average precision and weighted average recall, showed that the difference was not significant. From the results, it cannot be concluded that a conditional random field model can be perform better than a rule-based script.
Abstract [sv]
Informationextrahering av webben är processen där man tillämpar tekniker för att automatisera extraktionen strukturerad eller ostrukturerad information av dokument från webben. Denna process är omständig och med ofta definerar regler för hand för att specifiera vilka värden man ska extrahera. Om extraktionen av information sker från olika hemsidor med varierande struktur finns risken att definieringen av olika regler kan vara svårt att skala. Denna studie tar reda på om informationextrahering av webben kan implementeras med villkorliga slumpmässiga fält och fortfarande vara bättre än ett regeldefinierat skript. Inmatningen till modellen är en förprocesserad webbsida som visar en produkt. Utmatningen från modellen är produktnamnet, priset och valutan för produkten från webbsidan. Denna studie utvärderas genom att använda tre metoder, och den första är att mäta prestandan på modellen. Prestandan mätts i F1 score, precision, och recall på ett testdataset. Den andra metoden är en jämförelse med ett regelbaserat skript som också extraherar produktnamnet, pris och valuta. En uppsättning av statistiska simuleringar utfördes också för att avöra noggrannheten hos modellen, och för att avgöra om prestandaskillnaden mellan modellen och regelbaserade skriptet var statistiskt signifikant. Vid utvärderingen av prestandan på ett testdataset så gav modellen ett viktat medelvärde av F1 score på 0.874 medans regelbaserade skriptet gav 0.873. Det är en större skullnad mellan modellens och regelbaserade skriptets prestanda när man tittar på precision och recall måtten. Det viktade medelvärdet för precision på modellen var 0.918 medans det var 0.848 för det regelbaserade skriptet. Det viktade medelvärdet för recall på modellen var 0.837 medans det var 0.900 för det regelbaserade skriptet. Den statistiska utvärderingen för skillnaden mellan modellen och det regelbaserade skriptet för både det viktade medelvärdet för precision och det viktade medelvärdet för recall visade att skillnaden inte var signifikant. Från resultatet så går det ej att dra en slutsats att en villkorligt slumpmässiga fält modell kan prestera bättre än ett regelbaserat skript.
Place, publisher, year, edition, pages
2022. , p. 66
Series
TRITA-EECS-EX ; 2022:612
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-321766OAI: oai:DiVA.org:kth-321766DiVA, id: diva2:1712882
External cooperation
Zmartbag AB
Subject / course
Computer Science
Educational program
Master of Science - Computer Science
Supervisors
Examiners
2022-11-252022-11-232025-01-27Bibliographically approved