3839404142434441 of 204
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Autonomous testing of web forms
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

A web form requires filling it with correct information in order to access pages behind it. As a result web forms tend to hinder automatic navigation through web sites. In order to fill a web form, we are going to extract relevant information contained in the HTML. Difficulty arises when taking into account the fact that that visual web pages are designed to be read by humans and not by robots. A human user can easily extract the information contained in a web form that is necessary to fill it. Extraction of visual information for automatic filling of web forms is an ongoing topic of research, which has already provided interesting results. However the task of indexing web sites continues to require some human intervention. The following thesis exposes a novel method of extracting visual as well as hidden information and automatically label each field composing a web form. The classification step boils down to finding keywords and then associating them with a label by using the mechanism validation and submission of web forms. These labeled data are then used to train machine learning models that aim at classifying text from given fields of a web form. A comparison between two different methods of classification illustrates the poor results obtained by the machine learning models when compared to the new methods based on keywords.

Abstract [sv]

För att kunna komma åt webbsidor bakom ett webbformulär krävs att formuläret fylls med korrekt information. Därför tenderar webbformulär att hindra program som automatiskt navigerar genom webbplatser. För att kunna automatiskt fylla i ett webbformulär måste man kunna extrahera relevant information från dessa. Detta är svårt eftersom de synliga webbsidorna är konstruerade för att läsas av människor och inte av robotar. En mänsklig användare kan lätt extrahera den information från ett webbformulär som krävs för att kunna fylla i det. Automatisk extraktion av information för att fylla i webbformulär är ett aktivt forskningsämne, som redan har gett intressanta resultat. Detta examensarbete presenterar en ny metod för att extrahera visuell såväl som dold information från webbformulär, och automatiskt kategorisera varje fält i ett givet webbformulär. Kategoriseringen åstadkoms genom att undersöka nyckelord och sedan associera dem med en etikett genom att använda mekanismen "validering och inlämning av webbformulär". Dessa annoterade data används sedan för att träna maskininlärningsmodeller som syftar till att klassificera text i givna fält i ett webbformulär. En jämförelse visar att maskininlärningsmodellerna fungerar sämre jämfört med de nya metoderna baserade på nyckelord.

Place, publisher, year, edition, pages
2019. , p. 51
Series
TRITA-EECS-EX ; 2019:825
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-271201OAI: oai:DiVA.org:kth-271201DiVA, id: diva2:1415988
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2020-03-20 Created: 2020-03-20 Last updated: 2020-03-20Bibliographically approved

Open Access in DiVA

fulltext(1259 kB)2 downloads
File information
File name FULLTEXT01.pdfFile size 1259 kBChecksum SHA-512
f1e5a10f77eb6c8185e29fbd4c716df2f811baa7523b50a41c98a9ebea14e1cbeba630eda9be508673e402949da635d171e75a59d50ccb8c12a29afc2e42dd9a
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 2 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 8 hits
3839404142434441 of 204
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf