kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
CoLLIE: Continual Learning of Language Grounding from Language-Image Embeddings
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0002-8579-1790
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0003-2140-0612
2022 (Engelska)Ingår i: The journal of artificial intelligence research, ISSN 1076-9757, E-ISSN 1943-5037, Vol. 74, s. 1201-1223Artikel i tidskrift (Refereegranskat) Published
Abstract [en]

This paper presents CoLLIE: a simple, yet effective model for continual learning of how language is grounded in vision. Given a pre-trained multimodal embedding model, where language and images are projected in the same semantic space (in this case CLIP by OpenAI), CoLLIE learns a transformation function that adjusts the language embeddings when needed to accommodate new language use. This is done by predicting the difference vector that needs to be applied, as well as a scaling factor for this vector, so that the adjustment is only applied when needed. Unlike traditional few-shot learning, the model does not just learn new classes and labels, but can also generalize to similar language use and leverage semantic compositionality. We verify the model's performance on two different tasks of identifying the targets of referring expressions, where it has to learn new language use. The results show that the model can efficiently learn and generalize from only a few examples, with little interference with the model's original zero-shot performance.

Ort, förlag, år, upplaga, sidor
AI Access Foundation , 2022. Vol. 74, s. 1201-1223
Nationell ämneskategori
Programvaruteknik Språkbehandling och datorlingvistik
Identifikatorer
URN: urn:nbn:se:kth:diva-315872DOI: 10.1613/JAIR.1.13689ISI: 000825139300002Scopus ID: 2-s2.0-85136141290OAI: oai:DiVA.org:kth-315872DiVA, id: diva2:1684836
Projekt
tmh_grounding
Anmärkning

QC 20220728

Tillgänglig från: 2022-07-28 Skapad: 2022-07-28 Senast uppdaterad: 2025-02-01Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Person

Skantze, GabrielWillemsen, Bram

Sök vidare i DiVA

Av författaren/redaktören
Skantze, GabrielWillemsen, Bram
Av organisationen
Tal, musik och hörsel, TMH
I samma tidskrift
The journal of artificial intelligence research
ProgramvaruteknikSpråkbehandling och datorlingvistik

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 146 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf