kth.sePublications KTH
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Automatic Goal Event Detection in Ice Hockey Videos Using Multi-Cue Deep Learning
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems, Biomedical Engineering and Health Systems.
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Automatisk detektering av målhändelser i ishockeyvideor med multi- cue djupinlärning (Swedish)
Abstract [en]

Automatic detection of highlight events in sports is important, offering benefits for broadcasters, analysts, and fans, such as real-time replay generation, enhanced viewer engagement, and reduced manual labor. This study proposes a multi-cue deep learning approach for detecting goal events in ice hockey videos: scoreboard OCR detection, player celebration detection (hug behavior), and audio-based cheer analysis. Specifically, a preliminary OCR-based detection of scoreboard changes identifies critical temporal windows likely containing goals, providing targeted and computationally efficient processing. Within these time windows, a CNN-LSTM attention model and object detection model detect player hugs, and audio analysis further confirms goals. A dataset of 8 labelled ice hockey games with 77 goals has been compiled, with timestamps of score changes and goal moments, frame-by-frame annotations of celebratory hugs, and other contextual features. A batch pipeline for scoreboard detection is based on EasyOCR with dual-scale preprocessing, left/right block voting, temporal candidate confirmation, and cooling logic. A CNN+LSTM model is trained to recognize goal-related player celebrations, and a pretrained object detection model (YOLO8) is used to extract object features that are analyzed for distinctive patterns during goals. An audio-based model detects sudden changes in acoustic energy. This work demonstrates a multi-cue approach to sports highlight detection and discusses its potential and challenges. Future work will introduce pose detection, complete the fusion of these cues, and evaluate the system on larger multi-sport datasets and other events.

Abstract [sv]

Automatisk detektion av höjdpunkter i sportvideo är viktig och gynnar sändningsbolag, analytiker och publik genom t.ex. realtidsrepriser, ökat tittarengagemang och minskat manuellt arbete. Denna studie föreslår en flerkällig (multimodal) djupinlärningsmetod för att detektera mål i ishockey: OCR av resultattavlan, detektion av spelarfiranden (”hug”-beteende) samt ljudbaserad analys av publikjubel. Inledningsvis används OCR-baserad upptäckt av förändringar på resultattavlan för att identifiera tidsfönster som sannolikt innehåller mål, vilket gör efterföljande bearbetning mer riktad och beräkningsmässigt effektiv. Inom dessa fönster körs en CNN–LSTM-modell med uppmärksamhet för att känna igen kram/celebration, en objektdetektor (YOLOv8) för visuella mönster, och en ljudmodul som bekräftar mål via akustiska toppar. Vi har sammanställt ett dataset med 8 annoterade ishockeymatcher (77 mål) med tidsstämplar för resultatskiften och målögonblick samt bild-för-bild-annotationer av firanden och kontext. Resultattavlemodulen implementeras som en batch-pipeline baserad på EasyOCR med dubbelskale-förbehandling, vänster/höger-röstning, temporala kandidatbekräftelser och cooldown-logik. CNN+LSTM-modellen tränas för att känna igen målfiranden, medan den förtränade objektdetektorn (YOLOv8) extraherar visuella signaler som analyseras för karakteristiska mönster vid mål. Ljudmodellen detekterar plötsliga förändringar i akustisk energi. Arbetet demonstrerar en flerkällig ansats för höjdpunktsdetektion i sport och diskuterar dess möjligheter och utmaningar. Framtida arbete inkluderar posestimering, fullständig fusion av dessa signaler och utvärdering på större multisportdataset och andra händelser.

Place, publisher, year, edition, pages
2025. , p. 67
Series
TRITA-CBH-GRU ; 2025:035
Keywords [en]
Sports video analysis, Event detection, CNN+LSTM, YOLO, Audio detection
Keywords [sv]
Sportvideoanalys, händelsedetektering, CNN+LSTM, YOLO, ljuddetektion
National Category
Computer graphics and computer vision Sport and Fitness Sciences
Identifiers
URN: urn:nbn:se:kth:diva-371340OAI: oai:DiVA.org:kth-371340DiVA, id: diva2:2004957
External cooperation
Sportsway
Educational program
Master of Science - Sports Technology
Presentation
(English)
Supervisors
Examiners
Available from: 2025-10-09 Created: 2025-10-08 Last updated: 2025-10-09Bibliographically approved

Open Access in DiVA

The full text will be freely available from 2026-03-01 15:32
Available from 2026-03-01 15:32

By organisation
Biomedical Engineering and Health Systems
Computer graphics and computer visionSport and Fitness Sciences

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 95 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf