Olyckskategorisering för oskyddade trafikanter med hjälp av språkteknologi : teknisk sammanfattning av metod och genomförande
Language: Swedish Summary language: English Series: VTI PM ; 2026:1Publication details: Linköping : Statens väg- och transportforskningsinstitut. VTI, 2026Description: 39 sOther title:- Categorising traffic accidents involving vulnerable road users with language technology : technical summary of methods and implementation
Oskyddade trafikanter utgör en stor del av de allvarligt skadade i vägtrafiken. För att följa upp effekten av trafiksäkerhetsåtgärder behövs kunskap om vad som orsakar allvarliga olyckor. Tidigare VTI-studier har manuellt klassificerat cirka 3 000–4 000 olycksbeskrivningar per trafikantkategori frånolycksdatabasen Strada, en process som krävde manuellt arbete. Projektet syftar till att utveckla en prototyp för automatisk kategorisering av olycksbeskrivningar för oskyddade trafikanter (fotgängare, cyklister, mopedister och motorcyklister) med hjälp av språkteknologi och artificiell intelligens. Totalt ingick 15 221 tidigare manuellt klassificerade olycksbeskrivningar där 586 unika olyckskategorier framkommit och dessa användes som träningsdata. Tre olika typer av maskininlärningsmodeller utvecklades och jämfördes: (1) baslinjemodeller med Term Frequency-Inverse Document Frequency (TF-IDF)-representation och klassisk maskininlärning (logistisk regression, Random Forest), (2) hybridmodeller med förtränade Bidirectional Encoder Representations from Transformers (BERT)-embeddings kombinerat med traditionella klassificerare, och (3) fullständigt finjusterade BERT-modeller. Alla modeller kombinerade textanalys med strukturerade variabler som vägomständigheter, alkoholpåverkan och temporal information. Både unified-modeller för alla trafikantkategorier och kategorispecifika modeller utvärderades systematiskt. Resultaten visar att den fintränade modellen BERT unified uppnådde 48 procents noggrannhet över alla 586 klasser, en förbättring med 82 procent jämfört med bästa baslinjemodellen (TF-IDF + logistisk regression: 26 %). Hybridmodeller med frozen BERT embeddings misslyckades helt (7–9 % noggrannhet), vilket visar att uppgiftspecifik finjustering är att föredra. Kategorispecifika modeller presterade genomsnittligt bättre (53 % noggrannhet), med fotgängare-modellen som uppnådde exceptionella 85 procents noggrannhet över 36 klasser – ett resultat som är redo för praktisk implementation. Exploratorisk oövervakad klusteranalys av det fullständiga omärkta datasetet (~150,000 olycksbeskrivningar) visade svag naturlig separering, vilket bekräftar att övervakad inlärning med expert-annoterade data är nödvändig för meningsfull klassificering. Prototypen demonstrerar att automatisk klassificering är möjlig och praktiskt användbar för vissa kategorier. All datahantering följde GDPR-krav med tvåstegsanonymisering. Koden har släppts som öppen källkod (MIT-licens) för att möjliggöra vidareutveckling och implementation i Trafikverkets arbetsflöden.
Vulnerable road users account for a large proportion of those seriously injured in road traffic accidents. To monitor the effects of road safety measures, knowledge is needed about what causes serious accidents. Previous VTI studies have manually classified around 15,000 accident descriptions from the Strada accident database, a process that required manual work. The project aims to develop a prototype for automatic categorisation of accident descriptions for vulnerable road users (pedestrians, cyclists, moped riders and motorcyclists) using language technology and artificial intelligence. In total, 15,221 previously manually classified accident descriptions were used as training data, covering 586 unique accident categories. Three machine learning approaches were developed and compared: (1) baseline models with Term Frequency-Inverse Document Frequency (TF-IDF) representation and classical machine learning (logistic regression, Random Forest), (2) hybrid models with pre-trained Bidirectional Encoder Representations from Transformers (BERT) embeddings combined with traditional classifiers, and (3) fully fine-tuned BERT models. All models combined text analysis with structured variables such as road conditions, alcohol influence and temporal information. The results show that the fine-tuned BERT unified model achieved 48% accuracy across all 586 classes, an improvement of 82% compared to the best baseline model (TF-IDF + logistic regression: 26%). Hybrid models with frozen BERT embeddings failed completely (7–9% accuracy), demonstrating that task-specific fine-tuning is preferable. Category-specific models performed better on average (53% accuracy), with the pedestrian model achieving an exceptional 85% accuracy across 36 classes – a result that is ready for practical implementation. Exploratory unsupervised cluster analysis of the complete unlabelled dataset (~150,000 accident descriptions) showed weak natural separation, confirming that supervised learning with expert-annotated data is necessary for meaningful classification. The prototype demonstrates that automatic classification is possible and practically useful for certain categories. All data processing complied with GDPR requirements using two-step anonymisation. The code has been released as open source (MIT licence) to enable further development and implementation in the Swedish Transport Administration's workflows.