Final report on workload measures
Language: English Summary language: Swedish Publication details: [Norrköping] : Luftfartsverket, 2025Edition: Version 1.1Description: 23 sSubject(s): Online resources: Summary: Identifying possibly safety-impacting situations of too high or too low workload (overload or underload) is critical for various operators; given the tasks of an air traffic controller (ATCO), this applies in particular to air navigation service providers (ANSPs) following the implementation of changes that alter task definitions. However, to identify overload or underload, we need to be able to measure an operator’s workload (WL). Unfortunately, WL is a subjective measure: it measures the subjective, experienced cognitive demand during a task. Assessing an operator’s — and particularly an ATCO’s — WL has been a longstanding research topic, and researchers have reverted to controller self-assessment using numeric scales. These methods suffer from various drawbacks (the query is intrusive, social bias may impact the self-assessment, and small WL variations cannot be recorded). In this project, we aim to make progress towards the development of objective, non-intrusive WL measures. We conduct an ambitious study, including n =18 ATCOs and 54 en-route scenarios, with the aim to reduce the impact of the numeric scales for WL assessment, by also recording various promising WL-indicator candidates (e.g., eye-gaze measures) and then analyze the validity of these objective indicators. We demonstrate the significant potential of ML techniques for predicting ATCO WL. Our findings highlight the efficacy of using eye-tracking data, either in conjunction with head-movement data or independently, for WL prediction. We yield results with accuracy rates reaching as high as 96% (F1- score=84%) in correctly predicting instances of high EEG-based WL level and 86% accuracy (F1- score=77%) in predicting three different levels of WL. Reducing the number of features (NoF) generally results in a slight decrease in model performance, but significantly reduces measurement and computational efforts. In the most favorable scenario only 6 features were needed instead of 58, with an accuracy of 82% compared to 85% and an F1-score of 74% compared to 73%. Summary: Att identifiera eventuellt säkerhetspåverkande situationer med över- eller underbelastning är avgörande för olika operatörer, och med tanke på uppgifterna för en flygledare, är detta särskilt sant för flygtrafiktjänstleverantörer efter konceptuella ändringar av flygledares arbetsuppgifter. För att identifiera över- eller underbelastning måste vi kunna mäta en operatörs arbetsbelastning (WL). Tyvärr är arbetsbelastningen subjektiv: den mäter den subjektiva, mentalt upplevda stressen under en uppgift. Att bedöma en operatörs – och särskilt en flygledares – arbetsbelastning har varit ett långvarigt forskningsämne, och forskare har använt flygledarens självutvärdering med hjälp av numeriska skalor. Dessa metoder lider av olika nackdelar, såsom att utfråga flygledare är påträngande, s.k. ”social bias” kan påverka självbedömningen och små WL-variationer kan inte registreras. I detta projekt strävar vi efter att göra framsteg mot utvecklingen av objektiva, icke-påträngande WL mätningar. Vi utför en ambitiös studie med 18 flygledare och totalt 54 scenarier i en-route-miljö, med målet att reducera vikten av numeriska skalor för arbetsbelastningsbedömning genom att också samla in olika lovande indikatorer för WL (såsom ögonrörelsemätning) och sedan analysera hur valida dessa objektiva indikatorer är. Våra resultat visar på signifikant potential för maskininlärningstekniker (ML) för att prediktera flygledares arbetsbelastning. Eye tracking-data, både med och utan huvudrörelsedata, kan med ML prediktera hög EEG-baserad arbetsbelastning med 96% noggrannhetsgrad (F1-score=84%). Prediktion av tre nivåer av arbetsbelastning lyckas med 86% noggrannhetsgrad (F1-score=77%). Genom att reducera antalet parametrar som används i maskininlärningen sjunker modellprestandan något, men samtidigt minskar både behoven av mätningar och beräkningsinsatser markant. I det mest fördelaktiga scenariot behövs bara 6 parametrar istället för 58, med en prediktionsnoggrannhet på 82% jämfört med 85% och F1-score på 74% jämfört med 73%. Dessa resultat banar väg för utveckling av ett icke-påträngande övervakningssystem för arbetsbelastning. Ett sådant system kan vara ett verktyg för att identifiera både över- och underbelastningssituationer.Identifying possibly safety-impacting situations of too high or too low workload (overload or underload) is critical for various operators; given the tasks of an air traffic controller (ATCO), this applies in particular to air navigation service providers (ANSPs) following the implementation of changes that alter task definitions. However, to identify overload or underload, we need to be able to measure an operator’s workload (WL). Unfortunately, WL is a subjective measure: it measures the subjective, experienced cognitive demand during a task. Assessing an operator’s — and particularly an ATCO’s — WL has been a longstanding research topic, and researchers have reverted to controller self-assessment using numeric scales. These methods suffer from various drawbacks (the query is intrusive, social bias may impact the self-assessment, and small WL variations cannot be recorded). In this project, we aim to make progress towards the development of objective, non-intrusive WL measures. We conduct an ambitious study, including n =18 ATCOs and 54 en-route scenarios, with the aim to reduce the impact of the numeric scales for WL assessment, by also recording various promising WL-indicator candidates (e.g., eye-gaze measures) and then analyze the validity of these objective indicators. We demonstrate the significant potential of ML techniques for predicting ATCO WL. Our findings highlight the efficacy of using eye-tracking data, either in conjunction with head-movement data or independently, for WL prediction. We yield results with accuracy rates reaching as high as 96% (F1- score=84%) in correctly predicting instances of high EEG-based WL level and 86% accuracy (F1- score=77%) in predicting three different levels of WL. Reducing the number of features (NoF) generally results in a slight decrease in model performance, but significantly reduces measurement and computational efforts. In the most favorable scenario only 6 features were needed instead of 58, with an accuracy of 82% compared to 85% and an F1-score of 74% compared to 73%.
Att identifiera eventuellt säkerhetspåverkande situationer med över- eller underbelastning är avgörande för olika operatörer, och med tanke på uppgifterna för en flygledare, är detta särskilt sant för flygtrafiktjänstleverantörer efter konceptuella ändringar av flygledares arbetsuppgifter. För att identifiera över- eller underbelastning måste vi kunna mäta en operatörs arbetsbelastning (WL). Tyvärr är arbetsbelastningen subjektiv: den mäter den subjektiva, mentalt upplevda stressen under en uppgift. Att bedöma en operatörs – och särskilt en flygledares – arbetsbelastning har varit ett långvarigt forskningsämne, och forskare har använt flygledarens självutvärdering med hjälp av numeriska skalor. Dessa metoder lider av olika nackdelar, såsom att utfråga flygledare är påträngande, s.k. ”social bias” kan påverka självbedömningen och små WL-variationer kan inte registreras. I detta projekt strävar vi efter att göra framsteg mot utvecklingen av objektiva, icke-påträngande WL mätningar. Vi utför en ambitiös studie med 18 flygledare och totalt 54 scenarier i en-route-miljö, med målet att reducera vikten av numeriska skalor för arbetsbelastningsbedömning genom att också samla in olika lovande indikatorer för WL (såsom ögonrörelsemätning) och sedan analysera hur valida dessa objektiva indikatorer är. Våra resultat visar på signifikant potential för maskininlärningstekniker (ML) för att prediktera flygledares arbetsbelastning. Eye tracking-data, både med och utan huvudrörelsedata, kan med ML prediktera hög EEG-baserad arbetsbelastning med 96% noggrannhetsgrad (F1-score=84%). Prediktion av tre nivåer av arbetsbelastning lyckas med 86% noggrannhetsgrad (F1-score=77%). Genom att reducera antalet parametrar som används i maskininlärningen sjunker modellprestandan något, men samtidigt minskar både behoven av mätningar och beräkningsinsatser markant. I det mest fördelaktiga scenariot behövs bara 6 parametrar istället för 58, med en prediktionsnoggrannhet på 82% jämfört med 85% och F1-score på 74% jämfört med 73%. Dessa resultat banar väg för utveckling av ett icke-påträngande övervakningssystem för arbetsbelastning. Ett sådant system kan vara ett verktyg för att identifiera både över- och underbelastningssituationer.