Sommario
L’uso della tecnologia speech-to-text (STT) sta diventando sempre più comune in ambiti come la trascrizione automatica, l’assistenza sanitaria a persone con disabilità visive e l’elaborazione di dati parlati. La dottoressa Bożena Kostek della Gdańsk University of Technology sta esplorando il potenziale di questa tecnologia nella sanità, concentrandosi su come la chiarezza del parlato possa migliorare l’accuratezza delle trascrizioni mediche.
L’importanza dello STT in ambito sanitario
La dottoressa Kostek sottolinea che automatizzare la registrazione dei dati dei pazienti è fondamentale per liberare tempo ai medici, migliorando la qualità delle interazioni con i pazienti e la raccolta dei dati clinici. Tuttavia, gli attuali modelli di STT presentano diverse sfide:
- Difficoltà con i termini medici: molti modelli sono addestrati principalmente in inglese e non gestiscono bene linguaggi complessi o specifici, come il polacco.
- Ambientazioni rumorose: i rumori tipici degli ospedali e la scarsa chiarezza del parlato in situazioni di stress riducono l’accuratezza delle trascrizioni.
Creazione di un dataset medico dedicato
Per affrontare queste problematiche, il team ha sviluppato un dataset audio dettagliato contenente termini medici polacchi, pronunciati da specialisti in discipline come la cardiologia e la pneumologia. Questo dataset è stato analizzato utilizzando modelli di Automatic Speech Recognition (ASR), impiegando metriche come il Word Error Rate (WER) e il Character Error Rate (CER) per misurare la precisione delle trascrizioni.
Questa metodologia consente di comprendere meglio come la chiarezza del parlato e lo stile di enunciazione influenzino l’efficacia dello STT, con l’obiettivo di migliorare l’usabilità della tecnologia in contesti clinici reali.
Espansione del progetto e prospettive future
Attualmente, la ricerca si concentra sulla lingua polacca, ma sono in corso collaborazioni con l’Università Ospedaliera di Brno, in Repubblica Ceca, per sviluppare risorse simili per il ceco. L’obiettivo a lungo termine è estendere lo studio a lingue diverse, migliorando l’integrazione dello STT in sistemi sanitari multilingue.
La dottoressa Kostek evidenzia l’importanza di un approccio analitico, anziché olistico, per affrontare i problemi legati alla trascrizione automatica, smontando il processo in parti specifiche per migliorarne le prestazioni.
La tecnologia speech-to-text ha il potenziale di trasformare l’assistenza sanitaria, ma la sua implementazione richiede soluzioni mirate per affrontare le sfide linguistiche e ambientali. Il lavoro della dottoressa Kostek dimostra come dataset specifici e analisi dettagliate possano migliorare l’efficacia dello STT in contesti medici, offrendo ai professionisti strumenti più precisi e affidabili per gestire i dati dei pazienti.