Ciaurelli, Lorenzo. "Il linguaggio nel decadimento cognitivo: marker linguistici e automazione della diagnosi." Doctoral thesis, 2020. http://hdl.handle.net/11573/1365801.
Abstract:
L'Alzheimer, una delle forme più comuni di demenza degenerativa, è caratterizzato da
un progressivo e irreversibile deterioramento delle abilità cognitive e dalla perdita di
memoria, da un declino delle facoltà linguistiche e da altri deficit cognitivi e
comportamentali che, nello stadio terminale della malattia, portano l'individuo alla totale
perdita dell'autosufficienza.
Al momento delle prime manifestazioni cliniche della malattia, alcuni sintomi di
deficit cognitivo sono già presenti, ad esempio, a livello del linguaggio e delle funzioni
esecutive. Tali cambiamenti, in quanto manifestazioni prodromiche del processo
patologico, possono quindi essere usati come indici per la diagnosi.
Infatti, il declino delle facoltà linguistiche è individuabile già diversi anni prima della
fase clinica della malattia; in letteratura non mancano studi longitudinali retrospettivi che
hanno dimostrato come alcuni parametri linguistici, estratti da testi scritti o dal parlato
spontaneo, possano funzionare da indici di una disfunzione cognitiva: per esempio, il Nun
study, l'Iris Murdoch study e l'Harold Wilson project.
Negli ultimi anni la ricerca, grazie anche all'affinamento delle tecniche del Natural
Language Processing (NLP), si è impegnata con successo nell'individuazione di features
in grado di cogliere i differenti stadi del deterioramento cognitivo, in modo tale da creare
set di misure da implementare in sistemi automatici per la diagnosi. La capacità di tali
strumenti di rilevare pattern latenti nel linguaggio li rende utili nell'individuazione delle
fasi prodromiche della demenza, come ad esempio il Mild Cognitive Impairment (MCI),
entità nosografica introdotta alla fine degli anni '80 del secolo scorso per descrivere lo
stadio intermedio delle abilità cognitive tra i cambiamenti visibili durante
l'invecchiamento e quelli che invece soddisfano i criteri per la diagnosi della demenza o
dell'Alzheimer. Il fatto di rappresentare una metodologia non invasiva e a basso costo
rende queste tecniche adatte ai fini dello screening su larga scala della popolazione
potenzialmente a rischio.
Il presente lavoro di ricerca, nel percorso già tracciato in Italia dal progetto OPLON
(“OPportunities for active and healthy LONgevity”, Smart Cities and Communities – DD
391/RIC), il quale porta avanti l’ambizioso obiettivo di studiare la fattibilità di un sistema
di diagnosi della demenza basato sull’analisi automatica del parlato spontaneo, ha come
obiettivo quello di elaborare tecniche di raccolta dati e utilizzare gli strumenti del Natural
Language Processing e del Machine Learning per creare un sistema che sia in grado di
analizzare e classificare campioni di linguaggio spontaneo in maniera automatica.
A tal fine, si è scelto di analizzare la produzione di disfluenze e fenomeni di esitazione
nel parlato spontaneo dei soggetti sani e affetti da decadimento cognitivo. Fenomeni già
ampiamente studiati nell’inglese e che in molti casi sono stati già utilizzati come
parametri nei sistemi automatici di diagnosi della demenza, ma tuttora quasi
completamente inesplorati per l’italiano.
Per l’analisi è stato utilizzato un sotto campione del corpus OPLON, composto dalle
registrazioni di 48 soggetti (21 soggetti di controllo, 19 affetti da decadimento cognitivo
lieve, 9 soggetti a uno stadio iniziale della demenza) durante l’esecuzione di due compiti:
descrizione di una figura e racconto di una propria giornata lavorativa tipo. Le 96
registrazioni provenienti da questo corpus sono state annotate dall’autore, utilizzando il
software Praat.
L’annotazione ha riguardato disfluenze e fenomeni di esitazione, secondo una
distinzione ampiamente dibattute in letteratura. Con le prime si fa riferimento alla totalità
dei fenomeni che intaccano la continuità del parlato, mentre con “fenomeni di esitazione”
ci si riferisce a una delle sottoclassi delle disfluenze, ovvero quella composta da pause
silenti e piene, prolungamenti sillabici e ripetizioni. Inoltre, a differenza dei fenomeni di
disfluenza, i fenomeni di esitazione possono essere descritti anche quantitativamente in
relazione alla loro durata.
Delle disfluenze è stata fornita una duplice tipologia di annotazione utilizzando un
approccio formale e uno funzionale di descrizione. Infatti, in letteratura, si può
individuare un approccio “formale”, volto a descrivere e classificare le disfluenze tenendo
conto delle forme che esse assumono nel parlato. L’accento è quindi posto sui pattern che
le disfluenze esibiscono ai veri livelli di analisi linguistica, indipendentemente dal ruolo
che esse svolgono all’interno della produzione orale. L’approccio “funzionale”, invece,
partendo dall’assunto che un problema nella pianificazione si ripercuota nella produzione
sotto forma di disfluenze, propone una descrizione che tenga conto dei processi cognitivi
coinvolti nella pianificazione del parlato.
Al fine di automatizzare il processo di analisi, le informazioni contenute nei file di
annotazione sono state estratte ed elaborate attraverso l’uso di algoritmi creati dall’autore
utilizzando il linguaggio di programmazione Python.
A partire dai dati forniti dall’annotazione, sono stati calcolati una serie di parametri
mutuati da studi precedenti e alcuni nuovi, proposti dall’autore. Per ognuno dei tre gruppi
di parametri, ovvero quelli relativi all’annotazione dei fenomeni di esitazione, delle
disfluenze descritte “formalmente” e “funzionalmente”, è stata calcolata la significatività
statistica, con il fine di trovare i parametri in grado di differenziare i soggetti affetti da
decadimento cognitivo dai soggetti di controllo.
I parametri che hanno raggiunto la significatività statistica sono stati successivamente
utilizzati come ingresso in due sistemi automatici di classificazione realizzati con il
software Orange Data Mining. Lo scopo è stato quello di costruire un sistema addestrato
con i dati analizzati e in grado di classificare una nuova produzione orale come
appartenente a uno dei tre gruppi, ovvero gruppo di controllo, dei soggetti affetti da
decadimento cognitivo lieve o a uno stadio iniziale della demenza.
I risultati ottenuti dimostrano che è possibile differenziare i soggetti di controllo dai
soggetti affetti da decadimento cognitivo sulla base di parametri relativi a disfluenze e
fenomeni di esitazione. In particolar modo questi ultimi si sono rilevati molto più
affidabili nel cogliere differenze tra i gruppi analizzati.
Per quanto riguarda le disfluenze, invece, la classificazione e l’annotazione funzionale
è risultata essere uno strumento più fine, in grado di cogliere uno dei deficit più
caratterizzanti il decadimento cognitivo, ovvero quello riguardante la sfera lessicosemantica.
L’insieme dei parametri analizzati fornisce un’accurata fotografia delle difficoltà
affrontate dai pazienti nella produzione orale e dalle diverse strategie utilizzate per far
fronte a una ridotta capacità nella programmazione del discorso. Il rallentamento del ritmo
(speechrate), la produzione di enunciati più brevi e di pause più lunghe e frequenti sono
alcuni dei modi in cui questo deficit si manifesta nella produzione orale.
Infine, l’esperimento di classificazione condotto usando le tecniche del machine
learning dimostra come sia possibile individuare, con un discreto margine di affidabilità,
i soggetti affetti da decadimento cognitivo utilizzando pochi parametri come input.
L’accuratezza ottenuta, intorno all’80%, nella classificazione dei soggetti ad uno stadio
iniziale della demenza è in linea con quella della bibliografia di riferimento che oscilla
tra il 70% e l’85%. Da migliorare invece la classificazione dei soggetti affetti da
decadimento cognitivo che varia tra il 62% e il 66%.