Numero 6 del 2019
Titolo: IPOVISIONE- Ipovedenti e sintesi vocale
Autore: Antonino Cotroneo
Articolo:
Una relazione complessa - Parte 1
Genitori, insegnanti, educatori, tiflologi, riabilitatori, chiunque ha a che fare con ragazzi e adulti ipovedenti, ha molto probabilmente avuto modo di toccare con mano quanto sia delicata e complessa la loro relazione con gli strumenti che permettono di trasformare in voce i testi e gli elementi grafici visualizzati su uno schermo.
Mani e occhi - Siamo nell'era dei dispositivi cosiddetti "smart": dispositivi piccoli, grandi, tascabili, ma anche elettrodomestici, con cui interagiamo di continuo per impartire loro comandi, o per ottenere da essi delle informazioni. La tipologia di interazione con questi strumenti è ormai molto varia. Inviamo ad essi dei comandi attraverso delle tastiere fisiche o delle tastiere virtuali (sugli schermi touch); diamo loro ordini mediante sistemi di puntamento, come il mouse, i pennini o delle tavolette grafiche; usiamo come strumento di input direttamente le nostre dita.
Audio e TTS - Non solo. L'informatica, sebbene sin dai principi della sua diffusione di massa abbia privilegiato un'interazione uomo-macchina basata principalmente sui canali visivo e cinestesico (occhi e mani), a fianco alle interfacce grafiche abbiamo visto un interessante, e negli ultimi anni crescente, sviluppo di una interazione basata anche sul canale auditivo. Pensiamo agli annunci vocali in stazione o in treno che traducono quanto scritto sui tabelloni, alla guida vocale presente sulle macchinette automatiche per le fototessere, alle casse automatiche di alcuni supermercati… Ma potete divertirvi ad allungare la lista. Negli ultimi dieci anni circa, i software che trasformano i testi in voce, chiamati TTS (Text To Speech), hanno iniziato ad essere impiegati per risolvere problemi anche in altri contesti. La dislessia, ad esempio, oppure per permettere la lettura di un articolo durante la guida in auto o in moto, abilitare la lettura di e-mail, notizie, libri, a mani libere mentre si sta facendo qualcos'altro. Tecnicamente i TTS permettono di selezionare un testo, o una parte di esso, e ottenerne la lettura ad alta voce per mezzo di una sintesi vocale. Li possiamo trovare almeno sotto due vesti diverse. Per computer o dispositivi mobile sottoforma di software e app stand-alone, oppure come funzionalità inglobate in software più complessi o nel sistema operativo stesso. Quest'ultimo è il caso del lettore integrato in ZoomText, il diffusissimo software dedicato all'ipovisione, o delle opzioni "Leggi selezione" e "Leggi schermo" su iOS, il sistema operativo di iPod, iPhone e iPad. Relativamente ai TTS ricordo ancora con molto stupore quando alcuni anni fa mi trovavo nello studio con la persona che stava accordando il mio pianoforte. Io ero alla scrivania a leggere alcuni messaggi di posta elettronica in cuffia grazie alla sintesi vocale, e lui al pianoforte a fare una revisione tecnica. Accorgendosi di quello che facevo, ad un certo punto interrompe il suo lavoro ed esclama stupito: "caspita! Ma tu hai un software che ti vocalizza i messaggi?". "Sì", rispondo, e glielo mostro. Lo volle comprare anche lui! Mi disse che aveva trovato la soluzione per leggere i blog che gli interessavano, mentre svolgeva lavori manuali in laboratorio, o si spostava in macchina tra un servizio di accordatura e l'altro.
Mani e orecchie - Del resto, ormai da circa quarant'anni le persone non vedenti possono contare su strumenti hardware e software che permettono loro di interagire con il dispositivo mediante tastiera o gesti su schermo touch, e traducono in voce e suoni ciò che è presente a video. Sono i cosiddetti screen reader (in italiano lettori di schermo) e le sintesi vocali. Questi strumenti, adesso principalmente solo software, ma che all'inizio della loro storia erano dotati anche di pezzi hardware, consentono a chiunque di usare un computer o un device mobile a schermo spento, e quindi in special modo alle persone non vedenti o con difficoltà di vista. In sostanza, spostano l'interazione uomo-macchina sui canali auditivo e cinestesico (orecchie e mani), permettendo all'utente di esplorare l'interfaccia grafica attraverso la tastiera o dei gesti su touch screen, ricevendo in output il feedback sonoro di ciò che si sta esplorando. Ad esempio, il pulsante con l'icona del floppy disk, che tutti visivamente associamo ormai inconsciamente all'azione di salvataggio di un lavoro, nell'interazione tramite lettore di schermo potrà essere raggiunto da tastiera, manifestarsi all'utente sotto forma di un messaggio vocale del tipo "pulsante Salva", e quindi sempre da tastiera essere attivato. Risultato simile anche sugli ormai evoluti tablet o smartphone, dove l'elemento dell'interfaccia può essere toccato o raggiunto mediante gesti tattili appositamente programmati (le cosiddette gestures).
Assistenti vocali e Smart Speaker - In tempi ancora più recenti il mercato del grande pubblico sta mostrando di sentirsi positivamente partecipe della relazione tra voce e sistemi informatici, apprezzando anche la possibilità di comunicare tramite interazione vocale con PC e dispositivi mobili. Siri per il mondo Apple, Google Assistant per Android, Cortana per Microsoft, per citare solo gli ecosistemi più diffusi tra il grande pubblico, sono funzionalità che ci consentono, mediante il solo uso della voce, di compiere operazioni sia semplici che complesse, come effettuare una telefonata ad un numero specifico salvato in rubrica, leggere ad alta voce gli ultimi messaggi ricevuti, avviare un programma, cercare sul web un ristorante e chiamarlo, sapere che temperatura ci sarà domani in un'altra città ad un'ora specifica, avviare il navigatore per guidarci verso una destinazione, e molto altro. E ancora, proprio l'anno scorso hanno visto la luce, anche in Italia, due scatoline, Google Home e Amazon Echo che, installate in casa, ci permettono mediante delle richieste espresse a voce e in linguaggio naturale come se parlassimo con un altro essere umano, di ricevere informazioni, effettuare acquisti online, far partire la nostra playlist preferita, o comandare le luci e gli elettrodomestici di casa.
Vocalizzazione sì o no? - Insomma, la voce, umana o sintetizzata, sia per l'input che per l'output fa ormai parte a pieno titolo dei canali di comunicazione tra noi e le tecnologie informatiche. Eppure, quando si parla di questi strumenti, nonostante la loro flessibilità e grande varietà di impiego, con i ragazzi e gli adulti con ipovisione, a scuola e nella vita di tutti i giorni, viene spesso fuori il tema della “non accettazione”. Nel momento in cui un genitore, o un insegnante/educatore, o un tiflologo si accinge a proporre uno screen reader o un TTS come strumento utile al percorso educativo o riabilitativo della persona con ipovisione, è piuttosto frequente la rilevazione di un certo rifiuto dello strumento. Perché? Perché delle tecnologie così utili a chiunque e ricercate dai più, indipendentemente da eventuali difficoltà di vista, vengono rifuggite proprio da coloro che in teoria potrebbero trarne un beneficio ampio?
Da tifloinformatico che lavora con i ragazzi e gli insegnanti, ma anche da persona con ipovisione molto grave che usa armonicamente qualsiasi tecnologia possa migliorare la qualità della mia vita e del mio lavoro, e tra queste c'è anche il display braille, mi sono posto a lungo questa domanda.
Solo recentemente ho iniziato ad avere le idee un po' più chiare, avendo accumulato adesso più di otto anni di esperienza professionale e avendo seguito qualche centinaio tra ragazzi e adulti con ipovisione e alcune decine di insegnanti ed educatori in tutta Italia. Il problema non è banale e forse scientificamente ancora poco indagato.
Nel tentare di analizzare questo quesito e trovare delle risposte plausibili, mi sono venuti in aiuto quattro Profili di interazione con i devices, che ho formulato in questi anni basandomi sulla costante osservazione e sul costante monitoraggio dei processi didattici a fianco alle persone con ipovisione e agli operatori che ho seguito sin ora. Sono dei modelli empirici, non hanno – almeno per il momento – una dimensione strettamente scientifica, ma si sono rivelati sempre piuttosto validi per il fine che mi sono proposto. Questi quattro profili ritraggono, quindi, semplicemente quattro persone ideali e distinte, con specifiche situazioni visive e specifico approccio alle tecnologie digitali.
I Profili in sintesi:
Profilo 1: "mi oriento bene negli spazi digitali; riconosco icone grazie a colori e dettagli; uso poco l'ingrandimento, mi è utile solo per vedere meglio qualche dettaglio; leggo a media-breve distanza, meglio se ottimizzo un po' il layout; mi trovo più a mio agio leggendo a vista; la vocalizzazione non mi è utile, o lo è solo in alcuni casi, a comando".
Profilo 2: "mi oriento abbastanza bene negli spazi digitali; riconosco icone grazie alla loro posizione e a dettagli visibili; l'ingrandimento mi è utile di tanto in tanto per vedere i dettagli; leggo con zoom o personalizzazione del layout; preferisco vocalizzare solo se ne ho bisogno; trovo utile puntare o toccare un paragrafo per ascoltarlo, ma gestisco il resto a vista".
Profilo 3: "mi oriento con disinvoltura negli spazi digitali conosciuti; credo di orientarmi anche in quelli nuovi, ma capita spesso di perdermi delle cose / sono consapevole di avere forti difficoltà negli spazi che non ho ancora esplorato; riconosco icone grazie alla loro posizione e dettagli molto visibili; senza zoom al massimo posso distinguere le diverse aree di un'interfaccia grafica o avere una panoramica di dove si trovano i pulsanti e le icone, oppure il testo; posso vedere i dettagli solo zoomando; leggo con fatica con zoom o grazie alla personalizzazione del layout; mi stanco presto o perdo il filo del discorso, Mi aiuta un impiego adeguato dello screen reader, quando valorizza la mia visione e non la esclude; puntare o toccare un'icona o un paragrafo per ascoltarlo mi permette di leggere molto di più; se uso solo lo screen reader escludendo il canale visivo, mi sento smarrito".
Profilo 4: "mi oriento negli spazi digitali distinguendo solo tra chiari e scuri, pieni e vuoti, oggetti ben contrastati, solo vagamente le forme; riconosco icone solo grazie alla loro posizione, oppure con ingrandimenti notevoli (es. un'icona occupa quasi l'intero schermo); senza zoom ho solo sensazioni di visione, di pieni e di vuoti; con livelli notevoli di zoom posso vedere qualche dettaglio, con ingrandimenti notevoli (es. su un monitor da 20" ci faccio stare una o due lettere) posso leggere caratteri o parole; non riesco a leggere testi; uso lo screen reader in tutte le sue funzioni, anche se voglio comunque conservare la mia visione per sentirmi più a mio agio".
Nella seconda parte di questo articolo, che uscirà sul prossimo numero di questa rivista, li analizzeremo assieme, ne mescoleremo le caratteristiche peculiari e cercheremo di usarli come cartina di tornasole per gettare un po' di luce su questi interrogativi.