Il computer, la tua voce

    Segretarie e centralinisti di tutto il mondo unitevi, il vostro posto di lavoro potrebbe essere in pericolo. La “minaccia” arriva direttamente dai laboratori di ricerca dove, dopo oltre vent’anni, gli studi sugli speech recognition, il sistema di riconoscimento della voce da parte dei computer, hanno raggiunto risultati strepitosi. E presto avranno un forte impatto nella vita quotidiana di milioni di persone. Queste tecnologie permettono infatti di parlare al computer senza toccare né il mouse, né la tastiera. E’ quindi possibile trasformare un dettato in testo scritto e eseguire qualsiasi comando di un word processor, oltre a spedire messaggi di posta elettronica: basta parlare ad un microfono (meglio se da “centralinista” perché riduce i disturbi acustici) ed il messaggio diventa una lettera o una e-mail.

    Con meno di trecentomila lire si può portare a casa un prodotto della Dragon System, della Kurzweil Applied Intelligence o della più nota Ibm. Una marca vale l’altra: tutte garantiscono una trascrizione del parlato corretta, con percentuale di errori grammaticali inferiore al 5 per cento. A patto, però, di adattare il programma al tono, al timbro e alle inflessioni della voce dell’operatore. Malgrado i progressi della ricerca negli ultimi anni, il computer non è infatti ancora in grado di comprendere ed interpretare il senso delle parole.

    La funzione del programma di riconoscimento vocale è prettamente meccanica: codifica e confronta le parole ascoltate con quelli presenti nel vocabolario interno (composto da oltre 60 mila vocaboli). Ma non è in grado di interpretare eventuali errori di logica della frase. Ciò non toglie, però, che il software ha anche una certa capacità di auto-correzione: quando una parola viene dettata in maniera sbagliata, quasi sempre provvede automaticamente a rintracciare il vocabolo che più si avvicina a quello mal pronunciato e a sostituirlo. Per questo motivo le possibilità di errore sono molto ridotte.

    Rimane però il difetto della dettatura lenta e personalizzata: se si superano le 150 parole al minuto il software rischia di andare in tilt. Ed è proprio su questo fronte che i laboratori di ricerca stanno lavorando. “Sul modo di parlare al pc esistono significativi margini di miglioramento – spiega Claudio Rullent, del Cselt – ad esempio nei nostri laboratori esistono prototipi in grado di interagire con l’utente mediante frasi dette in linguaggio naturale. Aumenta però la complessità dei sistemi, che, oltre a riconoscere il parlato continuo, devono anche essere in grado di capire le frasi e gestire un dialogo con l’utente”.

    La Microsoft ha investito su questo tipo di progetto ben 40 milioni di dollari, destinati ai centri di ricerca in Beglio, i Flanders Language Valley. Più avanti di tutti però è l’Ibm, che all’inizio di luglio ha presentato l’ultimo modello di Via Voice, anche se per il momento nella sola versione inglese. Grazie a questo programma per parlare ad un pc non è più necessario scandire le parole intervallate da lunghe pause. Basta parlare chiaro, senza mai sovrapporre le parole, ed il gioco è fatto.

    Non è ancora una conversazione naturale, ma ci manca poco. Ed anche la fase di adattamento alle caratteristiche vocali di chi parla è stata accelerata. Se poi qualcuno vuole conoscere tutti i segreti di quest’ultima frontiera del riconoscimento vocale non deve fare altro che navigare in rete: un’azienda privata milanese che distribuisce prodotti informatici ha addirittura allestito un vero e proprio corso interattivo sull’utilizzo del Via Voice.

    Ciò significa che anche in Italia comincia ad esserci attenzione per questo tipo di tecnologie. In effetti, i sistemi digitali di riconoscimento della voce hanno fatto la loro apparizione già da qualche anno. Si tratta però delle versioni più rudimentali, quelle che hanno ancora bisogno una noiosa e non sempre impeccabile fase di addestramento e che comunque costringono a parlare al microfono molto lentamente ed in modo poco naturale. Tra questi programmi, uno dei meno macchinosi è prodotto dalla Dragon System ed è distribuito dalla Archimede. L’Ibm ha comunque fatto sapere che entro la fine dell’anno metterà in commercio il Via Voice98 anche in lingua italiana.

    Ma quello della lingua è un problema marginale. E’ stato stimato che nel Duemila il giro d’affari di questi programmi sarà di oltre un miliardo di dollari. La realtà è che di anno in anno i sistemi di riconoscimento vocale diventano sempre più evoluti. Tanto da essere introdotti non solo nel settore dell’off line – dove negli ultimi tempi si è avuta un’esplosione di software vocali per traduttori, medici ed addirittura per dislessici (il programma si chiama “What you need now” ed è stato realizzato dall’Ibm) – ma anche in quello della comunicazione a distanza. Se ormai tutti conoscono i sistemi automatici di risposta telefonica (la cui voce si avvicina sempre più a quella dell’uomo e sempre meno a quella metallica di un computer), in pochi sanno che tra qualche anno la nostra vita sarà invasa da oggetti messi in moto dai comandi vocali.

    Tutti i comparti che offrono un servizio audio ai clienti stanno infatti provvedendo ad adeguarsi. Società telefoniche, bancarie, finanziarie e commerciali, che hanno nelle conversazioni telefoniche il loro canale di accesso principale alla clientela, sono in prima fila. Qualcuno ha già cominciato. Come un’azienda finanziaria americana dello Yorktown Heigs, dove le telefonate degli investitori vengono smistate al computer che provvede autonomamente a leggere le quotazioni dei titoli o dei fondi di investimento e ad informare il cliente.

    Di questo passo potremo prenotare i biglietti degli aerei o un vestito parlando direttamente al pc. Ma non solo. Dietro l’angolo spuntano i comandi vocali applicabili anche alla tv e al telefono: per azionarli basterà dirgli “accendi” o “spegni”, senza muoversi dal divano. Negli Usa e in Giappone si stanno studiando i comandi vocali applicabili agli apparecchi automatici di uso più comune tra le mura domestiche, come il frigorifero o la lavatrice. Un capitolo a parte è quello delle automobili, per le quali il futuro dei comandi vocali è legato allo sviluppo delle altre tecnologie, in particolare del global positioning system.

    Il settore telematico riamane comunque quello dove gli speech recognition sono già una realtà avviata. Basta andare in Inghilterra, ovviamente via rete, per rendersene conto. Avvalendosi delle ricerche svolte in campo militare, dall’inizio di quest’anno la società britannica Speech machine ha inaugurato il primo servizio mondiale di trascrizione automatica a distanza. La dettatura avviene 24 ore su 24 via telefono, anche da cellulare, ed è consegnata al destinatario via e-mail in un periodo che va dalle tre alle ventiquattro ore. Il sistema non richiede nemmeno il training di adattamento alla voce di chi parla. Dopo essere stato codificato in bit e registrato in un file, il messaggio viene infatti riascoltato da un operatore umano che provvede a correggere il testo e a spedirlo all’indirizzo di posta elettronica.

    LASCIA UN COMMENTO

    Please enter your comment!
    Please enter your name here