L’interprete digitale

Digital InterpreterLa traduzione digitale fornita dai software è ancora un’ardua impresa, ma Google intende cambiare le cose. Ci riuscirà?

(liberamente tradotto da Die Welt)

“I confini della mia lingua sono i confini del mio mondo“, scriveva il filosofo Ludwig Wittgenstein. Con l’avvento di Internet il concetto di “confine“ sembra non esistere più al giorno d’oggi: nel web si può trovare di tutto, ovunque, in qualunque momento. L’azienda che da un ordine alla vastità della rete e rende tutto reperibile in essa è Google. Ora Google intende abbattere anche i confini linguistici, grazie al programma di traduzione automatica Google Translate, sebbene le sue capacità lascino ancora molto a desiderare.

Un computer è in grado di indicarci la strada in un luogo sconosciuto, di riconoscere i nostri amici nelle foto, ci permette di scrivere testi apparentemente autentici e originali: ciononostante è deludente in termini di qualità delle traduzioni. Gli sviluppatori stanno cercando di cambiare questo aspetto, alcuni credono che un giorno arriveremo ad avere interpreti digitali paragonabili a degli interpreti umani. Ma i programmi di traduzione non sono in grado di funzionare senza errori per via dell’estrema complessità della lingua umana, la cui peculiarità consiste nella possibilità di comporre all’infinito nuove frasi, frasi che nessuno ha mai pronunciato prima. Per mantenere gli orizzonti informatici aperti alle infinite sfaccettature della lingua umana, anche i programmi di traduzione automatica devono avere un potenziale illimitato, per poter costruire combinazioni linguistiche sulla base di elementi che vengo messi loro a disposizione.

Già sin dall’epoca della seconda guerra mondiale gli scienziati avevano sviluppato dei sistemi di traduzione automatica basati sulla crittografia. Negli anni ’60 alcuni linguisti iniziarono a mettere nero su bianco le regole basilari attorno alle quali una lingua viene costruita e in base alle quali è possibile tradurre da una lingua all’altra. Tali sistemi basati su regole sono oggi utilizzati nell’ambito della documentazione tecnica, come, ad esempio, nei manuali di istruzioni e nei testi di supporto online, oppure per questionari di valutazione somministrati a passeggeri, clienti, ecc.

In questo senso è anche fondamentale che il programma disponga di un lessico specifico per l’ambito nel quale si effettua una traduzione, un linguaggio settoriale, in definitiva.

I software di traduzione automatica, funzionano, alla stregua di altri software, grazie a degli algoritmi, che in questo caso analizzano un database di testi cercando concetti sconosciuti al programma ma frequentemente utilizzati in un determinato tipo di testi. L’intervento umano serve poi ad istruire la macchina sul tipo di termini incontrati: verbi, sostantivi o nomi propri. La cosa più importante è comunque lo sviluppo di algoritmi in base alla grammatica di una data lingua.

Ma anche nei programmi più specializzati è facile trovare delle traduzioni prive di senso: che cosa non funziona, allora, nonostante la grammatica attentamente programmata, nonostante il lessico settoriale e gli algoritmi sempre più mirati e specifici?

C’è che con le regole si può descrivere una lingua in modo molto preciso, ma le regole sono moltissime, e a volte entrano in conflitto. Perché la lingua è una cosa complessa.

In italiano, ad esempio, il suffisso di una parola può determinare il singolare o il plurale di un sostantivo, oppure il tempo verbale. Se si vuole istruire un programma sul significato di un suffisso, la cosa si fa difficile. Prendiamo un esempio: la parola “notai“ può essere sia un verbo che un sostantivo. Per funzionare bene, i programmi di traduzione devono capire a che categoria appartiene un termine inserito. La grammatica determina la traduzione, ma se il significato è ambiguo, il programma di traduzione automatica spesso non sarà in grado di disambiguare e fornire la traduzione giusta.

Una soluzione a questo problema è il contesto. Un lettore umano riesce a capire, in base al contesto, il significato di una parola. “Una buona traduzione non funziona senza contesto”, afferma Macduff Hughes, direttore dello sviluppo di Google Translate, e lui stesso lo definisce come uno dei problemi principali del suo programma. “Google Translate traduce una frase alla volta, ma a volte la frase seguente contiene informazioni importanti, che sono decisive per la traduzione“.

Google utilizza per le sue traduzioni un sistema statistico basato su grandi quantità di dati. “Cerchiamo siti in varie lingue e li usiamo come traduzioni base per il nostro programma. Possono essere pagine di supporto per software, ma anche siti di viaggi, negozi online o pagine di notizie”, spiega Hughes. Il software calcola la probabilità che ci sia una corrispondenza tra frasi, gruppi di parole o singoli termini di un’altra lingua sulla base di corpora di testi bilingue. La traduzione proposta dal software viene, con tutta probabilità, tratta da un testo di partenza che contiene quel frammento. Più sono i dati disponibili, quindi, migliori sono i risultati.

Google Translate ha bisogno di decine di milioni di parole come base di partenza per una determinata lingua. “Il programma scansiona il testo da tradurre parola per parola o sequenza dopo sequenza; vengono individuate così le singole celle traduttive, che vengono ordinate in modo tale che la frase nella lingua di arrivo possa essere corretta”, spiega Hughes. Il programma impara la costruzione di una frase in tedesco, ad esempio, dalla miriade di siti internet in lingua tedesca a disposizione. Di fatto si tratta di mera statistica, secondo Hughes. Lo sviluppatore sa bene che il contesto o i verbi irregolari rappresentano una difficoltà per il programma e che le traduzioni ottenute non sono sempre perfette. Tuttavia “Ci sono molte situazioni in cui la traduzione può essere d’aiuto anche se non risulta perfetta“, sostiene.

Macduff Hughes ha grandi visioni per il futuro di Google Translate: “Ci impegniamo costantemente per migliorare la qualità delle traduzioni”, dice, “e potremo dire di avere finito il nostro lavoro quando il sistema sarà paragonabile ad un traduttore professionale umano.“ Cioè, quando un computer farà cose che solo un essere umano è in grado di fare: produrre sfumature, allusioni, giochi di parole e poesie.

E io mi permetto di aggiungere che quel giorno forse è ancora molto lontano.

 

S.

Written by

Translator & Interpreter