Oggi per #traduzioneacolazione vi proponiamo una lettura e uno spunto di riflessione.
Iniziamo dalla prima: Per ridere aggiungere acqua, Piccolo saggio sull’umorismo e il linguaggio, scritto da Marco Malvaldi ed edito da Rizzoli nel 2018, lancia quasi un guanto di sfida con l’interrogativo: “è possibile insegnare a un computer che stiamo scherzando?”
“Il linguaggio umano non è strutturato; o meglio, non è strutturato in maniera palese. Le parole che si rincorrono sulla carta non sono legate le une alle altre da puntatori, collegamenti o freccette che le mettono in relazione precisa e inequivocabile, ma piuttosto siamo noi che leggiamo a inferire una struttura invisibile sulla base delle parole e del contesto. […] Un computer […] è un ente che calcola, non un ente che interpreta: ogni calcolo per essere eseguito ha bisogno di una relazione precisa, non ambigua, una regola che dati i presupposti dia un risultato. […] Per questo non è facile fare capire a un computer il linguaggio naturale; perché il modo in cui parliamo è aperto, impreciso, incompleto e spesso ambiguo.”
Dopo aver spiegato come funziona il linguaggio, l’autore analizza le dinamiche dell’umorismo, che nasce dall’inaspettato e dalla sovversione degli schemi, e ci illustra “perché dipende proprio dall’ambiguità del nostro linguaggio”, cercando di capire “come mai valga la pena di studiare un argomento simile”, che oggi più che mai è molto attuale, ovvero quello dell’intelligenza artificiale nelle sue varie declinazioni.
Se gli sottoponessimo una frase ironica come quella di Luciano de Crescenzo: “Il mio amico Claudio è una sagoma, ma ogni tanto lo ammazzerei!”, alla domanda “Luciano desidera uccidere il suo amico Claudio?” probabilmente un elaboratore elettronico risponderebbe: ”Sì.”
Il taglio del libro è divulgativo e la narrazione snocciola con disinvoltura nomi come Guareschi, Edgar Allan Poe e Georges Perec, facendo cenno ai concetti di ridondanza e interdipendenza su cui si fonda la teoria matematica della comunicazione di Claude Elwood Shannon, e agli esperimenti di Amos Tversky e Daniel Kahneman, i padri dell’economia comportamentale che hanno rivoluzionato il mondo della psicologia, fino ad arrivare a Bergson ed Eco passando per Borges, Montale e Fosco Maraini. In questa sua veste insolita, Malvaldi strizza spesso l’occhio al pubblico con battute e aneddoti, dicendoci esplicitamente: “Se alla fine non vi avrò convinto, spero almeno di avervi fatto fare qualche sana risata.”
Pur nella sua leggerezza, questo testo ci ha ispirato più di una considerazione.
Ormai, nel mondo della traduzione, i CAT Tool e la machine translation sono diventati quasi un imperativo, ma quando capita di dover rendere l’ironia, la comicità, i giochi di parole, e via dicendo, la macchina non dà i risultati sperati, forse perché “il gioco, come il riso, nasce dalla capacità di separare realtà e finzione” ed “è questa la capacità che ci rende umani, innanzitutto”, distinguendoci perciò da un computer.
Contemporaneamente alla lettura di questo libro per la rubrica, abbiamo seguito un corso di prompt engineering per conoscere meglio le potenzialità, ma anche i limiti, dei cosiddetti modelli linguistici di grandi dimensioni (Large Language Model, LLM). Riteniamo infatti che il modo migliore per capire le potenzialità di una nuova tecnologia sia mettere le mani in pasta e sperimentare.
Durante il corso abbiamo appreso diverse tecniche per ottenere risultati più precisi e coerenti grazie a istruzioni (prompt) ben strutturate. I modelli linguistici di grandi dimensioni, come ad esempio ChatGPT, sono infatti in grado di produrre risposte anche molto articolate, ma non essendo addestrati per scopi specifici, non sempre riescono a risolvere in modo accurato problemi complessi. Spesso forniscono risposte imprecise, se non errate, arrivando in alcuni casi ad avere le “allucinazioni”.
Il corso prevedeva diverse esercitazioni pratiche per fissare le tecniche di prompt apprese durante la teoria. Per svolgere le esercitazioni abbiamo utilizzato sia ChatGPT, sia la chat integrata di Bing che si basa sempre sulla tecnologia di OpenAI, ma che funziona in modo leggermente diverso perché può svolgere ricerche in rete e consente di verificare le fonti dalle quali ha attinto per elaborare le risposte. Per poter verificare il livello di profondità e di precisione delle risposte, abbiamo ideato prompt su argomenti sui quali abbiamo una certa esperienza.
Cosa abbiamo imparato?
Indubbiamente, combinando diverse tecniche di prompt, dal template pattern (con l’ausilio del linguaggio Markdown), istruire il modello linguistico affinché risponda seguendo una determinata formattazione, passando per l’alternative approaches pattern (farsi suggerire dal modello linguistico approcci alternativi per risolvere un problema), al fact check list pattern (farsi suggerire dal modello linguistico quali informazioni necessitano di verifica), su ChatGPT si riescono a ottenere risposte anche molto dettagliate all’interno di una conversazione. Grazie ad esempi ben strutturati si può addestrare il sistema perché ripeta uno schema o perché elabori da solo prompt efficaci per svolgere un determinato compito.
Con Bing i risultati sono più variabili. Se da un lato, con le giuste istruzioni, a differenza di ChatGPT, Bing può essere indirizzato verso fonti di ricerca specifiche, dall’altro non riesce a elaborare prompt troppo complessi. Se si prova a utilizzare una tecnica sofisticata come il meta language creation pattern, che consente di fornire istruzioni sintetiche insegnando al modello linguistico un metalinguaggio, Bing si rifiuta di rispondere.
Fin qui il bilancio risulta positivo, abbiamo imparato tecniche più o meno sofisticate per sfruttare meglio i modelli linguistici di grandi dimensioni. Però, c’è un però: il corso e le esercitazioni erano in inglese.
Cosa succede se replichiamo le esercitazioni in italiano?
Usando il persona pattern (la tecnica secondo la quale puoi far rispondere ChatGPT come se fosse X, dove X può essere un esperto, ma anche un animale, un algoritmo ecc.), abbiamo chiesto a ChatGPT di scrivere una storia comica come se fosse Marco Malvaldi. Il risultato? Non possiamo pubblicarlo per evitare accuse di plagio, ma diciamo che a noi non ha fatto ridere. Quando abbiamo chiesto a ChatGPT di spiegarci gli aspetti comici della storia, ecco come ci ha risposto:
“Nel tentativo di creare una storia comica, ho cercato di utilizzare elementi come situazioni insolite, personaggi eccentrici e un tocco di ironia. Tuttavia, l’umorismo è soggettivo e ciò che può sembrare divertente per una persona potrebbe non esserlo per un’altra.”
Questa risposta velatamente passivo-aggressiva ci ha strappato un sorriso. Forse non si può insegnare a ChatGPT la comicità, ma si possono ottenere risultati involontariamente comici.
Scherzi a parte, passando all’italiano la variabilità dei risultati aumenta, le risposte risultano talvolta meno coerenti e i prompt più sofisticati non sempre danno risultati equiparabili all’output inglese. Di certo qualche caso non fa statistica, ma fa sorgere alcune domande. Abbiamo ipotizzato che la diversa resa negli output potesse essere dovuta al fatto che l’inglese è la lingua più rappresentata sul web. Dando per scontato che l’italiano è la nostra lingua madre e che quindi non ci sia un problema di formulazione dei prompt, se il modello linguistico dispone di più dati da elaborare in inglese, è ragionevole pensare che produrrà risposte migliori in quella lingua. Banalmente, se non indirizzato verso siti più specialistici, Bing attinge spesso da Wikipedia, ma chi fa ricerche per mestiere sa che la versione inglese tende a essere più affidabile di quella italiana.
Approfondendo un po’ le ricerche, abbiamo però scoperto che la differenza negli output non dipende soltanto da quanto una lingua è rappresentata nei dati di partenza. Lo studio ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning cerca di indagare le diverse performance di ChatGPT in base alle lingue utilizzate per i prompt. Va sottolineato che questo studio è limitato: ChatGTP è stato testato soltanto su 7 compiti (per esempio capacità di sintesi, inferenza del linguaggio naturale ecc.) e le lingue utilizzate sono state solto 37 con rappresentanza alta, media, bassa ed estremamente limitata nei dati. Tuttavia, i test hanno prodotto risultati quanto meno da approfondire. Dalle conclusioni emerge sì che in linea generale i prompt formulati in inglese consentono di ottenere i risultati migliori, ma anche che per alcuni compiti specifici, per lingue con rappresentanza bassa o bassissima nei dati, ChatGPT fornisce risposte equiparabili, se non migliori, di quelle per lingue più rappresentate nei dati di addestramento. Sebbene, come evidenziato nella stessa discussione, questo studio non sia esauriente e siano necessarie ulteriori ricerche, i risultati dei test parrebbero suggerire che anche la struttura della lingua stessa potrebbe influire sulla performance per determinati compiti.
Infine, per ottenere risposte più “centrate”, nello studio si suggerisce di includere anche una descrizione in inglese del compito da svolgere nei prompt scritti in altre lingue. Va ricordato però che, sebbene siano in grado di tradurre da e verso molte lingue, questi modelli non sono sofisticati come sistemi di machine translation addestrati specificamente per la traduzione. Tuttavia, considerata la velocità di evoluzione, con il tempo questi modelli potrebbero fornire risultati via via più precisi anche in lingue molto meno rappresentate dell’inglese nei dati di partenza. Nel frattempo, non ci resta che sperimentare, ma con senso critico e cautela.
Resta, comunque, da sciogliere il nodo dell’umorismo. Ai posteri l’ardua sentenza.