"Modello Italia", in arrivo una IA generativa addestrata in italiano

SOSTIENICI CON UNA PICCOLA DONAZIONE
Condividi questo articolo:

L’imprenditore italiano di origini albanesi Uljan Sharka vuole dare all’Italia una sua intelligenza artificiale generativa, indipendente dalle grandi aziende americane che oggi dominano il mercato, ma soprattutto indipendente dalla lingua inglese in cui i modelli attuali sono addestrati. La tecnica dell’autoapprendimento (in inglese machine learning) consiste nel dare in pasto al modello enormi quantità di informazioni, testi, immagini, audio, che essa è in grado di assimilare ed elaborare per poi produrre dei contenuti che ritiene sensati.

Da OpenAI a Google, passando per Meta e arrivando fino alla francese Mistral e alla cinese 01.AI, tutti i principali modelli oggi sul mercato sono addestrati su materiale in inglese. “Questo genera un bias culturale estremamente pericoloso se pensiamo che, in futuro, molti servizi e prodotti saranno gestiti con un’interfaccia utente basata sul linguaggio naturale”, spiega a Wired Uljan Sharka, fondatore e amministratore delegato di iGenius, azienda milanese che si occupa di sviluppare applicazioni basate sula IA. “Quando andiamo su modelli di larga scala – prosegue – si inserisce un pregiudizio culturale non indifferente e non accettabile. Stiamo sottovalutando l’effetto che la lingua ha sull’addestramento dei modelli”.

Modello Italia, questo il nome della nuova IA, sarà dunque nutrita di dati e testi nella nostra lingua, dandole – per così dire – una visione del mondo scevra da pregiudizi culturali. Ebbene sì, formare ed educare qualcuno, seppur non un essere umano ma un algoritmo, in lingua inglese e usando materiale prodotto esclusivamente nel mondo anglosassone, gli dà una visione del mondo parziale, plasmata da quella lingua e cultura. Chissà che non si riesca a far capire che la stessa cosa la stiamo facendo con i cervelli umani dei nostri studenti attraverso scuole e università che in Italia insegnano in inglese e seguendo metodi didattici britannici e americani…

L’ambizioso progetto di Modello Italia verrà sviluppato utilizzando la capacità di calcolo del supercomputer Leonardo, il sesto più potente al mondo, gestito dal Cineca di Bologna (Consorzio Interuniversitario formato da 118 enti pubblici, tra cui due Ministeri e 70 università italiane). Una collaborazione pubblico privato, dove la potenza del supercalcolatore del Cineca si unisce alle competenza tecnica e aziendale di iGenius.

La licenza del nuovo prodotto sarà quella Mit, con codice sorgente aperto, mentre per quanto riguarda il tema del diritto d’autore, Modello Italia verrà addestrato all’inizio solo con fonti aperte, come Wikipedia o altre sorgenti non coperte da diritto d’autore. E l’intera soluzione è stata disegnata tenendo conto del recentissimo Regolamento europeo sull’Intelligenza Artificiale.

Nascerà dunque il primo Modello linguistico di grandi dimensioni (in sigla inglese LLM) italiano. Una sfida lungimirante che dovrebbe dare i suo primi frutti già quest’estate. Auguriamo ogni bene a questa iniziativa, perché l’italiano continui a essere fonte di sapere, oltre che strumento di comunicazione, per tutte le menti… artificiali e non.

—
Copertina creata con customneon.com – Fonti: Wired – Repubblica – Corriere – iGenius

Questo sito è gestito gratuitamente da volontari che ne sostengono i costi. Aiutaci donando una cifra a tua scelta: