Avete mai pensato di donare la vostra voce alla scienza? Detta così può suonare strano, invece è la proposta intorno alla quale ruota CV Project, ovvero il progetto di Mozilla Italia che punta a creare un database liberamente utilizzabile di vere voci umane. Quale sarebbe lo scopo? Come si fa a partecipare? Scopritelo!

CV è l’acronimo di Common Voice. Le licenze Creative Commons (o semplicemente CC) sono licenze digitali create agli inizi degli anni 2000 per proteggere le opere di ingegno presenti su Internet e i loro creatori. Servendosi delle CC, l’autore di un testo, un brano musicale o un’opera d’arte può decidere che tipo di diritti concedere nel momento in cui il risultato del suo ingegno viene messo in Rete. Si va dalle opere totalmente gratuite e utilizzabili all’infinito su cui l’autore rinuncia a qualsiasi guadagno che non sia la visibilità, alle opere per le quali è richiesto un pagamento in caso di utilizzo o riproduzione.

Negli anni, i database Creative Commons si sono riempiti di contenuti del tutto gratuiti “regalati” da autori speranzosi di notorietà. Per spiegare cos’è CV Project è necessario partire proprio da questo: la necessità di creare un database di voci gratuito da cui attingere per progetti di machine learning.

Perché donare la propria voce?

Il machine learning un processo tramite il quale si “insegna” alle macchine a comportarsi e a ragionare come gli esseri umani. Può sembrare inquietante, ma non lo è: pensiamo alle applicazioni in ambito medico o semplicemente ai sistemi di guida assistita delle nostre auto. In un mondo sempre più automatizzato la fusione tra umani e macchine è molto più avanti di quanto possiate pensare. Può accadere, e accade sempre più spesso, che queste macchine debbano anche parlare. Tipo in tutti quei sistemi pensati per aiutare le persone ipovedenti, ma ci sono mille altri esempi (tipo i risponditori telefonici automatici).

Per progettare e realizzare questi sistemi è necessario programmarli sulla base di set di frasi predefinite che combinate tra loro danno poi alla macchina una certa “autonomia” linguistica e lessicale. Per lingue largamente diffuse come l’inglese la reperibilità di frasi-esempio è abbastanza semplice. Ma per le lingue meno parlate come si fa? Oltre alla lingua poi ci sono anche necessità più “sottili”. La voce è una specie di “impronta digitale” sonora, ogni essere umano ne possiede una unica e inimitabile. Le varie applicazioni digitali potrebbero aver bisogno di voci maschili, femminili, di persone giovani, anziane e così via. Per poter insegnare alle macchine tutte queste sfumature è necessario disporre di database molto ampi da cui trarre le frasi esempio. Ecco quindi spiegata la genesi di CV Project.

CV-project

CV Project e Mozilla Italia

Dopo un avvio sperimentale volto a testare il funzionamento del sistema, Common Voice si allarga e punta a raggiungere una platea più vasta. Dal 1 al 30 aprile 2021 è possibile partecipare al contest di CV Project registrando semplicemente con il proprio smartphone una serie di frasi e donandole al progetto. In questo modo si punta a realizzare il database gratuito più completo possibile per la lingua italiana, che al momento è considerata lingua di minoranza e per questo non presa in considerazione dai grandi big mondiali dell’industria AI. Al momento, chiunque voglia accedere a un dataset in italiano che sia un minimo performante deve farlo passando dalle università, che però richiedono dei costi troppo alti per accedere al proprio materiale. Questo può scoraggiare i piccoli creatori e investitori o le startup ed è anche a loro che si CV Project si rivolge.

Non ultima, c’è un’importante questione sociolinguistica. L’Italia è anche patria di alcune lingue che stanno scomparendo, importantissimi patrimoni culturali e storici da preservare. Pensiamo al Sardo, al Ladino, al Griko o al Friulano (l’elenco completo delle minoranze linguistiche italiane riconosciute ce lo fornisce il MIUR). CV Project contribuirebbe a conservare questi patrimoni e a consegnarli al futuro.

Come partecipare?

CV Project a cura di Mozilla Italia si inserisce all’interno di più ampio progetto internazionale che ambisce a coinvolgere tutte le lingue considerate minoritarie. Le sperimentazioni fin qui portate avanti hanno fruttato 180 ore di audio, ma è necessario ampliare il set il più possibile. Sono benvenuti i contributi di persone di ogni età e sesso e qualsiasi inflessione dialettale e in palio ci sono i gadget di Mozilla come ringraziamento simbolico per aver preso parte al progetto.

Per partecipare, occorre scaricare un’app (non ufficiale Mozilla, è realizzata da un utente italiano) disponibile per Android e seguire le istruzioni per registrare le frasi, validarle e renderle disponibili. L’app garantisce l’anonimato e la privacy dei “donatori di voce”, infatti non salva né trasmette alcun dato personale e i file audio vengono identificati tramite stringhe numeriche generate casualmente.

Finora è stato possibile donare il proprio corpo alla scienza. Se non volete arrivare a una scelta così estrema ma volete comunque fare la vostra parte, donate la vostra voce! Avete tempo fino alla fine di questo mese.

Tutte le informazioni sono sul sito ufficiale del progetto e trovate qui il comunicato stampa.