Cosa sono i modelli fondativi per l'IA?

Copia URL

Un modello fondativo è una particolare tipologia di modello di machine learning (ML) che viene addestrato per eseguire una specifica gamma di attività. 

Fino a poco tempo fa, i sistemi di intelligenza artificiale (IA) erano strumenti specializzati. Ciò significa che un modello di ML veniva addestrato solo per un'applicazione specifica o un determinato scenario di utilizzo. Il termine modello fondativo è entrato a far parte del lessico comune quando alcuni esperti hanno notato le due tendenze nell'ambito del machine learning indicate di seguito.

  1. Per eseguire una vasta gamma di attività venivano utilizzate solo poche architetture di deep learning.
  2. Un modello di IA è in grado di fornire concetti che non erano previsti all'inizio del suo addestramento. 

I modelli fondativi, perciò, sono stati programmati per avere una comprensione contestuale generica di andamenti, strutture e rappresentazioni. Questa conoscenza di base della comunicazione e dei diversi schemi e andamenti può essere ulteriormente affinata per eseguire attività specifiche per un dominio in qualsiasi settore.

 

Le caratteristiche che definiscono i modelli fondativi e che ne consentono il funzionamento sono due: la capacità di trasferire le informazioni apprese e la scalabilità. La capacità di trasferire le informazioni apprese indica l'abilità di un modello di applicare le conoscenze in una situazione a un'altra e di costituire una sorta di esperienza interna.

 La scalabilità invece si riferisce a dei componenti hardware, le unità di elaborazione grafica (GPU), che consentono al modello di eseguire più operazioni allo stesso tempo, ossia di effettuare un'elaborazione in parallelo. Le GPU sono un elemento chiave dell'addestramento e della distribuzione dei modelli di deep learning, compresi i modelli fondativi, perché consentono di elaborare dati ed eseguire calcoli statistici complessi rapidamente.

Deep learning e modelli fondativi
Molti modelli fondativi, specialmente quelli impiegati nell'elaborazione del linguaggio naturale (NLP), nella visione artificiale e nell'elaborazione audio, vengono addestrati utilizzando il deep learning. La tecnologia deep learning sostiene molti (ma non tutti) modelli fondativi ed è stato l'elemento principale che ha contribuito a molti progressi in questo ambito. Il deep learning è anche noto come apprendimento neurale profondo o reti neurali profonde e insegna ai computer a imparare tramite l'osservazione, simulando le modalità di acquisizione delle conoscenze tipiche degli esseri umani 

Trasformatori e modelli fondativi
Per quanto non tutti i modelli fondativi utilizzino trasformatori, queste architetture sono state adottate in maniera diffusa per realizzare modelli fondativi che prevedevano la presenza di testo (come ad esempio ChatGPT, BERT e DALL-E 2).  I trasformatori migliorano le capacità dei modelli di ML poiché consentono di cogliere relazioni e dipendenze contestuali fra diversi elementi compresi in una sequenza di dati. Inoltre, essendo tipi di reti neurali artificiali (ANN) impiegati nei modelli NLP, non vengono in genere utilizzati per modelli di ML dedicati alla visione artificiale o all'elaborazione vocale.

Dopo l'addestramento, il modello fondativo utilizza la conoscenza acquisita dall'enorme pool di dati da cui è stato costituito per supportare la risoluzione dei problemi, capacità che offre vantaggi notevoli alle organizzazioni sotto diversi aspetti. Di seguito un elenco di alcune delle attività generiche svolte da un modello fondativo.

Elaborazione del linguaggio naturale (NLP)
Grazie alla sua capacità di riconoscere contesti, regole grammaticali e strutture linguistiche, un modello fondativo addestrato in ambito NLP è in grado di generare informazioni precise dai dati con cui è stato alimentato. Un ulteriore affinamento di queste capacità consente di associare ai testi analizzati un preciso sentiment (che sia positivo, negativo o neutro) in modo che si possano analizzare in modo costruttivo e produttivo messaggi scritti, come feedback dei clienti, recensioni online o post sui social. L'elaborazione del linguaggio naturale è un ambito ampio, che comprende lo sviluppo e l'applicazione di modelli linguistici di grandi dimensioni (LLM).

Visione artificiale
Quando il modello è in grado di riconoscere forme e caratteristiche di base, può iniziare a identificare anche schemi e motivi precisi. I modelli sviluppati per questo particolare utilizzo, quando affinati, sono in grado di moderare automaticamente i contenuti ed eseguire attività legate al riconoscimento facciale e alla classificazione delle immagini. Partendo dagli schemi e dagli andamenti appresi in precedenza, sono inoltre in grado di generare nuove immagini. 

Elaborazione audio/Riconoscimento vocale
Un modello addestrato al riconoscimento fonetico è in grado di estrapolare il significato delle parole pronunciate, per offrire una comunicazione più inclusiva. Assistenti virtuali, supporto multilingue, comandi vocali e funzionalità come quelle che consentono la trascrizione del parlato promuovono sia l'accessibilità che la produttività. 

Un'ulteriore ottimizzazione consente di progettare sistemi di machine learning maggiormente specializzati, capaci di soddisfare le esigenze specifiche del settore di riferimento, ad esempio il riconoscimento delle frodi per le istituzioni finanziarie, il sequenziamento del DNA per il settore medico, chatbot per l'assistenza clienti e molto altro.

Esegui la valutazione di AI/ML 

I modelli fondativi offrono alle organizzazioni accessibilità e un livello di sofisticazione che sarebbero altrimenti irraggiungibili. Adottando e basandosi sui modelli fondativi le aziende possono superare problemi comuni come quelli indicati di seguito.

Accesso limitato a dati di qualità: i dati su cui si basano sono migliori e più numerosi di quelli a cui si ha solitamente accesso.

Precisione/Performance del modello: offrono un'accuratezza di base che in autonomia si raggiungerebbe in mesi, se non in anni. 

Time to value: l'addestramento di un modello di ML richiede tempo e risorse, mentre i modelli fondativi offrono una serie di funzionalità generali, personalizzabili in base alle esigenze specifiche. 

Mancanza di talenti: si può approfittare di AI/ML senza dover investire sensibilmente in risorse di data science. 

Gestione complessa delle spese: non serve hardware costoso per l'addestramento iniziale. Seppure sia necessario investire nell'ottimizzazione e nella distribuzione del modello finale, questo costituisce solo una minima parte del costo che sarebbe servito per addestrare il modello fondativo da zero.

 

I modelli fondativi possono certamente essere utilizzati in molti modi utili e innovativi, ma presentano anche una serie di sfide che è bene tenere presenti.

Costi
Sono necessarie molte risorse per sviluppare, addestrare e distribuire sistemi di questo tipo. L'addestramento iniziale richiede un'enorme quantità di dati generici, consuma centinaia di migliaia di GPU e spesso richiede un gruppo dedicato di ingegneri e data scientist esperti in machine learning. 

Interpretabilità
In questo ambito, si parla di "scatola nera" quando un programma di IA esegue un'attività all'interno della propria rete neurale, senza renderne chiaro il processo di elaborazione. Ciò porta a uno scenario in cui nessuno, nemmeno i data scientist e gli ingegneri che hanno creato l'algoritmo, è in grado di spiegare esattamente in che modo il modello è arrivato a uno specifico risultato. L'incapacità di interpretare queste scatole nere può causare conseguenze dannose quando vengono impiegate per processi decisionali che comportano rischi elevati, soprattutto in settori quali quello dell'assistenza sanitaria, della giustizia penale e finanziario. Questo effetto si rileva in qualsiasi modello basato su una rete neurale, non solo sui modelli fondativi. 

Privacy e sicurezza 
Per funzionare, i modelli fondativi devono avere accesso a molte informazioni che spesso includono i dati personali del cliente o dati aziendali proprietari. Si tratta di un aspetto di cui tenere particolarmente conto se il modello che si intende utilizzare è accessibile a un provider di terze parti.

Precisione e bias 
Se un modello di deep learning è addestrato a partire da dati contenenti distorsioni in termini statistici o che non forniscono una rappresentazione veritiera della popolazione, il risultato può essere inattendibile. I bias umani esistenti purtroppo vengono spesso trasferiti all'intelligenza artificiale, con il conseguente rischio di algoritmi discriminatori e risultati pregiudiziosi. Per le aziende che usufruiscono dell'IA per migliorare produttività e prestazioni, è quindi essenziale che siano attuate strategie che riducano i bias. Per farlo, sono necessari innanzitutto processi di progettazione inclusivi e una maggiore attenzione alla diversità di rappresentazione all'interno dei dati raccolti. 

Quando si parla di modelli fondativi, Red Hat si impegna a fornire un'infrastruttura per i carichi di lavoro alla base che include l'ambiente adatto all'addestramento, l'adattamento, l'ottimizzazione e l'utilizzo dei modelli.

Leader tra le piattaforme di sviluppo di container ibridi e multicloud, Red Hat® OpenShift® agevola la collaborazione tra data scientist e sviluppatori di software. Distribuisce più rapidamente applicazioni intelligenti in ambienti di cloud ibrido, tra cui data center, edge e multicloud.

Grazie a Red Hat OpenShift Data Science, le organizzazioni hanno accesso a risorse per sviluppare, addestrare, testare e distribuire rapidamente i modelli di ML containerizzati senza dover progettare e adottare un'infrastruttura Kubernetes. 

Red Hat OpenShift AI è garanzia di scalabilità per l'addestramento di modelli fondativi con funzionalità di accelerazione delle GPU native di OpenShift, on premise o tramite un servizio cloud. OpenShift AI utilizza inoltre tecnologie come IBM watsonx e Ansible® Lightspeed

Ansible Lightspeed with IBM Watson Code Assistant è un servizio di intelligenza artificiale generativa, che permette agli sviluppatori di creare contenuti Ansible in modo più efficiente. Agli sviluppatori basta inserire la richiesta di un'attività in inglese e Ansible Lightspeed interagisce con i modelli fondativi di IBM watsonx per generare il codice da utilizzare per la creazione di Ansible Playbook. Installa Ansible Automation Platform on Red Hat OpenShift per rendere meno laboriose le attività di Kubernetes mediante automazione e agenti di orchestrazione.

Approfondisci

Articolo

Cosa sono gli operatori Red Hat OpenShift?

Gli operatori Red Hat OpenShift automatizzano la creazione, la configurazione e la gestione delle istanze di applicazioni Kubernetes-native.

Articolo

AI/ML su Red Hat OpenShift

OpenShift offre funzionalità fondamentali per l'accelerazione dei flussi di lavoro AI/ML e per la distribuzione di applicazioni basate sull'intelligenza artificiale.

Articolo

L'edge computing con Red Hat OpenShift

Estendi i servizi applicativi alle sedi remote e analizza gli input in tempo reale con le funzionalità edge computing di OpenShift.

Scopri di più su OpenShift

Prodotti

Una piattaforma applicativa aziendale che offre servizi verificati per consentire la distribuzione delle app sulle infrastrutture preferite.

Una soluzione di storage software defined che fornisce uno spazio di archiviazione dati permanente durante l'avvio e l'arresto dei container tra gli ambienti.

Una sandbox completamente supportata per lo sviluppare, addestrare e testare i modelli di machine learning (ML) in modo rapido nel cloud pubblico prima di distribuirli in produzione.

Una soluzione che permette di controllare cluster e applicazioni Kubernetes da una singola console dotata di criteri di sicurezza integrati.

Risorse

Serie Open Answers: Cos'è Red Hat OpenShift?

Sviluppo cloud native con Red Hat e Amazon Web Services

Formazione

Corso di formazione gratuito

Running Containers with Red Hat Technical Overview

Corso di formazione gratuito

Developing Cloud-Native Applications with Microservices Architectures

Corso di formazione gratuito

Containers, Kubernetes and Red Hat OpenShift Technical Overview