ChatGPT. Chat Generative Pre-trained Transformer, traducibile in “trasformatore pre-istruito generatore di conversazioni”

ChatGPT (Chat Generative Pre-trained Transformer, traducibile in “trasformatore pre-istruito generatore di conversazioni”) è un prototipo di chatbot basato su intelligenza artificiale e machine learning (apprendimento automatico) sviluppato da OpenAI specializzato nella conversazione con un utente umano

ChatGPT è un modello linguistico di grandi dimensioni messo a punto con tecniche di apprendimento automatico (di tipo non supervisionato), e ottimizzato con tecniche di apprendimento supervisionato e per rinforzo, che è stato sviluppato per essere utilizzato come base per la creazione di altri modelli di machine learning. ChatGPT è stato addestrato a partire dai modelli Instruct GPT, (o GPT-3.5) di OpenAI, che sono l’evoluzione dei modelli di GPT-3. Gli Instruct GPT (come code-davinci-002, text-davinci-002, text-davinci-003) sono modelli in cui il pre-addestramento è stato ottimizzato manualmente da addestratori umani. Nello specifico ChatGPT è stato sviluppato da un GPT-3.5 utilizzando l’apprendimento supervisionato e l’apprendimento per rinforzo come tecniche di ottimizzazione del modello.

ChatGPT è stato lanciato il 3 novembre 2022e ha attirato l’attenzione per le sue risposte dettagliate e articolate, sebbene la sua accuratezza sia stata criticata. Sia l’apprendimento supervisionato che l’apprendimento per rinforzo hanno utilizzato istruttori umani per migliorare le prestazioni del modello. Nel primo caso il modello è stato alimentato con conversazioni nelle quali gli istruttori interpretavano entrambe le parti: l’utente e l’assistente basato su intelligenza artificiale. Nella fase di rinforzo, gli istruttori umani hanno prima valutato le risposte che il modello aveva creato nella conversazione precedente. Queste valutazioni sono state utilizzate per creare “modelli di ricompensa” sui quali il modello è stato ulteriormente perfezionato, utilizzando diverse iterazioni di Proximal Policy Optimization (PPO). Gli algoritmi di Proximal Policy Optimization presentano un vantaggio su algoritmi di Trust Region Policy Optimization annullando molte delle operazioni computazionalmente costose con prestazioni migliori. I modelli sono stati addestrati in collaborazione con Microsoft sulla loro infrastruttura cloud Azure.

Dettagli Autore