Questa settimana sono un po’ preso e condivido questa presentazione che feci qualche mese fa. e noto come alcuni paragrafi sarebbero già da aggiornare! Però i fondamenti teorici sono sempre validi e credo possa essere utile per chi non mastica AI tutti i giorni. Ci vediamo questo fine settimana a Modena per il Learning More! Buona settimana.
Durata: 15 min
Pubblico: tutti
Interesse:
cosa c'è alla base della capacità creativa delle AI?
cosa possono creare oggi (maggio 2023) le AI?
Piccolo quiz preliminare: il titolo cela due opere del XX secolo. Quali?
Introduzione
Un aspetto particolarmente interessante, per qualcuno utile, per altri "disruptive" (ovvero che sta cambiando radicalmente la nostra società) dell'Intelligenza Artificiale è la sua capacità di creare nuovi contenuti. Tecnicamente si chiama Generative AI, o GenAI.
Per comprenderne le potenzialità, i limiti ed eventuali preoccupazioni, è bene fare un accenno alla teoria e alla tecnologia che la sottende. Dobbiamo studiare un po' :)
Iniziamo con una domanda: Cosa è una pecora?
Come costruire il modello
Nella nostra mente potremmo iniziare ad elencare tutte le caratteristiche che conosciamo di una pecora, costruendo un modello simbolico. Fossimo dei programmatori scriveremmo:
genere: animale
classe: mammifero
arti: 4
superficie: pelosa
colore: chiaro
peso: medio
dimensioni: medie
... e così via altre variabili che riteniamo utili alla classificazione
Oppure potremmo osservare centinaia di foto di animali, con il relativo nome, e dire: deduciamo e memorizziamo le caratteristiche comuni, i "patterns" che vediamo nelle foto etichettate con "Pecora". Questo è il modello supervisionato.
Oppure possiamo dire: ecco tutta la conoscenza umana, testi e immagini. Vediamo di trovare tutto quello che possiamo associare alla parola "pecora". Questo è il modello non supervisionato.
Spoiler: un misto delle tre sarà il il modello GPT.
Machine Learning
Il Machine Learning è un sottoinsieme dell'Intelligenza Artificiale, che si preoccupa di come le macchine possano imparare da sole, per la precisione come possano riconoscere dei pattern nei dati e fare previsioni e prendere buone decisioni a partire da essi.
Non entreremo ora nei dettagli tecnici ma è importante sapere:
come funziona? (rete neurale)
come impara? (training)
cosa può fare? (output)
Come funziona?
Rete Neurale Artificiale (ANN)
La Rete Neurale Artificiale si ispira alla struttura del nostro cervello, ed è composta da una rete di neuroni connessi tra loro che elaborano le informazioni in ingresso e restituiscono una risposta.
Il nostro cervello ha circa 85 miliardi di neuroni che comunicano tra loro attraverso segnali elettrici e chimici (sinapsi), segnali che seguono milioni ci connessioni accendendo diverse sequenze di neuroni. Ma il cervello è in grado di modificare le proprie connessioni (plasticità).
La versione artificiale parte dalla simulazione di un singolo neurone:
e li connette con una serie di livelli (layers) verticali. C'è un primo livello di Input, dove entrano i dati, i segnali. Tutta una serie di n (potenzialmente tanti. tantissimi) livelli intermedi "nascosti", ed infine un livello di neuroni in uscita (output). Ogni Neurone ed ogni connessione tra neuroni ha dei parametri che determina come i segnali si muovono e si trasformano.
In input potremmo avere un testo, un'immagine, i parametri di velocità della propria auto, tutto quello che vedo intorno a me.
Come impara?
La configurazione della Rete Neurale, ovvero la definizione di tutti i parametri, i pesi, dei nodi e delle connessioni, si chiama Training ed avviene analizzando grandi quantità di dati con diverse tecniche e metodi:
Supervised learning
La rete sa cosa le viene dato in input, e aggiorna il suo modello per avvicinarsi il più possibile alle risposte più corrette, con meno errori. Quando l'errore medio sarà inferiore ad una soglia che decidiamo noi, il modello sarà pronto per essere usato.
Captcha
Sapete cosa abbiamo fatto negli ultimi 20 anni, rispondendo prima alla lettura di parole dei libri, poi numeri civici, poi insegne, targhe e poi semafori, idranti e tutto quanto?
Unsupervised Learning
Il modello non supervisionato cerca di trovare caratteristiche comuni nei dati in ingresso. correlazioni, raggruppamenti. Non sa bene cosa significhino, però ad esempio potrebbe scoprire che alcune immagini sono diverse da altre (tipo cani e gatti), che dopo un "ciao" spesso segue un "come stai?", che una appartamento le cui coordinate sono centrali rispetto alla città, ha un costo per mq più alto, e così via.
Semi-Supervised Learning
Questo è un misto tra il Supervised e l'Unsupervised.
Big Data
Sebbene la teoria informatica avesse diversi decenni, tutto il Machine Learning ha iniziato a funzionare bene a partire dal 2010, dopo la grandissima disponibilità di dati digitalizzati e potenza di calcolo.
Reinforced Learning
Ottimo lavoro!
Impara a tentativi, aggiornato dal feedback e premi o penalità.
Prendiamo due "agenti" ovvero un'entità dotata di sensori e attuatori e lo mettiamo in un ambiente e diciamo: voi squadra rossa dovete acchiappare la squadra blu per vincere. Voi blu non dovete farvi prendere da quelli rossi per vincere. Pronti?
👉🏼 video Multi-Agent Hide and Seek
Caso speciale: RLHF (reinforcement learning with human feedback) dove gli umani danni indicatori di bontà della risposta.
Imitation Learning
l'AI osserva e memorizza il comportamento umano, ne deduce i pattern e lo memorizza nelle ANN.
Deep Learning
Si mettono diversi livelli di reti neurali, specializzate magari per analizzare diverse caratteristiche di un'immagine, per poi essere combinate.
La velocità di ricerca e scoperta di nuove soluzioni è impressionante.
Cosa può fare?
Predizione
Uber: predice il traffico
Ambito medico: anticipare problemi di salute, potenziali tumori
Classificazione
Analisi del "sentimento"
Creazione: Generative AI
In pratica il modello di Deep Learning generativo:
crea nuovi dati simili a quelli su cui si è allenato.
conosce la distribuzione dei dati e quanto un dato esempio è simile
predice la prossima parola in una frase.
Immagini
Le tecniche più usate sono la
GAN (Generative Adversial Network)
Dove un modello crea degli esempi di immagini e un discriminatore vede se riesce a capire se sono reali o no
Diffusion
testo
Il Natural Language Processing permette di comprendere il linguaggio umano.
Large Language Models, sempre più grandi.
LLM Year By Size (neurons)
BERT 2018 Google 340 million
GPT-2 2019 OpenAI 1.5 billion
GPT-3 2020 OpenAI 175 billion
PaLM 2022 Google 540 billion
LLaMA 2023.2 Meta 65 billion
GPT-4 2023.3 OpenAI 1 trillion
PaLM 2 2023.5 Google 340 billion
Cosa creano?
Contesti applicativi
Ci sono già centinaia di strumenti disponibili, ogni settimana ne esce qualcuno. Rimandiamo a questo sito: Generative AI Landscape o AI Tools Club
Testo
Chatbot: agenti di conversazione guidati dall'intelligenza artificiale per il cliente assistenza, domande frequenti e altro ancora.
Creazione di contenuti: generazione di articoli, post sui social media, o scrittura creativa.
Traduzione: conversione di testo tra lingue mentre preservando il significato.
Riassunti: condensare un testo lungo in uno più breve, riassunti digeribili.
Gestione della conoscenza: organizzazione, recupero, e analizzare le informazioni da grandi volumi di dati di testo.
Quiz e Corsi
Programmi di fitness
Programmi di viaggi
Ricette
Esempi:
ChatGPT – 4.0
by OpenAI (con i plugin fa praticamente tutto). Ha superato tutti i test di ammissione alle università americane senza un training preliminare.
Creatività
può generare, modificare e iterare con gli utenti su attività di scrittura creativa e tecnica, come comporre canzoni, scrivere sceneggiature o apprendere lo stile di scrittura di un utente.
Multimodale
accetta immagini come input e genera didascalie, classificazioni e analisi.
Input
Accetta fino a 32k token, ovvero circa 43.000 parole (circa la metà di 120 pagine di un libro)
Output
è in grado di gestire oltre 25.000 parole di testo (circa 60 pagine di un libro)
Alternative equivalenti:
Knowledge Management
Presentazioni
TOME
generative storytelling
Materiale didattico
Contenuti social
Jasper
crea contenuti social
Immagini
Arte: creazione di opere d'arte uniche, generate dall'intelligenza artificiale o assistenza artisti con ispirazione visiva.
Design: generazione di loghi, idee prodotto, siti web
Gioco: produzione di risorse di gioco, trame o personaggi
Sintesi testo-immagine: generazione di immagini fotorealistiche da descrizioni di testo o input di bassa qualità, aiutando a visualizzazione o prototipazione.
Pubblicità e media: creazione di contenuti visivi su misura basato su suggerimenti testuali per campagne di marketing, social media e scopi di intrattenimento.
Esempi:
Midjourney
Adobe Firefly
Video
Entertainment: film, programmi TV e pubblicità, riducendo costi e tempi di produzione.
Realtà Virtuale (VR) e Realtà Aumentata (AR): ambienti realistici e personaggi
Istruzione e formazione: simulazione di scenari realistici per scopi formativi ed educativi, viaggi didattici, simulazioni mediche o esercitazioni di sicurezza.
Pubblicità: video personalizzati per indirizzare dati demografici specifici o preferenze individuali, aumentando l'efficacia e il coinvolgimento degli annunci.
Esempi:
Runway ML
dai creatori di Stable Diffusione,
vedi esempio 👉🏼Gen-1
vedi esempio 👉🏼 Gen-2
Avatar
videochiamate
videogiochi
viaggi didattici / storici
metaverso
Esempi:
Synthesia Avatars (125), Voices (120), Video Templates (mio esempio)
Rephrase Text-to-video
Deepswap swap faces in video
vedi video MegaPortraits
Deep Fake video
Voce
Sintesi vocale (TTS): conversione del testo scritto in parlato parole, assistente per utenti ipovedenti
Assistenti virtuali: migliorare l'esperienza dell'utente (Siri, Alexa o Google Assistant).
Audiolibri
Clonazione vocale: creazione di voci personalizzate da utilizzare nelle animazioni, giochi o applicazioni personalizzate.
Esempi:
VALL-E
analizza 3 secondi della tua voce e poi potrà dire qualsiasi cosa
SuperTone AI
👉🏼 ascoltiamo una demo di Freddie Mercury che canta in coreano.
Musica
MusicLM
crea musica a partire da una descrizione testuale
👉🏼 esempio di MuseNetA Little Bach AI Music
AIVA
composizione di colonne sonore
Modelli 3D
Videogiochi: creare personaggi, paesaggi e ambienti realistici - vedi Ziva FX
Architettura e design del prodotto: modelli 3D di città, edifici, prodotti e prototipi.
Applicazioni mediche: modelli 3D dell'anatomia umana per la ricerca, l'istruzione e la pianificazione chirurgica. anche per creare impianti e protesi personalizzati per i pazienti.
Esempi:
Blender + StabilityAI
genera automaticamente i materiali e le textures
Videogames
i videogiochi sono i medium più complessi e multimediali, in tempo reale e interattivi
Flight Simulator
con https://blackshark.ai/
hanno ricostruito in 3D tutta la Terra.
Nyric by Lovelace Studio
GENERATIVE AI PLATFORM FOR VR
Agenti / Giocatori (Unity ML-Agents)
Altri esempi:
Task (azioni)
Project JARVIS.
un assistente personale in grado di creare sequenze di comandi selezionando e integrando diversi sistemi.
github.com/microsoft/JARVIS
Altri esempi:
Bardeen Automatizzazione di procedure online
Codice di programmazione
GitHub Copilot
Il tuo assistente alla programmazione: scrivi cosa vuoi che faccia e lui scrive il codice, praticamente in ogni linguaggio.
Debuild
crea un'app web completa in pochi secondi
Scienza
AlphaFold e Meta AI hanno costruito dei modelli da 15 miliardi di parametri per l'analisi e il sequenziamento della proteine. Migliorando ed accelerando i processi fino a 60 volte. Impatto sulla medicina, chimica, energie rinnovabili. (fonte)
Robot autonomi
👉🏼 Vedi come imparano a giocare a calcio con il Reinforced Learning
Conclusione
L'ultimo decennio è stato definito da User Generated Content (UGC). Il prossimo sarà costruito su AI Generated Content (AIGC)
Attenzione ai "gorilla nell'algoritmo" (un problema delle prime AI che, non avendo elaborato materiale equilibrato, aveva dato dei problemi (scandalosi) nel riconoscere immagini che non aveva in memoria).. questo tema è alla base di tutto il tema del bias, ovvero deformazione di base intrinseca ai dati con cui sono state allenate.
Gli output della GenAI sono il frutto dell'elaborazione della produzione della nostra umanità, magari riconnesso in modo originale e imprevedibile
Oggi è più un problema di immaginazione e curiosità, che non di tecnologia e risorse.
Dobbiamo imparare a descrivere bene quello che vogliamo...
e fare attenzione a quello che desideriamo.
Se vuoi continuare a saperne di più, puoi iscriverti alla mia newsletter 2042.
Baci e abbracci e condividete senza un domani.
Stefano
ah e così non vi basta eh? allora ecco il giouchino:
Do robots dream electric sheeps?
ok...