Categorie
Intelligenza Artificiale

PLAID: la nuova intelligenza artificiale che genera proteine 3D partendo da una semplice sequenza

PLAID genera sequenze e strutture 3D complete di proteine usando solo dati sequenziali, rivoluzionando la progettazione molecolare con AI multimodale.

Dalla pionieristica predizione del ripiegamento proteico alla generazione completa di nuove proteine strutturate, la biologia computazionale sta vivendo una delle sue trasformazioni più profonde. Dopo il Nobel per AlphaFold2, i riflettori dell’AI biomedica si spostano su PLAID, un sistema generativo multimodale sviluppato da ricercatori affiliati a BAIR, capace di generare simultaneamente la sequenza 1D e la struttura 3D di una proteina.

PLAID non si limita a replicare ciò che è già noto. L’innovazione radicale sta nella capacità di partire da dati puramente sequenziali — economici e abbondanti — per arrivare a costruire strutture proteiche complete a livello atomico, grazie all’integrazione con modelli di ripiegamento pre-addestrati. La promessa: rivoluzionare la progettazione di farmaci, enzimi industriali e terapie proteiche di nuova generazione.

Annunci

Generare struttura e funzione: PLAID è il ponte tra genoma e applicazione

Il cuore del progetto PLAID risiede nella capacità di co-generare simultaneamente la sequenza e la struttura tridimensionale, superando le limitazioni dei precedenti modelli di generazione proteica che producevano solo lo scheletro (backbone) lasciando irrisolti dettagli cruciali come i gruppi laterali degli amminoacidi.

Per farlo, PLAID sfrutta il latent space di un modello di ripiegamento proteico, in particolare ESMFold, erede diretto di AlphaFold2. Questa strategia consente a PLAID di generare proteine funzionali anche in assenza di dati strutturali sperimentali, un passaggio rivoluzionario per applicazioni dove i dati 3D sono scarsi o inaccessibili.

Controllo generativo: non solo proteine casuali, ma strumenti biologici su misura

La semplice generazione non è sufficiente. Il vero obiettivo di PLAID è guidare la generazione verso proteine dotate di funzionalità specifiche e compatibilità con l’organismo target. A tal fine, i ricercatori hanno implementato un’interfaccia ispirata ai prompt testuali composizionali, simile a quanto avviene nel text-to-image, per controllare funzione e origine biologica della proteina.

Attraverso il prompt, è possibile specificare una proteina “idrolasica” umana, oppure una transmembranaria batterica, e ottenere un output strutturato e coerente. L’apprendimento automatico avviene su pattern come coordinazioni metallo-proteiche, sequenze ripiegate in eliche e beta-strand, e geometrie funzionali legate all’attività enzimatica.

Una rivoluzione trainata dai dati: usare solo sequenze per imparare a creare

Uno degli aspetti più ambiziosi e pratici di PLAID è la possibilità di addestrare il modello solo su dati sequenziali. Mentre le banche dati strutturali sono costose e limitate, quelle contenenti sequenze proteiche sono fino a 10.000 volte più estese, rendendo l’addestramento più accessibile, scalabile e generalizzabile.

Durante l’addestramento, le sequenze vengono proiettate nello spazio latente del modello di folding, senza bisogno di strutture esplicite. In fase di generazione, lo stesso spazio latente viene usato per campionare nuove rappresentazioni valide, che vengono poi decodificate in sequenza e struttura attraverso i pesi congelati del modello di ripiegamento.

CHEAP: comprimere lo spazio latente per generare meglio

Un ostacolo all’uso del latent space di modelli transformer come ESMFold è la sua dimensione elevata e la presenza di attivazioni eccessive, che complicano la generazione fluida. Per risolvere questo problema, è stato sviluppato CHEAP (Compressed Hourglass Embedding Adaptations of Proteins), un modulo che comprime efficacemente lo spazio latente, facilitando la generazione ad alta fedeltà di proteine all-atom.

Attraverso una tecnica di interpretabilità meccanicistica, i ricercatori hanno identificato canali di attivazione iperattivi che potevano essere regolarizzati. Il risultato è una riduzione dello spazio di ricerca che accelera l’inferenza e migliora la diversità strutturale dei campioni.

Validazione visiva e funzionale: dalla sequenza al farmaco

I campioni generati da PLAID mostrano motivi strutturali coerenti con la funzione richiesta, tra cui motivi transmembrana, siti attivi recapitanti gruppi prostetici metallici, e pattern idrofobici localizzati in modo congruente. Rispetto ai modelli baseline all-atom, PLAID genera sequenze più diversificate e cattura meglio elementi secondari complessi come i beta-strand.

I ricercatori sottolineano che l’applicazione di PLAID non si limita al design teorico. Il modello può essere usato in pipeline reali per prototipazione rapida, filtraggio di candidati preclinici, e persino per esperimenti wet-lab in collaborazione con aziende farmaceutiche o centri accademici.

Prospettive future: generazione multimodale estesa e biologia sintetica

PLAID non rappresenta solo una tappa finale, ma l’inizio di una nuova era. La metodologia può essere estesa a qualsiasi sistema multimodale dove una modalità è più abbondante di un’altra, come RNA-struttura, proteina-ligando, o complessi proteici multi-catena.

L’arrivo di modelli come AlphaFold3, capaci di predire interazioni tra proteine e acidi nucleici, apre alla possibilità di utilizzare PLAID per generare interi sistemi biologici, portando la biologia sintetica computazionale a un nuovo livello di automatizzazione e controllo.

Di Lorenzo De Santis matricedigitale.it

Sono uno psicologo clinico specializzando in psicoterapia sistemica familiare. Mi occupo di attività di orientamento scuola-università, mentoring scolastico e terapie individuali/coppia/familiari. Appassionato di intelligenza artificiale e reti neurali.

Exit mobile version