Che cosa sono le proteoforme? Comprendere la diversità proteica nella proteomica moderna

Proteoforme-immmagine credit Christoph Burgstedt/Shutterstock.com

Le proteoforme rappresentano le diverse forme molecolari delle proteine prodotte da un singolo gene attraverso variazioni genetiche, splicing alternativo e modificazioni post-traduzionali. Comprendere la diversità delle proteoforme rivela come la struttura e gli stati di modificazione delle proteine influenzino la funzione cellulare, i meccanismi delle malattie e la scoperta di biomarcatori.

Cosa sono le proteoforme e perché sono importanti?

Per decenni, gli scienziati hanno ipotizzato che ogni gene producesse una sola proteina stabile. Le moderne indagini proteomiche suggeriscono il contrario. Studi recenti hanno scoperto che le proteine esistono in molteplici forme. I ricercatori definiscono collettivamente queste forme “proteoforme“. Una proteoforma si riferisce a una specifica forma molecolare di una proteina prodotta da un singolo gene che differisce nella sequenza di amminoacidi e/o nelle modificazioni post-traduzionali.

Le proteoforme si distinguono da geni, trascritti e isoforme proteiche. Mentre i geni forniscono il progetto per la sintesi proteica, i trascritti di RNA messaggero (mRNA) fungono da molecole intermedie durante la sintesi proteica. Le differenze nelle sequenze di amminoacidi danno origine alle isoforme proteiche. Tuttavia, il termine proteoforma è più ampio e comprende tutte le forme molecolari distinte di una proteina derivanti da un singolo gene, incluse le varianti di sequenza, le varianti di splicing e le modificazioni post-traduzionali.

Queste proteoforme possono originarsi attraverso diversi meccanismi biologici. Prima della traduzione, le cellule possono generare diverse trascrizioni di RNA tramite splicing alternativo. In questo processo, diversi segmenti genici (esoni) possono essere combinati in vari modi per produrre varianti proteiche. Durante la traduzione, l‘utilizzo di diverse sequenze di partenza può generare varianti con alterazioni strutturali. Dopo la traduzione, una grande molecola proteica può essere scissa in più frammenti più piccoli o subire modifiche chimiche. Le modifiche post-traduzionali come la fosforilazione, la glicosilazione, l’ubiquitinazione e l’acetilazione possono alterare sostanzialmente la struttura, la localizzazione, la stabilità e l’attività biologica delle proteine.

Gli scienziati hanno scoperto quasi 20.000 geni codificanti proteine nel genoma umano. È interessante notare che le stime della ricerca indicano che potrebbero esserci da migliaia a milioni di proteoforme nel corpo. Le stime suggeriscono che le cellule umane potrebbero contenere da centinaia di migliaia a diversi milioni di proteoforme generate attraverso combinazioni di varianti di sequenza, isoforme di splicing e modificazioni post-traduzionali.

Come vengono generate e regolate le proteoforme nelle cellule?

Le cellule possono subire diversi cambiamenti durante la trascrizione, la traduzione e persino dopo la traduzione. Questi cambiamenti possono dare origine a molteplici varianti di una singola proteina. Lo splicing alternativo può variare i siti di inizio della trascrizione e modificare le sequenze di amminoacidi all’estremità N-terminale. Questi cambiamenti possono influenzare la localizzazione e la funzione delle proteine. Durante la traduzione, meccanismi come l’iniziazione alternativa della traduzione (ATI), lo slittamento del frame ribosomiale e la lettura del codone di stop possono alterare le sequenze terminali per estendere la lunghezza delle proteine. Dopo la traduzione, alcuni enzimi possono scindere le proteine. Possono anche essere aggiunti gruppi funzionali come gruppi fosforilici, acetilici o glicosidici per generare nuove varianti. Queste modifiche post-traduzionali possono verificarsi singolarmente o in combinazione, creando grandi popolazioni di proteoforme strettamente correlate dallo stesso prodotto genico.

Le cellule possono anche aumentare o diminuire le proteoforme in condizioni di stress. Ad esempio, durante l’ipossia o lo shock termico, le interazioni tra le proteoforme possono attivare meccanismi di protezione nelle cellule per mantenere la stabilità delle loro membrane. Poiché le proteoforme integrano la variazione genetica, la variazione della trascrizione e gli stati di modificazione proteica, molti ricercatori le considerano le unità funzionalmente più rilevanti del proteoma.

Come vengono studiate le proteoforme utilizzando le tecnologie proteomiche?

Gli scienziati identificano principalmente le proteine utilizzando la spettrometria di massa (MS). Per l’analisi, utilizzano un approccio bottom-up o top-down. Nel metodo bottom-up, i ricercatori scindono le proteine utilizzando enzimi proteolitici prima dell’analisi. Questa tecnica consente loro di quantificare diverse proteine simultaneamente. Tuttavia, può essere difficile rilevare proteoforme strettamente correlate, poiché la frammentazione delle proteine può interrompere i legami intracellulari. Questa strategia basata sui peptidi può oscurare la relazione tra le molteplici modifiche che si verificano sulla stessa molecola proteica intatta.

In questi casi, gli scienziati preferiscono l‘approccio top-down. Con questo metodo, i ricercatori possono analizzare proteine intatte senza alterarne le sequenze o le modifiche. L’approccio top-down è più accurato ma ha una produttività inferiore e rimane tecnicamente impegnativo per campioni complessi. La proteomica top-down consente la caratterizzazione diretta delle proteoforme intatte e identifica simultaneamente le varianti di sequenza e le modifiche post-traduzionali all’interno della stessa molecola.

Una sfida particolare nel rilevamento delle proteoforme è distinguere varianti simili che possono differire per una singola mutazione o una modificazione post-traduzionale minore. Inoltre, le proteoforme non sono presenti in modo uniforme in natura. Mentre alcune proteoforme possono essere presenti in grandi quantità, altre possono essere presenti in tracce. Per affrontare questi problemi, i ricercatori hanno iniziato a utilizzare piattaforme sperimentali ad alta risoluzione, come la risonanza ciclotronica ionica a trasformata di Fourier (FT-ICR), e tecniche migliorate di separazione delle proteine, come l’elettroforesi bidimensionale su gel-cromatografia liquida-spettrometria di massa (2DE-LC/MS). Queste tecnologie avanzate migliorano la capacità di rilevamento delle analisi tradizionali per distinguere tra proteine strutturalmente simili.

Qual è il significato biologico e clinico della diversità delle proteoforme?

I ricercatori raramente trovano proteine in una singola forma. Le diverse varianti o proteoforme possono interagire con i componenti cellulari in modi differenti. Le cellule possono adattare la loro attività in risposta ai segnali ambientali attraverso le interazioni tra proteoforme. In questo modo, le proteoforme possono regolare l’attività e il comportamento cellulare. Un esempio noto è la proteina oncosoppressore p53. Gli scienziati hanno identificato diverse proteoforme di p53. Le specifiche modificazioni post-traduzionali sulle proteoforme di p53 determinano il destino di una cellula. Il fatto che una cellula vada incontro a riparazione, arresto del ciclo cellulare o apoptosi dipende dalle proteoforme che contiene.

Crediti immagine: Bacsica/Shutterstock.com

Nel cancro, le varianti di splicing delle proteine possono influenzare la risposta al trattamento. Ad esempio, le alterazioni nel gene v-erb-b2, omologo 2 dell’oncogene virale della leucemia eritroblastica (ERBB2), possono generare proteoforme del recettore 2 del fattore di crescita epidermico umano (HER2). Queste proteoforme possono alterare la risposta delle cellule al trattamento del cancro al seno. Analogamente, i ricercatori hanno scoperto che una variante dell’antigene CD19 (cluster di differenziazione 19) può conferire resistenza alla terapia con cellule T basata sul recettore chimerico per l’antigene (CAR) nella leucemia linfoblastica acuta.

Lo studio delle proteine a livello di proteoforma può anche migliorare l’individuazione delle malattie. I test diagnostici tradizionali sono progettati per misurare la quantità totale di proteine in un dato campione. Gli strumenti proteomici ampliano questa capacità individuando varianti proteiche specifiche che possono aumentare il rischio di malattia. Ad esempio, gli scienziati hanno scoperto che alcune proteoforme glicosilate dell’antigene prostatico specifico (PSA) sono indicatori più specifici del cancro alla prostata rispetto alla concentrazione totale di PSA.

Nelle malattie neurodegenerative come il morbo di Alzheimer, le proteoforme delle proteine beta-amiloide e tau differiscono nella loro neurotossicità. Allo stesso modo, nel morbo di Parkinson, l’alfa-sinucleina esiste in diverse forme. Alcune varianti della proteina possono aumentare l’accumulo di α-sinucleina nel cervello. Questi risultati suggeriscono che gli stati patologici possono modificare sia la struttura che l’abbondanza delle proteoforme nei tessuti viventi. Pertanto, l’analisi a livello di proteoforme può aiutare a identificare nuovi biomarcatori e bersagli terapeutici. Esempi ben noti includono l’emoglobina glicata (HbA1c) per il monitoraggio del controllo glicemico a lungo termine e l’emoglobina S (HbS), che aumenta il rischio di anemia falciforme.

Video credit: NautilusBiotechnology/Youtube.com

Quali sono le sfide e le prospettive future nella ricerca sulle proteoforme?

Nonostante i rapidi progressi, persistono diverse sfide tecniche e analitiche. Una limitazione importante è la caratterizzazione di proteine di grandi dimensioni e altamente modificate (>30–70 kDa). Sono necessarie tecniche ad alta risoluzione, poiché le varianti molto abbondanti possono mascherare quelle a basso livello. Inoltre, la sovrapposizione degli spettri di frammentazione può complicare l’assegnazione delle modificazioni post-traduzionali.

Un’altra sfida consiste nell’interpretare set di dati MS complessi utilizzando strumenti di bioinformatica computazionale. Questi strumenti devono migliorare la discriminazione tra vere proteoforme e artefatti sperimentali, controllando al contempo i tassi di falsi positivi. È inoltre essenziale migliorare la standardizzazione dei database delle proteoforme, della nomenclatura e delle annotazioni per consentire un’interpretazione coerente tra gli studi e facilitare la condivisione dei dati tra i ricercatori.

I progressi tecnologici stanno rendendo la ricerca sulle proteoforme sempre più fattibile. Ad esempio, l’elettroforesi capillare e la cromatografia multidimensionale consentono ai ricercatori di studiare le diverse proteoforme di una proteina con maggiore precisione. Allo stesso tempo, i ricercatori stanno sempre più combinando la proteomica con la genomica e la trascrittomica. Se applicati insieme, questi metodi possono caratterizzare vari aspetti delle proteine, migliorando la nostra comprensione di come le variazioni genetiche modellano le firme proteoformi nei sistemi biologici. Parallelamente, strumenti di predizione strutturale basati sull’intelligenza artificiale, come AlphaFold 3 e DI-TASSER, vengono sviluppati per accelerare la scoperta delle proteoforme e la loro traslazione clinica, rendendo la medicina di precisione una realtà prossima.