Documento di Università su Enrichment Analysis. Il Pdf esplora l'Enrichment Analysis, una tecnica per interpretare set di geni differenziali, con focus su Gene Ontologies e strumenti come EnrichR, DAVID, G:Profiler e GSEA, utile per studenti di Biologia.
See more9 Pages


Unlock the full PDF for free
Sign up to get full access to the document and start transforming it with AI.
Una volta aver fatto un esperimento e aver identificato un set di geni differenziali in certe condizioni, come si interpreta? L'idea è quella di associare a tutti i geni, o almeno ai cluster di geni, una funzione.
Premesso che per alcuni geni la funzione è nota, ci si ritrova nella condizione di vedere movimenti in alcuni geni la cui funzione è di difficile interpretazione. Questa di solito viene associata con un meccanismo che si chiama guilt by association, ovvero il principio per il quale geni che hanno un'espressione simile hanno probabilmente entrambi la stessa funzione o quantomeno sono coinvolti negli stessi processi. È un principio che vale spesso quando si parla di dati grossi.
L'idea che ci sta dietro è che, essendoci un'infinità di geni e molte meno funzioni, poiché l'azione all'interno della cellula è spesso coordinata, è verosimile che alcuni geni abbiano le stesse funzioni.
L'idea di identificare gruppi di geni con medesime funzioni è vecchia e non è solo un esercizio ma ha delle applicazioni pratiche. Ad esempio, nel corso degli anni si utilizzano sempre più cluster di geni, di cui alcuni a funzione ignota, per poter identificare set di geni che sono predittivi o esplicativi di un fenomeno.
Qui vediamo un esempio di gene expression applicata a breast cancer. L'idea era quella di identificare un set di geni che fosse differenziale tra quelli che avessero buona o cattiva prognosi. Questo set di geni è qui rappresentato da una heatmap, Il valore di espressione va dal basso all' alto in base al verde rosso. I geni in una stessa zona si comportano allo stesso modo (ad esempio, in basso a sinistra), mentre in un'altra zona del grafico si comportano in modo diverso. Per spiegare cosa stanno facendo si possono studiare alcuni di questi geni ed estendere la funzione a tutti gli altri dello stesso gruppo.
Tumors with Poor-Prognosis Signature Tumors with Good-Prognosis Signature C 50 100 150 200 250 10 0.5 20 Reporter Genes 40 Ratio (log scale) 8 0.5 8 70
Ovviamente si potrebbero anche annotare manualmente tutti i geni, ma è un'opzione poco pratica, perché si parla di migliaia di geni significativi. Inoltre, se non è nota la funzione, bisognerebbe fare un esperimento caratterizzante per ogni gene.
Molti geni non vengono mai studiati perché ci si limita ad associarli ad altre funzioni note in base al loro comportamento, senza entrare in dettaglio. Questo comporta che su 20000 geni presenti in un uomo, meno della metà hanno una vera caratterizzazione e descrizione, e quelli che ce l'hanno sono sempre i soliti famosi.
Per fare una notazione funzionale di un gene si può fare una notazione sistematica. Per fare ciò servono due ingredienti: un database che contenga informazioni note e una misura della bontà della nostra inferenza, quindi di quanto l'associare una funzione sia o meno verosimile.
Il primo ingrediente è ben formalizzato e ce ne sono di due tipi, ma il più rilevante sono le gene ontologies.
Un'ontologia è una rappresentazione delle conoscenze e dei concetti e delle loro relazioni. Questo viene fatto tramite la rappresentazione gerarchica di questi concetti. Una gene ontology è un ontologia dove la lista di tutti i termini che rappresentano i concetti è controllata, gestita e curata, correggendo errori e rimuovendo ridondanze. Le gene ontologies sono di tre tipi indipendenti:
1Sono organizzati in una struttura gerarchica definita in un grafico diretto aciclico. Diretto significa che per ogni termine dell'ontologia, i cerchietti azzurri, c'è un padre. Ogni termine è figlio di un altro termine e i termini sotto sono parte del terms termine più grande, appena sopra di loro. Non si torna indietro e non si possono fare strani giri.
Ogni termine è un concetto. Ogni gene è annotato per ciascuno dei tre domini.
La radice è il termine zero, padre di tutti i termini discendenti.
Il fatto che il grafico sia gerarchico e aciclico non significa che un termine non possa essere figlio di altri due termini. Per esempio, se un fattore di trascrizione è coinvolto in due processi indipendenti, questo può essere figlio di entrambi i processi sul grafico.
La struttura dell'id è data da GO:XXXXXXX, ed è un codice univoco.
Tutti i termini di una gene ontology hanno delle classi di evidenza, rappresentative della confidenza o del motivo per cui ogni termine è stato creato ed annotato.
Queste sono alcune classi di evidenza:
Le prime sono evidenze forti, le ultime un po' meno.
Quando si fa un'analisi di gene ontology bisogna sempre stare attenti alle classi di evidenza delle ontologie riportate per evitare di incappare in errori.
Ci sono altre ontologie rilevanti per la biologia ma non riferite ai geni, poiché l'ontologia vale in qualunque campo. Nell'ambito biologico ce ne sono almeno due rilevanti:
Oltre alle ontology ci sono altri tipi di cataloghi di geni, chiamate gene list, senza una nozione gerarchica. Sono liste ragionate di geni associati a qualcosa.
Abbiamo ad esempio Reactome e KEGG, delle collezioni di pathway per cui a ogni pathway annotato viene associato un gene noto che fa parte di esso. Il motivo per cui ne fanno parte può essere diverso, possono essere enzimi o altro.
Ogni termine di una gene ontology è una gene list. L'unica differenza è che le GO hanno organizzazione gerarchica, che permette di descrivere un fenomeno a diversi livelli di granularità. Per esempio, può risultare interessante un ontology basica ma molto specifica mentre ontology molto alte nella gerarchia sono processi generali che solitamente non hanno grande interpretazione a causa della difficoltà e della generalità.
2Le annotazioni sono ridondanti nel senso che ci sono molte ontologie che condividono molti geni.
In Reactome ci sono due set di geni, uno per autofagia in generale e un altro per un'autofagia specifica. In GO si trovano entrambi invece, quindi c'è un overload d'informazione e una conseguente ridondanza. Sono dei mezzi che servono per collassare i risultati basandosi sulla similarità semantica dei diversi termini in modo da avere una descrizione del fenomeno quanto più utile possibile.
Un altro modo è andare verso la definizione delle gene list non ridondanti. Un esempio è un progetto chiamato Hallmark gene sets, dove si definiscono poche gene list abbastanza disgiunte e generali, in modo da indirizzare nell'interpretazione dell'esperimento senza dover navigare tra tante liste e risultati ridondanti.
Quando nei risultati vengono fuori diversi termini associati al gruppo di geni si può misurare quanto questi termini siano simili, con diverse metriche. La più semplice è l'indice di Jaccard: date due liste di geni, che avranno ciascuna un set di geni propri, il rapporto tra quanti geni sono in J= LANB comune fratto il numero totale di geni dice quanto due liste sono simili. Se sono totalmente |AUB| disgiunte non hanno nulla al numeratore.
Ci sono altri metodi che si basano sulla similarità semantica, questi vanno a vedere sia come è scritto il testo sia dove si trovano due termini nell'albero.
Una volta collassati diversi termini e trovato quello che li accumuna, l'idea è quella di usare un solo termine per spiegare un esperimento, tendenzialmente si utilizza quello più significativo.
Questo è l'Hallmark, in cui sono state prese migliaia di gene list e sono state organizzate cercando di definirle in categorie. I processi mappati ricadono quindi sotto categorie ben distinte. Sono processi abbastanza indipendenti.
È un buon punto di partenza per cercare di annotare qualunque esperimento. Sebbene tutte le ontologie arrivino a un livello di descrizione specifico, non succede mai che un risultato sia una singola ontologia o un singolo pathway, questo perché all'interno della cellula ogni cosa agisce in azione con altre. Pertanto, per avere un'idea abbastanza sui generis di ciò che sta succedendo è bene iniziare a guardare un'analisi di gene expression utilizzando l'Hallmark che riesce a descrivere il processo in maniera generale ma a suo modo anche precisa.
MSigDB Molecular Signatures Database Hallmarks Step 1: Identify groups of similar gene sets Step 6: Independent volducion Step 2: Filter clusters and identify biological themes Step 5: Refining raw hallmark sets h2 Step 4: Define raw hallmark sets Step 3: Identify datasets for refinement h1 h3 h2
Hallmark Name Process Category Number of Founder Sets Number of Genes APICAL_JUNCTION cellular component apical junction complex consisting of adherens and tight junctions 37 200 APICAL_SURFACE cellular component membrane proteins in the apical domain 12 44 PEROXISOME cellular component porcoosomes 28 107 ADIPOGENESIS development adipocyte development 36 ANGIOGENESIS development blood vessel formation 14 EPITHELIAL_MESENCHIMAL_TRANSITION development epithelial mesenchymal transition 107 200 MYOGENESIS development muscle differentiation 200 SPERMATOGENESIS development sperm development and male fertility 135 PANCREAS_BETA_CELL development genes specific to pancreatic beta cells DNA REPAIR DNA damage DNA repair 44 150 UV_RESPONSE_DOWN DNA damage UV response: downregulated genes 17 144 UV_RESPONSE UP DNA damage UV response: upregulated genes 16 158 ALLOGRAFT_REJECTION mmune allograft rejection 190 200 COAGULATION immune blood coagulation cascade complement cascade 7 200 INTERFERON_ALPHA_RESPONSE immune interferon alpha response 82 97 INTERFERON_GAMMA_RESPONSE immune interferon gamma response 200 IL6_JAK_STAT3_SIGNALING immune IL6 STAT3 signaling during acute phase response 34 INFLAMMATORY_RESPONSE immune inflammation 120 200 COMPLEMENT immune Description 3