Enrichment Analysis: interpretare set di geni differenziali

Documento di Università su Enrichment Analysis. Il Pdf esplora l'Enrichment Analysis, una tecnica per interpretare set di geni differenziali, con focus su Gene Ontologies e strumenti come EnrichR, DAVID, G:Profiler e GSEA, utile per studenti di Biologia.

See more

9 Pages

1
Lezione 7, prof. Cittaro
ENRICHMENT ANALYSIS
Gene function
Una volta aver fatto un esperimento e aver identificato un set di geni differenziali in certe condizioni, come si
interpreta? L’idea è quella di associare a tutti i geni, o almeno ai cluster di geni, una funzione.
Premesso che per alcuni geni la funzione è nota, ci si ritrova nella condizione di vedere movimenti in alcuni
geni la cui funzione è di difficile interpretazione. Questa di solito viene associata con un meccanismo che si
chiama guilt by association, ovvero il principio per il quale geni che hanno unespressione simile hanno
probabilmente entrambi la stessa funzione o quantomeno sono coinvolti negli stessi processi. È un principio
che vale spesso quando si parla di dati grossi.
L’idea che ci sta dietro è che, essendoci un’infini di geni e molte meno funzioni, poic l’azione allinterno
della cellula è spesso coordinata, è verosimile che alcuni geni abbiano le stesse funzioni.
L’idea di identificare gruppi di geni con medesime funzioni è vecchia e non è solo un esercizio ma ha delle
applicazioni pratiche. Ad esempio, nel corso degli anni si utilizzano sempre più cluster di geni, di cui alcuni a
funzione ignota, per poter identificare set di geni che sono predittivi o esplicativi di un fenomeno.
Qui vediamo un esempio di gene expression applicata a
breast cancer. L’idea era quella di identificare un set di
geni che fosse differenziale tra quelli che avessero buona
o cattiva prognosi. Questo set di geni è qui rappresentato
da una heatmap, Il valore di espressione va dal basso all’
alto in base al verde rosso. I geni in una stessa zona si
comportano allo stesso modo (ad esempio, in basso a
sinistra), mentre in un'altra zona del grafico si comportano
in modo diverso. Per spiegare cosa stanno facendo si
possono studiare alcuni di questi geni ed estendere la
funzione a tutti gli altri dello stesso gruppo.
Ovviamente si potrebbero anche annotare manualmente tutti i geni, ma è un’opzione poco pratica, perché si
parla di migliaia di geni significativi. Inoltre, se non è nota la funzione, bisognerebbe fare un esperimento
caratterizzante per ogni gene.
Molti geni non vengono mai studiati perché ci si limita ad associarli ad altre funzioni note in base al loro
comportamento, senza entrare in dettaglio. Questo comporta che su 20000 geni presenti in un uomo, meno della
me hanno una vera caratterizzazione e descrizione, e quelli che ce l’hanno sono sempre i soliti famosi.
Per fare una notazione funzionale di un gene si può fare una notazione sistematica. Per fare ciò servono due
ingredienti: un database che contenga informazioni note e una misura della bontà della nostra inferenza,
quindi di quanto l’associare una funzione sia o meno verosimile.
Gene ontologies (GO)
Il primo ingrediente è ben formalizzato e ce ne sono di due tipi, ma il più rilevante sono le gene ontologies.
Unontologia è una rappresentazione delle conoscenze e dei concetti e delle loro relazioni. Questo viene fatto
tramite la rappresentazione gerarchica di questi concetti. Una gene ontology è un ontologia dove la lista di tutti
i termini che rappresentano i concetti è controllata, gestita e curata, correggendo errori e rimuovendo
ridondanze. Le gene ontologies sono di tre tipi indipendenti:
Biological processes (BP), descrive i processi nei quali i geni sono coinvolti, come ciclo cellulare,
traduzione di segnale etc..
Molecular function (MF), descrive l’esatta funzione del prodotto del gene, come metiltransferasi, binding
di una molecola…
Cellular component (CC) descrive la localizzazione del prodotto del gene nella cellula, come organelli,
complessi molecolari …
2
Sono organizzati in una struttura gerarchica definita in un grafico diretto aciclico. Diretto significa che per
ogni termine dell’ontologia, i cerchietti azzurri, c’è un padre. Ogni
termine è figlio di un altro termine e i termini sotto sono parte del
termine più grande, appena sopra di loro. Non si torna indietro e non
si possono fare strani giri.
Ogni termine è un concetto. Ogni gene è annotato per ciascuno dei
tre domini.
La radice è il termine zero, padre di tutti i termini discendenti.
Il fatto che il grafico sia gerarchico e aciclico non significa che un
termine non possa essere figlio di altri due termini. Per esempio, se
un fattore di trascrizione è coinvolto in due processi indipendenti, questo può essere figlio di entrambi i processi
sul grafico.
La struttura dell’id è data da GO:XXXXXXX, ed è un codice univoco.
Tutti i termini di una gene ontology hanno delle classi di evidenza, rappresentative della confidenza o del
motivo per cui ogni termine è stato creato ed annotato.
Queste sono alcune classi di evidenza:
Se un gene è coinvolto in un processo e c’è un esperimento che lo dimostra, la classe di evidenza è
l’experimental evidence.
Ci sono classi di evidenza che sono curatorial statements: chi ha curato la gene ontology ha letto in un
paper che un gene è coinvolto in un processo o ha una determinata funzione.
Evidenza filogenetica: lo stesso gene ha la stessa funzione in tanti organismi, quindi si può assumere che
abbia la stessa funzione anche nell’organismo in esame.
Evidenza computazionale
Author statements: il curatore ha estratto il testo e fatto le associazioni in base all’analisi elettronica del
testo, che però può introdurre errori.
IEA (automatically generated annotations): annotazioni inferite elettronicamente, che vengono fuori
dal curatore che ha ragionato in termini di guilt by association su un set di geni e ne ha estratto una classe
di annotazioni. Non vengono fuori da evidenze sperimentali.
Le prime sono evidenze forti, le ultime un po’ meno.
Quando si fa un’analisi di gene ontology bisogna sempre stare attenti alle classi di evidenza delle ontologie
riportate per evitare di incappare in errori.
Ci sono altre ontologie rilevanti per la biologia ma non riferite ai geni, poicl’ontologia vale in qualunque
campo. Nell’ambito biologico ce ne sono almeno due rilevanti:
Human Phenotype ontology (HPO), dove tutti i fenotipi sono organizzati in maniera gerarchica. Ad
esempio, il fenotipo esadattilia è figlio di “anormalità dell’arto” che è figlio di “dismorfismo generale”. Si
può utilizzare anche per annotare un gene, perché se i geni sono coinvolti nello stesso fenotipo è verosimile
che abbiano uguale funzione.
Mammalian phenotype ontology (MGI MP), studiata soprattutto per i topi, è gestita dall’MGI dove
questa ontologia di fenotipi viene da studi dove i geni sono stati rotti in maniera sistematica, con gene
editing, crispr ecc.. Si è studiato l’effetto di ogni gene su ogni fenotipo e poi sono stati annotati.
Oltre alle ontology ci sono altri tipi di cataloghi di geni, chiamate gene list, senza una nozione gerarchica. Sono liste
ragionate di geni associati a qualcosa.
Abbiamo ad esempio Reactome e KEGG, delle collezioni di pathway per cui a ogni pathway annotato viene
associato un gene noto che fa parte di esso. Il motivo per cui ne fanno parte può essere diverso, possono essere
enzimi o altro.
Ogni termine di una gene ontology è una gene list. L’unica differenza è che le GO hanno organizzazione
gerarchica, che permette di descrivere un fenomeno a diversi livelli di granularità. Per esempio, può risultare
interessante un ontology basica ma molto specifica mentre ontology molto alte nella gerarchia sono processi
generali che solitamente non hanno grande interpretazione a causa della difficoltà e della generali.

Unlock the full PDF for free

Sign up to get full access to the document and start transforming it with AI.

Preview

ENRICHMENT ANALYSIS

Gene function

Una volta aver fatto un esperimento e aver identificato un set di geni differenziali in certe condizioni, come si interpreta? L'idea è quella di associare a tutti i geni, o almeno ai cluster di geni, una funzione.

Premesso che per alcuni geni la funzione è nota, ci si ritrova nella condizione di vedere movimenti in alcuni geni la cui funzione è di difficile interpretazione. Questa di solito viene associata con un meccanismo che si chiama guilt by association, ovvero il principio per il quale geni che hanno un'espressione simile hanno probabilmente entrambi la stessa funzione o quantomeno sono coinvolti negli stessi processi. È un principio che vale spesso quando si parla di dati grossi.

L'idea che ci sta dietro è che, essendoci un'infinità di geni e molte meno funzioni, poiché l'azione all'interno della cellula è spesso coordinata, è verosimile che alcuni geni abbiano le stesse funzioni.

L'idea di identificare gruppi di geni con medesime funzioni è vecchia e non è solo un esercizio ma ha delle applicazioni pratiche. Ad esempio, nel corso degli anni si utilizzano sempre più cluster di geni, di cui alcuni a funzione ignota, per poter identificare set di geni che sono predittivi o esplicativi di un fenomeno.

Qui vediamo un esempio di gene expression applicata a breast cancer. L'idea era quella di identificare un set di geni che fosse differenziale tra quelli che avessero buona o cattiva prognosi. Questo set di geni è qui rappresentato da una heatmap, Il valore di espressione va dal basso all' alto in base al verde rosso. I geni in una stessa zona si comportano allo stesso modo (ad esempio, in basso a sinistra), mentre in un'altra zona del grafico si comportano in modo diverso. Per spiegare cosa stanno facendo si possono studiare alcuni di questi geni ed estendere la funzione a tutti gli altri dello stesso gruppo.

Tumors with Poor-Prognosis Signature Tumors with Good-Prognosis Signature C 50 100 150 200 250 10 0.5 20 Reporter Genes 40 Ratio (log scale) 8 0.5 8 70

Ovviamente si potrebbero anche annotare manualmente tutti i geni, ma è un'opzione poco pratica, perché si parla di migliaia di geni significativi. Inoltre, se non è nota la funzione, bisognerebbe fare un esperimento caratterizzante per ogni gene.

Molti geni non vengono mai studiati perché ci si limita ad associarli ad altre funzioni note in base al loro comportamento, senza entrare in dettaglio. Questo comporta che su 20000 geni presenti in un uomo, meno della metà hanno una vera caratterizzazione e descrizione, e quelli che ce l'hanno sono sempre i soliti famosi.

Per fare una notazione funzionale di un gene si può fare una notazione sistematica. Per fare ciò servono due ingredienti: un database che contenga informazioni note e una misura della bontà della nostra inferenza, quindi di quanto l'associare una funzione sia o meno verosimile.

Gene ontologies (GO)

Il primo ingrediente è ben formalizzato e ce ne sono di due tipi, ma il più rilevante sono le gene ontologies.

Un'ontologia è una rappresentazione delle conoscenze e dei concetti e delle loro relazioni. Questo viene fatto tramite la rappresentazione gerarchica di questi concetti. Una gene ontology è un ontologia dove la lista di tutti i termini che rappresentano i concetti è controllata, gestita e curata, correggendo errori e rimuovendo ridondanze. Le gene ontologies sono di tre tipi indipendenti:

  • Biological processes (BP), descrive i processi nei quali i geni sono coinvolti, come ciclo cellulare, traduzione di segnale etc ..
  • Molecular function (MF), descrive l'esatta funzione del prodotto del gene, come metiltransferasi, binding di una molecola ...
  • Cellular component (CC) descrive la localizzazione del prodotto del gene nella cellula, come organelli, complessi molecolari ...

1Sono organizzati in una struttura gerarchica definita in un grafico diretto aciclico. Diretto significa che per ogni termine dell'ontologia, i cerchietti azzurri, c'è un padre. Ogni termine è figlio di un altro termine e i termini sotto sono parte del terms termine più grande, appena sopra di loro. Non si torna indietro e non si possono fare strani giri.

Ogni termine è un concetto. Ogni gene è annotato per ciascuno dei tre domini.

La radice è il termine zero, padre di tutti i termini discendenti.

Il fatto che il grafico sia gerarchico e aciclico non significa che un termine non possa essere figlio di altri due termini. Per esempio, se un fattore di trascrizione è coinvolto in due processi indipendenti, questo può essere figlio di entrambi i processi sul grafico.

La struttura dell'id è data da GO:XXXXXXX, ed è un codice univoco.

Tutti i termini di una gene ontology hanno delle classi di evidenza, rappresentative della confidenza o del motivo per cui ogni termine è stato creato ed annotato.

Queste sono alcune classi di evidenza:

  • Se un gene è coinvolto in un processo e c'è un esperimento che lo dimostra, la classe di evidenza è l'experimental evidence.
  • Ci sono classi di evidenza che sono curatorial statements: chi ha curato la gene ontology ha letto in un paper che un gene è coinvolto in un processo o ha una determinata funzione.
  • Evidenza filogenetica: lo stesso gene ha la stessa funzione in tanti organismi, quindi si può assumere che abbia la stessa funzione anche nell'organismo in esame.
  • Evidenza computazionale
  • Author statements: il curatore ha estratto il testo e fatto le associazioni in base all'analisi elettronica del testo, che però può introdurre errori.
  • IEA (automatically generated annotations): annotazioni inferite elettronicamente, che vengono fuori dal curatore che ha ragionato in termini di guilt by association su un set di geni e ne ha estratto una classe di annotazioni. Non vengono fuori da evidenze sperimentali.

Le prime sono evidenze forti, le ultime un po' meno.

Quando si fa un'analisi di gene ontology bisogna sempre stare attenti alle classi di evidenza delle ontologie riportate per evitare di incappare in errori.

Ci sono altre ontologie rilevanti per la biologia ma non riferite ai geni, poiché l'ontologia vale in qualunque campo. Nell'ambito biologico ce ne sono almeno due rilevanti:

  • Human Phenotype ontology (HPO), dove tutti i fenotipi sono organizzati in maniera gerarchica. Ad esempio, il fenotipo esadattilia è figlio di "anormalità dell'arto" che è figlio di "dismorfismo generale". Si può utilizzare anche per annotare un gene, perché se i geni sono coinvolti nello stesso fenotipo è verosimile che abbiano uguale funzione.
  • Mammalian phenotype ontology (MGI MP), studiata soprattutto per i topi, è gestita dall'MGI dove questa ontologia di fenotipi viene da studi dove i geni sono stati rotti in maniera sistematica, con gene editing, crispr ecc .. Si è studiato l'effetto di ogni gene su ogni fenotipo e poi sono stati annotati.

Oltre alle ontology ci sono altri tipi di cataloghi di geni, chiamate gene list, senza una nozione gerarchica. Sono liste ragionate di geni associati a qualcosa.

Abbiamo ad esempio Reactome e KEGG, delle collezioni di pathway per cui a ogni pathway annotato viene associato un gene noto che fa parte di esso. Il motivo per cui ne fanno parte può essere diverso, possono essere enzimi o altro.

Ogni termine di una gene ontology è una gene list. L'unica differenza è che le GO hanno organizzazione gerarchica, che permette di descrivere un fenomeno a diversi livelli di granularità. Per esempio, può risultare interessante un ontology basica ma molto specifica mentre ontology molto alte nella gerarchia sono processi generali che solitamente non hanno grande interpretazione a causa della difficoltà e della generalità.

2Le annotazioni sono ridondanti nel senso che ci sono molte ontologie che condividono molti geni.

In Reactome ci sono due set di geni, uno per autofagia in generale e un altro per un'autofagia specifica. In GO si trovano entrambi invece, quindi c'è un overload d'informazione e una conseguente ridondanza. Sono dei mezzi che servono per collassare i risultati basandosi sulla similarità semantica dei diversi termini in modo da avere una descrizione del fenomeno quanto più utile possibile.

Un altro modo è andare verso la definizione delle gene list non ridondanti. Un esempio è un progetto chiamato Hallmark gene sets, dove si definiscono poche gene list abbastanza disgiunte e generali, in modo da indirizzare nell'interpretazione dell'esperimento senza dover navigare tra tante liste e risultati ridondanti.

Collapsing dei risultati

Quando nei risultati vengono fuori diversi termini associati al gruppo di geni si può misurare quanto questi termini siano simili, con diverse metriche. La più semplice è l'indice di Jaccard: date due liste di geni, che avranno ciascuna un set di geni propri, il rapporto tra quanti geni sono in J= LANB comune fratto il numero totale di geni dice quanto due liste sono simili. Se sono totalmente |AUB| disgiunte non hanno nulla al numeratore.

Ci sono altri metodi che si basano sulla similarità semantica, questi vanno a vedere sia come è scritto il testo sia dove si trovano due termini nell'albero.

Una volta collassati diversi termini e trovato quello che li accumuna, l'idea è quella di usare un solo termine per spiegare un esperimento, tendenzialmente si utilizza quello più significativo.

Hallmark gene sets

Questo è l'Hallmark, in cui sono state prese migliaia di gene list e sono state organizzate cercando di definirle in categorie. I processi mappati ricadono quindi sotto categorie ben distinte. Sono processi abbastanza indipendenti.

È un buon punto di partenza per cercare di annotare qualunque esperimento. Sebbene tutte le ontologie arrivino a un livello di descrizione specifico, non succede mai che un risultato sia una singola ontologia o un singolo pathway, questo perché all'interno della cellula ogni cosa agisce in azione con altre. Pertanto, per avere un'idea abbastanza sui generis di ciò che sta succedendo è bene iniziare a guardare un'analisi di gene expression utilizzando l'Hallmark che riesce a descrivere il processo in maniera generale ma a suo modo anche precisa.

MSigDB Molecular Signatures Database Hallmarks Step 1: Identify groups of similar gene sets Step 6: Independent volducion Step 2: Filter clusters and identify biological themes Step 5: Refining raw hallmark sets h2 Step 4: Define raw hallmark sets Step 3: Identify datasets for refinement h1 h3 h2

Hallmark Name Process Category Number of Founder Sets Number of Genes APICAL_JUNCTION cellular component apical junction complex consisting of adherens and tight junctions 37 200 APICAL_SURFACE cellular component membrane proteins in the apical domain 12 44 PEROXISOME cellular component porcoosomes 28 107 ADIPOGENESIS development adipocyte development 36 ANGIOGENESIS development blood vessel formation 14 EPITHELIAL_MESENCHIMAL_TRANSITION development epithelial mesenchymal transition 107 200 MYOGENESIS development muscle differentiation 200 SPERMATOGENESIS development sperm development and male fertility 135 PANCREAS_BETA_CELL development genes specific to pancreatic beta cells DNA REPAIR DNA damage DNA repair 44 150 UV_RESPONSE_DOWN DNA damage UV response: downregulated genes 17 144 UV_RESPONSE UP DNA damage UV response: upregulated genes 16 158 ALLOGRAFT_REJECTION mmune allograft rejection 190 200 COAGULATION immune blood coagulation cascade complement cascade 7 200 INTERFERON_ALPHA_RESPONSE immune interferon alpha response 82 97 INTERFERON_GAMMA_RESPONSE immune interferon gamma response 200 IL6_JAK_STAT3_SIGNALING immune IL6 STAT3 signaling during acute phase response 34 INFLAMMATORY_RESPONSE immune inflammation 120 200 COMPLEMENT immune Description 3

Can’t find what you’re looking for?

Explore more topics in the Algor library or create your own materials with AI.