Referenzgenom und Builds
Jede Variante wird relativ zu einem Referenzgenom beschrieben, einer standardisierten Sequenz. Die zwei gängigen Fassungen, GRCh37 (hg19) und GRCh38 (hg38), zählen Positionen unterschiedlich, also hat dieselbe Variante verschiedene Koordinaten. Die Build-Angabe ist nötig, um eine Position richtig zu lesen.
Wozu eine Referenz
Damit Befunde vergleichbar sind, braucht es ein gemeinsames Koordinatensystem: das Referenzgenom. Es ist eine zusammengesetzte Standardsequenz, nicht das Erbgut eines einzelnen Menschen. Gegen sie wird jede Position benannt und jede Variante als Abweichung beschrieben, mit Referenz-Allel und Alternativ-Allel.
GRCh37 und GRCh38
Das Referenzgenom wird verbessert. Zwei Fassungen sind verbreitet: das ältere GRCh37, auch hg19, und das neuere, vollständigere GRCh38, auch hg38. Weil dazwischen Sequenz eingefügt und korrigiert wurde, verschieben sich die Zahlen: Dieselbe Variante hat in beiden Builds eine andere Koordinate. Das Umrechnen zwischen ihnen heißt Liftover.
Warum rsIDs robuster sind
Eine reine Zahlenkoordinate ist ohne Build-Angabe mehrdeutig und eine häufige Fehlerquelle. Eine rsID dagegen zeigt auf die Variante selbst, unabhängig davon, an welcher Stelle sie ein Build verortet. Deshalb benennt dieses Wiki Marker über ihre rsID. Wer mit Koordinaten arbeitet, sollte das Build immer dazu nennen.
Was Genome misst. Genome arbeitet in einem definierten Build. Eine Position wie chr19:44.908.822 ergibt nur zusammen mit ihrem Build Sinn. Die rsIDs, die das Wiki nennt, sind dagegen build-unabhängig.
Verwandte Themen
Quellen
- 1Church et al., 2011 Modernizing reference genome assemblies. PLoS Biology 9:e1001091. doi.org/10.1371/journal.pbio.1001091
- 2Schneider et al., 2017 Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Research 27:849–864. doi.org/10.1101/gr.213611.116