Genome · Handbuch

Hilfe und Dokumentation.

Schnellstart, Workflows, Analysen, Tools, Referenzen und Fehlerbehebung. Alles lokal, alles nachvollziehbar.

Alle Hilfeeinträge sichtbar.

Schnellstart

Genome analysiert FASTQ/BAM/CRAM-Daten aus Whole Genome Sequencing (WGS) lokal und erzeugt getrennte Domänenberichte für Medizinische Genomik und Pharmakogenetik: HLA*LA/T1K, KILDA/LPA, T1K-KIR, Aldy4, ExpansionHunter, Microarray-Panel, PGS Catalog-Dateien und SNP-Suche.

Was ist Genome?

Genome ist eine macOS-App für bioinformatische Auswertung eigener WGS-Daten. Sie führt FASTQ→BAM-Alignment aus, liest BAM/CRAM/SAM und erzeugt lokale Analysebausteine: HLA*LA und T1K für HLA-Auswertung, T1K für KIR-Genotypisierung, KILDA für LPA/KIV-2, Aldy4 für Pharmakogenetik, ExpansionHunter für Repeat-Expansionen, Microarray-Panel-Exporte und PGS Catalog-basierte Score-Bestimmung. PDF-Berichte trennen Rohdaten, technische Evidenz und vorsichtige Interpretation. Keine Cloud, keine Datenweitergabe.

Systemvoraussetzungen

macOS 26 oder neuer · Apple Silicon (M1+) erforderlich · 16 GB RAM empfohlen (8 GB Minimum) · Interne SSD empfohlen · ~1–2 GB pro Referenzgenom · Internetverbindung nur für Tool-Installation und Referenzgenom-Download erforderlich.

Richtwerte für 30× WGS auf Apple Silicon: Microarray-Extraktion ~20–40 Min · Y VCF ~5–10 Min · MT VCF ~2–5 Min · FASTQ→BAM ~24–48 Stunden (M2/M3). Auf M4 mit interner SSD näher an 24 Stunden, auf älteren M1-Macs eher Richtung 48 Stunden. Hauptfaktoren: Coverage, Dateigröße, SSD-Geschwindigkeit, verfügbare CPU-Kerne.

Erste Schritte
  1. Verzeichnisse → Reference Library wählen (z. B. /Volumes/SSD/Referenz). Hier liegen Referenzgenome, Panels und externe Tool-Ressourcen.
  2. Referenzen → Referenzgenom vorbereiten. Für Genome-Analysen GRCh38/hs38d1 mit .fai nutzen; HLA*LA benötigt zusätzlich den passenden PRG_MHC_GRCh38_withIMGT-Graphen.
  3. Tools → benötigte Tools installieren/prüfen. Für die aktuellen Spezialanalysen relevant: KILDA, HLA*LA, T1K, Aldy4, ExpansionHunter, Microarray-Panel und PGS Catalog-Dateien.
  4. FASTQ-Rohdaten? → Konvertierung → R1/R2 wählen → Fastp optional → Alignment starten. Danach mit der erzeugten BAM weiterarbeiten.
  5. Verzeichnisse → BAM/CRAM/SAM-Datei auswählen. Genome liest Build, Coverage, Geschlecht und Indexierungsstatus automatisch.
  6. Domänen-Tab wählen: Medizinische Genomik, Pharmakogenetik, HLA/KIR, LPA/KILDA, Repeat-Expansionen, SNP-Suche, PGS oder Microarray-Export. PDF-Berichte entstehen nur aus tatsächlich verwendeten Eingaben.
Typischer Workflow

WGS-BAM laden → gewünschte Domäne wählen → Voraussetzungen prüfen → Analyse starten → PDF-Bericht exportieren. HLA nutzt HLA*LA-G-Gruppen-Ausgabe und optional T1K als zweite Evidenzschicht. T1K-KIR bleibt von HLA getrennt. KILDA berichtet KIV-2/LPA-Kontext inklusive quantile=NA als Rohwert, Aldy4 gehört ausschließlich in Pharmakogenetik, ExpansionHunter trennt Repeat- und SmallVariant-Ausgaben. PGS-Scores werden aus PGS Catalog-Dateien dokumentiert, ohne diagnostische Überversprechen.

Der Status-Balken am unteren Fensterrand zeigt den Fortschritt laufender Operationen. Ein roter Fehlerbalken erscheint bei Problemen, dieser liefert die Fehlerursache und kann mit ✕ geschlossen werden.

Workflow

Der Workflow-Tab bündelt Presets, Referenzgenom, Tools und Analyse-Einstellungen für typische lokale Genome-Läufe.

Was sind Presets?

Presets sind vorkonfigurierte Workflow-Profile für häufige Analyse-Szenarien. Fünf integrierte Presets stehen zur Verfügung: WGS, Exom, Mitochondrial, Y-Chromosom und Consumer-Genetik. Jedes Preset definiert das passende Referenzgenom, die benötigten Tools und Haplogruppen-Einstellungen.

Preset aktivieren

Klicken Sie auf ein Preset um die Details anzuzeigen, dann auf 'Aktivieren'. Die App zeigt fehlende Voraussetzungen an (z. B. nicht installierte Tools oder fehlendes Referenzgenom) bevor das Preset angewendet wird.

Eigene Presets

Erstellen Sie eigene Presets aus der aktuellen Konfiguration. Vergeben Sie einen Namen, ein Icon und eine Beschreibung. Das Preset speichert alle aktuellen Einstellungen und kann jederzeit wieder aktiviert werden.

💡

Presets ändern nur Einstellungen, sie starten keine Pipeline. Nach dem Aktivieren eines Presets können Sie die Konfiguration prüfen und den Workflow manuell starten.

📁 Verzeichnisse

Output-Verzeichnis

Alle erzeugten Dateien (BAMs, VCFs, Microarray-Textdateien, Berichte) landen hier. Standard ist das Verzeichnis der geladenen BAM-Datei. Empfohlen: eigenes Ausgabe-Verzeichnis auf einer SSD wählen. Das Verzeichnis wird beim Start automatisch wiederhergestellt.

Temporäres Verzeichnis

Zwischendateien während laufender Prozesse: entpackte Referenzgenome, Alignment-Zwischenstände, Sortierdateien. Standard: ~/Library/Caches/Genome. Diese Dateien werden nach erfolgreicher Verarbeitung automatisch gelöscht. Bei Abbruch können Reste zurückbleiben, manuell löschbar.

Reference Library Wichtig

Zentrales Verzeichnis für alle Referenzdaten: Referenzgenome (.fa / .fa.gz + .fai-Index), Microarray-Panels (.tab.gz / .vcf.gz) und Haplogrep 3 (haplogrep3/). Empfohlen: externe SSD mit mindestens 5 GB freiem Speicher, da jedes Referenzgenom ~1 GB belegt. Beim ersten Start wird das Verzeichnis geprüft, fehlende Ressourcen werden durch farbige Indikatoren in Referenzen und Tools angezeigt.

BAM/CRAM Datei laden

Lädt eine BAM-, CRAM- oder SAM-Datei als Eingabe. Die App liest beim Laden automatisch: Referenzgenom-Name aus dem BAM-Header, Genomaufbau (hg38/hg19/hs37d5), durchschnittliche Lesetiefe (Coverage), biologisches Geschlecht (Y/X-Chromosom-Reads), Dateiinhalt (WGS/WES/Panel) und Indexierungsstatus (.bai / .crai). CRAM erfordert ein passendes Referenzgenom in der Reference Library.

Ohne Index-Datei (.bai für BAM, .crai für CRAM) sind viele Extraktions- und Analysefunktionen nicht verfügbar. Index mit 'samtools index datei.bam' erstellen.

💡

CRAM-Dateien sind 40–50 % kleiner als BAM, benötigen aber beim Entpacken das Referenzgenom. Lege das passende Genom in die Reference Library bevor du CRAM-Dateien lädst.

Konvertierung

Konvertiert FASTQ-Rohdaten in ausgerichtete BAM-Dateien (Alignment) oder wandelt BAMs zurück in FASTQ. Enthält auch Qualitätskontrolle für Rohdaten.

FASTQ → BAM (Alignment)

FASTQ → BAM bwa samtools

Richtet Paired-End FASTQ-Dateien (R1 + R2) gegen ein Referenzgenom aus. Pipeline: bwa mem → samtools fixmate → samtools sort → samtools markdup. Ergebnis: indexierte, sortierte, deduplizierte BAM-Datei.

Voraussetzungen FASTQ→BAM

Benötigt: samtools, bwa (oder bwa-mem2 für höhere Geschwindigkeit). Referenzgenom muss in der Reference Library vorliegen und mit 'bwa index' indiziert sein (.bwt / .amb / .ann / .pac / .sa Dateien). bwa-Index wird beim ersten Alignment automatisch erstellt falls fehlend, dauert ~30–60 Minuten für ein 3 GB Genom.

Alignment-Parameter

Threads: wird automatisch auf die Anzahl logischer CPU-Kerne gesetzt. Read-Group wird aus dem Dateinamen generiert (RGID, RGSM, RGPL=ILLUMINA, RGLB=lib1). Markdup entfernt PCR-Duplikate. Sortierung ist koordinatenbasiert (für Indexierung benötigt).

Split-Read-Modus Empfohlen: Supplementary

Steuert wie chimäre/Split-Reads (Reads die an mehreren Stellen im Genom alignen) im BAM markiert werden.

• Supplementary (Standard, empfohlen): Kürzere Split-Hits werden als supplementäre Alignments markiert. Moderner Standard, kompatibel mit allen aktuellen Tools (samtools, GATK 4+, bcftools).

• Secondary (-M): Kürzere Split-Hits werden als sekundäre Alignments markiert (bwa -M Flag). Nötig für ältere Tools wie Picard <2.0. Erzeugt leicht größere BAM-Dateien.

Die Einstellung befindet sich im Konvertierung-Tab unter der Referenzgenom-Auswahl.

Fortsetzen nach Abbruch

Wird ein laufendes FASTQ→BAM-Alignment abgebrochen oder schlägt fehl, erkennt die App beim nächsten Start automatisch vorhandene Zwischendateien. Beim Klick auf 'Alignment starten' erscheint ein Dialog mit drei Optionen:

• Fortsetzen: Setzt die Pipeline ab dem letzten erfolgreichen Schritt fort (z. B. ab Sort-Merge, Index oder Flagstat). • Von vorne: Löscht alle Zwischendateien und startet komplett neu. • Abbrechen: Keine Aktion.

Die Pipeline kann von jedem Schritt fortgesetzt werden: Sort-Chunks → Merge → Markdup → Index → Flagstat/Laden.

Bei I/O-Timeouts (z. B. auf externen SSDs) bricht die Pipeline nicht automatisch ab. Stattdessen erscheint ein Dialog: 'Wiederholen' versucht den fehlgeschlagenen Schritt erneut, 'Abbrechen' stoppt die Pipeline. So können Sie z. B. eine externe SSD wieder anschließen und fortfahren.

BAM → FASTQ (Rückkonvertierung)

BAM → FASTQ samtools

Konvertiert eine BAM-Datei zurück in zwei FASTQ-Dateien (R1, R2) via samtools collate + fastq. Nützlich wenn Originaldateien fehlen oder ein Re-Alignment gegen ein anderes Referenzgenom nötig ist. Unmapped Reads werden optional eingeschlossen.

Qualitätskontrolle

Fastp fastp

Fastp analysiert FASTQ-Dateien auf Qualität, Adapter-Kontamination und GC-Gehalt. Erstellt einen interaktiven HTML-Bericht und optional bereinigte FASTQ-Dateien (Adapter-Trimming, Low-Quality-Read-Filterung). Empfohlen vor jedem Alignment. Geschwindigkeit: ~500 MB/s auf Apple Silicon.

FastQC FastQC Java

FastQC erstellt einen detaillierten HTML-Qualitätsbericht pro FASTQ-Datei. Enthält: Per-Base-Sequenzqualität, Per-Sequenz-Qualitätsscores, Sequenz-Duplikationslevel, Überlängen-Reads, Adapter-Kontamination, Kmer-Analyse. Benötigt Java Runtime. Ergebnis: HTML-Datei im Output-Verzeichnis.

💡

Für beste Ergebnisse: Fastp vor dem Alignment ausführen. FastQC für eine detailliertere visuelle Analyse der Rohdaten. Beide Tools ergänzen sich und können nacheinander ausgeführt werden.

Extraktion

Extrahiert spezifische Datensätze aus der geladenen BAM-Datei. Alle Ausgaben landen im Output-Verzeichnis. Benötigt eine indizierte BAM/CRAM-Datei und ein passendes Referenzgenom.

Microarray-Extraktion

Referenzpanel

Das Referenzpanel enthält die SNP-Positionen der kommerziellen DNA-Chip-Plattformen (.tab.gz oder .vcf.gz). Panels werden im Reference Library Verzeichnis gespeichert und beim Start automatisch erkannt. Der Indikator zeigt: grün = Panel vorhanden, orange = Panel fehlt (alle Varianten ohne rsID werden ausgegeben).

Ausgabeformate wählen

Über das aufklappbare Format-Menü einzelne Plattformen aktivieren. Schaltflächen: 'Empfohlen' wählt die gängigsten Formate (23andMe v3/v5, AncestryDNA v2, CombinedKit). 'Alle' aktiviert alle verfügbaren Versionen. 'Keines' leert die Auswahl. CombinedKit enthält alle gerufenen SNPs, für GEDmatch, Gedmatch Genesis und FTDNA geeignet.

Header-Kopfzeile

Der Schalter 'Header' (im aufgeklappten Ausgabeformate-Menü, neben Alle/Keines) steuert, ob beim Erstellen der Ausgabedateien eine plattformspezifische Kopfzeile vorangestellt wird. Standardmäßig eingeschaltet. Ist Header aktiv, wird außerdem der Zeitstempel in der Kopfzeile immer auf das aktuelle Datum und die aktuelle Uhrzeit aktualisiert, im jeweils plattformkorrekten Format (z. B. 23andMe: 'Thu Dec 29 11:59:59 2012', AncestryDNA: '03/21/2013 11:15:47 MDT', MyHeritage: '2019-05-04 14:21:19'). Ist Header ausgeschaltet, werden die Dateien ohne Kopfzeile erstellt (nur Datensätze). Für FTDNA gibt es keinen Zeitstempel in der Vorlage.

Header passen sich dynamisch dem Referenzgenom-Build (37/38) an. Bei Verwendung von hg38 werden Build-Referenzen in den Kopfzeilen automatisch aktualisiert (z. B. "build 37" → "build 38", "GRCh37.p13" → "GRCh38.p14").

Microarray extrahieren bcftools

Startet die Microarray-Extraktion. Interne Pipeline: bcftools mpileup (Pileup aller Referenzpositionen) → bcftools call (Variantenruf) → Panel-spezifische Filterung → Format-Konvertierung. Mit Panel: chip-spezifische SNP-Filterung + rsID-Annotation + CombinedKit + Einzelformate. Ohne Panel: rohe Varianten-VCF. Dauer: 15–90 Minuten je nach Coverage und Genomgröße.

Ausgabedateien Microarray

Pro aktiviertem Format: eine .txt-Datei (Tab-getrennt) im Output-Verzeichnis. Dateiname: [BAM-Name]_[Format]_[Datum].txt. Format-Beispiel 23andMe v5: Spalten rsid / chromosome / position / allele1allele2. CombinedKit: alle gerufenen SNPs mit rsID falls Panel vorhanden.

Mitochondriale DNA

MT FASTA samtools

Extrahiert das mitochondriale Chromosom als FASTA-Konsensussequenz. Verwendet: samtools view (MT-Reads) → samtools mpileup → Konsensusberechnung. Geeignet für yFull (weiblich), Mitoverse, EMPOP. Ausgabe: [Name]_MT.fasta.

MT BAM samtools

Extrahiert alle MT-Reads als separate BAM-Datei. Chromosom-Name passt sich automatisch an (chrM für hg38, MT für hs37d5). Geeignet für manuelle Analyse und Weiterverarbeitung. Ausgabe: [Name]_MT.bam + .bai Index.

MT VCF bcftools

Ruft Varianten auf dem MT-Chromosom mit bcftools mpileup + call und erstellt eine komprimierte VCF-Datei. Enthält alle SNPs und Indels des MT-Genoms. Geeignet für Haplogrep (direkter Import), Mitoverse, PhyloTree-basierte Analyse. Ausgabe: [Name]_MT.vcf.gz.

Y-Chromosom

Y+MT BAM yFull

Extrahiert Y-Chromosom und MT-DNA gemeinsam als BAM. Optimal für yFull (männlich) da dort beide Chromosomen benötigt werden. Build 38 (hg38/hs38) wird von yFull bevorzugt. Ausgabe: [Name]_YMT.bam + .bai.

Y BAM

Extrahiert nur das Y-Chromosom als BAM. Geeignet für yDNA Warehouse und yTree. Chromosom-Name: chrY (hg38) oder Y (hs37d5). Ausgabe: [Name]_Y.bam + .bai.

Y VCF bcftools

Ruft Varianten auf dem Y-Chromosom und erstellt eine komprimierte VCF. Geeignet für manuelle Analyse und Hochladen zu yFull (als VCF-Option). Enthält alle Y-SNPs und Y-STRs. Ausgabe: [Name]_Y.vcf.gz.

Y-Chromosom-Extraktion ist nur für männliche Proben sinnvoll. Die App erkennt das biologische Geschlecht automatisch aus dem Y/X-Reads-Verhältnis und zeigt eine Warnung bei weiblichen Proben.

Analyse

Direkte Analyse-Funktionen auf Basis der geladenen BAM-Datei ohne externe Plattformen. HLA*LA/T1K, T1K-KIR, KILDA/LPA, Aldy4, ExpansionHunter, PGS, Haplogruppen und VCF-Kontext bleiben als getrennte Analysebausteine sichtbar.

Y-Haplogruppe bcftools ISOGG

Berechnet die väterliche Y-Haplogruppe direkt aus der BAM-Datei. Die App ruft Y-SNPs via bcftools, vergleicht diese mit der ISOGG/PhyloTree-Datenbank und liefert die tiefste passende Klade. Anzeige: Haplogruppe, Konfidenz, unterstützende SNPs. Schneller als externes Hochladen, keine Internetverbindung nötig.

MT-Haplogruppe (Haplogrep 3) Haplogrep 3 PhyloTree

Bestimmt die mütterliche MT-Haplogruppe mit Haplogrep 3. Männer und Frauen haben mtDNA; die maternale Linie ist in allen Proben auswertbar. Genome nutzt nur noch Haplogrep 3: moderne Codebasis, konfigurierbare Phylotrees (Standard: phylotree-rcrs@17.2) und mit --extend-report zusätzliche Spalten zu Polymorphismen, Hotspots und Lineage-Notes. Eingabe: automatisch erzeugte oder ausgewählte MT-VCF. Ausgabe: Haplogruppe + Qualitätsscore + Mutations-Liste. Installation: Tools → Download Haplogrep 3.

HLA-Typisierung (HLA*LA) HLA*LA HLA-A/B/C DRB1

Bestimmt HLA-Allele für die klassischen MHC-Gene (HLA-A, -B, -C, -DRB1, -DQB1, -DPB1 u. a.) direkt aus der geladenen BAM-Datei. HLA*LA nutzt einen Populations-Referenzgraphen (PRG_MHC_GRCh38_withIMGT) für hochgenaue Typisierung auch aus Standard-WGS ohne separaten HLA-Anreicherungsschritt.

Voraussetzungen: HLA*LA installiert (Tools → HLA*LA), PRG-Graph heruntergeladen (Referenzen → HLA-Referenz), GRCh38-alignierte BAM-Datei mit Index (.bai). Laufzeit: 20–60 Minuten.

Ausgabe: <SampleID>_HLA_typing.txt im Output-Verzeichnis. Der Bericht dokumentiert Allele, Qualitätsscores und technische Evidenz. Medizinische Nutzung gehört in fachärztliche Interpretation.

HLA-Auswertung (T1K) T1K HLA Konkordanz

T1K ergänzt HLA*LA als unabhängige zweite Evidenzschicht. Genome nutzt T1K-HLA nicht als Ersatz für HLA*LA, sondern zur Konkordanzprüfung: HLA*LA-G-Gruppen bleiben primär, T1K-Ergebnisse werden orderless und normiert gegenübergestellt. Abweichungen werden als technische Evidenz sichtbar, nicht automatisch als klinische Aussage.

KIR-Genotypisierung (T1K) T1K KIR HLA-Kontext

T1K kann zusätzlich KIR-Gene typisieren. Genome behandelt KIR getrennt von HLA: KIR-Genstatus, KIR-HLA-Kontext und technische Evidenz erscheinen als eigener Abschnitt im medizinischen Genomik-Bericht. Fehlende oder niedrige Evidenz bleibt sichtbar und wird nicht versteckt.

LPA-Analyse (KILDA) KILDA LPA KIV-2

KILDA analysiert LPA/KIV-2-Kontext aus lokalen Eingaben. Genome zeigt Rohwerte, technische Evidenz und Interpretation getrennt: Werte wie quantile=NA bleiben als Rohwert erhalten, statt durch Platzhalter oder klinische Vereinfachungen ersetzt zu werden. Ergebniszeilen bleiben kompakt und prüfbar.

Pharmakogenetik (Aldy4) Aldy4 PGx Diplotypen

Aldy4 analysiert komplexe pharmakogenetische Gene und erzeugt Diplotyp-/Allelinformationen für PGx-Berichte. Genome verwendet Aldy4 ausschließlich im Pharmakogenetik-Kontext; HLA, KIR oder allgemeine medizinische Genomik werden dadurch nicht vermischt. Der PDF-Bericht trennt Variantenbasis, Diplotyp, Gen-Wirkstoff-Kontext und vorsichtige Interpretation.

Repeat-Expansionen (ExpansionHunter) ExpansionHunter Repeat CI

ExpansionHunter wertet definierte Repeat-Loci aus. Genome trennt Repeat-Records von SmallVariant-Ausgaben und dokumentiert Allelgrößen, Read-Evidenz und Konfidenzintervalle. Locus-spezifische Grenzen bleiben sichtbar; ein Repeat-Befund ersetzt keine Diagnostik.

PGS-Score-Bestimmung PGS Catalog Score SNP

PGS Catalog-Dateien können zur Score-Bestimmung genutzt werden. Genome dokumentiert Score-Datei, Variantenbasis, berücksichtigte Marker und Grenzen. PGS-Ergebnisse sind populations- und dateiabhängige Risikokontexte, keine Diagnose.

Unmapped Reads

Extrahiert Reads die nicht gegen das Referenzgenom ausgerichtet wurden. Mögliche Ursachen: nicht-humane DNA (Bakterien, Viren), Sequenzierungsfehler, sehr kurze Reads, Sequenzen in Referenzlücken. Ausgabe: FASTQ-Datei mit unmapped Reads. Nützlich für metagenomische Analyse (Kaiju, CosmosID).

VCF-Analyse

VCF annotieren bcftools

Setzt Varianten-IDs nach dem Schema CHROM:POS:REF:ALT via bcftools annotate. Falls keine VCF im Output-Verzeichnis vorhanden ist, wird zuerst automatisch ein Variant Calling aus dem geladenen BAM durchgeführt (bcftools mpileup | call). Ausgabe: _annotated.vcf.gz.

VCF filtern bcftools

Filtert VCF-Varianten nach Qualitätskriterien: QUAL≥20 und Lesetiefe DP≥10 via bcftools view. Falls keine VCF vorhanden, wird zuerst Variant Calling ausgeführt. Ausgabe: _filtered.vcf.gz.

Varianten-QC (VarQC) Ts/Tv bcftools

Berechnet Qualitätsmetriken einer VCF via bcftools stats: Ts/Tv-Ratio (Zielwert WGS: 2,0–2,1), SNP/Indel-Verhältnis, Heterozygotie-Rate, Varianten pro Chromosom. Falls keine VCF vorhanden, wird zuerst Variant Calling ausgeführt. Ausgabe: _stats.txt.

🔍 SNP-Suche

Schnelle Suche nach Ihrer DNA in einer Genotyp-Datei. Laden Sie eine TXT-Datei (CombinedKit.txt, 23andMe, etc.), geben Sie rsIDs ein und erhalten Sie sofort die Genotypen, Chromosomen und Positionen. Mit Template-Verwaltung und Filter für schnelle Suchen.

SNP-Datei laden

Die SNP-Datei (TXT-Format) wird im Tab 'Verzeichnisse' ausgewählt, genau wie die BAM/CRAM-Datei. Unterstützte Formate: CombinedKit.txt (alle Plattformen), 23andMe TXT, AncestryDNA TXT, oder andere Tab-getrennte Formate mit rsid/Position/Genotype-Spalten. Die App zeigt die Anzahl der SNPs in der Datei nach dem Laden an.

rsIDs eingeben rs-Format

Geben Sie eine oder mehrere rsIDs in das Textfeld ein, eine pro Zeile. Format: rs123456 oder einfach 123456. Sie können auch aus anderen Programmen kopieren und einfügen; der Filter bereinigt automatisch extra Zeichen. Die Abzählung zeigt wie viele rsID(s) Sie eingegeben haben.

Filter-Schaltfläche Regex

Der Filter-Button erscheint automatisch wenn Sie Text mit Sonderzeichen oder Whitespace eingeben. Ein Klick extrahiert automatisch alle rsID-Muster (rs + Zahlen) aus dem Text und entfernt alles andere, perfekt zum Bereinigen von kopierten Listen mit extra Leerzeichen oder Kommas.

Suche ausführen O(1)-Lookup

Klicken Sie 'Suchen' um die Suche zu starten. Die App durchsucht die geladene SNP-Datei nach exaktem Treffer mit jedem rsID. Schnelle Indexierung: Die SNP-Datei wird einmalig in eine Nachschlagtabelle konvertiert, selbst große Dateien (100.000+ SNPs) sind in Millisekunden durchsuchbar.

Ergebnisse anzeigen TSV-Export

Gefundene rsIDs werden in einer Tabelle mit Spalten angezeigt: rsID | Chromosom | Position | Genotyp. Nicht gefundene rsIDs werden in einem separaten Bereich aufgelistet. Mit dem Kopieren-Button können Sie alle Ergebnisse als Tab-getrennte Werte (TSV) in die Zwischenablage kopieren, perfekt zum Einfügen in Excel oder andere Programme.

Vorlagen speichern Persistenz SF Symbols

Speichern Sie häufig gesuchte rsID-Listen als Vorlagen mit Namen (z. B. 'Meine Ancestry SNPs', 'Gesundheits-Panel'). Jede Vorlage kann ein individuelles SF-Symbol-Icon und eine Bemerkung erhalten. Vorlagen erscheinen im Dropdown-Picker oben. Eingebaute Vorlagen sind vordefiniert und nicht löschbar.

Vorlagen verwalten Edit Delete Import/Export

Jede Vorlage hat Optionen zum Laden, Bearbeiten und Löschen. 'Laden' befüllt das Suchfeld mit den gespeicherten rsIDs. 'Bearbeiten' öffnet ein Formular zum Ändern von Name, Symbol und rsID-Liste. Bemerkungen werden automatisch gespeichert (Debounce). Import/Export ermöglicht das Teilen von Vorlagen als TXT-Datei.

💡

Tipp: Speichern Sie häufig benutzte rsID-Listen als Vorlagen. So sparen Sie Zeit bei wiederholten Suchen über verschiedene Dateien. Der Filter ist besonders nützlich wenn Sie Listen aus Websites oder PDFs kopieren, die Extra-Leerzeichen enthalten. Mit Import/Export können Sie Vorlagen mit anderen teilen.

Berichte

Genome erzeugt PDF-first Berichte aus den tatsächlich vorhandenen Eingaben. Medizinische Genomik und Pharmakogenetik bleiben getrennt; Rohwerte, technische Evidenz, Tool-Versionen, Referenzen und vorsichtige Interpretation werden nicht vermischt.

Medizinische Genomik PDF HLA KIR LPA Repeat

Der medizinische Genomik-Bericht bündelt HLA*LA, T1K-HLA-Konkordanz, T1K-KIR, KILDA/LPA, ExpansionHunter, SNP-/ClinVar-/PGS-Kontext, mtDNA/Haplogrep und optionale EBV-/Mikrobiom-Evidenz. Abschnitte erscheinen nur, wenn passende Eingaben und Artefakte vorhanden sind.

Pharmakogenetik Aldy4 PharmCAT CPIC DPWG

Der Pharmakogenetik-Bericht bleibt PGx-only: Aldy4-Diplotypen, PharmCAT/SNP-Regeln, CPIC/DPWG/PharmGKB-Kontext und vorsichtige Wirkstoffhinweise. HLA, KIR, LPA und Repeat-Rohanhänge werden nicht in den PGx-Bericht gemischt.

Evidenz und Provenienz Provenienz Referenzen Tool-Versionen

Jeder Bericht dokumentiert Datenbasis, genutzte Dateien, Referenzen, Tool-Versionen, Warnhinweise und Grenzen. Technische Rohwerte bleiben sichtbar, damit ein Ergebnis nachvollziehbar und prüfbar bleibt.

Genome formuliert vorsichtig: Berichte sind strukturierte Auswertung und Kontext, keine Diagnose. Klinische Entscheidungen gehören zu qualifizierten Ärztinnen und Ärzten; unklare oder fehlende Evidenz wird als solche angezeigt.

🔧 Tools

Bioinformatische Kommandozeilen-Tools und Referenzdateien, die Genome verwendet. Installation und Erkennung laufen über den Tools-Tab; große Referenzdaten wie HLA*LA-Graph, PGS Catalog-Dateien und Microarray-Panels liegen in der Reference Library.

Homebrew Basis

Paketmanager für macOS. Wird automatisch unter /opt/homebrew (Apple Silicon) oder /usr/local (Intel) installiert falls nicht vorhanden. Homebrew verwaltet alle weiteren bioinformatischen Tools. Nach der Installation kann 'brew update && brew upgrade' manuell ausgeführt werden.

samtools samtools

Standard-Tool für BAM/SAM-Verarbeitung. Verwendet für: BAM sortieren, indexieren, Reads extrahieren (view), Pileup berechnen, BAM→FASTQ Konvertierung, Coverage-Analyse. Version 1.18+ empfohlen. Über 'samtools --version' prüfbar.

bcftools bcftools

Variant-Calling und VCF-Verarbeitung. Verwendet für: mpileup (Pileup-Erstellung), call (Variantenruf), view (VCF filtern/konvertieren), annotate (Annotierung), stats (Qualitätsstatistiken). Oft zusammen mit htslib installiert.

bwa / bwa-mem2 bwa bwa-mem2

Burrows-Wheeler Aligner für Short-Read Alignment (Illumina). bwa mem: Standard-Algorithmus für Reads >70 bp. bwa-mem2: ~3× schnellere Variante mit identischer Ausgabe. Auf Apple Silicon wird automatisch bwa-mem2 bevorzugt. Für Alignment benötigt: bwa index (einmalig pro Referenzgenom).

fastp fastp

Schnelles FASTQ-Qualitätskontroll- und Preprocessing-Tool. Features: Adapter-Erkennung und -Trimming, Qualitäts-Trimming, Längen-Filterung, Duplikat-Entfernung, GC-Analyse, interaktiver HTML-Bericht. Geschwindigkeit: ~500 MB/s auf M-Prozessoren.

FastQC FastQC Java

Java-basiertes FASTQ-Analyse-Tool mit detailliertem HTML-Bericht. Gut für erste Qualitätsprüfung vor dem Alignment. Langsamer als Fastp. Benötigt Java Runtime Environment (JRE), wird über Homebrew installiert (java@21 oder neuer).

sambamba sambamba

Multithreaded BAM-Verarbeitung. Verwendet als Alternative zu samtools für Markdup (Duplikat-Markierung) bei FASTQ→BAM-Pipeline. Bis zu 4× schneller als samtools markdup auf mehrkernigen Systemen. Optional, samtools markdup wird als Fallback verwendet.

Haplogrep 3 Haplogrep 3 Phylotree 17.2 Java 11+

MT-Haplogruppen-Klassifizierung mit Haplogrep 3 (genepi/haplogrep3 3.2.2) und moderner Codebasis. Unterstützt mehrere Phylotrees (phylotree-rcrs@17.2, phylotree-fu-rcrs@1.2, usw.) und liefert mit --extend-report zusätzliche Spalten zu Polymorphismen und Hotspots. Wird als komplettes Verzeichnis (haplogrep3.jar + data/) in refLib/haplogrep3/ installiert (~50 MB). Benötigt Java 11 oder neuer. CLI: java -jar haplogrep3.jar classify --in X --tree phylotree-rcrs@17.2 --out Y.

Genome verwendet ausschließlich Haplogrep 3 für die MT-Analyse.

HLA*LA HLA*LA Graph Genome IMGT

HLA-Typisierungs-Tool von Dilthey Lab (github.com/DiltheyLab/HLA-LA). Bestimmt HLA-Allele für die klassischen Gene HLA-A, -B, -C, -DRB1, -DQB1, -DPB1 und weitere direkt aus dem WGS-BAM. Methode: Graph-Genome-Ansatz mit dem PRG_MHC_GRCh38_withIMGT Referenzgraph.

Installation: Homebrew-Abhängigkeiten (boost@1.85, bamtools), dann Quell-Build via make (~30 Minuten, ~500 MB). Boost-Patch wird automatisch angewendet. Das Binary landet unter dem konfigurierten Tool-Verzeichnis in HLA-LA/bin/HLA-LA.

Zusätzlich benötigt: PRG_MHC_GRCh38_withIMGT Referenzgraph (~2.3 GB) unter Referenzen → HLA-Referenz herunterladen.

Ausgabe: Datei <SampleID>_HLA_typing.txt mit HLA-Allelen im Standard-IMGT-Format (z. B. A*01:01, B*07:02). Laufzeit: 20–60 Minuten.

T1K T1K HLA KIR

T1K wird für zwei getrennte Genome-Analysen genutzt: HLA-Auswertung als zweite Evidenzschicht zu HLA*LA und KIR-Genotypisierung. HLA-Resultate werden mit HLA*LA verglichen; KIR bleibt ein eigener Ergebnisblock. Genome zeigt dabei technische Evidenz und Konkordanz, ohne HLA und KIR in eine Diagnose zu vermischen.

KILDA KILDA LPA KIV-2

KILDA liefert die LPA-Analyse für KIV-2/LPA-Kontext. Genome übernimmt Rohwerte und Tool-Grenzen sichtbar in den Bericht. Werte wie quantile=NA werden nicht geglättet, sondern als technische Information dokumentiert.

Aldy4 Aldy4 PGx Diplotypen

Aldy4 wird für Pharmakogenetik eingesetzt, insbesondere für komplexe PGx-Gene und Diplotypen. Genome verwendet Aldy4-Ausgaben nur im PGx-Bericht und trennt sie von HLA, KIR, LPA und Repeat-Analysen.

ExpansionHunter ExpansionHunter Repeat-Expansionen

ExpansionHunter analysiert Repeat-Expansionen an definierten Loci. Genome übernimmt Repeat-Records, Allelgrößen, Read-Evidenz und Konfidenzintervalle und hält SmallVariant-Ausgaben getrennt.

PharmCAT PharmCAT CPIC Java

Pharmakogenomik-Analyse-Tool von PharmGKB/Stanford. Analysiert pharmakogenomisch relevante Varianten und liefert CPIC-orientierte Hinweise. Eingabe: normalisierte VCF. Ausgabe: HTML- und JSON-Report. Wird als pharmcat.jar (~30 MB) in der Reference Library gespeichert.

GATK (optional) GATK HaplotypeCaller Java

Genome Analysis Toolkit von Broadinstitute, Gold-Standard für Varianten-Calling in der Humanmedizin. Algorithmus: HaplotypeCaller (lokale De-novo-Assemblierung) liefert in der Regel 10–15 % mehr Varianten als bcftools, besonders bei komplexen Regionen und Indels. Nachteil: 6–12 Stunden Rechenzeit für 30× WGS. GATK ist optional, bcftools wird standardmäßig verwendet und ist deutlich schneller. Wird als gatk.jar (~670 MB) in der Reference Library gespeichert.

Alle installieren

Installiert die von Genome verwalteten Tools auf einmal: Basiswerkzeuge (samtools, bcftools, bwa/bwa-mem2, fastp, FastQC, sambamba) plus Spezialwerkzeuge wie KILDA, Aldy4, ExpansionHunter, T1K und HLA*LA-Ressourcen, soweit sie im aktuellen Release verwaltet werden. Benötigt Internetverbindung. Homebrew wird zuerst installiert falls nötig. Fortschritt und Fehler erscheinen im Protokoll.

Erkennen

Prüft welche Tools bereits installiert sind und aktualisiert den Status-Indikator. Nützlich nach manueller Installation via Terminal. Führt 'which <tool>' und '<tool> --version' aus.

💡

Tools können auch manuell im Terminal installiert werden. Danach im Tools-Tab 'Erkennen' klicken, damit Genome Version, Pfad und Status aktualisiert. Für Spezialtools zählt der von Genome verwaltete Runtime-/Tool-Pfad; reine PATH-Funde ersetzen nicht automatisch fehlende Ressourcen wie HLA*LA-Graph, PGS Catalog-Dateien oder Microarray-Panels.

Beim Deinstallieren von Tools prüft die App den Exit-Code (brew/pip) bzw. den Dateilöscherfolg. Fehlgeschlagene Deinstallationen werden über den Fehlerbalken gemeldet und das Tool bleibt als installiert markiert.

📦 Referenzen

Referenzgenome und Microarray-Panels werden in der Reference Library verwaltet. Download und Verwaltung erfolgen direkt in der App.

Microarray-Panels

Panel-Übersicht

Panels sind Build-spezifisch: hg38-Panels für hg38/hs38-BAMs, hg19-Panels für hg19/hs37d5-BAMs. Enthalten SNP-Koordinaten gängiger Chip-Plattformen und dienen der SNP-Erfassung. Je nach Panel entstehen kompakte Exporte mit ungefähr 2 Mio. oder 25 Mio. SNPs. Dateiformate: .tab.gz (Tab-getrennt, schneller) oder .vcf.gz (VCF-Format). Ablage im Reference Library Verzeichnis.

Referenzgenome

hs38 (GRCh38 no-alt) Empfohlen

GRCh38 ohne alternative Contigs von NCBI (~832 MB komprimiert, ~3 GB entpackt). Standard im 1000 Genomes Project und WGS Extract. Empfohlen für Alignment und Extraktion, weniger Mapping-Artefakte als hg38 mit alt-Contigs. Lokal gespeichert als hs38.fa.gz → nach Download automatisch entpackt zu hs38.fa.

hs38d1 (GRCh38 + Decoys) Empfohlen für WGS

GRCh38 mit Decoy-Contigs von NCBI (~871 MB komprimiert, ~3,1 GB entpackt). Enthält alle Chromosomen plus künstliche Decoy-Sequenzen (hs38d1), die Reads abfangen, die keinem echten Chromosom entsprechen (z. B. virale, bakterielle oder repetitive Sequenzen). Vorteile gegenüber hs38: sauberere Alignments, weniger falsch-positive Varianten, leicht kleinere BAMs. Empfohlen für WGS-Alignment wenn bestmögliche Qualität gewünscht ist. Wird auch von WGS Extract verwendet.

GRCh38 / hg38

Aktuelles humanes Referenzgenom von UCSC (~983 MB komprimiert). Enthält Hauptassembly + Alternativsequenzen. Chromosomennamen mit 'chr'-Präfix (chr1, chrX, chrY, chrM). Für BAMs die bereits gegen hg38 ausgerichtet wurden.

GRCh37 / hg19

Älteres humanes Referenzgenom (~938 MB). Chromosomennamen ohne Präfix (1, X, Y, MT). Viele ältere WGS-Datensätze nutzen diesen Build. Microarray-Extraktion mit hg19-Panel empfohlen.

hs37d5 (1000 Genomes)

hg19-basiertes Genom mit Decoy-Contigs (~906 MB). Häufig bei kommerziellen WGS-Anbietern (Dante Labs, Nebula Genomics). Enthält 'hs37d5'-Contig für Reads die zu keinem echten Chromosom passen. Optimiert für Microarray-Extraktion kommerzieller WGS-Dateien.

HLA-Referenz

PRG_MHC_GRCh38_withIMGT GRCh38 IMGT/HLA ~2,3 GB

Populations-Referenzgraph für HLA*LA. Enthält vorgefertigte Graphstrukturen für den MHC-Bereich auf Basis von GRCh38 + IMGT/HLA-Alleldatenbank. Wird für die HLA-Typisierung im Analyse-Tab benötigt.

Größe: ~2,3 GB. Gespeichert unter <Tool-Verzeichnis>/HLA-LA_PRG/. Download von Zenodo. Ohne diesen Graph läuft die HLA-Typisierung nicht.

PGS Catalog-Dateien PGS Catalog Score SNP

PGS Catalog-Dateien beschreiben Score-Definitionen und Markerlisten für PGS-Score-Bestimmung. Genome legt sie in der Reference Library ab und dokumentiert im PDF-Bericht Score-Datei, verwendete Variantenbasis, fehlende Marker und Grenzen. PGS-Scores sind populations- und dateiabhängige Risikokontexte, keine Diagnose.

Nach dem Download werden Referenzgenome automatisch mit samtools faidx indexiert (.fai). Dieser Schritt dauert 2–5 Minuten und muss nur einmal pro Genom durchgeführt werden. Abbruch während des Downloads oder Indexierens kann zu korrupten Dateien führen, in diesem Fall Datei löschen und erneut herunterladen.

Beim Löschen von Referenzen oder Panels prüft die App den Löscherfolg. Kann eine Datei nicht entfernt werden (z. B. fehlende Berechtigungen), erscheint ein Fehlerbalken und das Element bleibt als installiert markiert.

Protokoll

Das Protokoll zeigt alle ausgeführten Befehle, Fortschritte und Fehler in Echtzeit.

Echtzeit-Ausgabe

Jeder ausgeführte Shell-Befehl wird mit seinem vollständigen Ausgabe-Text angezeigt. Farbcodierung: normaler Text = stdout, rote Einträge = stderr/Fehler. Fortschrittsbalken-Ausgaben werden als laufende Zeile aktualisiert.

Kopieren

Kopiert den gesamten sichtbaren Log-Inhalt in die Zwischenablage. Nützlich für Fehlerberichte oder Debugging. Der Inhalt enthält alle Zeitstempel und Befehle der aktuellen Session.

Anzeige leeren

Löscht die Log-Anzeige in der App (sichtbarer Bereich). Die physische Logdatei unter ~/Library/Application Support/Genome/logs/ bleibt vollständig erhalten.

Logdateien

Jede App-Session wird automatisch als Logdatei gespeichert: ~/Library/Application Support/Genome/logs/genome_YYYY-MM-DD_HHmmss.log. Die letzten 20 Sessions werden aufbewahrt, ältere automatisch gelöscht. Im Finder erreichbar über: Gehe zu → Bibliothek → Application Support → Genome → logs.

Debug-Logging

In Einstellungen → Debug-Logging aktivierbar. Zeigt zusätzlich interne Zustände, Parsing-Ergebnisse und Entscheidungslogik. Nur für Fehleranalyse empfohlen, verlangsamt die Anzeige bei intensiver Ausgabe.

Ausführungsverlauf

Verlauf der Analysen

Der Ausführungsverlauf protokolliert alle abgeschlossenen Analysen mit Typ, Datum, Dauer, Erfolg/Fehlschlag und vollständigem Log. Die letzten 100 Durchläufe werden in ~/Library/Application Support/Genome/run_history.json gespeichert.

Ausführungstypen

Erfasste Typen: Alignment, Extraktion, Microarray, Haplogruppe, LPA, Sonstige.

Einstellungen

Allgemeine App-Einstellungen und erweiterte Optionen im Entwicklermenü.

Darstellung & Sprache

Farbschema: System (folgt macOS), Hell oder Dunkel. Sprache: System (folgt macOS), Deutsch oder Englisch. Beide Einstellungen werden sofort angewendet und gespeichert.

Warnsound

Wenn aktiviert (Standard: ein), spielt die App einen Warnsound ab wenn ein laufender Prozess unerwartet verlangsamt. Hilft, Probleme wie I/O-Timeouts oder SSD-Schlafmodus zu erkennen, ohne den Bildschirm ständig zu beobachten.

Während der Verarbeitung wird automatisch der macOS-Schlafmodus verhindert (Idle-Sleep, Disk-Sleep und System-Sleep). Pipelines laufen unterbrechungsfrei, auch bei geschlossenem Deckel oder abgelaufenem Idle-Timer. Keine Konfiguration nötig.

Entwicklermenü

Entwicklermenü aktivieren

In den Einstellungen kann das Entwicklermenü aktiviert werden. Es zeigt erweiterte Optionen: Pipeline-Tool-Auswahl, Test-Datengenerator, Dock-Icon-Einstellungen und Debug-Logging. Die Akzentfarbe wechselt zu Blau als visueller Hinweis.

Pipeline-Tool-Auswahl bwa GATK sambamba

Auswahl der Pipeline-Komponenten: Aligner (bwa / minimap2), Sorter (samtools / sambamba), Markdup (samtools / sambamba / picard), Variant Caller (bcftools / GATK). GATK dauert 3–6× länger, findet aber 10–15 % mehr Varianten. Sambamba ist auf Multi-Core-Systemen bis zu 40 % schneller als samtools.

Test-Datengenerator

Erzeugt ein synthetisches Mini-Dataset (100 kb Referenz + 5.000 Read-Paare) für schnelle Funktionsprüfung. Die komplette Pipeline dauert damit Sekunden statt Stunden. Nützlich zum Testen aller Funktionen ohne echte WGS-Daten. Daten werden unter ~/GenomeTest/ gespeichert.

Dock-Icon

Das App-Icon im Dock und in der App-Übersicht kann unabhängig vom Systemdesign auf Hell, Dunkel oder Auto gestellt werden.

🩺 Fehlerbehebung

Häufige Probleme und ihre Lösungen. Bei anhaltenden Problemen das vollständige Protokoll (Kopieren-Button) für die Fehleranalyse verwenden.

Fehler: Keine Indexdatei

Problem: 'No index file found', Extraktion startet nicht. Lösung: samtools index <datei.bam> im Terminal ausführen. Für CRAM: samtools index <datei.cram>. Der Index (.bai/.crai) muss im selben Verzeichnis wie die BAM/CRAM-Datei liegen.

Fehler: Referenzgenom fehlt

Problem: 'Reference genome not found' oder CRAM lässt sich nicht öffnen. Lösung: Referenzen → passendes Referenzgenom herunterladen. Sicherstellen dass Reference Library auf das richtige Verzeichnis zeigt (Verzeichnisse → Reference Library). CRAM benötigt exakt dasselbe Genom gegen das aligniert wurde.

Fehler: Tool nicht gefunden

Problem: 'samtools not found' / 'bcftools not found' / 'bwa not found'. Lösung: Tools → Alle installieren. Falls Homebrew installiert ist aber Tool nicht: 'brew install samtools bcftools bwa' im Terminal ausführen, dann Tools → Erkennen klicken. PATH-Problem: /opt/homebrew/bin muss im PATH sein.

Fehler: BWA-Index fehlt

Problem: 'bwa index not found' beim FASTQ→BAM Alignment. Lösung: Der bwa-Index wird automatisch erstellt wenn er fehlt, das dauert 30–60 Minuten für ein 3 GB Genom. Alternativ manuell: 'bwa index /pfad/zum/referenz.fa'. Index-Dateien (.bwt, .amb, .ann, .pac, .sa) müssen im selben Verzeichnis wie das Referenzgenom liegen.

Warnung: Niedrige Coverage

Problem: Lesetiefe unter 10×, Extraktion eingeschränkt. Ursache: zu wenige Reads, schlechte Sequenzierungsqualität, oder WES (nicht WGS). Microarray-Extraktion ist ab ~5× möglich, aber viele SNPs werden als 'no call' ausgegeben. Y/MT-Analyse ab ~15× zuverlässig. Coverage mit 'samtools coverage <datei.bam>' prüfbar.

CRAM: falsches Referenzgenom

Problem: CRAM-Datei öffnet nicht oder liefert leere Ausgabe. Ursache: Das Referenzgenom in der Reference Library stimmt nicht exakt mit dem ursprünglichen Alignment-Genom überein. Lösung: Genaue MD5-Prüfsumme des Alignment-Genoms vom Anbieter erfragen. Für Dante Labs: hs37d5. Für Nebula: hg38.

Haplogrep 3 startet nicht

Problem: MT-Haplogruppe nicht berechenbar. Lösung: Tools → Haplogrep 3 installieren. Sicherstellen dass Reference Library gesetzt ist. Java muss installiert sein. Manuell prüfen: haplogrep3 --help.

HLA*LA: Fehler bei Installation oder Typisierung

Installation fehlgeschlagen: (1) Prüfen ob Xcode Command Line Tools installiert sind: 'xcode-select --install'. (2) make-Fehler im Protokoll prüfen, häufig fehlen Boost-Include-Pfade. (3) Erneut versuchen: Trash-Button → erneut installieren.

HLA*LA nicht gefunden nach Installation: 'Erkennen' klicken. Das Binary liegt unter <Tool-Verzeichnis>/HLA-LA/bin/HLA-LA.

Typisierung fehlgeschlagen / PRG fehlt: Referenzen → HLA-Referenz → PRG_MHC_GRCh38_withIMGT herunterladen (~2,3 GB).

Typisierung fehlgeschlagen / BAM-Fehler: Die BAM-Datei muss GRCh38-aligniert und indexiert sein (.bai). Y-only oder MT-only BAMs werden nicht unterstützt.

Keine Ausgabedateien

Problem: Extraktion läuft durch aber keine Dateien im Output-Verzeichnis. Mögliche Ursachen: (1) Output-Verzeichnis falsch gesetzt, Verzeichnisse prüfen. (2) Keine Schreibrechte im Output-Verzeichnis. (3) BAM enthält keine Reads für die gewählte Region (z. B. kein Y-Chromosom in weiblicher Probe). Protokoll auf Fehlermeldungen prüfen.

I/O-Timeout auf externer SSD

Problem: Pipeline bricht mit 'Operation timed out' oder 'bgzf_read' Fehler ab, besonders auf externen USB-SSDs. Ursache: Die SSD geht in den Ruhezustand oder die USB-Verbindung wird kurz unterbrochen. Lösung: Bei I/O-Timeouts erscheint ein Retry-Dialog. 'Wiederholen' versucht den Schritt erneut. SSD-Schlaf verhindern: Systemeinstellungen → Energie → 'Festplatten im Ruhezustand deaktivieren' ausschalten. Für lange Pipelines: interne SSD verwenden oder externe SSD direkt anschließen (kein Hub).

Prozess sehr langsam

Normale Zeiten: FASTQ→BAM 30× WGS ~2–4 Stunden, Microarray-Extraktion 30× WGS ~20–60 Minuten, Referenzgenom-Download ~5–30 Minuten. Beschleunigung: bwa-mem2 statt bwa installieren (3× schneller), sambamba für Markdup, SSD für Reference Library und Temp-Verzeichnis. Prozessor-Throttling bei Wärme prüfen: 'sudo powermetrics --samplers cpu_power -n 1' im Terminal.

💡

Bei unklaren Fehlern: Protokoll → Kopieren → vollständigen Log-Text in einen Texteditor einfügen. Der genaue Fehlerbefehl und die Fehlermeldung stehen immer direkt unter dem ausgeführten Befehl.

📖 Begriffe & Konzepte

Erklärung der wichtigsten bioinformatischen Fachbegriffe.

BAM / CRAM / SAM

Standardformate für ausgerichtete Sequenzierungsdaten. SAM (Sequence Alignment/Map): textbasiert, menschenlesbar. BAM: binäres, komprimiertes SAM (~25 % Größe). CRAM: noch stärker komprimiert (benötigt Referenzgenom zum Entpacken, ~60 % kleiner als BAM). Alle erfordern eine Indexdatei (.bai / .crai) für schnellen Zugriff auf bestimmte Genomregionen.

FASTQ

Rohformat für Sequenzierungs-Reads mit Qualitätswerten. Jeder Read besteht aus 4 Zeilen: Name, Sequenz, '+', Qualitätswerte (Phred-Score, kodiert als ASCII). Paired-End: R1 (Forward-Read) + R2 (Reverse-Read) in zwei Dateien. Typische Größen: 30× WGS ~100–150 GB pro Datei.

VCF

Variant Call Format, listet alle gefundenen Abweichungen vom Referenzgenom. Enthält: CHROM, POS, ID (rsID), REF (Referenzallel), ALT (Alternativallel), QUAL (Qualitätsscore), FILTER, INFO, FORMAT, Sample-Genotyp. Komprimiert als .vcf.gz mit Tabix-Index (.tbi) für schnellen Zugriff.

SNP / rsID / Indel

SNP (Single Nucleotide Polymorphism): einzelne Basenvariation (z. B. A→G). rsID: eindeutiger Bezeichner aus der NCBI dbSNP-Datenbank (z. B. rs1805007 = MC1R Rotgenvariante). Indel: Insertion oder Deletion von einer oder mehreren Basen. Microarray-Chips messen hauptsächlich bekannte SNPs.

Haplogruppe

Gruppe genetisch verwandter Individuen mit gemeinsamem Vorfahren. Y-Haplogruppen (väterliche Linie): A bis T (PhyloTree Y). MT-Haplogruppen (mütterliche Linie): A bis Z + Untergruppen (PhyloTree MT). Nomenklatur: R1b1a1a2a1a1 = R1b-L11 = Westeuropäischer Zweig. Tiefere Bezeichnungen = genauere Abstammung.

Coverage / Lesetiefe

Durchschnittliche Anzahl Reads die eine Position abdecken. WGS-Standardwerte: 30× (Standard, gut für alle Anwendungen), 15× (ausreichend für Microarray-Extraktion), <10× (niedrig, viele No-Calls). Mittels 'samtools coverage' oder 'samtools depth' berechenbar. Formel: Coverage = (Anzahl Reads × Readlänge) / Genomgröße.

Genomaufbau / Build

Version des Referenzgenoms: GRCh38/hg38 (aktuell seit 2013), GRCh37/hg19 (2009), hs37d5 (hg19+Decoys). Chromosomkoordinaten unterscheiden sich zwischen Builds, eine hg19-BAM kann nicht direkt mit einem hg38-Panel verwendet werden. Build wird automatisch aus dem BAM-Header gelesen.

Ts/Tv-Ratio

Verhältnis von Transitionen (Purin→Purin: A↔G, oder Pyrimidin→Pyrimidin: C↔T) zu Transversionen (Purin↔Pyrimidin: A/G↔C/T). Erwartungswert WGS: 2,0–2,1. WES: 2,5–3,0 (Exom enthält mehr CpG-Stellen). Abweichungen deuten auf Sequenzierungsprobleme oder Alignment-Fehler hin.

Phred-Score / Qualitätswert

Logarithmischer Fehlerwahrscheinlichkeitswert pro Base: Q20 = 1 % Fehler, Q30 = 0,1 % Fehler, Q40 = 0,01 % Fehler. Illumina-Standard: ≥Q30 für ≥80 % aller Basen. Im FASTQ-Format als ASCII kodiert (Offset 33). Fastp/FastQC zeigen Verteilung der Qualitätswerte.

PCR-Duplikate

Reads mit identischer Start- und Endposition, entstehen durch PCR-Amplifikation vor der Sequenzierung. Verfälschen Variantenruf und Coverage-Statistiken. Werden durch samtools markdup oder sambamba identifiziert und markiert (nicht gelöscht). Duplikat-Rate >30 % deutet auf Bibliotheksprobleme hin.

Decoy-Contigs hs38d1 hs37d5

Künstliche DNA-Sequenzen die dem Referenzgenom hinzugefügt werden, um 'verwaiste' Reads aufzufangen. Sequenzierungsdaten enthalten Reads aus Viren, Bakterien, repetitiven Elementen oder Kontaminationen. Ohne Decoys werden diese Reads fälschlicherweise auf echte Chromosomen gemappt und erzeugen falsch-positive Varianten. Mit Decoys (z. B. hs38d1) werden sie korrekt auf die Decoy-Sequenz ausgerichtet und stören die Analyse nicht. Ergebnis: sauberere BAMs, weniger Rauschen, leicht weniger Multi-Mapping.

Supplementäre vs. Sekundäre Alignments

Wenn ein Read an mehreren Stellen im Genom alignt (Split-Read/chimäres Alignment), gibt es zwei Markierungsarten:

• Supplementary (FLAG 2048): Das kürzere Alignment-Fragment ist supplementär zum primären. Moderner Standard, von allen aktuellen Tools unterstützt.

• Secondary (FLAG 256): Das kürzere Fragment wird als sekundäres Alignment markiert (bwa -M Flag). Nötig für ältere Tools. Sekundäre Reads enthalten mehr Daten pro Eintrag und erzeugen leicht größere BAM-Dateien.

In der Genome-App einstellbar unter Konvertierung → Split-Reads.

CNV

Copy Number Variation, Abweichung von der normalen diploiden Kopienzahl (2) einer Genomregion. Deletionen (0–1 Kopien) und Duplikationen (3+ Kopien) betreffen teils ganze Gene. Beispiele: LPA/KIV-2 CNV für Lipoprotein(a)-Kontext und CYP2D6 CNV für Pharmakogenetik.

Strang-Konvention (Plus/Minus)

DNA ist doppelsträngig, jede Base hat ein Komplement (A↔T, C↔G). Genotypisierungsplattformen können den Plus-Strang (Forward) oder den Minus-Strang (Reverse) als Referenz verwenden. Dadurch kann derselbe SNP als 'A' (Plus-Strang) oder 'T' (Minus-Strang) angegeben werden. Beim Vergleich von Daten aus verschiedenen Quellen (z. B. 23andMe vs. WGS-Extraktion) müssen die Strang-Konventionen berücksichtigt werden. Besonders A/T- und C/G-SNPs sind mehrdeutig, da Plus- und Minus-Strang nicht unterscheidbar sind.

Liftover

Konvertierung genomischer Koordinaten zwischen verschiedenen Referenzgenom-Versionen (z. B. hg19 → hg38). Notwendig wenn Daten aus unterschiedlichen Builds verglichen werden sollen. Die gleiche Variante hat in hg19 und hg38 unterschiedliche Positionsangaben, da sich die Referenzsequenz zwischen den Versionen geändert hat (Lücken geschlossen, Contigs verschoben). Tools: UCSC LiftOver, CrossMap, Picard LiftoverVcf.

? FAQ

Häufig gestellte Fragen.

WGS vs. WES, was ist der Unterschied?

WGS (Whole Genome Sequencing): gesamtes Genom (~3,2 Mrd. Basen). Alle Bereiche abgedeckt. WES (Whole Exome Sequencing): nur kodierende Regionen (~1 % des Genoms). Für Microarray-Extraktion ist WGS bevorzugt, WES liefert kaum nicht-kodierende SNPs. Genome erkennt automatisch ob WGS oder WES geladen ist.

Welches Referenzgenom soll ich nehmen?

hs38d1 (GRCh38 + Decoys): beste Qualität für eigenes WGS-Alignment, Decoy-Contigs fangen Rauschen ab. hs38 (GRCh38 no-alt): gute Alternative ohne Decoys, Standard bei WGS Extract. hg38: wenn BAM bereits gegen hg38 ausgerichtet. hs37d5: wenn BAM von Dante Labs, Genome Quebec oder ähnlichem Anbieter. hg19: wenn BAM von älteren Sequenzierungslabors. Den Build der BAM-Datei erkennt die App automatisch.

Kann ich die Extraktion bei 23andMe hochladen?

Nein, 23andMe akzeptiert keine externen Dateien. Die extrahierten Dateien im 23andMe-Format eignen sich für andere Plattformen die dieses Format lesen: GEDmatch, MyHeritage DNA, FamilyTreeDNA (als rohe Datei), DNA.Land, Gedmatch Genesis, Promethease, SelfDecode.

Welches Format für GEDmatch?

CombinedKit (enthält alle gerufenen SNPs) ist für GEDmatch am besten geeignet, maximale Abdeckung. Alternativ: 23andMe v3 oder v5 (weniger SNPs aber breiter unterstützt). Für GEDmatch Genesis: CombinedKit oder AncestryDNA v2 empfohlen.

Werden Daten in die Cloud hochgeladen? Datenschutz

Nein. Genome arbeitet vollständig lokal. Kein Datenaustausch mit externen Servern. Einzige Netzwerkaktivität: Download von Referenzgenomen (UCSC/NCBI), Tool-Installation via Homebrew, und Haplogrep-Download von GitHub, alles explizit durch den Nutzer angestoßen.

Wie lange dauert die Extraktion?

Richtwerte für 30× WGS auf Apple Silicon: Microarray-Extraktion ~20–40 Min, Y VCF ~5–10 Min, MT VCF ~2–5 Min, FASTQ→BAM ~24–48 Stunden (M4 näher an 24 h, M1 eher Richtung 48 h). Auf älteren Intel-Macs: deutlich länger, nicht empfohlen. Hauptfaktoren: Coverage, Dateigröße, SSD-Geschwindigkeit, verfügbare CPU-Kerne.

BAM hat keine Chromosomennamen im Header

Manche BAM-Dateien haben einen unvollständigen Header. Die App erkennt dann Build und Chromosomennamen nicht automatisch. Lösung: BAM-Header mit samtools view -H <datei.bam> prüfen. Falls @SQ-Zeilen fehlen: 'samtools reheader' mit korrektem Header ausführen oder das Tool 'samtools addreplacerg' verwenden.

Warum unterscheiden sich Genotypen zwischen Plattformen? Wichtig

Beim Vergleich von Genotypisierungsdaten aus unterschiedlichen Quellen (z. B. 23andMe vs. WGS-Extraktion) treten systembedingte Unterschiede auf, die keine echten biologischen Abweichungen darstellen:

1. Genomische Positionen: Verschiedene Referenzgenom-Versionen (hg19 vs. hg38) verwenden unterschiedliche Koordinatensysteme. Die gleiche Variante hat dadurch unterschiedliche Positionsangaben. Ein Liftover-Tool kann diese ineinander überführen.

2. Allel-Reihenfolge: Heterozygote Genotypen können in beliebiger Reihenfolge geschrieben werden (AG oder GA). Das ist rein kosmetisch, biologisch identisch.

3. Strang-Konvention: Je nach Plattform wird der Plus- oder Minus-Strang als Referenz verwendet. Dadurch erscheinen Komplementär-Basen (A↔T, C↔G), obwohl der gleiche Genotyp gemeint ist.

4. Echte Calling-Unterschiede: Verschiedene Technologien (SNP-Array vs. WGS) und deren Algorithmen können bei einzelnen Varianten zu abweichenden Calls führen.

Fazit: Über 99,7 % der Genotypen stimmen inhaltlich überein. Die sichtbaren Unterschiede sind fast ausschließlich auf Referenzgenom, Strang-Konvention und Allel-Notation zurückzuführen.

Was braucht yFull?

yFull akzeptiert: Y+MT BAM (bevorzugt, Build hg38/hs38 empfohlen) oder Y VCF. Männliche Probe erforderlich. BAM-Datei muss indexiert sein. Genome erstellt die benötigten Dateien unter Extraktion → Y+MT BAM und Extraktion → Y VCF. Hochladen direkt auf yfull.com.

Weitere Ressourcen

Diese Hilfe ist auch direkt in der App verfügbar. Für Rückmeldungen oder Fragen zur Anwendung schreib an info@pjlabs.dev.