Information

Ist mein RNA-seq-Experimentaldesign korrekt, um es für SNP-Calling zu verwenden?


Ich bin ein Neuling hier und würde Ihren Rat zu einem bestimmten experimentellen Design sehr schätzen.

Wir haben Daten aus dem RNAseq-Experiment, das ursprünglich entwickelt wurde, um die differentielle Expression zu bewerten. Die Details des Experiments sind wie folgt:

2 Modalitäten des Phänotyps

Jeder Phänotyp wird durch 4 Proben repräsentiert. 1 Probe = 60 Individuen, die im Stadium der RNA-Isolierung zusammengepoolt wurden.

Molekül - polyadenylierte mRNA

Sequenzierungschemie - Illumina Paired-End, Leselänge - 2*100 bp

Meine Frage ist, ob es richtig ist, diese RNAseq-Daten zum Aufrufen von SNPs zu verwenden? Ich habe eine vorherige Suche durchgeführt und festgestellt, dass die meisten Leute, die SNP von RNAseq aufrufen, 40-1000 Proben (= Individuen) verwenden. Aber sie entwarfen zunächst das RNAseq-Experiment für weitere GWAS. Ich sehe, dass diese Analyse nicht auf meine Daten angewendet werden kann (zumindest weil in meinem Fall einzelne Fliegen ohne Barcode gepoolt wurden - 60 Fliegen pro Probe). Kann ich jedoch trotzdem SNPs anfordern und die Liste als Liste potenzieller Ziele für GWAS in die Datenbank hochladen, zum Beispiel mit der Einschätzung der funktionellen Auswirkungen auf die Proteinstruktur? Werden es „echte“ SNPs sein oder macht unser experimentelles Design selbst diesen Schritt ungültig?

Ich fand dieses Papier https://www.ncbi.nlm.nih.gov/pubmed/27458203, in dem die Leute 2 Phänotypen verwendet haben, von denen jeder durch 2 Proben repräsentiert wird, was fast unserem Experiment ähnelt, aber immer noch Zweifel haben.


Die Verwendung von RNAseq für die SNP-Analyse ist aus mehreren Gründen nicht das beste verfügbare Werkzeug. Erstens finden Sie SNP nur in Genen, die exprimiert werden (in Ihrem Experiment benötigen Sie mehr als 120 Reads pro SNP). Zweitens findet man SNP nur in kodierenden Regionen der Gene. Für Ihr spezielles Experiment, bei dem Sie einen Pool von 60 Individuen pro Probe haben, ist dies ein weiterer Nachteil, da Sie 120 Allele in Ihrer Probe haben (ohne die Allelkombinationen der Individuen zu kennen).

Natürlich können Sie immer noch versuchen, SNPs zu finden, die in Ihren Phänotypen vorhanden sind, aber eine echte GWAS-Analyse ist meiner Meinung nach nicht möglich.


ScSNV: genaue dscRNA-seq SNV-Co-Expressionsanalyse unter Verwendung von Duplicate Tag Collapse

Die Identifizierung einzelner Nukleotidvarianten ist für Tröpfchen-basierte Einzelzell-RNA-seq-Experimente gängige Praxis geworden, jedoch existiert derzeit keine Pipeline, um die Genauigkeit des Variantenaufrufs zu maximieren. Darüber hinaus wurden in diesen Experimenten erzeugte molekulare Duplikate nicht verwendet, um eine Varianten-Coexpression optimal nachzuweisen. Hier stellen wir scSNV vor, das von Grund auf entwickelt wurde, um molekulare Duplikate zu „kollabieren“ und Varianten und deren Co-Expression genau zu identifizieren. Wir zeigen, dass scSNV schnell ist, mit einer reduzierten Rate falsch-positiver Variantenaufrufe und die gemeinsame Erkennung von genetischen Varianten und A>G-RNA-Editierungen in 22 Proben ermöglicht.


Design ist ein grundlegender Schritt eines bestimmten RNA-Seq-Experiments. Einige wichtige Fragen wie Sequenzierungstiefe/-abdeckung oder wie viele biologische oder technische Replikate müssen sorgfältig geprüft werden. Designprüfung. [5]

  • RICHTIG : PROspektive Leistungsbewertung für RNAseq.
  • RNAtor Android-Anwendung zur Berechnung optimaler Parameter für beliebte Tools und Kits, die für DNA-Sequenzierungsprojekte verfügbar sind.
  • Scotty : ein Web-Tool zum Entwerfen von RNA-Seq-Experimenten zur Messung der differentiellen Genexpression.
  • ssizeRNA Berechnung der Probengröße für experimentelles RNA-Seq-Design.

Die Qualitätsbewertung von Rohdaten [6] ist der erste Schritt der Bioinformatik-Pipeline von RNA-Seq. Oftmals ist es notwendig, Daten zu filtern, minderwertige Sequenzen oder Basen (Trimming), Adapter, Verunreinigungen, überrepräsentierte Sequenzen zu entfernen oder Fehler zu korrigieren, um ein kohärentes Endergebnis zu gewährleisten.

Qualitätskontrolle Bearbeiten

  • NachQC - Automatisches Filtern, Trimmen, Entfernen von Fehlern und Qualitätskontrolle für fastq-Daten.
  • dupRadar[7] Ein R-Paket, das Funktionen zum Plotten und Analysieren der Duplikationsraten in Abhängigkeit von den Expressionsniveaus bereitstellt.
  • FastQC ist ein Qualitätskontrolltool für Hochdurchsatz-Sequenzdaten (Babraham Institute) und wird in Java entwickelt. Der Import von Daten ist aus FastQ-Dateien, BAM- oder SAM-Format möglich. Dieses Tool bietet einen Überblick, um über Problembereiche zu informieren, zusammenfassende Grafiken und Tabellen zur schnellen Auswertung von Daten. Die Ergebnisse werden in HTML-Dauerberichten präsentiert. FastQC kann als eigenständige Anwendung ausgeführt oder in eine größere Pipeline-Lösung integriert werden.
  • schnellqp Einfache FASTQ-Qualitätsbewertung mit Python.
  • Krake: [8] Eine Reihe von Werkzeugen für die Qualitätskontrolle und Analyse von Sequenzdaten mit hohem Durchsatz.
  • HTSeq . [9] Das Python-Skript htseq-qa nimmt eine Datei mit sequentiellen Lesevorgängen (entweder rohe oder ausgerichtete Lesevorgänge) und erzeugt eine PDF-Datei mit nützlichen Plots, um die technische Qualität eines Durchlaufs zu beurteilen.
  • mRIN[10] - Bewertung der mRNA-Integrität direkt aus RNA-Seq-Daten.
  • MultiQC[11] - Aggregieren und visualisieren Sie Ergebnisse aus zahlreichen Tools (FastQC, HTSeq, RSeQC, Tophat, STAR, andere...) über alle Proben in einem einzigen Bericht.
  • NGSQC: plattformübergreifende Qualitätsanalysepipeline für Deep-Sequencing-Daten.
  • NGS QC-Toolkit Ein Toolkit für die Qualitätskontrolle (QC) von Next Generation Sequencing (NGS)-Daten. Das Toolkit umfasst benutzerfreundliche Standalone-Tools zur Qualitätskontrolle der Sequenzdaten, die mit den Plattformen Illumina und Roche 454 generiert wurden, mit detaillierten Ergebnissen in Form von Tabellen und Grafiken sowie zum Filtern hochwertiger Sequenzdaten. Es enthält auch einige andere Tools, die bei der Kontrolle und Analyse der NGS-Datenqualität hilfreich sind.
  • PRINSEQ ist ein Tool, das zusammenfassende Statistiken von Sequenz- und Qualitätsdaten generiert und zum Filtern, Neuformatieren und Trimmen von Sequenzdaten der nächsten Generation verwendet wird. Es ist speziell für 454/Roche-Daten ausgelegt, kann aber auch für andere Arten von Sequenzen verwendet werden.
  • QC-Kette ist ein Paket von Qualitätskontrollwerkzeugen für Next Generation Sequencing (NGS)-Daten, das sowohl aus der Bewertung der Rohlesequalität als auch aus einem De-novo-Kontaminationsscreening besteht, das alle möglichen Kontaminationssequenzen identifizieren könnte.
  • QC3 ein Qualitätskontrolltool für DNA-Sequenzierungsdaten für Rohdaten, Alignment und Variantenaufruf.
  • qrqc Scannt schnell Lesevorgänge und sammelt Statistiken zu Basis- und Qualitätshäufigkeiten, Leselänge und häufigen Sequenzen. Erzeugt eine grafische Ausgabe von Statistiken zur Verwendung in Qualitätskontroll-Pipelines und einen optionalen HTML-Qualitätsbericht. S4 SequenceSummary-Objekte ermöglichen es, spezifische Tests und Funktionen um die gesammelten Daten herum zu schreiben.
  • RNA-SeQC[12] ist ein Werkzeug mit Anwendung in Experimentdesign, Prozessoptimierung und Qualitätskontrolle vor der computergestützten Analyse. Bietet im Wesentlichen drei Arten der Qualitätskontrolle: Read Counts (wie Duplicate Reads, Mapped Reads und Mapped Unique Reads, rRNA Reads, Transkriptannotierte Reads, Strangspezifität), Coverage (wie mittlere Coverage, mittlerer Variationskoeffizient, 5'/ 3'-Abdeckung, Abdeckungslücken, GC-Bias) und Expressionskorrelation (das Tool bietet eine RPKM-basierte Schätzung der Expressionsniveaus). RNA-SeQC ist in Java implementiert und muss nicht installiert werden, kann jedoch mit dem GenMuster Web-Schnittstelle. Die Eingabe kann eine oder mehrere BAM-Dateien sein. Als Ausgabe werden HTML-Berichte generiert.
  • RSeQC[13] analysiert verschiedene Aspekte von RNA-Seq-Experimenten: Sequenzqualität, Sequenzierungstiefe, Strangspezifität, GC-Bias, Read-Verteilung über die Genomstruktur und Coverage-Uniformität. Die Eingabe kann eine SAM-, BAM-, FASTA-, BED-Datei oder eine Chromosomengröße-Datei (zweispaltige, reine Textdatei) sein. Die Visualisierung kann durch Genombrowser wie UCSC, IGB und IGV erfolgen. R-Skripte können jedoch auch zur Visualisierung verwendet werden.
  • SAMStat[14] identifiziert Probleme und berichtet über mehrere Statistiken zu verschiedenen Phasen des Prozesses. Dieses Tool wertet nicht kartierte, schlecht und genau kartierte Sequenzen unabhängig aus, um mögliche Ursachen für eine schlechte Kartierung abzuleiten.
  • SolexaQA berechnet Statistiken zur Sequenzqualität und erstellt visuelle Darstellungen der Datenqualität für Sequenzierungsdaten der zweiten Generation. Ursprünglich für das Illumina-System (historisch bekannt als „Solexa“) entwickelt, unterstützt SolexaQA jetzt auch Ion Torrent und 454-Daten.
  • Trimmen in Hülle und Fülle ist ein Wrapper-Skript zum Automatisieren von Qualitäts- und Adaptertrimming sowie Qualitätskontrolle, mit einigen zusätzlichen Funktionen zum Entfernen verzerrter Methylierungspositionen für RRBS-Sequenzdateien (für gerichtete, ungerichtete (oder Paired-End-)Sequenzierung).

Verbesserung der Qualität Bearbeiten

Die Verbesserung der RNA-Seq-Qualität, die Korrektur des Bias ist ein komplexes Thema. [15] [16] Jedes RNA-Seq-Protokoll führt eine bestimmte Art von Verzerrung ein, jeder Schritt des Prozesses (wie die verwendete Sequenzierungstechnologie) ist anfällig für Rauschen oder Fehler. Darüber hinaus können sogar die untersuchten Arten und der biologische Kontext der Proben die Ergebnisse beeinflussen und eine Art Verzerrung bewirken. Viele Quellen für Verzerrungen wurden bereits berichtet – GC-Gehalt und PCR-Anreicherung, [17] [18] rRNA-Depletion, [19] Fehler während der Sequenzierung, [20] Priming der reversen Transkription durch zufällige Hexamere. [21]

Es wurden verschiedene Tools entwickelt, um zu versuchen, jeden der erkannten Fehler zu beheben.

Trimmen und Entfernen von Adaptern Bearbeiten

  • BBDuk Multithread-Tool zum Trimmen von Adaptern und Filtern oder Maskieren von Verunreinigungen basierend auf kmer-Matching, das eine Hamming- oder Edit-Distanz ermöglicht, sowie degenerierte Basen. Führt auch optimales Qualitätstrimmen und Filtern, Formatkonvertierung, Schadstoffkonzentrationsbericht, gc-Filterung, Längenfilterung, Entropiefilterung, Keuschheitsfilterung durch und generiert Texthistogramme für die meisten Operationen. Konvertiert zwischen fastq, fasta, sam, scarf, interleaved und 2-file paired, gzipped, bzipped, ASCII-33 und ASCII-64. Hält Paare zusammen. Open-Source, geschrieben in reinem Java, unterstützt alle Plattformen ohne Neukompilierung und ohne andere Abhängigkeiten.
  • clean_reads reinigt NGS (Sanger, 454, Illumina und solid) liest. Es kann Regionen mit schlechter Qualität, Adapter, Vektoren und reguläre Ausdrücke trimmen. Es filtert auch die Reads heraus, die ein Mindestqualitätskriterium nicht erfüllen, basierend auf der Sequenzlänge und der mittleren Qualität.
  • condetri[22] ist eine Methode zum inhaltsabhängigen Lesetrimmen für Illumina-Daten unter Verwendung von Qualitätswerten jeder Basis einzeln. Es ist unabhängig von der Sequenzierungsabdeckung und der Benutzerinteraktion. Der Hauptfokus der Implementierung liegt auf der Benutzerfreundlichkeit und der Integration von Read Trimming in Next-Generation-Sequencing-Datenverarbeitungs- und Analysepipelines. Es kann Single-End- und Paired-End-Sequenzierungsdaten beliebiger Länge verarbeiten.
  • Schnittanpassung[23] entfernt Adaptersequenzen aus Sequenzierungsdaten der nächsten Generation (Illumina, SOLiD und 454). Es wird insbesondere dann verwendet, wenn die Leselänge der Sequenziermaschine länger ist als das sequenzierte Molekül, wie im Fall der microRNA.
  • Dekonseq Erkennen und entfernen Sie Kontaminationen aus Sequenzdaten.
  • Erne-Filter[24] ist ein kurzes String-Alignment-Paket, dessen Ziel es ist, einen allumfassenden Satz von Werkzeugen bereitzustellen, um kurze (NGS-ähnliche) Lesevorgänge zu handhaben. ERNE umfasst ERNE-FILTER (Read Trimming und Continamination Filtering), ERNE-MAP (Core Alignment Tool/Algorithmus), ERNE-BS5 (Bisulfit behandelte Reads Aligner) und ERNE-PMAP/ERNE-PBS5 (verteilte Versionen der Aligner).
  • FastqMcf Fastq-mcf versucht: Sequenzierungsadapter und Primer zu erkennen und zu entfernen Begrenzte Verzerrungen an den Enden von Reads und Clips zu erkennen Schlechte Qualität an den Enden von Reads und Clips zu erkennen Ns zu erkennen und von den Enden zu entfernen Reads mit CASAVA 'Y' Flag (Reinheit) zu entfernen Filtern) Verwerfen Sie Sequenzen, die nach all den oben genannten Schritten zu kurz sind. Halten Sie mehrere Mate-Reads synchron, während Sie alle oben genannten Schritte ausführen.
  • FASTX Toolkit ist eine Reihe von Befehlszeilentools zum Bearbeiten von Lesevorgängen in Dateien im FASTA- oder FASTQ-Format. Diese Befehle ermöglichen eine Vorverarbeitung der Dateien vor dem Mapping mit Tools wie Bowtie. Einige der erlaubten Aufgaben sind: Konvertierung vom FASTQ- in das FASTA-Format, Informationen über Qualitätsstatistiken, Entfernen von Sequenzierungsadaptern, Filtern und Schneiden von Sequenzen basierend auf Qualität oder Konvertierung von DNA/RNA.
  • Flexbar führt das Entfernen von Adaptersequenzen, Trimmen und Filterfunktionen durch.
  • FreClu verbessert die Gesamtausrichtungsgenauigkeit durch Ausführen einer Sequenzierungsfehlerkorrektur durch Trimmen kurzer Lesevorgänge, basierend auf einer Clustering-Methodik.
  • htSeqTools ist ein Bioleiter-Paket, das Qualitätskontrolle, Datenverarbeitung und Visualisierung ermöglicht. htSeqTools macht es möglich, Probenkorrelationen zu visualisieren, Überverstärkungsartefakte zu entfernen, die Anreicherungseffizienz zu bewerten, Strang-Bias zu korrigieren und Treffer zu visualisieren.
  • NxTrim Adaptertrimmung und Routine zur Erstellung virtueller Bibliotheken für Illumina Nextera Mate Pair-Bibliotheken.
  • PRINSEQ[25] generiert Statistiken Ihrer Sequenzdaten für Sequenzlänge, GC-Inhalt, Qualitätsscores, n-Plicates, Komplexität, Tag-Sequenzen, Poly-A/T-Tails, Odds Ratios. Daten filtern, Sequenzen neu formatieren und trimmen.
  • Säbel Ein Tool zum Demultiplexen und Trimmen von Barcodes für FastQ-Dateien.
  • Sense Ein 3'-Ende-Adapter für Schmutzfänger.
  • SEECER ist ein Sequenzierungsfehlerkorrekturalgorithmus für RNA-seq-Datensätze. Es nimmt die rohen Lesesequenzen, die von einer Sequenzierungsplattform der nächsten Generation wie Maschinen von Illumina oder Roche produziert werden. SEECER entfernt Mismatch- und Indel-Fehler aus den Rohlesevorgängen und verbessert die nachgelagerte Analyse der Daten erheblich. Insbesondere wenn die RNA-Seq-Daten verwendet werden, um eine De-novo-Transkriptom-Assemblierung zu erzeugen, kann die Ausführung von SEECER einen enormen Einfluss auf die Qualität der Assemblierung haben.
  • Sichel Ein adaptives Trimmen-Tool mit Fenster für FASTQ-Dateien mit Qualität.
  • Schneeweiß[26] ist eine Pipeline, die entwickelt wurde, um Sequenz-Reads (gDNA oder cDNA) vor dem Zusammenbau flexibel und aggressiv zu reinigen. Es nimmt fastq- oder fasta-formatierte Sequenzdateien auf und gibt sie zurück.
  • Kurzes Lesen ist ein Paket, das in den Umgebungen R (Programmiersprache) / BioConductor bereitgestellt wird und die Eingabe, Manipulation, Qualitätsbewertung und Ausgabe von Sequenzierungsdaten der nächsten Generation ermöglicht. Dieses Tool ermöglicht die Manipulation von Daten, z. B. Filterlösungen zum Entfernen von Lesevorgängen basierend auf vordefinierten Kriterien. ShortRead könnte mit mehreren Bioconductor-Paketen zu weiteren Analyse- und Visualisierungslösungen (BioStrings, BSgenome, IRanges usw.) ergänzt werden.
  • SortMeRNA ist ein Programmwerkzeug zum Filtern, Mapping und OTU-Picking von NGS-Reads in metatranskriptomischen und metagenomischen Daten. Der Kernalgorithmus basiert auf ungefähren Seeds und ermöglicht die Analyse von Nukleotidsequenzen. Die Hauptanwendung von SortMeRNA ist das Filtern ribosomaler RNA aus metatranskriptomischen Daten.
  • TagCleaner Das Tool TagCleaner kann verwendet werden, um Tag-Sequenzen (z. B. WTA-Tags) aus genomischen und metagenomischen Datensätzen automatisch zu erkennen und effizient zu entfernen. Es ist leicht konfigurierbar und bietet eine benutzerfreundliche Oberfläche.
  • Trimmomatik[27] führt Trimmen für Illumina-Plattformen durch und arbeitet mit FASTQ-Lesevorgängen (single oder pair-ended). Einige der ausgeführten Aufgaben sind: Schneiden von Adaptern, Schneiden von Basen in optionalen Positionen basierend auf Qualitätsschwellen, Schneiden von Lesevorgängen auf eine bestimmte Länge, Konvertieren von Qualitätswerten in Phred-33/64.
  • fastp Ein Tool, das entwickelt wurde, um eine All-in-One-Vorverarbeitung für FastQ-Dateien bereitzustellen. Dieses Tool wurde in C++ entwickelt und unterstützt Multithreading.
  • FASTX-Toolkit Das FASTX-Toolkit ist eine Sammlung von Kommandozeilen-Tools für die Vorverarbeitung von Short-Reads FASTA/FASTQ-Dateien.

Erkennung chimärer Reads Bearbeiten

Neuere Sequenzierungstechnologien erfordern normalerweise die Amplifikation von DNA-Proben mittels Polymerase-Kettenreaktion (PCR). Die Amplifikation erzeugt oft chimäre Elemente (insbesondere ribosomalen Ursprungs) – Sequenzen, die aus zwei oder mehr miteinander verbundenen Originalsequenzen gebildet werden.

  • UCHIME ist ein Algorithmus zum Erfassen chimärer Sequenzen.
  • ChimeraSlayerist ein Dienstprogramm zur Erkennung chimärer Sequenzen, das mit Sanger-Sequenzen fast voller Länge und kürzeren 454-FLX-Sequenzen kompatibel ist (

Fehlerkorrektur Bearbeiten

Charakterisierung von Sequenzierungsfehlern mit hohem Durchsatz und deren eventuelle Korrektur. [28]

  • Akazie Fehlerkorrektur für pyrosequenzierte Amplikon-Reads.
  • AllePfadeLG fehler Korrektur.
  • AmpliconNoise[29] AmpliconNoise ist eine Sammlung von Programmen zur Entfernung von Rauschen aus 454 sequenzierten PCR-Amplikons. Es umfasst zwei Schritte, die Entfernung von Rauschen aus der Sequenzierung selbst und die Entfernung von PCR-Punktfehlern. Dieses Projekt umfasst auch den Perseus-Algorithmus zur Entfernung von Chimären.
  • BayesHammer. Bayessches Clustering zur Fehlerkorrektur. Dieser Algorithmus basiert auf Hamming-Graphen und Bayesian Subclustering. BAYES HAMMER wurde zwar für die Einzelzellsequenzierung entwickelt, verbessert aber auch bestehende Fehlerkorrekturtools für Massensequenzierungsdaten.
  • Segnen[30] Eine Bloom-Filter-basierte Fehlerkorrekturlösung für Hochdurchsatz-Sequenzierungslesevorgänge.
  • Blau[31] Blue ist ein Short-Read-Fehlerkorrekturwerkzeug, das auf k-mer-Konsens und -Kontext basiert.
  • bf Ein Sequenzierungsfehlerkorrektor, der für Illumina-Short-Reads entwickelt wurde. Es verwendet einen nicht gierigen Algorithmus mit einer Geschwindigkeit, die mit Implementierungen vergleichbar ist, die auf gierigen Methoden basieren.
  • Denoiser Denoiser wurde entwickelt, um Probleme mit dem Rauschen in Pyrosequenzierungsdaten zu beheben. Denoiser ist eine heuristische Variante von PyroNoise. Entwickler von Denoiser berichten über eine gute Übereinstimmung mit PyroNoise bei mehreren Testdatensätzen.
  • Echo Ein referenzfreier Short-Read-Fehlerkorrekturalgorithmus.
  • Feuerzeug. Eine Sequenzierungsfehlerkorrektur ohne zu zählen.
  • LSC LSC verwendet kurze Illumina-Lesevorgänge, um Fehler bei langen Lesevorgängen zu korrigieren.
  • Karect Karect: genaue Korrektur von Substitutions-, Insertions- und Deletionsfehlern für Sequenzierungsdaten der nächsten Generation.
  • Knoten NoDe: ein Fehlerkorrekturalgorithmus für die Pyrosequenzierung von Amplikon-Reads.
  • PyroTagger PyroTagger: Eine schnelle, genaue Pipeline zur Analyse von rRNA-Amplikon-Pyrosequenzdaten.
  • Beben ist ein Werkzeug zum Korrigieren von Substitutionssequenzierungsfehlern in Experimenten mit hoher Abdeckung für Illumina-Sequenzierungslesevorgänge.
  • Quorum: Eine Fehlerkorrektur für Illumina-Reads.
  • Rkorrektor. Fehlerkorrektur für Illumina RNA-seq-Reads.
  • Reptil ist eine in C++ entwickelte Software zum Korrigieren von Sequenzierungsfehlern in kurzen Lesevorgängen von Sequenzierungsplattformen der nächsten Generation.
  • Seeker Sequenzfehlerkorrektur für Rna-Lesevorgänge.
  • SGA.
  • SOAP denovo.
  • UNOISE.

Verzerrungskorrektur Bearbeiten

  • alpin[32] Modellierung und Korrektur von Fragmentsequenz-Bias für RNA-seq.
  • cqn[33] ist ein Normalisierungswerkzeug für RNA-Seq-Daten, das die bedingte Quantil-Normalisierungsmethode implementiert.
  • EDASeq[34] ist ein Bioconductor-Paket zur Durchführung der GC-Content-Normalisierung für RNA-Seq-Daten.
  • GeneSchere Ein umfassender Ansatz zum Erkennen und Korrigieren von falschen Transkriptom-Inferenzen aufgrund von RNAseq liest Fehlausrichtungen.
  • Peer[35] ist eine Sammlung von Bayes'schen Ansätzen, um versteckte Determinanten und ihre Auswirkungen aus Genexpressionsprofilen unter Verwendung von Faktorenanalysemethoden abzuleiten.Anwendungen von PEER haben: a) Batch-Effekte und experimentelle Störfaktoren erkannt, b) die Zahl der Expressions-QTL-Befunde um das Dreifache erhöht, c) den Rückschluss auf intermediäre zelluläre Merkmale, wie Transkriptionsfaktor- oder Signalwegaktivierungen, ermöglicht.
  • RUV[36] ist ein R-Paket, das die Methoden zum Entfernen unerwünschter Variationen (RUV) von Risso et al. implementiert. (2014) für die Normalisierung von RNA-Seq Read Counts zwischen Proben.
  • svaErsatzvariablenanalyse.
  • svaseq Entfernen von Stapeleffekten und anderem unerwünschten Rauschen aus Sequenzierungsdaten.
  • SysCall[37] ist ein Klassifikatorwerkzeug zur Identifizierung und Korrektur systematischer Fehler in Hochdurchsatz-Sequenzdaten.

Sonstige Aufgaben/Vorverarbeitung von Daten Bearbeiten

Weitere Aufgaben vor dem Alignment, nämlich Paired-Read-Merger.

  • AuPairWise Eine Methode zur Schätzung der RNA-Seq-Replizierbarkeit durch Co-Expression.
  • BamHash ist eine auf Prüfsummen basierende Methode, um sicherzustellen, dass die Lesepaare in FASTQ-Dateien unabhängig von der Reihenfolge der Lesevorgänge genau mit den in BAM-Dateien gespeicherten Lesepaaren übereinstimmen. BamHash kann verwendet werden, um die Integrität der gespeicherten Dateien zu überprüfen und Abweichungen aufzudecken. Somit kann BamHash verwendet werden, um zu bestimmen, ob es sicher ist, die FASTQ-Dateien, in denen Rohsequenz-Lesevorgänge gespeichert sind, nach dem Alignment ohne Datenverlust zu löschen.
  • BBMerge Führt gepaarte Lesevorgänge basierend auf Überlappung zusammen, um längere Lesevorgänge und ein Histogramm in Einfügegröße zu erstellen. Schnell, multithreaded und liefert extrem wenige Fehlalarme. Open-Source, geschrieben in reinem Java, unterstützt alle Plattformen ohne Neukompilierung und ohne andere Abhängigkeiten. Verteilt mit BBMap.
  • Biostücke sind eine Sammlung von Bioinformatik-Tools, die sich sehr einfach und flexibel zusammensetzen lassen, um sowohl einfache als auch komplexe Aufgaben zu erfüllen. Die Biopieces arbeiten so an einem Datenstrom, dass der Datenstrom durch mehrere verschiedene Biopieces geleitet werden kann, von denen jedes eine bestimmte Aufgabe erfüllt: Ändern oder Hinzufügen von Datensätzen zum Datenstrom, Erstellen von Diagrammen oder Hochladen von Daten in Datenbanken und Webdienste.
  • BEWÄLTIGEN[38] COPE: ein genaues k-mer-basiertes Pair-End-Reads-Verbindungswerkzeug zur Vereinfachung der Genommontage.
  • DekonRNASeq ist ein R-Paket zur Dekonvolution heterogener Gewebe basierend auf mRNA-Seq-Daten.
  • FastQ-Bildschirm durchsucht Sequenzen im FASTQ-Format mit einer Reihe von Datenbanken, um zu bestätigen, dass die Sequenzen das enthalten, was erwartet wird (z. B. Artengehalt, Adapter, Vektoren usw.).
  • BLITZ ist ein Read-Pre-Processing-Tool. FLASH kombiniert Paired-End-Reads, die sich überlappen, und wandelt sie in einzelne lange Reads um.
  • IDCheck
  • ORNA und ORNA Q/K Ein Werkzeug zur Reduzierung der Redundanz in RNA-Seq-Daten, das den Rechenressourcenbedarf eines Assemblers reduziert
  • PANDASeq.ist ein Programm zum Alignment von Illumina-Reads, optional mit in die Sequenz eingebetteten PCR-Primern, und zum Rekonstruieren einer überlappenden Sequenz.
  • BIRNE[39] PEAR: Illumina Paired-End reAd MergeR.
  • qRNASeq-Skript Das qRNAseq-Tool kann verwendet werden, um PCR-Duplikate aus RNA-Seq-Daten genau zu eliminieren, wenn während der Bibliotheksvorbereitung Molecular Indexes™ oder andere stochastische Markierungen verwendet wurden.
  • SHERA[40] ein fehlerreduzierender Aligner für Kurzlesefehler.
  • XORRO Rapid Paired-End Read Overlapper.

Nach der Qualitätskontrolle umfasst der erste Schritt der RNA-Seq-Analyse den Abgleich der sequenzierten Reads mit einem Referenzgenom (sofern verfügbar) oder einer Transkriptom-Datenbank. Siehe auch Liste der Sequenz-Alignment-Software.

Kurze (nicht gespleißte) Aligner Bearbeiten

Kurze Aligner sind in der Lage, kontinuierliche Lesevorgänge (die keine Lücken aufgrund des Spleißens enthalten) an einem Referenzgenom auszurichten. Grundsätzlich gibt es zwei Arten: 1) basierend auf dem Burrows-Wheeler-Transformationsverfahren wie Bowtie und BWA und 2) basierend auf Seed-extend-Verfahren, Needleman-Wunsch- oder Smith-Waterman-Algorithmen. Die erste Gruppe (Bowtie und BWA) ist um ein Vielfaches schneller, einige Tools der zweiten Gruppe sind jedoch tendenziell empfindlicher und erzeugen korrekter ausgerichtete Lesevorgänge.

  • BFAST richtet kurze Lesevorgänge an Referenzsequenzen aus und weist eine besondere Empfindlichkeit gegenüber Fehlern, SNPs, Insertionen und Deletionen auf. BFAST arbeitet mit dem Smith-Waterman-Algorithmus. Siehe auch seqanwers/BFAST.
  • Krawatte ist ein kurzer Aligner, der einen Algorithmus verwendet, der auf der Burrows-Wheeler-Transformation und dem FM-Index basiert. Bowtie toleriert eine kleine Anzahl von Abweichungen.
  • Fliege2 Bowtie 2 ist ein speichereffizientes Werkzeug zum Ausrichten von Sequenzlesevorgängen an langen Referenzsequenzen. Es wird besonders für das Alignment von Reads von etwa 50 bis 100 oder 1.000 Zeichen empfohlen und ist besonders gut für das Alignment an relativ langen (z. B. Säugetier-) Genomen. Bowtie 2 indiziert das Genom mit einem FM-Index, um seinen Speicherbedarf gering zu halten: Für das menschliche Genom beträgt sein Speicherbedarf typischerweise etwa 3,2 GB. Bowtie 2 unterstützt die Ausrichtungsmodi Gapped, Local und Paired-End.
  • Burrows-Wheeler-Aligner (BWA) BWA ist ein Softwarepaket zur Kartierung gering divergenter Sequenzen gegen ein großes Referenzgenom, wie zum Beispiel das menschliche Genom. Es besteht aus drei Algorithmen: BWA-Backtrack, BWA-SW und BWA-MEM. Der erste Algorithmus ist für Illumina-Sequenz-Reads von bis zu 100 bp ausgelegt, während die anderen beiden für längere Sequenzen von 70 bp bis 1 Mbp reichen. BWA-MEM und BWA-SW haben ähnliche Funktionen wie Long-Read-Unterstützung und Split-Alignment, aber BWA-MEM, die neueste Version, wird im Allgemeinen für qualitativ hochwertige Abfragen empfohlen, da sie schneller und genauer ist. BWA-MEM hat auch eine bessere Leistung als BWA-Backtrack für 70-100bp Illumina-Reads.
  • Kurzes Oligonukleotid-Analysepaket (SOAP)
  • GNUMAP führt die Ausrichtung unter Verwendung eines probabilistischen Needleman-Wunsch-Algorithmus durch. Dieses Tool ist in der Lage, die Ausrichtung in sich wiederholenden Regionen eines Genoms zu handhaben, ohne Informationen zu verlieren. Die Ausgabe des Programms wurde entwickelt, um eine einfache Visualisierung mit verfügbarer Software zu ermöglichen.
  • Maq richtet Reads zuerst an Referenzsequenzen aus und führt anschließend eine Konsensusphase durch. Auf der ersten Stufe wird nur die Ausrichtung ohne Gap durchgeführt und bis zu 3 Fehlanpassungen toleriert.
  • Mosaik Mosaik ist in der Lage, Lesevorgänge mit kurzen Lücken mit dem Smith-Waterman-Algorithmus auszurichten, ideal, um SNPs, Einfügungen und Deletionen zu überwinden.
  • NovoAlign (kommerziell) ist ein kurzer Aligner zur Illumina-Plattform basierend auf dem Needleman-Wunsch-Algorithmus. Es ist in der Lage, mit Bisulfit-Daten umzugehen. Ausgabe im SAM-Format.
  • Dauerwelle ist ein Softwarepaket, das entwickelt wurde, um hocheffiziente Ausrichtungen auf der Genomskala für Hunderte von Millionen von kurzen Lesevorgängen durchzuführen, die von den Sequenzierungsplattformen ABI SOLiD und Illumina erzeugt werden. PerM bietet volle Sensitivität für Alignments innerhalb von 4 Mismatches für 50bp SOLID Reads und 9 Mismatches für 100bp Illumina Reads.
  • RazerS
  • SIEGEL verwendet ein MapReduce-Modell, um verteiltes Computing auf Computerclustern zu erzeugen. Seal verwendet BWA für die Ausrichtung und Picard MarkDuplicates für die Erkennung und Entfernung von Duplikaten.
  • segemehl
  • SeqMap
  • Garnele verwendet zwei Techniken, um kurze Lesevorgänge auszurichten. Erstens identifiziert die q-Gramm-Filtertechnik basierend auf mehreren Seeds Kandidatenregionen. Zweitens werden diese Regionen mit dem Smith-Waterman-Algorithmus im Detail untersucht.
  • SMALT
  • Stampy kombiniert die Sensitivität von Hash-Tabellen und die Geschwindigkeit von BWA. Stampy ist für das Alignment von Reads vorbereitet, die Sequenzvariationen wie Insertionen und Deletionen enthalten. Es kann Lesevorgänge bis zu 4500 Basen verarbeiten und präsentiert die Ausgabe im SAM-Format.
  • Unterlesen[41] ist ein Read-Aligner. Es verwendet das Seed-and-Vote-Mapping-Paradigma, um den Mapping-Speicherort des Lesevorgangs zu bestimmen, indem seine größte kartierbare Region verwendet wird. Es entscheidet automatisch, ob der Lesevorgang global oder lokal abgebildet werden soll. Für RNA-seq-Daten sollte Subread zum Zwecke der Expressionsanalyse verwendet werden. Subread kann auch verwendet werden, um DNA-Seq-Reads abzubilden.
  • ZOOM (kommerziell) ist ein kurzer Aligner der Illumina/Solexa 1G-Plattform. ZOOM verwendet erweiterte Spaced-Seeds-Methoden zum Erstellen von Hash-Tabellen für die Lesevorgänge und toleriert Nichtübereinstimmungen sowie Einfügungen und Löschungen.
  • WHAM WHAM ist ein Sequenz-Alignment-Tool mit hohem Durchsatz, das an der University of Wisconsin-Madison entwickelt wurde. Es ordnet kurze DNA-Sequenzen (Reads) mit einer Rate von über 1500 Millionen 60-Bit/s-Reads pro Stunde an das gesamte menschliche Genom an, was ein bis zwei Größenordnungen schneller ist als die führenden hochmodernen Techniken.

Gespleißte Aligner Bearbeiten

Viele Reads erstrecken sich über Exon-Exon-Junctions und können nicht direkt von Short-Alignern ausgerichtet werden, daher waren spezielle Aligner erforderlich - gespleißte Aligner. Einige gespleißte Aligner verwenden kurze Aligner, um zuerst ungespleißte/kontinuierliche Reads (Exon-First-Ansatz) auszurichten und danach eine andere Strategie zu verfolgen, um den Rest mit gespleißten Regionen auszurichten - normalerweise werden die Reads in kleinere Segmente aufgeteilt und unabhängig zugeordnet. Siehe auch. [42] [43]

Aligner basierend auf bekannten Spleißverbindungen (annotationsgeführte Aligner) Bearbeiten

In diesem Fall basiert die Erkennung von Spleißverbindungen auf Daten, die in Datenbanken über bekannte Verbindungen verfügbar sind. Diese Art von Werkzeugen kann keine neuen Spleißverbindungen identifizieren. Einige dieser Daten stammen von anderen Expressionsmethoden wie Expressions-Sequenz-Tags (EST).

  • Erange ist ein Werkzeug zum Alignment und zur Datenquantifizierung an Säugetiertranskriptomen.
  • IsoformEx
  • KarteAL
  • OSA
  • RNA-MATE ist eine Rechenpipeline zum Abgleich von Daten aus dem SOLID-System von Applied Biosystems. Bietet die Möglichkeit zur Qualitätskontrolle und zum Trimmen von Lesevorgängen. Die Genom-Alignments werden unter Verwendung von Kartenlesen und die Spleißverbindungen werden basierend auf einer Bibliothek bekannter Exon-Junction-Sequenzen identifiziert. Dieses Tool ermöglicht die Visualisierung von Ausrichtungen und Tag-Zählung.
  • RUM führt das Alignment basierend auf einer Pipeline durch und ist in der Lage, Lesevorgänge mit Spleißverbindungen mithilfe von Bowtie und Blat zu manipulieren. Das Flussdiagramm beginnt mit dem Abgleich mit einer Genom- und einer Transkriptom-Datenbank, die von Bowtie ausgeführt wird. Der nächste Schritt besteht darin, unter Verwendung von BLAT ein Alignment von nicht kartierten Sequenzen mit dem Referenzgenom durchzuführen. Im letzten Schritt werden alle Ausrichtungen zusammengeführt, um die endgültige Ausrichtung zu erhalten. Die Eingabedateien können im FASTA- oder FASTQ-Format vorliegen. Die Ausgabe erfolgt im RUM- und SAM-Format.
  • RNASEQR.
  • SAMMate
  • SpleißSeq
  • X-Mate

De novo Spleiß-Aligner Bearbeiten

De-novo-Splice-Aligner ermöglichen die Erkennung neuer Splice-Verbindungen, ohne dass vorherige annotierte Informationen erforderlich sind (einige dieser Tools bieten eine Anmerkung als zusätzliche Option).

  • ABMapper
  • BBMap Verwendet kurze kmer, um Reads direkt auf das Genom (das Introns umspannt, um neue Isoformen zu finden) oder Transkriptom auszurichten. Sehr tolerant gegenüber Substitutionsfehlern und Indels und sehr schnell. Unterstützt die Ausgabe aller SAM-Tags, die von Manschettenknöpfen benötigt werden. Keine Begrenzung der Genomgröße oder der Anzahl von Spleißen pro Read. Unterstützt Illumina, 454, Sanger, Ion Torrent, PacBio und Oxford Nanopore Reads, gepaart oder einzeln. Verwendet keine Heuristiken zum Auffinden von Spleißstellen, die für einen einzelnen taxonomischen Zweig optimiert sind, sondern findet stattdessen optimal bewertete globale Alignments mit Multi-Affin-Transformation und ist daher ideal zum Studium neuer Organismen ohne Annotation und unbekannter Spleißmotive. Open-Source, geschrieben in reinem Java, unterstützt alle Plattformen ohne Neukompilierung und ohne andere Abhängigkeiten.
  • Kontextkarte wurde entwickelt, um einige Einschränkungen anderer Mapping-Ansätze zu überwinden, wie z. B. die Auflösung von Mehrdeutigkeiten. Die zentrale Idee dieses Tools besteht darin, Reads im Kontext der Genexpression zu berücksichtigen und auf diese Weise die Ausrichtungsgenauigkeit zu verbessern. ContextMap kann als eigenständiges Programm verwendet und von Mappern unterstützt werden, die eine SAM-Datei in der Ausgabe erzeugen (z. B.: TopHat oder MapSplice). Im Standalone-Modus werden Lesevorgänge an einem Genom, an einer Transkriptom-Datenbank oder an beiden ausgerichtet.
  • CRAC schlagen einen neuartigen Weg zur Analyse von Reads vor, der genomische Positionen und lokale Abdeckung integriert und Kandidatenmutationen, Indels, Spleiß- oder Fusionsverbindungen in jedem einzelnen Read erkennt. Wichtig ist, dass CRAC seine Vorhersageleistung verbessert, wenn es z. 200 nt liest und sollte zukünftigen Anforderungen von Leseanalysen entsprechen.
  • GSNAP
  • GMAP Ein genomisches Kartierungs- und Ausrichtungsprogramm für mRNA- und EST-Sequenzen.
  • HISAT HISAT ist ein gespleißtes Alignment-Programm zum Kartieren von RNA-Seq-Reads. Zusätzlich zu einem globalen FM-Index, der ein ganzes Genom repräsentiert, verwendet HISAT einen großen Satz kleiner FM-Indizes, die kollektiv das gesamte Genom abdecken (jeder Index repräsentiert eine genomische Region von

48.000 Indizes werden benötigt, um das menschliche Genom abzudecken). Diese kleinen Indizes (lokale Indizes genannt) in Kombination mit mehreren Ausrichtungsstrategien ermöglichen ein effektives Ausrichten von RNA-Seq-Reads, insbesondere von Reads, die mehrere Exons umfassen. Der Speicherbedarf von HISAT ist relativ gering (

De-novo-Splice-Aligner, die optional auch Annotationen verwenden Bearbeiten
  • KarteWeiter
  • OLego
  • STERN ist ein Tool, das "sequentielle Maximum-Mapping-Seed-Suche in unkomprimierten Suffix-Arrays gefolgt von Seed-Clustering- und Stitching-Verfahren" verwendet, um kanonische, nicht-kanonische Spleißverbindungen und chimäre Fusionssequenzen zu erkennen. Es ist bereits für die Ausrichtung langer Lesevorgänge (Sequenzierungstechnologien der dritten Generation) angepasst und kann Geschwindigkeiten von 45 Millionen gepaarten Lesevorgängen pro Stunde und Prozessor erreichen. [46]
  • Subjunc[41] ist eine spezialisierte Version von Subread. Es verwendet alle kartierbaren Regionen in einem RNA-Seq-Read, um Exons und Exon-Exon-Verbindungen zu entdecken. Es verwendet die Donor/Rezeptor-Signale, um die genauen Spleißstellen zu finden. Subjunc liefert vollständige Alignments für jeden RNA-Seq-Read, einschließlich Exon-übergreifender Reads, zusätzlich zu den entdeckten Exon-Exon-Junctions. Subjunc sollte zum Nachweis von Junctions und genomischen Variationen in RNA-Seq-Daten verwendet werden.
  • TopHat[47] ist bereit, De-novo-Kreuzungen zu finden. TopHat richtet Lesevorgänge in zwei Schritten aus. Erstens werden nicht gespleißte Lesevorgänge mit Bowtie ausgerichtet. Danach werden die ausgerichteten Reads mit den resultierenden Sequenzinseln aus Maq zusammengesetzt. Zweitens werden die Spleißverbindungen basierend auf den anfänglich nicht kartierten Reads und den möglichen kanonischen Donor- und Akzeptorstellen innerhalb der Inselsequenzen bestimmt.
Andere gespleißte Aligner Bearbeiten

Evaluierung von Ausrichtungswerkzeugen Bearbeiten

  • AlignerBoost ist ein generalisiertes Software-Toolkit zur Steigerung der Next-Gen-Sequenzierungs-Mapping-Präzision unter Verwendung eines Bayes-basierten Mapping-Qualitätsrahmens.
  • CADBURE Bioinformatik-Tool zur Bewertung der Aligner-Leistung Ihres RNA-Seq-Datensatzes.
  • QualiMap : Auswertung von Sequenzierungs-Alignment-Daten der nächsten Generation.
  • RNAseqEVAL Eine Sammlung von Tools zur Bewertung des RNA-Seq-Mappings.
  • Teaser: Individualisiertes Benchmarking und Optimierung der Read-Mapping-Ergebnisse für NGS-Daten.

Allgemeine Werkzeuge Bearbeiten

Diese Tools führen eine Normalisierung durch und berechnen die Häufigkeit jedes in einer Probe exprimierten Gens. [48] ​​RPKM, FPKM und TPMs [49] sind einige der Einheiten, die zur Quantifizierung der Expression verwendet werden. Einige Software wurde auch entwickelt, um die Variabilität der genetischen Expression zwischen Proben zu untersuchen (differentielle Expression). Quantitative und differenzielle Studien werden weitgehend von der Qualität der Leseausrichtung und der Genauigkeit der Isoformenrekonstruktion bestimmt. Es liegen mehrere Studien vor, die differentielle Expressionsverfahren vergleichen. [50] [51] [52]

  • ABSSeq eine neue RNA-Seq-Analysemethode, die auf der Modellierung absoluter Expressionsunterschiede basiert.
  • ALDEx2 ist ein Werkzeug zur vergleichenden Analyse von Hochdurchsatz-Sequenzierungsdaten. ALDEx2 verwendet eine Analyse der Zusammensetzungsdaten und kann auf RNAseq, 16S rRNA-Gensequenzierung, metagenomische Sequenzierung und selektive Wachstumsexperimente angewendet werden.
  • Alexa-Seq ist eine Pipeline, die es ermöglicht, eine Genexpressionsanalyse, eine transkriptspezifische Expressionsanalyse, eine Exon-Junction-Expression und eine quantitative alternative Analyse durchzuführen. Ermöglicht eine breite alternative Ausdrucksvisualisierung, Statistiken und Grafiken.
  • ARH-seq – Identifizierung von differentiellem Spleißen in RNA-Seq-Daten.
  • ASC[53]
  • Ballkleid
  • BaySeq ist ein Bioconductor-Paket zur Identifizierung differentieller Expression unter Verwendung von Sequenzierungsdaten der nächsten Generation über empirische Bayes-Methoden. Es besteht die Möglichkeit, das Paket „snow“ zur Parallelisierung der Computerdatenverarbeitung zu verwenden, das bei großen Datensätzen zu empfehlen ist.
  • GMNB[54] ist eine Bayessche Methode zur zeitlichen Genexpressionsanalyse über verschiedene Phänotypen oder Behandlungsbedingungen, die auf natürliche Weise die Heterogenität der Sequenzierungstiefe in verschiedenen Proben handhabt und die Notwendigkeit einer Ad-hoc-Normalisierung überflüssig macht.
  • BBSeq
  • BitSeq (Bayesian Inference of Transcripts from Sequencing Data) ist eine Anwendung zum Ableiten von Expressionsniveaus einzelner Transkripte aus Sequenzierungsdaten (RNA-Seq) und zum Schätzen der differentiellen Expression (DE) zwischen Bedingungen.
  • CEDER Präziser Nachweis von unterschiedlich exprimierten Genen durch Kombination der Signifikanz von Exons mit RNA-Seq.
  • CPTRA Das CPTRA-Paket dient zur Analyse von Transkriptom-Sequenzierungsdaten von verschiedenen Sequenzierungsplattformen. Es kombiniert die Vorteile von 454, Illumina GAII oder anderen Plattformen und kann Sequenz-Tag-Alignment und Annotation sowie Expressionsquantifizierungsaufgaben durchführen.
  • Kasper ist ein Bioconductor-Paket zur Quantifizierung der Expression auf Isoformebene. Es kombiniert die Verwendung informativer Datenzusammenfassungen, flexibler Schätzung experimenteller Verzerrungen und statistischer Präzisionsüberlegungen, die (angeblich) eine erhebliche Reduzierung des Schätzfehlers ermöglichen.
  • Manschettenknöpfe/Manschettenknöpfe ist geeignet, global zu messen de novo Transkript-Isoform-Expression. Es führt den Zusammenbau von Transkripten durch, schätzt die Häufigkeiten und bestimmt die differentielle Expression (Cuffdiff) und die Regulation in RNA-Seq-Proben. [55]
  • DESeq ist ein Bioconductor-Paket zur Durchführung von differentiellen Genexpressionsanalysen basierend auf negativer Binomialverteilung.
  • DEGSeq
  • Derfinder Annotations-agnostische differentielle Expressionsanalyse von RNA-seq-Daten bei Basenpaar-Auflösung über den DER Finder-Ansatz.
  • DEvis ist eine leistungsstarke, integrierte Lösung für die Analyse von differentiellen Expressionsdaten. Mit DESeq2 als Framework bietet DEvis eine Vielzahl von Werkzeugen für Datenmanipulation, Visualisierung und Projektmanagement.
  • DEXSeq ist ein Bioconductor-Paket, das basierend auf der RNA-Seq-Exon-Zählung zwischen den Proben die unterschiedliche unterschiedliche Exon-Nutzung findet. DEXSeq verwendet eine negative Binomialverteilung und bietet Optionen zur Visualisierung und Untersuchung der Ergebnisse.
  • DEXUS ist ein Bioconductor-Paket, das differenziell exprimierte Gene in RNA-Seq-Daten unter allen möglichen Studiendesigns wie Studien ohne Replikate, ohne Probengruppen und mit unbekannten Bedingungen identifiziert. [56] Im Gegensatz zu anderen Methoden benötigt DEXUS keine Replikate, um differentiell exprimierte Transkripte nachzuweisen, da die Replikate (oder Bedingungen) für jedes Transkript durch die EM-Methode geschätzt werden.
  • DGEclust ist ein Python-Paket zum Clustern von Expressionsdaten aus RNA-seq, CAGE und anderen NGS-Assays unter Verwendung eines hierarchischen Dirichlet-Prozessmischungsmodells. Die geschätzten Clusterkonfigurationen können nachbearbeitet werden, um unterschiedlich exprimierte Gene zu identifizieren und gen- und probenweise Dendrogramme und Heatmaps zu erstellen. [57]
  • DiffSplice ist eine Methode zur Detektion und Visualisierung differentieller Expressionen, die nicht von Gen-Annotationen abhängig ist. Diese Methode wird bei der Identifizierung von alternativen Spleißmodulen (ASMs) unterstützt, die in den verschiedenen Isoformen divergieren.Ein nicht-parametrischer Test wird auf jedes ASM angewendet, um signifikante differentielle Transkriptionen mit einer gemessenen Rate falscher Entdeckungen zu identifizieren.
  • EBSeq ist ein Bioconductor-Paket zur Identifizierung von Genen und Isoformen, die differenziell exprimiert (DE) über zwei oder mehr biologische Bedingungen in einem RNA-Seq-Experiment hinweg exprimiert werden. Es kann auch verwendet werden, um DE-Contigs zu identifizieren, nachdem die De-novo-Transkriptom-Assemblierung durchgeführt wurde. Bei der Durchführung von DE-Analysen an Isoformen oder Contigs weisen verschiedene Isoformen/Contig-Gruppen unterschiedliche Schätzungsunsicherheiten auf. EBSeq modelliert die unterschiedlichen Unsicherheiten unter Verwendung eines empirischen Bayes-Modells mit unterschiedlichen Priors.
  • KanteR ist ein R-Paket zur Analyse der differentiellen Expression von Daten aus DNA-Sequenzierungsmethoden, wie RNA-Seq-, SAGE- oder ChIP-Seq-Daten. edgeR verwendet statistische Methoden, die auf negativer Binomialverteilung als Modell für die Zählvariabilität unterstützt werden.
  • EdgeRun ein R-Paket für die sensitive, funktionell relevante Differenzial-Expression-Erkennung unter Verwendung eines unbedingten exakten Tests.
  • EQP Die Exon-Quantifizierungspipeline (EQP): ein umfassender Ansatz zur Quantifizierung der Gen-, Exon- und Junction-Expression aus RNA-Seq-Daten.
  • ESAT Das End Sequence Analysis Toolkit (ESAT) wurde speziell für die Quantifizierung der Annotation von spezialisierten RNA-Seq-Genbibliotheken entwickelt, die auf das 5'- oder 3'-Ende von Transkripten abzielen.
  • ausdrücken Die Leistung umfasst RNA-Seq-Quantifizierung auf Transkriptebene, Allel-spezifische und Haplotyp-Analyse und kann die Transkripthäufigkeit der mehreren in einem Gen vorhandenen Isoformen abschätzen. Obwohl eXpress direkt mit Alignern (wie Bowtie) gekoppelt werden kann, kann es auch mit De-novo-Assemblern verwendet werden und benötigt daher kein Referenzgenom, um das Alignment durchzuführen. Es läuft auf Linux, Mac und Windows.
  • ERANGE führt Ausrichtung, Normalisierung und Quantifizierung der exprimierten Gene durch.
  • FeatureCounts ein effizienter Allzweck-Lesequantifizierer.
  • FDM
  • FineSplice Verbesserte Erkennung und Schätzung von Spleißstellen aus RNA-Seq-Daten.
  • GFOLD[58] Verallgemeinerte Faltungsänderung für die Rangfolge von differentiell exprimierten Genen aus RNA-seq-Daten.
  • globalSeq[59] Globaler Test für Counts: Testen auf Assoziation zwischen RNA-Seq und hochdimensionalen Daten.
  • GPSeq Dies ist ein Softwaretool zur Analyse von RNA-seq-Daten, um die Gen- und Exon-Expression abzuschätzen, differenziell exprimierte Gene und differenziell gespleißte Exons zu identifizieren.
  • IsoDOT – Differentielle RNA-Isoform-Expression.
  • Limma Limma unterstützt differenzielle Expressionsanalysen für RNA-Sequenzierung und Microarray-Studien.
  • LPEseq Testen Sie die differentielle Expression mit einer begrenzten Anzahl von Replikaten genau.
  • Kallisto „Kallisto ist ein Programm zur Quantifizierung der Häufigkeiten von Transkripten aus RNA-Seq-Daten oder allgemeiner von Zielsequenzen unter Verwendung von Hochdurchsatz-Sequenzierungs-Reads. Es basiert auf der neuartigen Idee des Pseudoalignments zur schnellen Bestimmung der Kompatibilität von Reads mit Zielen, ohne die Bei Benchmarks mit Standard-RNA-Seq-Daten kann kallisto 30 Millionen menschliche Reads in weniger als 3 Minuten auf einem Mac-Desktop-Computer quantifizieren.
  • MATTEN Multivariate Analyse von Transcript Splicing (MATS).
  • MAPTest bietet einen allgemeinen Testrahmen für die differentielle Expressionsanalyse von RNA-Seq-Zeitverlaufsexperimenten. Die Methode der Packung basiert auf dem latent negativ-binomialen Gaußschen Mischungsmodell. Der vorgeschlagene Test ist hinsichtlich der maximalen Durchschnittsleistung optimal. Der Test ermöglicht nicht nur die Identifizierung traditioneller DE-Gene, sondern auch das Testen einer Vielzahl von zusammengesetzten Hypothesen von biologischem Interesse. [60]
  • MetaDiff Differenzielle Isoform-Expressionsanalyse mit Random-Effects-Meta-Regression.
  • metaseqR ist ein Bioconductor-Paket, das differenziell exprimierte Gene aus RNA-Seq-Daten erkennt, indem es sechs statistische Algorithmen kombiniert, die anhand ihrer Leistung geschätzte Gewichte mit simulierten Daten verwenden, die aus realen Daten geschätzt werden, entweder öffentlich oder benutzerbasiert. Auf diese Weise optimiert metaseqR den Kompromiss zwischen Präzision und Sensitivität. [61] Darüber hinaus erstellt metaseqR einen detaillierten und interaktiven Bericht mit einer Vielzahl von Diagnose- und Explorationsdiagrammen und automatisch generiertem Text.
  • MMSEQ ist eine Pipeline zur Schätzung der Isoform-Expression und des allelischen Ungleichgewichts in diploiden Organismen basierend auf RNA-Seq. Die Pipeline verwendet Tools wie Bowtie, TopHat, ArrayExpressHTS und SAMtools. Außerdem edgeR oder DESeq, um einen Differenzialausdruck auszuführen.
  • MultiDE
  • Myrna ist ein Pipeline-Tool, das in einer Cloud-Umgebung ausgeführt wird (Elastic MapReduce) oder in einem einzigartigen Computer zur Schätzung der differentiellen Genexpression in RNA-Seq-Datensätzen. Bowtie wird für Short-Read-Alignment und R-Algorithmen für Intervallberechnungen, Normalisierung und statistische Verarbeitung verwendet.
  • NEUMA ist ein Werkzeug zur Schätzung der RNA-Häufigkeit durch Längennormalisierung, basierend auf einzigartig ausgerichteten Reads und mRNA-Isoformmodellen. NEUMA verwendet bekannte Transkriptomdaten, die in Datenbanken wie RefSeq verfügbar sind.
  • NOISeq NOISeq ist ein nicht-parametrischer Ansatz zur Identifizierung unterschiedlich exprimierter Gene aus Zähldaten oder zuvor normalisierten Zähldaten. NOISeq modelliert empirisch die Rauschverteilung von Zähländerungen durch Gegenüberstellen von Faltungsunterschieden (M) und absoluten Ausdrucksunterschieden (D) für alle Merkmale in Proben innerhalb derselben Bedingung.
  • NPEBseq ist eine nichtparametrische empirische Bayesian-basierte Methode zur Differentialausdrucksanalyse.
  • NSMAP ermöglicht Rückschlüsse auf Isoformen sowie die Schätzung von Expressionsniveaus, ohne annotierte Informationen. Die Exons werden ausgerichtet und Spleißverbindungen werden mit TopHat identifiziert. Alle möglichen Isoformen werden durch eine Kombination der nachgewiesenen Exons berechnet.
  • NURD eine Implementierung einer neuen Methode zur Schätzung der Isoform-Expression aus uneinheitlichen RNA-Seq-Daten.
  • PANDORA Ein R-Paket für die Analyse und Ergebnisberichterstattung von RNA-Seq-Daten durch Kombination mehrerer statistischer Algorithmen.
  • PennSeq PennSeq: genaue isoformspezifische Quantifizierung der Genexpression in RNA-Seq durch Modellierung einer ungleichmäßigen Read-Verteilung.
  • Quark Quark ermöglicht die semi-referenzbasierte Komprimierung von RNA-Seq-Daten.
  • QuasR Quantifizieren und Kommentieren von kurzen Lesevorgängen in R.
  • RapMap Ein schnelles, empfindliches und genaues Werkzeug zur Zuordnung von RNA-seq-Reads zu Transkriptomen.
  • RNAeXpress Kann mit Java GUI oder Befehlszeile auf Mac, Windows und Linux ausgeführt werden. Es kann so konfiguriert werden, dass es Lesezählungen, Merkmalserkennung oder GTF-Vergleich auf zugeordneten rnaseq-Daten durchführt.
  • Rcount Rcount: einfaches und flexibles Zählen von RNA-Seq-Reads.
  • rDiff ist ein Werkzeug, das unterschiedliche RNA-Prozessierung (z. B. alternatives Spleißen, Polyadenylierung oder Ribosomenbelegung) erkennen kann.
  • RNASeqPower Berechnen von Proben Größenschätzungen für RNA-Seq-Studien. R-Paketversion.
  • RNA-Skim RNA-Skim: eine schnelle Methode zur Quantifizierung von RNA-Seq auf Transkriptebene.
  • rSeq rSeq ist eine Reihe von Tools für die RNA-Seq-Datenanalyse. Es besteht aus Programmen, die sich mit vielen Aspekten der RNA-Seq-Datenanalyse befassen, wie z.
  • RSEM
  • rQuant ist ein Webservice (Galaxy (Computational Biology) Installation), der die Häufigkeiten von Transkripten pro Genort bestimmt, basierend auf quadratischer Programmierung. rQuant ist in der Lage, durch experimentelle Bedingungen eingeführte Verzerrungen zu bewerten. Eine Kombination von Werkzeugen wird verwendet: PALMapper (liest Alignment), mTiM und mGene (Inferenz neuer Transkripte).
  • Lachs ist ein Software-Tool zur Berechnung der Transkripthäufigkeit aus RNA-Seq-Daten, wobei entweder ein Alignment-freier (direkt auf den Rohdaten basierender) oder ein Alignment-basierter (basierend auf vorberechneten Alignments basierender) Ansatz verwendet wird. Es verwendet einen stochastischen Online-Optimierungsansatz, um die Wahrscheinlichkeit der Transkripthäufigkeit unter den beobachteten Daten zu maximieren. Die Software selbst kann viele Threads verwenden, um schnell genaue Quantifizierungsschätzungen zu erstellen. Es ist Teil des Segelfisch Software-Suite und ist der Nachfolger des Sailfish-Tools.
  • SAJR ist ein in Java geschriebener Lesezähler und ein R-Paket für die differentielle Spleißanalyse. Es verwendet Junction-Reads, um den Exon-Ausschluss zu schätzen, und Reads, die innerhalb des Exons abgebildet sind, um seinen Einschluss zu schätzen. SAJR modelliert es durch GLM mit Quasibinomialverteilung und verwendet den Log-Likelihood-Test, um die Signifikanz zu bewerten.
  • Scotty Führt eine Power-Analyse durch, um die Anzahl der Replikate und die Tiefe der Sequenzierung zu schätzen, die zum Aufrufen des differentiellen Ausdrucks erforderlich sind.
  • Siegel Alignment-freier Algorithmus zur Quantifizierung der Sequenzexpression durch Abgleichen von kmern zwischen Raw-Reads und einem Referenztranskriptom. Verarbeitet gepaarte Lesevorgänge und alternative Isoformen und verwendet wenig Speicher. Akzeptiert alle gängigen Leseformate und gibt Lesezähler, Abdeckung und FPKM-Werte pro Referenzsequenz aus. Open-Source, geschrieben in reinem Java, unterstützt alle Plattformen ohne Neukompilierung und ohne andere Abhängigkeiten. Verteilt mit BBMap. (Seal – Sequence Expression AnaLyzer – hat nichts mit dem von SEAL verteilten Short-Read-Aligner zu tun.)
  • halbsup[62] Semi-überwachtes Mischungsmodell: Nachweis von SNPs mit interaktiven Effekten auf ein quantitatives Merkmal
  • Schnüffler ist ein Programm zur Analyse von RNA-Seq-Experimenten, für die Transkripthäufigkeiten mit Kallisto quantifiziert wurden.
  • SpleißenKompass differentielle Splicing-Detektion mit RNA-Seq-Daten.
  • sSeq Der Zweck dieses R-Pakets besteht darin, die Gene zu entdecken, die in RNA-Seq-Experimenten zwischen zwei Bedingungen unterschiedlich exprimiert werden.
  • StringTie ist ein Assembler von RNA-Seq-Alignments in potentielle Transkripte. Es verwendet einen neuartigen Netzwerkflussalgorithmus sowie einen optionalen De-novo-Assembly-Schritt, um Transkripte voller Länge zusammenzustellen und zu quantifizieren, die mehrere Spleißvarianten für jeden Genort darstellen. Es wurde als Nachfolger von Cufflinks entwickelt (zu seinen Entwicklern gehören einige der Cufflinks-Entwickler) und hat viele der gleichen Funktionen.
  • TIGAR Transkript-Isoform-Häufigkeitsschätzungsmethode mit lückenhaftem Alignment von RNA-Seq-Daten durch Variations-Bayes-Inferenz.
  • TimeSeq Nachweis von differentiell exprimierten Genen in Zeitverlaufs-RNA-Seq-Daten.
  • TPM-Rechner[63] Ein-Schritt-Software zur Quantifizierung der mRNA-Häufigkeit genomischer Merkmale.
  • WemIQ ist ein Software-Tool zur genauen und robusten Quantifizierung von Isoform-Expressions- und Exon-Splicing-Verhältnissen aus RNA-Seq-Daten.

Auswertung der Quantifizierung und differentiellen Expression Bearbeiten

  • CompcodeR RNAseq-Datensimulation, differentielle Expressionsanalyse und Leistungsvergleich von differentiellen Expressionsmethoden.
  • LIEBE-O Differentielle Expressionsanalyse basierend auf RNA-seq-Daten – Online.
  • RICHTIG umfassende Leistungsbewertung für die differentielle Expression unter Verwendung von RNA-seq.
  • RNAauf der BANK Computer- und empirische Ressourcen für das Benchmarking von RNAseq-Quantifizierungs- und Differentialexpressionsmethoden.
  • rnaseqcomp Mehrere quantitative und visualisierte Benchmarks für RNA-Seq-Quantifizierungspipelines. Zwei-Bedingungs-Quantifizierungen für Gene, Transkripte, Junctions oder Exons durch jede Pipeline mit nessasery Meta-Informationen sollten in numerischen Matrizen organisiert werden, um die Auswertung fortzusetzen.

Multitool-Lösungen Bearbeiten

  • DEB ist eine Web-Schnittstelle/Pipeline, die es ermöglicht, Ergebnisse von signifikant exprimierten Genen aus verschiedenen Tools zu vergleichen. Derzeit stehen drei Algorithmen zur Verfügung: edgeR, DESeq und bayseq.
  • SARTools Eine DESeq2- und EdgeR-basierte R-Pipeline für die umfassende Differentialanalyse von RNA-Seq-Daten.

Ausdruck des transponierbaren Elements Bearbeiten

  • TeXP ist eine Quantifizierungspipeline für transponierbare Elemente, die die durchdringende Transkription von der autonomen Transkription von LINE-1-Elementen entfaltet. [64]

Kommerzielle Lösungen Bearbeiten

  • ActiveSite von Cofactor Genomics
  • Avadis NGS (derzeit Strang-NGS)
  • BaseSpace von Illumina
  • Biogarderobe eine integrierte Plattform für die Analyse epigenomischer und transkriptomischer Daten.
  • BBrowser eine Plattform zur Analyse öffentlicher und interner Einzelzell-Transkriptomikdaten
  • CLC Genomics Workbench
  • DNASTAR
  • ERGO
  • Gendaten
  • GeneSpring GX
  • Genevestigator von Nebion (Basisversion ist für akademische Forscher kostenlos).
  • geospiza
  • Goldene Helix
  • Maverix Biomics
  • NextGENe
  • OmicsOffice
  • Partek Flow Umfassende Einzelzellanalyse in einer intuitiven Benutzeroberfläche.
  • Qlucore. Einfach zu verwenden für Analyse und Visualisierung. Ein-Knopf-Import von BAM-Dateien.

Open-Source-Lösungen (kostenlos) Bearbeiten

  • ArrayExpressHTS ist ein BioConductor-Paket, das die Vorverarbeitung, Qualitätsbewertung und Schätzung der Expression von RNA-Seq-Datensätzen ermöglicht. Es kann remote in der Cloud des European Bioinformatics Institute oder lokal ausgeführt werden. Das Paket nutzt mehrere Tools: ShortRead (Qualitätskontrolle), Bowtie, TopHat oder BWA (Ausrichtung auf ein Referenzgenom), SAMtools-Format, Cufflinks oder MMSEQ (Ausdrucksschätzung).
  • BioJupies ist eine webbasierte Plattform, die eine vollständige RNA-Seq-Analyselösung vom kostenlosen Ausrichtungsservice bis hin zu einem vollständigen Datenanalysebericht bietet, der als interaktives Jupyter-Notebook bereitgestellt wird.
  • BioQueue ist eine webbasierte Warteschlangen-Engine, die vorzugsweise entwickelt wurde, um die Effizienz und Robustheit der Jobausführung in der Bioinformatikforschung zu verbessern, indem die für einen bestimmten Job erforderlichen Systemressourcen geschätzt werden. Gleichzeitig will BioQueue auch die Zugänglichkeit und Reproduzierbarkeit der Datenanalyse in der biomedizinischen Forschung fördern. Durch Python 2.7 implementiert, kann BioQueue sowohl in POSIX-kompatiblen Systemen (Linux, Solaris, OS X usw.) als auch in Windows arbeiten. Siehe auch. [65]
  • BioKleiderschrank ist ein integriertes Paket für die Analyse von ChIP-Seq- und RNA-Seq-Datensätzen mit einer webbasierten benutzerfreundlichen GUI. Für RNA-Seq führt Biowardrobe Mapping, Qualitätskontrolle, RPKM-Schätzung und differentielle Expressionsanalyse zwischen Proben (Probengruppen) durch. Die Ergebnisse der differentiellen Expressionsanalyse können in ChIP-Seq-Daten integriert werden, um durchschnittliche Tag-Dichteprofile und Heatmaps zu erstellen. Das Paket verwendet mehrere Open-Source-Tools, darunter STAR und DESeq. Siehe auch. [66]
  • Chipster ist eine benutzerfreundliche Analysesoftware für Hochdurchsatzdaten. Es enthält über 350 Analysetools für Next Generation Sequencing (NGS), Microarray, Proteomik und Sequenzdaten. Benutzer können automatische Analyseworkflows speichern und teilen und Daten interaktiv mit einem integrierten Genombrowser und vielen anderen Visualisierungen visualisieren.
  • DEWE (Differential Expression Workflow Executor) ist eine Open-Source-Desktopanwendung, die eine benutzerfreundliche GUI für die einfache Ausführung von Differential Expression-Analysen in RNA-Seq-Daten bietet. Derzeit bietet DEWE zwei differenzielle Ausdrucksanalyse-Workflows: HISAT2, StringTie und Ballgown und Bowtie2, StringTie und R-Bibliotheken (Ballgown und edgeR). Es läuft unter Linux, Windows und Mac OS X.
  • easyRNASeq Berechnet die Abdeckung von High-Throughput-Short-Reads gegen ein Referenzgenom und fasst sie nach interessierendem Merkmal (z. B. Exon, Gen, Transkript) zusammen. Die Daten können als 'RPKM' oder durch das 'DESeq'- oder 'edgeR'-Paket normalisiert werden.
  • AusdruckPlot
  • FASTGenomics ist eine Online-Plattform zum Austausch von Einzelzell-RNA-Sequenzierungsdaten und -Analysen mit reproduzierbaren Workflows. Genexpressionsdaten können gemäß den europäischen Datenschutzstandards (DSGVO) geteilt werden. FASTGenomics ermöglicht es dem Benutzer, eigene Daten hochzuladen und maßgeschneiderte und reproduzierbare Workflows für die Exploration und Analyse von Genexpressionsdaten zu generieren (Scholz et al. 2018).
  • FX FX ist ein benutzerfreundliches RNA-Seq-Gen-eXpression-Analysetool, das durch das Konzept des Cloud-Computing unterstützt wird. Mit FX können Sie einfach Ihre RNA-Seq-Roh-FASTQ-Daten in die Cloud hochladen und die Computer-Infra die umfassende Analyse überlassen.
  • Galaxis: Galaxy ist eine universelle Workbench-Plattform für die Computerbiologie.
  • GENE-Zähler ist eine Perl-Pipeline für RNA-Seq-Differential-Gen-Expressionsanalysen. Der Genzähler führt Alignments mit CASHX, Bowtie, BWA oder anderen SAM-Output-Alignern durch. Die differentielle Genexpression wird mit drei optionalen Paketen (NBPSeq, edgeR und DESeq) unter Verwendung von Methoden der negativen Binomialverteilung durchgeführt. Die Ergebnisse werden in einer MySQL-Datenbank gespeichert, um zusätzliche Analysen zu ermöglichen.
  • GenMuster bietet integrierte Lösungen für die RNA-Seq-Analyse (Broad Institute).
  • GeneProf Frei zugängliche, einfach zu bedienende Analysepipelines für RNA-seq- und ChIP-seq-Experimente.
  • GREIN ist eine interaktive Webplattform zur Wiederverarbeitung und erneuten Analyse von GEO RNA-seq-Daten. GREIN wird von der Back-End-Computing-Pipeline zur einheitlichen Verarbeitung von RNA-Seq-Daten und der großen Anzahl (>5.800) bereits verarbeiteter Datensätze angetrieben. Die benutzerfreundlichen Front-End-Schnittstellen bieten eine Fülle von nutzeranalytischen Optionen, einschließlich Untereinstellungen und Herunterladen verarbeiteter Daten, interaktive Visualisierung, statistische Power-Analysen, Konstruktion differenzieller Genexpressionssignaturen und deren umfassende funktionelle Charakterisierung, Konnektivitätsanalyse mit LINCS L1000-Daten, usw.
  • GT-FAR ist eine RNA-Seq-Pipeline, die RNA-Seq-QC, Alignment, referenzfreie Quantifizierung und Spleißvarianten-Calling durchführt. Es filtert, trimmt und richtet Reads sequenziell an Genmodellen aus und sagt neue Spleißverbindungen voraus und validiert sie, wonach es die Expression für jedes Gen, Exon und jede bekannte/neue Spleißverbindung sowie Variantenaufruf quantifiziert.
  • MultiExperiment-Viewer (MeV) ist geeignet, um Analysen, Data Mining und Visualisierung von großen Genomdaten durchzuführen. Die MeV-Module beinhalten eine Vielzahl von Algorithmen zur Ausführung von Aufgaben wie Clustering und Klassifikation, Student's t-Test, Gene Set Enrichment Analysis oder Significance Analysis. MeV läuft auf Java.
  • NGSUtils ist eine Suite von Softwaretools für die Arbeit mit Sequenzierungsdatensätzen der nächsten Generation.
  • Schienen-RNA Skalierbare Analyse von RNA-Seq-Spleißen und -Bedeckung.
  • RAP RNA-Seq Analysis Pipeline, eine neue Cloud-basierte NGS-Webanwendung.
  • RSEQtools „RSEQtools besteht aus einer Reihe von Modulen, die allgemeine Aufgaben wie die Berechnung von Genexpressionswerten, die Generierung von Signalspuren von kartierten Reads und die Segmentierung dieses Signals in aktiv transkribierte Regionen ausführen. Neben der Anonymisierung, die dieses Format bietet, erleichtert es auch die Entkopplung von das Alignment von Reads aus nachgelagerten Analysen."
  • RobiNA bietet eine grafische Benutzeroberfläche für den Umgang mit R/BioConductor-Paketen. RobiNA bietet ein Paket, das alle erforderlichen externen Tools (R/Bioconductor Frameworks und Bowtie) automatisch installiert. Dieses Tool bietet eine Vielzahl von Qualitätskontrollmethoden und die Möglichkeit, viele Tabellen und Diagramme zu erstellen, die detaillierte Ergebnisse für die differentielle Expression liefern. Darüber hinaus können die Ergebnisse mit . visualisiert und manipuliert werden MapMan und PageMan. RobiNA läuft auf Java-Version 6.
  • RseqFlow ist eine RNA-Seq-Analysepipeline, die eine Expressimplementierung von Analyseschritten für RNA-Sequenzierungsdatensätze bietet. Es kann eine Pre- und Post-Mapping-Qualitätskontrolle (QC) für Sequenzierungsdaten durchführen, Expressionsniveaus für eindeutig kartierte Reads berechnen, differenziell exprimierte Gene identifizieren und Dateiformate für eine einfache Visualisierung konvertieren.
  • CLEVER verarbeitet kartierte RNA-Seq-Daten und führt im Wesentlichen Datenmanipulation (Auswahl/Ausschluss von Reads, Clustering und differentielle Expressionsanalyse) und Visualisierung (Read-Information, Verteilung, Vergleich mit epigenomischen ChIP-Seq-Daten) durch. Es kann auf jedem Laptop von einer Person ohne Computerhintergrund ausgeführt werden. Eine benutzerfreundliche grafische Benutzeroberfläche erleichtert die Bedienung der Tools.
  • Taverne ist ein quelloffenes und domänenunabhängiges Workflow-Management-System – eine Suite von Werkzeugen, die verwendet werden, um wissenschaftliche Workflows zu entwerfen und auszuführen und In-Silico-Experimente zu unterstützen.
  • TCW ist eine Transcriptome Computational Workbench.
  • TRAPLINE eine standardisierte und automatisierte Pipeline für die Analyse, Auswertung und Annotation von RNA-Sequenzierungsdaten.
  • WienNGS Eine Toolbox zum Aufbau effizienter Sequenzierungsanalyse-Pipelines der nächsten Generation.
  • wapRNA Dies ist eine kostenlose webbasierte Anwendung für die Verarbeitung von Hochdurchsatz-RNA-Seq-Daten (wapRNA) von Next Generation Sequencing (NGS)-Plattformen wie dem Genome Analyzer von Illumina Inc. (Solexa) und SOLiD von Applied Biosystems (SOLiD) . wapRNA bietet ein integriertes Werkzeug für die RNA-Sequenzierung, bezieht sich auf die Verwendung von Hochdurchsatz-Sequenzierungstechnologien zur Sequenzierung von cDNAs, um Informationen über den RNA-Gehalt einer Probe zu erhalten.

Allgemeine Werkzeuge Bearbeiten

  • Alternatives Spleißanalyse-Toolpaket (ASATP) Das alternative Spleißanalyse-Toolpaket (ASATP) enthält eine Reihe von Toolkits zur Analyse alternativer Spleißereignisse, die verwendet werden können, um alternative Spleißereignisse zu erkennen und zu visualisieren, ORF-Änderungen zu überprüfen, Vorschriften für alternatives Spleißen zu bewerten und statistische Analysen durchzuführen.
  • Asprofil ist eine Suite von Programmen zum Extrahieren, Quantifizieren und Vergleichen von alternativen Spleißen (AS)-Ereignissen aus RNA-Seq-Daten.
  • AStalavista Der AStalavista-Webserver extrahiert und zeigt alternative Splicing-Ereignisse (AS) aus einer gegebenen genomischen Annotation von Exon-Intron-Genkoordinaten an. Durch den Vergleich aller gegebenen Transkripte erkennt AStalavista die Variationen in ihrer Spleißstruktur und identifiziert alle AS-Ereignisse (wie Exon-Skipping, alternativer Donor usw.), indem jedem von ihnen ein AS-Code zugewiesen wird.
  • KLASSE 2 genaue und effiziente Annotation von Spleißvarianten aus RNA-Seq-Reads.
  • Manschettenknöpfe/Manschettenknöpfe
  • DEXseq Inferenz der differentiellen Exon-Nutzung in RNA-Seq.
  • Würfeleq Statistische Modellierung der Isoform-Splicing-Dynamik aus RNA-seq-Zeitreihendaten.
  • EBChangepoint Ein empirisches Bayes-Änderungspunktmodell zur Identifizierung von alternativem 3′- und 5′-Spleißen durch RNA-Seq.
  • Eoulsan Ein vielseitiges Framework für die Hochdurchsatz-Sequenzierungsdatenanalyse. Ermöglicht automatisierte Analysen (Mapping, Zählung und Differenzanalyse mit DESeq2).
  • GESS für den de novo-Nachweis von Exon-Skipping-Ereignis-Sites aus rohen RNA-Seq-Reads.
  • Blattschneider eine Reihe neuartiger Methoden, die die Identifizierung und Quantifizierung neuer und bestehender alternativer Spleißereignisse durch Fokussierung auf Intronexzisionen ermöglichen.
  • ZITRONEN[67] Ein Werkzeug zur Identifizierung von Spleißstellen in Transkriptomen von Organismen ohne Referenzgenome.
  • MAJIQ. Modellierung alternativer Junction-Einschlussquantifizierung.
  • MATTEN Multivariate Analyse von Transcript Splicing (MATS).
  • MISO quantifiziert das Expressionsniveau von Spleißvarianten aus RNA-Seq-Daten und ist in der Lage, unterschiedlich regulierte Exons/Isoformen in verschiedenen Proben zu erkennen. MISO verwendet ein probabilistisches Verfahren (Bayesian Inference), um die Wahrscheinlichkeit des Read-Ursprungs zu berechnen.
  • Schienen-RNA Skalierbare Analyse von RNA-Seq-Spleißen und -Bedeckung.
  • RPASuite[68] RPASuite (RNA Processing Analysis Suite) ist eine rechnergestützte Pipeline zur Identifizierung unterschiedlich und kohärent verarbeiteter Transkripte unter Verwendung von RNA-seq-Daten, die aus mehreren Gewebe- oder Zelllinien gewonnen wurden.
  • RSVP RSVP ist ein Softwarepaket zur Vorhersage alternativer Isoformen von proteinkodierenden Genen, basierend auf genomischen DNA-Beweisen und ausgerichteten RNA-Seq-Reads. Die Methode basiert auf der Verwendung von ORF-Graphen, die allgemeiner sind als die Spleiß-Graphen, die beim traditionellen Transkript-Assembly verwendet werden.
  • SAJR berechnet die Anzahl der Reads, die den Ein- oder Ausschluss eines Segments (ein Teil des Gens zwischen zwei nächstgelegenen Spleißstellen) bestätigen, und modelliert dann diese Zählungen durch GLM mit quasibinomialer Verteilung, um die biologische Variabilität zu berücksichtigen.
  • SGSeq Ein R-Paket zur De-novo-Vorhersage von Spleißereignissen.
  • SplAdder Identifizierung, Quantifizierung und Test von alternativen Spleißereignissen aus RNA-Seq-Daten.
  • SpleißGrapher Vorhersage neuartiger alternativer Spleißereignisse aus RNA-Seq-Daten. Enthält auch grafische Werkzeuge zum Visualisieren von Spleißdiagrammen. [69][70]
  • SpleißJumper ein klassifikationsbasierter Ansatz zum Aufrufen von Splicing Junctions aus RNA-Seq-Daten.
  • SplicePie ist eine Pipeline zur Analyse von nicht-sequentiellem und mehrstufigem Spleißen. SplicePie enthält drei Hauptanalyseschritte: Analyse der Spleißreihenfolge pro Probe, Suche nach rekursiven Spleißereignissen pro Probe und Zusammenfassung vorhergesagter rekursiver Spleißereignisse für alle analysierten Proben (für eine höhere Zuverlässigkeit wird empfohlen, mehr Proben zu verwenden). Die ersten beiden Schritte werden bei jedem Sample einzeln durchgeführt und der letzte Schritt betrachtet die Überlappung in allen Samples. Die Analyse kann jedoch auch an einer Probe durchgeführt werden.
  • SpleißPlot ist ein Tool zur Visualisierung von alternativem Spleißen und den Auswirkungen des Spleißens von quantitativen Trait-Loci (sQTLs) aus RNA-Seq-Daten. Es bietet eine einfache Befehlszeilenschnittstelle zum Zeichnen von Sashimi-Plots, Hive-Plots und Strukturplots alternativer Spleißereignisse aus .bam-, .gtf- und .vcf-Dateien.
  • SpleißR Ein R-Paket zur Klassifizierung von alternativem Spleißen und zur Vorhersage des Kodierungspotentials aus RNA-Seq-Daten.
  • SpleißSEQ SpliceViewer ist eine Java-Anwendung, mit der Forscher alternative mRNA-Spleißmuster in Daten aus Hochdurchsatz-mRNA-Sequenzierungsstudien untersuchen können. Sequenzlesevorgänge werden auf Spleißdiagramme abgebildet, die das Inklusionsniveau jedes Exons und jeder Spleißverbindung eindeutig quantifizieren. Die Graphen werden dann durchlaufen, um die Proteinisoformen vorherzusagen, die wahrscheinlich aus den beobachteten Exon- und Spleißverbindungs-Reads resultieren. UniProt-Annotationen werden jeder Proteinisoform zugeordnet, um potenzielle funktionelle Auswirkungen des alternativen Spleißens zu identifizieren.
  • SpleißTrap[71] ist ein statistisches Werkzeug zur Quantifizierung von Exon-Einschlussverhältnissen aus RNA-Seq-Daten.
  • Spleiß-Express – eine Software-Suite für alternative Spleißanalysen unter Verwendung von Sequenzierungsdaten der nächsten Generation.
  • SUPPA Dieses Tool generiert verschiedene alternative Splicing (AS)-Ereignisse und berechnet den PSI-Wert ("Percentage Spliced ​​In") für jedes Ereignis, indem es die Quantifizierung der Transkripthäufigkeit aus mehreren Proben ausnutzt.
  • SwitchSeq identifiziert extreme Veränderungen beim Spleißen (Switch-Ereignisse).
  • Fallgatter Identifizierung echter Spleißstellen.
  • TrueSight Ein selbstlernender Algorithmus zur Erkennung von Spleißstellen unter Verwendung von RNA-seq.
  • Umfangreiche Werkzeuge Ein Toolset zur Profilerstellung alternativer Spleißereignisse in RNA-Seq-Daten.

Intron-Retentionsanalyse Bearbeiten

  • IRcall / IRclassifier IRcall ist ein Rechenwerkzeug zur IR-Ereigniserkennung aus RNA-Seq-Daten. IRclassifier ist ein überwachter, auf maschinellem Lernen basierender Ansatz zur IR-Ereigniserkennung aus RNA-Seq-Daten.

Differenzielle Verwendung von Isoform/Transkript Bearbeiten

  • IsoformSwitchAnalyzeR IsoformSwitchAnalyzeR ist ein R-Paket, das die statistische Identifizierung von Isoform-Schaltern mit vorhergesagten funktionellen Konsequenzen ermöglicht, wobei die interessierenden Konsequenzen aus einer langen Liste ausgewählt werden können, aber Gewinn/Verlust von Proteindomänen, Signalpeptidänderungen in der NMD-Empfindlichkeit umfassen. [72] IsoformSwitchAnalyzeR wurde für die Nachanalyse von Daten aus jedem Isoform-/Transkript-Quantifizierungstool in voller Länge entwickelt, unterstützt jedoch direkt Cufflinks/Cuffdiff, RSEM Kallisto und Salmon.
  • DRIMSeq Ein R-Paket, das Generalized Linear Modeling (GLM) verwendet, um Isoform-Switches aus geschätzten Isoform-Zähldaten zu identifizieren. [73]
  • BayesDRIMSeq Ein R-Paket, das eine Bayes-Implementierung von DRIMSeq enthält. [74]
  • Manschettenknöpfe/Manschettenknöpfe Isoform-/Transkript-Quantifizierungs- und Differentialanalyse-Tool in voller Länge, das unter anderem über einen einseitigen t-Test auf der Grundlage der Asymptotik der Jensen-Shannon-Metrik auf Änderungen in der Verwendung von Isoformen testet, die zu demselben primären Transkript gehören (mit einem TSS). [55]
  • rSeqNP Ein R-Paket, das einen nicht parametrischen Ansatz zum Testen auf differentielle Expression und Spleißen von RNA-Seq-Daten implementiert. [75]
  • Isolator Isoform-/Transkriptquantifizierungs- und Differentialanalysetool in voller Länge, das alle Proben in einem Experiment unter Verwendung eines einfachen hierarchischen Bayes-Modells gemeinsam analysiert. Kann die unterschiedliche Verwendung von Isoformen identifizieren, indem die Wahrscheinlichkeit monotoner Spleiße getestet wird. [76]

Genomanordnungen, die aus Krankheiten wie Krebs resultieren, können zu abweichenden genetischen Veränderungen wie Fusionen oder Translokationen führen. Die Identifizierung dieser Modifikationen spielt eine wichtige Rolle in Studien zur Karzinogenese. [77]

  • Arriba[78] ist ein Fusionserkennungsalgorithmus basierend auf dem STAR [46] RNA-Seq-Aligner. Es ist der Gewinner der DREAM Challenge zum Thema Fusionserkennung. [79] Arriba kann auch virale Integrationsstellen, interne Tandem-Duplikationen, Ganz-Exon-Duplikationen, zirkuläre RNAs, Enhancer-Hijacking-Ereignisse mit Immunglobulin/T-Zell-Rezeptor-Loci und Breakpoints in Introns oder intergenen Regionen nachweisen.
  • Bellerophontes
  • BreakDancer
  • BreakFusion
  • ChimeraScan
  • EBARDenovo
  • EricScript
  • TIEFSTE ist ein statistischer Fusionserkennungsalgorithmus. [80] DEEPEST kann auch zirkuläre RNAs nachweisen.
  • Entschärfen DeFuse ist ein Softwarepaket zur Entdeckung von Genfusionen unter Verwendung von RNA-Seq-Daten.
  • FusionAnalyser FusionAnalyser verwendet Paired Reads Mapping auf verschiedene Gene (Bridge Reads).
  • FusionCatcher FusionCatcher sucht nach neuen/bekannten somatischen Fusionsgenen, Translokationen und Chimären in RNA-Seq-Daten (stranged/unstranged Paired-End Reads von Illumina NGS-Plattformen) aus erkrankten Proben.
  • FusionHunter identifiziert Fusionstranskripte, ohne von bereits bekannten Annotationen abhängig zu sein. Es verwendet Bowtie als ersten Aligner und Paired-End-Reads.
  • FusionMap FusionMap ist ein Fusions-Aligner, der Reads-übergreifende Fusions-Junctions direkt am Genom ausrichtet, ohne vorherige Kenntnis möglicher Fusionsregionen. Es erkennt und charakterisiert Fusionsverbindungen mit Basenpaarauflösung. FusionMap kann verwendet werden, um Fusionsverbindungen sowohl in Single-End- als auch Paired-End-Datensätzen aus gDNA-Seq- oder RNA-Seq-Studien zu erkennen.
  • FusionSeq
  • JAFFA basiert auf der Idee, ein Transkriptom mit einem Referenztranskriptom zu vergleichen, und nicht auf einem genomzentrierten Ansatz wie bei anderen Fusionsfindern.
  • MapSplice[81]
  • nSicherung
  • Oncomine NGS RNA-Seq Genexpressionsbrowser.
  • PRADA
  • SOAPFuse erkennt Fusionstranskripte aus humanen Paired-End-RNA-Seq-Daten. Es übertrifft andere fünf ähnliche Tools sowohl in der Berechnungs- als auch in der Fusionserkennungsleistung, wobei sowohl reale als auch simulierte Daten verwendet werden. [82]
  • SOAPfusion
  • TopHat-Fusion basiert auf der TopHat-Version und wurde entwickelt, um Lesevorgänge zu verarbeiten, die aus Fusionsgenen resultieren. Es erfordert keine vorherigen Daten über bekannte Gene und verwendet Bowtie, um kontinuierliche Lesevorgänge auszurichten.
  • ViralFusionSeq ist ein High-Throughput-Sequencing (HTS)-Tool zur Entdeckung viraler Integrationsereignisse und zur Rekonstruktion von Fusionstranskripten mit Einzelbasenauflösung.
  • ViReMa (Viral Rekombination Mapper) erkennt und meldet Rekombinations- oder Fusionsereignisse in und zwischen Virus- und Wirtsgenomen unter Verwendung von Deep-Sequencing-Datensätzen. [83]
  • CNVseq erkennt Kopienzahlvariationen, die auf einem statistischen Modell unterstützt werden, das aus einer Array-Vergleichsgenom-Hybridisierung abgeleitet wurde. Das Sequenz-Alignment wird von BLAT durchgeführt, die Berechnungen werden von R-Modulen ausgeführt und mit Perl vollständig automatisiert.

Einzelzellsequenzierung. Die traditionelle RNA-Seq-Methodik ist allgemein als "Bulk-RNA-Seq" bekannt, in diesem Fall wird RNA aus einer Gruppe von Zellen oder Geweben extrahiert, nicht aus der einzelnen Zelle, wie dies bei Einzelzellmethoden der Fall ist. Einige für die Massen-RNA-Seq verfügbare Werkzeuge werden auch auf die Einzelzellanalyse angewendet, jedoch wurden neue Algorithmen entwickelt, um der Spezifität dieser Technik gerecht zu werden.

  • CEL-Seq[84] Einzelzell-RNA-Seq durch multiplexierte lineare Amplifikation.
  • Drop-Seq[85] Hochparallel genomweites Expressionsprofil einzelner Zellen unter Verwendung von Nanoliter-Tröpfchen. Einzelzell-Transkriptom-Sequenzierung in situ, d. h. ohne die Zellen zu dissoziieren.
  • Oskop: eine statistische Pipeline zur Identifizierung von oszillatorischen Genen in unsynchronisierten Einzelzell-RNA-seq-Experimenten.
  • SCUBA[86] Extraktion von Abstammungsbeziehungen und Modellierung dynamischer Veränderungen im Zusammenhang mit der Differenzierung von Zellen mehrerer Abstammungslinien.
  • scLVM[87] scLVM ist ein Modellierungsrahmen für Einzelzell-RNA-seq-Daten, der verwendet werden kann, um die beobachtete Heterogenität in verschiedene Quellen zu zerlegen und so die Korrektur von verwirrenden Variationsquellen zu ermöglichen.
  • scM&T-Seq Parallele Einzelzellsequenzierung.
  • Sphinx[88] SPHINX ist ein hybrider Binning-Ansatz, der eine hohe Binning-Effizienz erreicht, indem er sowohl „kompositionelle“ als auch „ähnliche“ Merkmale der Abfragesequenz während des Binning-Prozesses nutzt. SPHINX kann Sequenzen in metagenomischen Datensätzen genauso schnell analysieren wie zusammensetzungsbasierte Ansätze, hat aber dennoch die Genauigkeit und Spezifität ähnlichkeitsbasierter Algorithmen.
  • TraceR[89] Rekonstruktion von gepaarten T-Zell-Rezeptoren aus Einzelzell-RNA-Seq-Reads.
  • VDJPuzzle[90] Die Rekonstruktion von T-Zell-Rezeptoren aus Einzelzell-RNA-Seq liest und verknüpft den Klonotyp mit dem funktionellen Phänotyp und Transkriptom einzelner Zellen.

Integrierte Pakete Bearbeiten

  • Monokel Differentielle Expressions- und Zeitreihenanalyse für Einzelzell-RNA-Seq- und qPCR-Experimente.
  • SCANPY[91] Skalierbare Python-basierte Implementierung für Vorverarbeitung, Visualisierung, Clustering, Trajektorieninferenz und differentielle Expressionstests.
  • SCell integrierte Analyse von Einzelzell-RNA-seq-Daten.
  • Seurat[92] R-Paket für QC, Analyse und Exploration von Einzelzell-RNA-seq-Daten.
  • Mit freundlichen Grüßen ein R/Bioconductor-Paket zur statistischen Bewertung von Zellzustandshierarchien aus Einzelzell-RNA-seq.
  • SINCERA[93] Eine Pipeline für Einzelzell-RNA-Seq-Profiling-Analyse.

Qualitätskontrolle und Genfilterung Bearbeiten

  • Celloline Eine Pipeline für die Kartierung und Qualitätsbewertung von Einzelzell-RNA-seq-Daten.
  • OEFinder Eine Benutzeroberfläche zum Identifizieren und Visualisieren von Ordnungseffekten in Einzelzell-RNA-seq-Daten.
  • SinQC Eine Methode und ein Werkzeug zur Kontrolle der Datenqualität von Einzelzell-RNA-seq.

Normalisierung Bearbeiten

  • GRUNDLAGEN Veränderungen der Genexpression auf Einzelzellebene verstehen.
  • GRM Normalisierung und Rauschunterdrückung für Einzelzell-RNA-seq-Experimente.

Bemaßungsreduzierung Bearbeiten

Differentialausdruck bearbeiten

  • BPSC Ein R-Paket BPSC für Modellanpassung und differentielle Expressionsanalysen von Einzelzell-RNA-seq.
  • MAST ein flexibler statistischer Rahmen zur Bewertung von Transkriptionsänderungen und zur Charakterisierung der Heterogenität in Einzelzell-RNA-Sequenzierungsdaten.
  • SCDE Charakterisierung der transkriptionellen Heterogenität durch Analyse der Überdispersion von Signalwegen und Gensätzen.

Visualisierung Bearbeiten

Diese Simulatoren erzeugen in silico liest und sind nützliche Werkzeuge, um die Effizienz von Algorithmen zu vergleichen und zu testen, die entwickelt wurden, um RNA-Seq-Daten zu verarbeiten. Darüber hinaus ermöglichen einige von ihnen die Analyse und Modellierung von RNA-Seq-Protokollen.

  • BIER-Simulator wird für Maus- oder menschliche Daten formatiert und Paired-End-Lesevorgänge werden auf der Illumina-Plattform sequenziert. Beers generiert Reads ausgehend von einem Pool von Genmodellen, die aus verschiedenen veröffentlichten Annotationsherkünften stammen. Einige Gene werden zufällig ausgewählt und anschließend werden absichtlich Fehler (wie Indels, Basenänderungen und Schwänze von geringer Qualität) eingeführt, gefolgt von der Konstruktion neuartiger Spleißverbindungen.
  • compcodeR RNAseq-Datensimulation, differentielle Expressionsanalyse und Leistungsvergleich von differentiellen Expressionsmethoden.
  • CuReSim ein angepasster Lesesimulator.
  • Flusssimulator implementiert eine Computer-Pipeline-Simulation, um ein RNA-Seq-Experiment nachzuahmen. Alle Komponentenschritte, die RNA-Seq beeinflussen, werden in der Simulation berücksichtigt (reverse Transkription, Fragmentierung, Adapterligation, PCR-Amplifikation, Gelsegregation und Sequenzierung). Diese Schritte präsentieren experimentelle Attribute, die gemessen werden können, und die ungefähren experimentellen Verzerrungen werden erfasst. Flux Simulator ermöglicht es, jeden dieser Schritte als Module zu verbinden, um verschiedene Protokolltypen zu analysieren.
  • PBSIM PacBio liest Simulator – für eine genaue Genommontage.
  • Polyester Dieses Bioleiterpaket kann verwendet werden, um RNA-seq-Reads aus differentiellen Expressionsexperimenten mit Replikaten zu simulieren. Die Lesevorgänge können dann ausgerichtet und verwendet werden, um Vergleiche von Methoden für den differentiellen Ausdruck durchzuführen.
  • RandomReads Generiert synthetische Reads aus einem Genom mit einem Illumina- oder PacBio-Fehlermodell. Die Reads können gepaart oder ungepaart sein, mit beliebiger Länge und Insert-Größe, Ausgabe in fasta oder fastq, RandomReads bietet eine große Auswahl an Optionen für Mutationsraten, mit individuellen Einstellungen für Substitution, Deletion, Insertion und N-Raten und Längenverteilungen, Annotation liest mit ihrer ursprünglichen, nicht mutierten genomischen Start- und Stoppposition. RandomReads variiert nicht die Expressionsniveaus und ist daher nicht dafür ausgelegt, RNA-seq-Experimente zu simulieren, sondern die Sensitivität und Spezifität von RNA-seq-Alignern mit de-novo-Introns zu testen. Enthält ein Werkzeug zum Gradieren und Generieren von ROC-Kurven aus resultierenden sam-Dateien. Open-Source, geschrieben in reinem Java, unterstützt alle Plattformen ohne Neukompilierung und ohne andere Abhängigkeiten. Verteilt mit BBMap.
  • rlsim ist ein Softwarepaket zur Simulation der RNA-Seq-Bibliotheksvorbereitung mit Parameterschätzung.
  • rnaseqbenchmark Ein Benchmark für RNA-seq-Quantifizierungspipelines.
  • rnaseqcomp Benchmarks für RNA-seq-Quantifizierungspipelines.
  • RSEM-Lesesimulator RSEM bietet Benutzern das Programm „rsem-simulate-reads“, um RNA-Seq-Daten basierend auf Parametern zu simulieren, die aus realen Datensätzen gelernt wurden.
  • RNASeqReadSimulator enthält eine Reihe einfacher Python-Skripte, die befehlszeilengesteuert sind. Es generiert zufällige Expressionsniveaus von Transkripten (single oder paired-end), simuliert Lesevorgänge mit einem spezifischen Positions-Bias-Muster und generiert zufällige Fehler von Sequenzierungsplattformen.
  • RNA-Sequenz-Simulator RSS nimmt SAM-Alignment-Dateien aus RNA-Seq-Daten und simuliert über verteilte, multiple Replikate, differentielle, nicht-strängige RNA-Seq-Datensätze.
  • SimSeq Ein nichtparametrischer Ansatz zur Simulation von RNA-Sequenzdatensätzen.
  • WGsim Wgsim ist ein kleines Tool zum Simulieren von Sequenz-Reads aus einem Referenzgenom. Es ist in der Lage, diploide Genome mit SNPs und Insertion/Deletion (INDEL)-Polymorphismen zu simulieren und Reads mit einheitlichen Substitutionssequenzierungsfehlern zu simulieren. Es erzeugt keine INDEL-Sequenzierungsfehler, aber dies kann teilweise durch die Simulation von INDEL-Polymorphismen kompensiert werden.

Das Transkriptom ist die Gesamtpopulation von RNAs, die in einer Zelle oder Gruppe von Zellen exprimiert werden, einschließlich nicht-kodierender und proteinkodierender RNAs. Es gibt zwei Arten von Ansätzen, um Transkriptome aufzubauen.Genom-geführte Methoden verwenden ein Referenzgenom (wenn möglich ein fertiges und qualitativ hochwertiges Genom) als Vorlage zum Alignment und Assemblieren von Reads in Transkripte. Genom-unabhängige Methoden erfordern kein Referenzgenom und werden normalerweise verwendet, wenn kein Genom verfügbar ist. In diesem Fall werden Reads direkt in Transkripten zusammengestellt.


Ergebnisse

SNV-Aufruf aus scRNA-seq-Daten

Wir haben eine Pipeline implementiert, um SNVs direkt aus FASTQ-Dateien von scRNA-seq-Daten zu identifizieren, gemäß der SNV-Richtlinie von GATK (Ergänzende Abbildung 1). Wir haben diese Pipeline auf fünf scRNA-seq-Krebsdatensätze (Kim 20 , Ting 21 , Miyamoto 22 , Patel 23 und Chung 24 siehe Methoden) angewendet und die Effizienz der SNV-Funktionen beim Abrufen einzelner Zellgruppen von Interesse getestet. Diese Datensätze unterscheiden sich in Gewebetypen, Ursprüngen (Maus oder Mensch), Leselängen und Kartierbarkeit (Tabelle 1). Sie alle verfügen über vordefinierte Zelltypen (Unterklassen), die nützliche Referenzen für die Bewertung der Leistung einer Vielzahl von Clustering-Methoden bieten, die in dieser Studie verwendet wurden.

Wir haben die GATK SNV-Calling-Pipeline mit mehreren Ansätzen evaluiert. Zuerst haben wir die wahren positiven Raten der SNV-Calling-Pipeline bei unterschiedlichen Tiefen von scRNA-seq-Reads geschätzt. Dazu führten wir ein Simulationsexperiment durch, indem wir 50.000 zufällige SNVs künstlich in die exonischen Regionen von hg19 einführten und die Erholung dieser SNVs mit unserer Pipeline auf dem Kim-Datensatz gemessen haben. Die wahren positiven Raten nehmen monoton mit der Lesetiefe zu. Bei nur 4 Lesetiefen erreicht die Pipeline im Durchschnitt über 50 % True-Positive-Rate und steigt auf 68 % True-Positive-Rate, wenn die Lesetiefe mehr als 6 beträgt (Abb. 1a). Diese Genauigkeit stimmt mit dem überein, was von Bulk-Zellen-RNA-seq 25 berichtet wurde. Die Falsch-Positiv-Rate beträgt durchweg <0,1 und der Median erreicht unter 0,05, wenn die Lesetiefe >6 beträgt (Abb. 1b). Wir haben die SNV-Anrufergebnisse von GATK mit denen eines anderen SNV-Anrufers FreeBayes 26 verglichen und ähnliche Ergebnisse erhalten (Ergänzende Abbildung 2A, B). Darüber hinaus führten wir Simulationsexperimente mit einem neuen 10X Genom-Datensatz ohne Krebs durch und erhielten vergleichbare echte positive Raten (ergänzende Abbildung 2C, D). Darüber hinaus zeigt GATK im 10X-Datensatz eine bessere Leistung als FreeBayes. Daher haben wir uns für den Rest des Berichts entschieden, GATK zu verwenden, um SNVs anzurufen, da es so beliebt und leistungsfähig ist.

Die Leistungsmessungen von GATK SNV Calling- und SSrGE-Pipelines. ein, B Leistungsmessung der GATK SNV-Calling-Pipeline. Boxplots der wahren positiven Rate (ein) und Falsch-Positiv-Rate (B) bezüglich der Lesetiefe an der aufgerufenen SNV-Position. Die Raten werden aus der GATK SNV-Calling-Pipeline berechnet, wobei das hg19-Referenzgenom verwendet wird, um modifizierte scRNA-seq-Reads aus einer Untermenge von 20 Zellen aus dem Kim-Datensatz auszurichten, in die 50.000 zufällige künstliche Mutationen in die exonische Region der Reads eingeführt wurden. Fehlerbalken repräsentieren die Standardabweichung. C, D Vergleiche der Bedeutung der verschiedenen Arten von Merkmalen in SSrGE-Modellen in Bezug auf das Ranking im Miyamoto-Datensatz (C) und Kim-Datensatz (D). Die Scores der SNVs und CNVs entsprechen der Summe der Koeffizienten, die von den SSrGE-Modellen abgeleitet werden. Der Gen-Score ist die Summe der SNVs-Scores für ein bestimmtes Gen. Blau: CNV-Merkmal Rot: eeSNV-Merkmal Grün: Genmerkmal

Verwendung von SSrGE zum Nachweis von eeSNVs in scRNA-seq-Daten

Um die Beziehung zwischen SNV und GE zu verknüpfen, haben wir eine Methode namens Sparse SNV Inference entwickelt, um die Genexpression (SSrGE) widerzuspiegeln, wie in Methoden beschrieben. Zusätzlich zu SNV haben wir optional auch die Wirkung von CNVs auf die Genexpression berücksichtigt, da auch die Variation der Kopienzahl (CNV) zur Variation der Genexpression beitragen kann. Ähnlich der genbasierten Assoziationsmethode PrediXscan 17 verwendet SSrGE SNVs und zusätzlich optional CNVs als Prädiktoren, um ein lineares Modell für die Genexpression unter LASSO-Regularisierung und Merkmalsauswahl zu passen 27 . Wir wählen LASSO anstelle von elasticNet für die Bestrafung, sodass die Liste der resultierenden eeSNVs kurz ist (Ergänzende Abbildung 3). Diese eeSNVs dienen als verfeinerte beschreibende Merkmale für die anschließende Identifizierung von Subpopulationen. Um die Beiträge von SNVs, die für Protein-kodierende Gene relevant sind, direkt zu bestimmen, verwendeten wir die SNVs, die sich zwischen den Start- und Endstellen der Transkription von Genen befinden, als Eingaben. Wir haben außerdem die relativen Beiträge von eeSNVs und CNVs zur Genexpression untersucht und festgestellt, dass die Koeffizienten der CNVs signifikant niedriger sind als die der eeSNVs (Abb. 1c, d). Die Ränge der Top-Gene mit und ohne CNVs in den SSrGE-Modellen unterscheiden sich insgesamt nicht statistisch, da die Kendall-Tau-Korrelations-Scores 28 nahe 1 mit liegen P-Werte = 0 (Kendall-Tau-Test).

Darüber hinaus können auch SNV-Genotypen und eine allelspezifische Genexpression die Beziehungen zwischen eeSNVs und der Genexpression komplizieren. Daher haben wir das SSrGE-Modell weiter kalibriert, indem wir den SNV-Genotyp und die allelspezifische Genexpression berücksichtigten. Wir verwendeten QUASAR 29, um die SNV-Genotypen (Ergänzungstabelle 1) und die allelspezifische Genexpression unter Verwendung des SNV-Genotyps abzuschätzen. Wir haben einzelne SSrGE-Modelle neu aufgebaut, indem wir nur die SNVs eines bestimmten Genotyps und die allelspezifische Genexpression verwendet haben, und dann die eeSNV-Gewichte von verwandten SSrGE-Modellen zusammengeführt, um eine endgültige Rangfolge der eeSNVs zu erhalten. Die neuen Rankings unterscheiden sich statistisch nicht vom bisherigen Ansatz (Ergänzungstabelle 1). Die Kendall-Tau-Scores, die die Ähnlichkeiten zwischen dem neu kalibrierten Modell und dem Originalmodell bewerten, haben P-Werte = 0 (Kendall-Tau-Test) in allen Datensätzen.

Um schließlich quantitativ zu bewerten, ob die von SSrGE erhaltenen eeSNVs wirklich signifikant sind, haben wir eine Simulationspipeline (Methoden) entwickelt. Die Pipeline erstellt zufällige binäre Matrizen von SNVs für n simulierte Zellen, die mit den Matrizen der Genexpression verbunden sind. Die in der simulierten Zelle vorhandenen SNVs haben die Wahrscheinlichkeit, die Genexpression der Gene positiv oder negativ zu verändern. Wir haben verschiedene Rauschpegel verwendet, um die GE- und die SNV-Matrizen zu stören. Wir verglichen die von SSrGE identifizierten Ränge der Top-Gene mit den erwarteten Auswirkungen jedes Gens, die von der Simulation bereitgestellt wurden. Die abgeleiteten Gene mit dem höchsten Rang, die SSrGE verwenden, haben monotone und positive Korrelationen mit denen, die durch die Simulation festgelegt wurden (Ergänzende Abbildung 4A). Diese Korrelationen sind alle signifikant (P-Wert « 0,05, Kendall-Tau-Test), unabhängig von Alpha und verwendetem Geräuschpegel, was den Wert des SSrGE-Modells bestätigt. Um die Dropout-Muster in den Daten zu simulieren, haben wir außerdem zwei weitere Parameter eingeführt, einen für den zufälligen Dropout oder den voreingenommenen Dropout in Richtung auf beide niedrig exprimierte Gene und einen anderen für die Dropout-Rate relativ zu Zelle, Gen oder Reads (Methoden). Wir haben beobachtet, dass SSrGE bei allen Dropout-Modellen gut abschneidet (ergänzende Abbildung 4B). Somit wird die SSrGE-Methode validiert, um wirklich wichtige eeSNVs zu generieren.

EeSNVs sind besser als Genzählungen beim Auffinden von Subpopulationen

Wir haben die Leistung von SNVs und Genexpression (GE) gemessen, um Subpopulationen auf den fünf Datensätzen zu identifizieren, wobei fünf Clustering-Ansätze verwendet wurden (Abb. 2). Diese Clustering-Ansätze umfassen zweidimensionale Reduktionsmethoden, nämlich die Hauptkomponentenanalyse (PCA) 30 und die Faktoranalyse (FA) 31 , gefolgt von entweder K-Means oder der hierarchischen agglomerativen Methode (agglo) mit WARD-Verknüpfung 32 . Wir verwendeten auch einen aktuellen SIMLR-Algorithmus, der explizit für das Clustering und die Visualisierung von scRNA-Seq-Daten entwickelt wurde 33 . Um die Genauigkeit der erhaltenen Subpopulationen in jedem Datensatz zu bewerten, haben wir die Metrik der angepassten gegenseitigen Information (AMI) über 30 Bootstrap-Läufe vom optimalen ein Parameter (Ergänzende Daten 1). Diese optimalen Parameter wurden durch das Testen verschiedener ein Werte für jeden Datensatz und jeden Clustering-Ansatz (Ergänzende Abbildung 5). Wie in Abb. 2 gezeigt, sind eeSNVs im Vergleich zu GE bessere Funktionen zum Abrufen von Krebszellsubpopulationen, unabhängig von den verwendeten Clustering-Methoden. Unter den Clustering-Algorithmen ist SIMLR tendenziell die bessere Wahl, wenn eeSNV-Funktionen verwendet werden.

Vergleich der Clustering-Genauigkeit unter Verwendung von eeSNV- und Genexpressions-(GE)-Funktionen. eine Balkendiagramme zum Vergleich der Clustering-Leistung unter Verwendung von eeSNV vs. Genexpression (GE) als Merkmale, über fünf verschiedene Clustering-Strategien und fünf Datensätze, jeder mit seinen eigenen vordefinierten Klassen als Wahrheitsmaß: ein Kim-Datensatz, B Ting-Datensatz, C Chung-Datensatz, D Miyamoto-Datensatz und e Patel-Datensatz. Ja-Achse ist die angepasste gegenseitige Information (AMI), die über 30 Bootstrap-Läufe erhalten wurde (Mittelwert ± Standardabweichung). Fehlerbalken repräsentieren die Standardabweichung. *P < 0,05, **P < 0,01 und ***P < 0,001 (gepaart) T-Prüfung). F Heatmap der Rankings zwischen verschiedenen Methoden und Datensätzen wie in gezeigt eine

Darüber hinaus haben wir den Adjusted Rand Index (ARI) 34 und das V-Measure 35 berechnet, zwei weitere Metriken für Modularitätsmessungen (Methoden) und ähnliche Trends erhalten (Ergänzende Abbildung 6). Ähnlich wie AMI ist ARI eine normalisierte Metrik gegen Zufallszahlen und bewertet die Anzahl der erhaltenen korrekten Paare. Andererseits kombiniert V-Measure den Homogenitätsscore, der die Homogenität der Referenzklassen in den erhaltenen Clustern misst, und den Vollständigkeitsscore, der die Homogenität der erhaltenen Cluster innerhalb der Referenzklassen misst. Aufgrund der hohen Anzahl kleiner homogener Cluster, die für den Miyamoto-Datensatz erhalten wurden, beobachteten wir im Vergleich zu den AMI- und ARI-Ergebnissen höhere V-Measure-Scores (ergänzende Abbildung 6).

Visualisierung von Subpopulationen mit bipartiten Graphen

Bipartite Graphen sind eine effiziente Möglichkeit, die binären Beziehungen zwischen zwei verschiedenen Objektklassen zu beschreiben. Als nächstes stellten wir das Vorhandensein der eeSNVs in Einzelzellgenomen mit zweiteiligen Graphen unter Verwendung des ForceAtlas2-Algorithmus 36 dar. Wir haben eine Kante (Link) zwischen einem Zellknoten und einem bestimmten eeSNV-Knoten gezeichnet, wenn eine eeSNV erkannt wird. Die Ergebnisse zeigen, dass der bipartite Graph eine robuste und diskriminativere Alternative ist (Abb. 3), verglichen mit PCA-Plots (unter Verwendung von GE und eeSNVs) sowie SIMLR (unter Verwendung von GE). Für den Kim-Datensatz trennt der zweiteilige Graph die drei Klassen perfekt. Genbasierte Visualisierungsansätze, die entweder PCA oder SIMLR verwenden, haben jedoch Datenpunkte falsch klassifiziert. Für Ting-Daten bietet der zweiteilige eeSNV-Zell-Diagramm eine klare Visualisierung aller sechs verschiedenen Untergruppen einzelner Zellen. Andere drei Ansätze haben übertriebenere Trennungen zwischen der gleichen Untergruppe MP (orange Farbe) der zirkulierenden Tumorzellen (CTC) der Maus, mischen jedoch einige andere Unterpopulationen (z. B. GM-, MP- und TuGMP-Gruppen). Der Miyamoto-Datensatz ist aufgrund seiner hohen Anzahl (24) von Referenzklassen und der Heterogenität zwischen den CTCs der am schwierigsten zu visualisierende unter den vier Datensätzen. Bipartite Graphen sind nicht nur in der Lage, die gesamten Populationen zu verdichten, sondern auch einzelne Subpopulationen (z. B. die orangefarbene PC-Subpopulation) viel besser als die anderen drei Methoden.

Vergleich der Clustering-Visualisierung unter Verwendung von eeSNV- und Genexpressions-(GE)-Funktionen. ein Bipartite Graphen mit eeSNVs und Zellen als zwei Gruppen von Knoten. Eine Kante zwischen einer Zelle und einer eeSNV repräsentiert das Vorhandensein der eeSNV innerhalb dieser Zelle. B Ergebnisse der Hauptkomponentenanalyse (PCA) unter Verwendung von GE als Merkmale der Zellen. C PCA-Ergebnisse unter Verwendung von eeSNVs als Merkmale der Zellen. D SIMILR-Ergebnisse mit GE als Eingabe

Eigenschaften von eeSNVs

In SSrGE Regularisierungsparameter ein ist die einzige Tuning-Variable, die die Sparsity der linearen Modelle steuert und die Anzahl der eeSNVs beeinflusst. Als nächstes untersuchten wir die Beziehung zwischen eeSNVs und ein (Abb. 4). Erhöhen Sie für jeden Datensatz den Wert von ein verringert die Anzahl ausgewählter eeSNVs insgesamt ( 4a ) sowie die durchschnittliche Anzahl von eeSNVs, die mit jedem exprimierten Gen assoziiert sind ( 4b ). Das Optimale ein hängt vom Clustering-Algorithmus und dem verwendeten Datensatz ab (Ergänzende Daten 1 und ergänzende Abbildung 5). Erhöhung des Wertes von ein erweitert den Anteil der eeSNVs, die Annotationen in der menschlichen dbSNP138-Datenbank aufweisen, was auf eine höhere wahre positive Rate von SNVs im Vergleich zu der vor der SSrGE-Filterung hinweist (Abb. 4c). Zusätzlich erhöht ein erhöht die durchschnittliche Anzahl von Zellen, die sich dieselben eeSNVs teilen (Fig. 4d), entsprechend der abnehmenden Anzahl von eeSNVs (Fig. 4b). Beachten Sie den leichten Rückgang der durchschnittlichen Anzahl von Zellen, die dieselben eeSNVs in den Kim-Daten teilen, wenn ein > 0,6, dies ist auf eine Überbestrafung zurückzuführen (z. B. ein = 0,8 ergibt nur 34 eeSNVs).

Merkmale der eeSNVs. x-axis: der Regularisierungsparameter ein Werte, die von der LASSO-Bestrafung in den SSrGE-Modellen verwendet werden. Und der Ja-Achsen sind: ein Log10 Transformation der Anzahl der eeSNVs. B Die durchschnittliche Anzahl von eeSNVs pro Gen. C Der Anteil der SNVs mit dbSNP138-Annotationen (menschliche Datensätze). D Die durchschnittliche Anzahl von Zellen, die sich eeSNVs teilen

Krebsrelevanz von eeSNVs

Nach den Simulationsergebnissen haben wir die verschiedenen eeSNVs und die Gene für die fünf Datensätze aus SSrGE-Modellen (Ergänzende Daten 2) eingestuft. Wir fanden heraus, dass eeSNVs aus mehreren Genen im menschlichen Leukozytenantigen (HLA) komplex, wie HLA-A, HLA-B, HLA-C, und HLA-DRA, in allen vier Humandatensätzen (Tabelle 2 und ergänzende Daten 2) an erster Stelle stehen. HLA ist eine Familie, die für die Proteine ​​des Haupthistokompatibilitätskomplexes (MHC) des Menschen kodiert. Beta-2-Mikroglobulin (B2M) auf der anderen Seite auf den Plätzen 7 und 45 in den Ting- bzw. Patel-Datensätzen (Tabelle 2). nicht wie HLA die nur im Menschen vorhanden ist, B2M kodiert ein Serumprotein, das am Histokompatibilitätskomplex MHC beteiligt ist, der auch in Mäusen vorhanden ist. Andere zuvor identifizierte Tumortreiber-Gene werden ebenfalls von SSrGE an die Spitze gereiht, was den Einfluss von Mutationen auf die cis-Genexpression zeigt (Tabelle 2 und ergänzende Daten 2). Vor allem, KRAS, das zuvor mit der Tumorheterogenität in Verbindung gebracht wurde (Kim et al. 37), rangiert unter allen eeSNV-haltigen Genen an 13. Stelle (Ergänzende Daten 2). AR und KLK3, zwei Gene, von denen in der ursprünglichen Studie berichtet wurde, dass sie genomische Heterogenität in der Tumorentwicklung zeigen 22 , werden auf Platz 6 bzw. 19 eingestuft. EGFR, das therapeutische Ziel in der Patel-Studie mit einer wichtigen onkogenen Variante EGFRvIII (Patel et al. 23), liegt auf Platz 88 von 4225 Genen. Daher werden Gene, die von ihren eeSNVs an erster Stelle stehen, empirisch validiert.

Als nächstes führten wir eine systematischere Untersuchung durch, um in jedem Datensatz angereicherte KEGG-Pfade zu identifizieren, wobei diese Gene als Eingabe für das DAVID-Annotationswerkzeug 38 verwendet wurden (Abb. 5a). Der bipartite Graph von Pathway-Gen veranschaulicht die Beziehungen zwischen diesen Genen und angereicherten Pathways (Fig. 5b). Erwartungsgemäß sticht der Antigenverarbeitungs- und -präsentationsweg als der am stärksten angereicherte Weg hervor, mit der Summe −log10 (P-Wert) von 15,80 (Abb. 5b). Phagosom ist der am zweithäufigsten angereicherte Weg in allen vier Datensätzen, hauptsächlich aufgrund seiner Mitglieder in HLA Familien (Abb. 5b). Darüber hinaus sind Signalwege, die mit Zellverbindungen und Adhäsion (fokale Adhäsion und Zelladhäsionsmoleküle CAMs), Proteinprozessierung (Proteinprozessierung im endoplasmatischen Retikulum und Proteasom) und dem PI3K-AKT-Signalweg verbunden sind, ebenfalls stark mit eeSNVs angereichert (Abb. 5a).

Gen- und KEGG-Signalwege, angereichert mit eeSNVs in den fünf scRNA-seq-Datensätzen. ein Bipartite Graph, der signifikante KEGG-Pfade und mit eeSNVs angereicherte Gene als Knoten verwendet. Eine Kante existiert zwischen einem signifikanten Weg und einem Gen, wenn dieses Gen Teil des Weges ist. Die Gene jedes Datensatzes werden mit einer eigenen Farbe dargestellt. Die Größe der Knoten spiegelt die Gen- und Pathway-Scores wider. Die Gen-Scores werden von SSrGE berechnet und die Pathway-Scores sind die Summe der für jeden Pathway verknüpften Gen-Scores. B KEGG-Pfade angereichert innerhalb der Top 100 Gene basierend auf eeSNV-Beiträgen in den fünf Datensätzen. Pfade werden nach der Summe der −log10 (P-Wert) jedes Datensatzes in absteigender Reihenfolge

Heterogenitätsmarker mit eeSNVs

Wir zeigen das Potenzial von eeSNV als Heterogenitätsmarker durch Pseudozeitrekonstruktion und Heatmap unter Verwendung des Kim-Datensatzes (Abb. 6a, b). Wir haben einen Minimum Spanning Tree erstellt, ähnlich dem Monocle-Algorithmus 39 , um die pseudo-zeitliche Ordnung der einzelnen Zellen zu rekonstruieren. Die Graphiken erfassen schön die Kontinuität zwischen den Zellen, vom Primärtumor bis zum metastasierten Tumor (Abb. 6a). Darüber hinaus hebt es die Verzweigungen innerhalb jeder der Untergruppen hervor und zeigt die gruppeninterne Heterogenität. Im Gegensatz dazu zeigte die Pseudozeitrekonstruktion mit GE viel weniger Komplexität und mehr Singularität (Ergänzende Abbildung 7). Als Bestätigung zeigt auch das hierarchische Clustering von eeSNV heatmp eine nahezu perfekte Trennung der drei Untergruppen (Abb. 6b). Als nächstes verwendeten wir unsere Methode, um eeSNVs zu identifizieren, die für jede Einzelzelluntergruppe spezifisch sind, und ordneten die Gene entsprechend diesen eeSNVs ein. Wir verglichen die Eigenschaften der Metastasenzellen mit primären Tumorzellen. Zwei hochrangige Gene, die durch die Methode identifiziert wurden, CD44 (1.) und LPP (2.), sind dafür bekannt, die Verbreitung von Krebszellen und das Metastasenwachstum nach genomischer Veränderung zu fördern 40,41,42,43 (Ergänzende Daten 2). Andere hochrangige Gene im Zusammenhang mit Metastasen werden ebenfalls identifiziert, einschließlich LAMPC2 (7.), HSP90B1 (14.), GETROFFEN (44.), und FN1 (52.). Wie erwartet, sind Pathways in Cancer die mit Mutationen angereicherten Pathways (Abb. 6b). Darüber hinaus gehören Fokale Adhäsion und Endozytose zu den anderen signifikant mutierten Signalwegen, die neue Erkenntnisse über den mechanistischen Unterschied zwischen primären und metastasierten RCC-Tumoren liefern (Abb. 6c).

Heterogenität durch Kim-Datensatz aufgedeckt. ein Pseudo-Zeitreihenfolgerekonstruktion der verschiedenen Untergruppen: Einzelzellen aus PDX-Primärtumor (grün), Patientenmetastasen (blau) und PDX-Metastasen (rot). Die eeSNVs erhalten Sie mit ein = 0,6. Der Baum wird mit dem MST-Algorithmus auf der korrelationsbasierten Distanzmatrix von Pearson abgeleitet. B Heatmap der Zellen (Zeile) und eeSNVs (Spalte). C Zweiteiliges Diagramm mit KEGG-Pfade (orange Farbe) und Genen, die mit signifikanten eeSNVs (grüne Farbe) angereichert sind, als zwei Sätze von Knoten. Die signifikanten eeSNVs werden von den metastasierten Zellen im Vergleich zu den primären Tumorzellen abgeleitet. Die Größe der Knoten spiegelt die Gen-Scores (angegeben von SSrGE) und die Pathway-Scores (Summe der Gen-Scores) wider. Helleres Grün zeigt Gene mit einem niedrigeren Rang an

Eine weitere Anwendung besteht darin, das Potenzial von eeSNVs zu untersuchen, verschiedene Zelltypen innerhalb desselben Individuums zu trennen. Zu diesem Zweck haben wir die gleiche Analyse auf die beiden Patienten BC03 und BC07 aus dem Chung-Datensatz erweitert, die primäre und metastasierte Tumorzellen sowie infiltrierende Immunzellen aufweisen. Auch hier veranschaulichen zweiteilige Graphen und eine Visualisierung auf Basis von minimalen Spannbäumen klare Trennungen von Tumorzellen (primäre und metastasierte) von Immunzellen (ergänzende Abbildung 8). Darüber hinaus weisen die Gene mit dem höchsten Rang in Bezug auf die Metastasen-Untergruppen (BC03M und BC07M) einige Ähnlichkeiten mit denen im Kim-Datensatz auf (Ergänzende Daten 3). Auffallend, CD44 steht auch auf Platz 23 der signifikanten Gene von BC07M. Ähnlich, HSP90B1 ist in BC03M bzw. BC07M das 63. und 51. wichtigste Gen.

Integration von DNA- und RNA-seq-Daten in denselben Einzelzellen

Gekoppelte DNA-seq- und RNA-seq-Messungen aus derselben Einzelzelle sind der neue Horizont der Einzelzellgenomik. Um das Potenzial von SSrGE bei der Integration von DNA- und RNA-Daten zu demonstrieren, haben wir öffentliche Einzelzelldaten heruntergeladen, die DNA-Methylierungs- und RNA-seq-Aufzeichnungen aus denselben hepatozellulären Karzinom (HCC)-Einzelzellen (Hou-Datensatz) aufweisen 44 . Wir leiteten dann SNVs aus den Aligned Reduced Representation Bisulfit Sequencing (RRBS)-Reads (siehe Methoden) ab und verwendeten sie, um die scRNA-seq-Daten aus denselben Proben vorherzusagen. Angesichts der Tatsache, dass SNVs zwischen Tumor- und normalen Zellen heterozygot sind und ein kleiner Bruchteil der Gene, die eeSNVs beherbergen, einer CNV unterliegt, haben wir neben den SNV-Eigenschaften sowohl den Prozentsatz der SNVs als auch der CNVs als zusätzliche prädiktive Variablen in das SSrGE-Modell aufgenommen. Interessanterweise können die identifizierten eeSNVs normale hepatozelluläre Zellen klar von Krebszellen trennen und die beiden in der ursprünglichen Studie identifizierten Krebssubtypen hervorheben (Abb. 7). Die pseudo-zeitliche Ordnung zeigt eine frühe Divergenz zwischen den beiden zuvor angenommenen Subtypen (Abb. 7b). Diese Beobachtung wird durch das hierarchische Clustering der eeSNV-basierten Heatmap bestätigt (Abb. 7c). Eine vereinfachte Version des SSrGE-Modells, bei der nur SNV-Merkmale als Prädiktoren für die Genexpression betrachtet wurden, teilte 92% eeSNVs wie die in 7a und erreichte fast identische Trennungen zwischen normalen hepatozellulären Zellen und Krebszellen. Dies bestätigt die frühere Beobachtung, dass eeSNVs im Vergleich zu CNVs viel wichtigere Vorhersagemerkmale sind (Abb. 1c, d).

Heterogenität durch eeSNVs aus Multi-Omics-Einzelzell-HCC (Hou)-Datensätzen aufgedeckt. Normale Zellen sind grün gefärbt und HCC-Tumorzellen sind hell (Subpopulation I) oder dunkel (Subpopulation II) rot gefärbt. ein Bipartite-Graph-Darstellung unter Verwendung der einzelnen Zellen und eeSNVs von RRBS liest sich als zwei Sätze von Knoten. B Pseudo-Zeitordnungsrekonstruktion der HCC-Zellen unter Verwendung von eeSNVs aus RRBS. C Heatmap der Zellen (Zeile) und eeSNVs (Spalte)

Wir postulierten, dass ein beträchtlicher Teil der Bisulfit-Reads auf Methylierungsinseln ausgerichtet war, die mit Genpromotorregionen assoziiert sind. Daher haben wir eeSNVs innerhalb von 1500 bp stromaufwärts des Transkriptionsstartcodons annotiert und Gene mit diesen eeSNVs erhalten, die in bestimmten Gruppen signifikant vorherrschen. Beim Vergleich von HCC mit normalen Kontrollzellen zeigen zwei Gene PRMT2, SULF2 statistisch signifikante Mutationen in HCC-Zellen (P-Werte < 0,05, exakter Test nach Fisher). Die Herunterregulierung von PRMT2 wurde zuvor mit Brustkrebs in Verbindung gebracht 45 , SULF2 war bekannt dafür , bei HCC hochreguliert zu sein und das HCC - Wachstum zu fördern 46 .


MERKMALE

SNP-Anrufe

QualitySNPng verwendet als Eingabe eine Sequenz-Alignment-Datei im SAM-(3)- oder ACE-(13)-Format mit Single-End- oder Paired-End-Reads, wie sie von Read-Mappern wie Bowtie ( 14) und BWA ( 15) oder . erzeugt werden de novo Assembler wie CABOG ( 16) und PCAP ( 17). Die QualitySNPng-Software verwendet drei Filterschritte, um unzuverlässige Variationen ähnlich dem ursprünglichen QualitySNP (6) zu eliminieren. Der erste Filter markiert alle Nukleotidunterschiede, die bei einer minimalen Anzahl von Lesevorgängen auftreten, als potenzielle SNPs. Diese Mindestanzahl kann vom Benutzer als absolute Zahl oder als Bruchteil der Gesamtzahl der Lesevorgänge angepasst werden. Der zweite Filter berücksichtigt die Qualität der Sequenz, die die Nukleotidvariante enthält, und lässt nur die SNPs mit hoher Konfidenz zurück. Dazu wird die Basisqualität, charakterisiert durch den Phred-Score (18), verwendet, wenn sie im Input-Sequenz-Alignment vorhanden ist. Wenn kein Phred-Score vorhanden ist, wird davon ausgegangen, dass alle Nukleotide in den Eingabe-Reads von hoher Qualität sind. Darüber hinaus kann der Score basierend auf bestimmten Sequenzmustern modifiziert werden. Zum Beispiel können Variationen, die in homopolymeren Bahnen gefunden werden, auf eine niedrige Qualität eingestellt werden. Diese Option ist besonders nützlich, wenn Roche/454-Sequenzen verarbeitet werden, da diese bekanntermaßen anfällig für Homopolymer-assoziierte Fehler sind (19). Auch eine Reihe von Nukleotiden am 5'- oder 3'-Ende kann als minderwertig markiert werden, um beispielsweise falsche SNPs durch unvollständiges Adaptertrimming zu vermeiden. Der dritte Filter beinhaltet die Vorhersage von Haplotypen basierend auf den SNPs mit hoher Konfidenz. Nur wenn die Variation durch einen oder mehrere Haplotypen unterstützt wird, gilt sie als zuverlässiger SNP. Im Vergleich zur ursprünglichen QualitySNP-Software wurden der zweite und der dritte Filter vertauscht, um sicherzustellen, dass die erkannten Haplotypen nur auf SNPs mit hoher Konfidenz basieren. Die Laufzeit hängt weitgehend von der Größe und Art der eingegebenen Sequenzierungsdaten ab und reicht von weniger als einer Minute für einen Satz von 25 000 Contigs (∼ 100 Reads/Contig) bis zu 10 Minuten für einen großen einzelnen Contig von 7000 bp mit 800 000 mal gelesen. Größere und variablere Sequenz-Alignments können länger dauern, auch abhängig von der Stringenz der Einstellungen: Das Senken des Schwellenwerts für potenzielle SNPs führt zu mehr Arbeit für den zweiten und dritten Filter, die rechentechnisch am teuersten sind. Bei großen Eingabedateien, deren Verarbeitung voraussichtlich mehrere Stunden dauert, kann man die Befehlszeilenoption „Servermodus“ des Tools verwenden, um den SNP-Aufruf auf einem Rechenserver durchzuführen und die Ergebnisse anschließend über die GUI zu analysieren.

Ergebnisse anzeigen

Die Ergebnisse des SNP-Aufrufs können direkt über die GUI angezeigt werden und werden auch in strukturierten Textdateien zum späteren Nachschlagen oder Weiterverarbeiten gespeichert. Die verschiedenen Contigs aus den Alignments der Eingangssequenzen sind in einer Tabelle aufgelistet, die die Anzahl der SNPs, die Reads und die Haplotypen zeigt. Die Haplotypenzahl in der Tabelle wird für fragmentierte Haplotypen korrigiert, indem die maximale Anzahl von Haplotypen genommen wird, die pro SNP-Position gefunden wird. Eine Fragmentierung von Haplotypen kann auftreten und wird durch SNPs verursacht, die zu weit voneinander entfernt sind, um durch einen Einzelsequenz-Read oder ein Read-Paar mit einem Allel verknüpft zu werden, siehe Abbildung 1 für ein Beispiel. Die Contig-Liste kann basierend auf der Anzahl der Reads, SNPs und Haplotypen und (teilweise) Contig-Namen gefiltert werden.

Screenshot der QualitySNPng-Ausgabe. Ergebnis der SNP-Erkennung mit Arabidopsis thaliana RNA-seq-Datensatz von zwei Akzessionen, die kartiert wurden auf Arabidopsis Abschriften (20). Links wird die Liste der Transkripte angezeigt, hier durch die Filteroptionen auf die mit 8 bis 25 SNPs und zwischen 1000 und 2000 Reads beschränkt. Auf der rechten Seite werden die Details zum ausgewählten Transkript angezeigt: Das obere Fenster zeigt die vorhergesagten Haplotypen, das mittlere Fenster zeigt die Allele pro Akzession (Col-0 und Can-0) und das untere Fenster zeigt die zum Transkript geordneten Reads, sortiert nach Haplotyp (Reads ohne SNP werden nicht gezeigt).

Screenshot der QualitySNPng-Ausgabe. Ergebnis der SNP-Erkennung mit Arabidopsis thaliana RNA-seq-Datensatz von zwei Akzessionen, die kartiert wurden auf Arabidopsis Abschriften (20). Links wird die Liste der Transkripte angezeigt, hier durch die Filteroptionen auf die mit 8 bis 25 SNPs und zwischen 1000 und 2000 Reads beschränkt. Auf der rechten Seite werden die Details zum ausgewählten Transkript angezeigt: Das obere Fenster zeigt die vorhergesagten Haplotypen, das mittlere Fenster zeigt die Allele pro Akzession (Col-0 und Can-0) und das untere Fenster zeigt die Reads ausgerichtet auf das Transkript sortiert nach Haplotyp (Reads ohne SNP werden nicht gezeigt).

Ein ausgewähltes Contig zeigt ein Fenster mit den ausgerichteten Reads und den angegebenen SNPs, eine Tabelle mit den Haplotypen und ihren Allelen pro SNP-Position und eine Tabelle mit den Allelen für die verschiedenen Proben in den Eingabedaten (Abbildung 1). Damit diese letzte Tabelle angezeigt wird, sollte die Alignment-Datei der Eingabesequenz mit einer „Lesegruppe“ (siehe SAM-Formatdefinition) pro Lesevorgang versehen sein oder alternativ Gruppenbezeichnungen in den Lesenamen enthalten. Die Übersicht pro Probe kann beispielsweise zum Vergleich von Allelen zwischen verschiedenen Akzessionen, Stämmen oder Ökotypen und zur Genotypisierung durch Sequenzierung verwendet werden.

Die manuelle Überprüfung des Read-Alignments zusammen mit der Haplotyp-Übersicht gibt Aufschluss über die Qualität des Alignments, die lokale Read-Coverage und die Positionen der SNPs. Basierend auf dieser visuellen Inspektion kann man entscheiden, die Stringenz der Filtereinstellungen zu ändern und den SNP-Aufruf erneut auszuführen. Die Reads können nach Startposition oder nach Haplotyp sortiert und in verschiedenen Zoomstufen angezeigt werden.

Zur Erstellung eines SNP-Arrays können Marker-SNPs ausgewählt und mit flankierender Sequenz einer bestimmten Länge als strukturierte Textdatei exportiert werden, die in ein Standard-Tabellenkalkulationsprogramm oder ein Assay-Design-Programm importiert werden kann.

Um Probleme beim SNP-Scoring zu vermeiden, schlagen wir vor, Marker aus Contigs auszuwählen, die nicht mehr als die maximal erwartete Anzahl von Haplotypen aufweisen, d. h. zwei für diploide Arten, da Contigs mit mehr Haplotypen paraloge Sequenzen enthalten können. Um die Chance, Marker zu erhalten, die auf Arrays gut funktionieren, weiter zu erhöhen, könnte man das BLAST-Programm (21) verwenden, um Markersequenzen zu eliminieren, die eine hohe Ähnlichkeit mit anderen Genen aufweisen, wie zuvor gezeigt wurde (7).


RNA-SEQ-SPEZIFISCHE EFFEKTE UND BLOCKIERUNG

Wie bei Microarray-Studien können RNA-seq-Experimente durch die Variabilität beeinflusst werden, die von störenden Faktoren herrührt, die in der RNA-seq-Literatur oft als technische Effekte bezeichnet werden. Neben Verarbeitungsdatum, Techniker und Reagenzcharge, die den Forschern allgemein bekannt sind, gibt es einige anerkannte technische Effekte, die spezifisch für die RNA-seq-Verfahren sind. Einer dieser technischen Effekte kommt von der Generierung von Bibliotheken von cDNA-Fragmenten, die verschiedene Ligationen von Adaptern und PCR-Amplifikationen beinhaltet. Neben dem Bibliotheksvorbereitungseffekt gibt es noch weitere technologiespezifische Effekte. Beispielsweise kann die häufig verwendete Illumina-Sequenzierungstechnologie acht Proben gleichzeitig in den acht Spuren in einer Flusszelle sequenzieren, von denen eine Spur oft für die Kontrollprobe verwendet wird. Somit gibt es Abweichungen von einer Durchflusszelle zur anderen, was zu einem Durchflusszelleneffekt führt. Außerdem gibt es Abweichungen zwischen den einzelnen Bahnen innerhalb einer Fließzelle aufgrund systematischer Variationen im Sequenzierungszyklus und/oder beim Base-Calling. Unter diesen Variationsquellen ist der Effekt der Bibliotheksvorbereitung am größten [ 40]. Die Fließzellen- und Lane-Effekte sind relativ gering [ 20, 41].

Aus der Sicht des experimentellen Designs gibt es neben der technologischen Verbesserung einige Schritte, die unternommen werden können, um diese Effekte richtig zu handhaben. Für den Bibliotheksvorbereitungseffekt bietet die Einführung von Replikaten vor diesem Schritt (oft biologische Replikate) eine Möglichkeit, diesen Effekt abzuschätzen und ihn in der statistischen Inferenz richtig zu handhaben. Das Blocking-Design kann verwendet werden, um die Fließzellen- und Spureffekte zu eliminieren. Blocking ist auch ein experimentelles Gestaltungsprinzip. Es diktiert Vergleiche innerhalb eines Blocks, ein bekannter uninteressanter Faktor, der Variationen verursacht, wie z. B. ein Fließzelleneffekt. Um dieses Ziel zu erreichen, kann je nach Anzahl der zu vergleichenden Behandlungen/Gruppen entweder das randomisierte vollständige Blockdesign (RCBD) oder das balancierte unvollständige Blockdesign (BIBD) verwendet werden. Sequenzierungsspuren können auch als Blöcke dienen, wenn die Strichcodierung während der Bibliotheksvorbereitung (für das Protokoll für die Illumina-Plattform, siehe http://www.illumina.com/Documents/products/datasheets/datasheet_sequencing_multiplex.pdf) für das Multiplexen verwendet wird [ 17] . Es konnte jedoch gezeigt werden, dass Multiplexing die Sensitivität und Reproduzierbarkeit beim miRNA-Nachweis reduziert [ 42]. Daher ist Vorsicht geboten, wenn Multiplexing zum Zweck der Reduzierung von Fließzellen- und Bahneffekten in Betracht gezogen wird.


Diskussion

Wir berichten über Hinweise auf eine umfangreiche RNA-Editierung in einer menschlichen Zelllinie, die den Bedarf an robusten Methoden zum Nachweis dieser Ereignisse unterstreicht. Wir haben eine Pipeline zur Identifizierung von RNA-Editing-Ereignissen entwickelt, indem wir RNA-DNA-Unterschiede bei derselben Person durch aufeinanderfolgende Qualitätskontrollfilter screenen. Die Pipeline schnitt bei simulierten Daten sowohl in Bezug auf Sensitivität als auch Spezifität gut ab (Abb. 1c und ergänzende Tabellen 4,5).

False Positives sind ein kritischer Punkt bei der Analyse von SNVs aus RNA-Seq-Daten, wie die Simulationsergebnisse (Abb. 1c) und unsere Erfahrungen mit einer früheren Version unserer Methode ohne strenge Qualitätskontrollfilter (Daten nicht gezeigt) belegen ). Dieses Problem, das auch bei der genomischen SNP-Detektion 24,35 und der jüngsten Neubewertung der groß angelegten RNA-Seq-Studie 36 offensichtlich ist, kann auf mehrere Faktoren zurückzuführen sein. Einige der falsch-positiven Ergebnisse sind sicherlich das Ergebnis von Ungenauigkeiten beim Lese-Alignment, von denen paraloge, sehr ähnliche Sequenzen und Spleißverbindungen die Hauptquellen darstellen. Darüber hinaus kann die Kartierungszuverlässigkeit in Gegenwart einer Variation der RNA-Transkriptsequenz weiter beeinträchtigt werden. Aus technischer Sicht sollten Paired-End-Reads mit größerer Länge (75, 90 oder 100 bp in unserer Studie) vermutlich die Genauigkeit des Read-Alignments erhöhen 37 . Um die Inkonsistenz bei der Lesezuordnung zu beheben, haben wir in unserer Aufrufmethode (die Schritte MES und BLAT) zwei unabhängige Filter implementiert, die falsch positive Ergebnisse entfernen, die in einer naiven Analyse simulierter Lesevorgänge identifiziert wurden. Schließlich können Verzerrungen beim Aufrufen von Editierstellen auch von unzureichender Abdeckung und Genauigkeit der Genomsequenz herrühren, was bei der Ermittlung potenzieller Editierungen an Positionen, die genomischen Polymorphismen entsprechen, problematisch wird. Die 36-fache durchschnittliche Abdeckung unserer Genom-Resequenzierungsdaten, kombiniert mit dem YH-Genomvarianten-Filter, der Zygosität und Kopienzahlvariation des Genoms an den Bearbeitungsstellen berücksichtigt, verringert jedoch die Wahrscheinlichkeit solcher Fehler.

Unsere Methode und Ergebnisse bestätigen, dass Qualitätskontrollfilter notwendig sind, um RNA-Editing-Sites genau zu identifizieren. Diese Studie weist auch auf die Notwendigkeit hin, RNA-Editierungen für die Entwicklung gründlicherer statistischer Modelle zu archivieren, die Vorkenntnisse der Sequenzvariation und der verwendeten Sequenzierungstechnologien einbeziehen. Bemerkenswerterweise enthalten neuere Computeransätze zum Nachweis von A→I(G)-Basenänderungen in menschlichen mRNA-Datenbanken auch molekulare Merkmale, die der RNA-Editierung zugrunde liegen, wie z. Diese Filterkriterien können somit als zusätzliche Module in unseren Workflow aufgenommen werden, um in zukünftigen Deep-Sequencing-Studien komplexere oder funktionsrelevante Datensätze zu analysieren.

Als dieses Manuskript erstellt wurde, wurde über zwei groß angelegte Screenings für RNA-DNA-Unterschiede berichtet, die ähnliche Ansätze wie unsere Deep-Sequencing-Methoden verwendeten 20,21 . Zwischen diesen Studien waren mehrere Unterschiede auffällig, darunter das Design der Site-Calling-Pipelines, der Umfang des untersuchten Transkriptoms, die Anzahl der identifizierten Sites und die Verteilung der Bearbeitungsarten. Bemerkenswerterweise berichteten diese Studien, dass ∼ 23 % (Ref. 20) und 62 % (Ref. 21) der Bearbeitungsseiten A→G-Änderungen waren, während die überwiegende Mehrheit (>90%) unserer Kandidatenseiten A→G-Änderungen waren. Darüber hinaus ergänzt unsere Arbeit frühere und neuere Erkenntnisse mit detaillierten Informationen zur Bearbeitung eines breiteren Spektrums des Transkriptoms, insbesondere der intergenen Transkripte.

Inmitten der jüngsten Deep-Sequencing-Studien zur RNA-Editierung gab es erhebliche Kontroversen über die technischen Nachteile dieser Technologie sowie die damit verbundenen Analysealgorithmen und das experimentelle Design. Wir schlagen vor, dass unsere Gesamtmethodik diese Bedenken gründlich anspricht und Fehler beim Ableiten von Editierstellen aus RNA-Seq-Daten minimiert. Die Notwendigkeit strenger Kriterien bei der Identifizierung von RNA-DNA-Unterschieden wird durch einen kürzlich veröffentlichten Bericht bekräftigt, der zeigt, dass nach Berücksichtigung paraloger und genomischer Variantensequenzen ein beträchtlicher Teil der Kandidatenstellen, die in einer früheren Studie identifiziert wurden 20 tatsächlich falsche Ergebnisse darstellen könnte 36 . Daher haben wir auch diese Daten 20 mithilfe unseres Workflows unabhängig bewertet (Ergänzungstabelle 13). Diese Analyse ergab, dass Kandidaten-Editing- oder RNA-DNA-Unterschiedsstellen durch ihren Ansatz wahrscheinlich überschätzt wurden. Neben dem potentiellen Beitrag von paralogen Sequenzen und genomischen Varianten als Fehlerquelle fanden wir auch, dass Datenqualität und -tiefe eine Rolle bei der möglicherweise irrtümlichen Aufruf von Varianten spielten. Fast 60 % der zuvor identifizierten 20 Sites konnten durch unseren „Read Parameter“-Filter basierend auf ihrer Position innerhalb von 8 bp von den Enden der 50-bp-Reads entfernt werden. Darüber hinaus erfüllten aufgrund der geringen Tiefe der einzelnen Genomsequenzen, die in diesem Bericht beprobt wurden, einige der mutmaßlichen Bearbeitungsseiten nicht die Anforderungen, die von unserem „Genomvarianten“-Filter definiert wurden, und können tatsächlich polymorphe Sequenzen darstellen, die vom Genom codiert werden. Bemerkenswert ist jedoch, dass die Merkmale der Editier-Sites, die von unserer Pipeline aus den Daten 20 aufgerufen werden, ähnlich den Merkmalen von Sites sind, die aus unseren RNA-Seq-Daten aufgerufen werden (Ergänzungstabelle 13). Dies deutet darauf hin, dass die Diskrepanzen zwischen den beiden Studien hauptsächlich auf die unterschiedlichen Studiendesigns und nicht auf die zugrunde liegende Molekularbiologie zurückzuführen sind.

Zusammenfassend stützen unsere Ergebnisse die Genauigkeit unserer modularen Multifilter-Pipeline, um ein Editom zu kommentieren und einen globalen und quantitativen Katalog von Nukleotidvarianten in einem Transkriptom bereitzustellen. Der nächste Schritt besteht eindeutig darin, diese Methodik auf umfangreichere Deep-Sequencing-Studien mit zusätzlichen physiologisch relevanten Proben anzuwenden, um Editome umfassender und genauer zu profilieren und zu vergleichen.


MATERIALEN UND METHODEN

Abruf empirischer Daten

Wir haben drei Arten empirischer Daten verwendet (Abbildung 1, Zusatztabelle S1). Zunächst verwendeten wir zuvor veröffentlichte RNA-Seq-Daten aus vier verschiedenen Studien, darunter die Transkriptom-Sequenzierung einer 17-köpfigen Familie aus drei Generationen ( 26), die Transkriptom-Sequenzierung eines Trios ( 3), die Transkriptom-Sequenzierung eines Verwandten ersten Grades und zwei nicht verwandten Personen ( 27) sowie gezielte Transkriptsequenzierung (Ion AmpliSeq, Life Technologies) von 7 nicht verwandten Personen und einem Geschwisterpaar ( 28). Zweitens haben wir genetische Variationsdaten von sechs Paaren von Verwandten ersten und zweiten Grades aus der CDX-Population des 1000-Genome-Projekts abgerufen (29). Aus diesen Daten haben wir dann RNA-Seq-Reads simuliert (die Methode der Simulation von RNA-Seq-Reads wird unten beschrieben). Drittens haben wir genetische Variationsdaten von nicht verwandten Individuen aus dem 1000 Genomes Project (29) abgerufen, aus denen wir Familien (die Methode zur Simulation von Genotypen von Familienmitgliedern wird unten beschrieben) und RNA-Seq-Reads simuliert haben.

Überblick über den Datenworkflow für die Verwandtschaftserkennung und die Stammbaumrekonstruktion mit RNA-seq-Daten. GQ: Genotypqualität, DP: Tiefe, IBD: Identität durch Abstammung, MAF: Nebenallelfrequenz.


Duale RNA-seq

Es gibt eine Vielzahl von Interaktionen zwischen Arten, wie Parasitismus, Symbiose, Konkurrenz usw. Die konventionelle Transkriptom-Sequenzierung kann nur die Informationen einer einzelnen Art untersuchen, was nicht nur einen Teil der Daten verschwendet, sondern auch die Probe selbst während des Prozesses beeinflusst die Trennung zweier Arten.

Es wurde gezeigt, dass duale RNA-seq alle Klassen von kodierenden und nichtkodierenden Transkripten von Wirt und Pathogen gleichzeitig überwacht. CD Genomics bietet einen hochauflösenden, erschwinglichen und unkomplizierten dualen RNA-Seq-Service, um direkte Einblicke in das Wirt-Pathogen-Interaktionsspiel zu ermöglichen.

Durch den Aufbau nur einer Transkriptombibliothek ermöglicht duale RNA-Seq der gesamten gemischten RNA nach doppelter rRNA-Depletion oder poly(A)-Capture die Sequenzierung und Analyse von zwei (oder mehr) Spezies gleichzeitig, ohne dass die Spezies getrennt werden muss, wodurch die dynamische Veränderungen der Genexpression zwischen ihnen. In der Zwischenzeit durch das Interaktionsmodelldiagramm die regulatorische Beziehung von Genen und den Interaktionsmechanismus zwischen zwei Arten zu erhalten, um das regulatorische Netzwerk im Interaktionsprozess, den Mechanismus der Pathogeninfektion und die Wirtsresistenz gegen Krankheiten zu untersuchen und die evolutionäre Beziehung von . zu untersuchen Krankheitserreger zwischen verschiedenen Arten, und die positive Selektion verwandter Gene basierend auf homologen Genen weiter zu erforschen.

CD Genomics könnte mit verschiedenen Invasionsmodellen umgehen – Pathogene mit Bakterien, Pilzen, Protozoen usw., der Wirt könnte ein Säugetier oder eine Pflanze sein. Unser Ziel ist es, umfassende duale RNA-seq-Dienste vom experimentellen Design bis zur biocomputergestützten Analyse bereitzustellen, um Ihre Forschungsanforderungen zu unterstützen.

Hauptvorteile und Funktionen

  • Verfügbar für verschiedene Invasionsmodelle
  • Flexibilität des Probentyps: gemischte Gesamt-RNA, infizierte Wirtszellen usw.
  • UMI-Technologie ermöglicht kleine Mengen an Eingabevorlagen

Dualer RNA-seq-Workflow


Generische Pipeline der dualen RNA-seq-Datenanalyse (Abbildung aus V. Arluison et al., 2018)

  1. Alexander J. Westermann et al., Dual RNA-seq enthüllt nichtkodierende RNA-Funktionen in Wirt-Pathogen-Wechselwirkungen. Natur. 2016, Bd. 000.
  2. Alexander J. Westermann et al., Auflösen von Wirt-Pathogen-Wechselwirkungen durch duale RNA-seq. PLoS-Erreger. 2017, 13(2).
  3. Véronique Arluison und Claudio Valverde (Hrsg.), Bacterial Regulatory RNA: Methods and Protocols. Methoden der Molekularbiologie. 2018, Bd. 1737.
  4. Pisu et al., Dual RNA-seq of Mtb-infected macrophages in vivo zeigt ontologisch unterschiedliche Wirt-Pathogen-Interaktionen. Zellenberichte. 2020, Bd. 30.

Methoden

RNA- und Bibliotheksvorbereitung

Gesamt-RNA wurde unter Verwendung von Trizol aus einem frisch entnommenen Nierengewebe einer erwachsenen weiblichen Maus mit 129S1 x Cast/Ei F1-Hintergrund isoliert (F1-Zucht wurde in der DFCI-Mausanlage durchgeführt, wobei Elterntiere von den Jackson Laboratories bezogen wurden. Alle Tierarbeiten wurden durchgeführt gemäß dem DFCI-Protokoll 09-065, genehmigt durch das DFCI Institutional Animal Care and Use Committee.Die Tiere wurden gemäß dem Leitfaden für die Pflege und Verwendung vonLabortieren untergebracht). Die RNA-Integrität wurde mit Bioanalyzer bewertet und mit dem Qubit-Gerät quantifiziert. Aliquots dieser Gesamt-RNA-Präparation wurden verwendet, um drei Sätze von Replikatbibliotheken herzustellen, alle beginnend mit der polyA-RNA-Isolierung: sechs Bibliotheken mit NEBNext-Kit, beginnend mit jeweils 100 ng sechs Bibliotheken mit SMARTseq v4-Kit, beginnend mit 10 ng RNA und dasselbe, mit 0,1 ng-RNA. Alle Bibliotheken wurden in der DFCI-Sequenzierungsanlage nach Herstellerangaben hergestellt. Die gesamte Sequenzierung wurde auf einer HiSeq 2500-Maschine in der DFCI-Sequenzierungsanlage durchgeführt.

Für das in Anwendungsfall 2 diskutierte Datenanalysebeispiel wurden die lymphoblastoiden klonalen Abelson-Zelllinien Abl.1 und Abl.2 von 129S1 × Cast/Ei F1 Hintergrund 14 in RPMI-Medium (Gibco) kultiviert, das 15% FBS (Sigma), 1X L . enthielt -Glutamin (Gibco), 1X Penicillin/Streptomycin (Gibco) und 0,1% β-Mercaptoethanol (Sigma). Die Gesamt-RNA wurde aus Zellen unter Verwendung eines auf magnetischen Beads basierenden Protokolls unter Verwendung von Sera-Mag SpeedBeads (GE Healthcare) extrahiert. Isolierte Gesamt-RNA wurde mit RQ1-DNase (Promega) DNase-behandelt. RNA-Sequenzierungsbibliotheken wurden unter Verwendung des SMARTseq v.4-Kits (Takara) hergestellt, beginnend mit 10 ng Gesamt-RNA für jedes Replikat. Die Sequenzierung wurde auf der HiSeq4000-Plattform bei Novogene, Inc. durchgeführt.

Zusätzliche Datenquellen

Der Geuvadis-Datensatz umfasst RNA-seq-Daten zu LCLs, die von 462 Personen aus fünf Populationen ermittelt wurden 16 . FASTQ-Dateien für Paired-End-Reads (2 × 75 bp) für fünf Individuen (HG00117, HG00355, NA06986, NA19095, NA20527) mit jeweils 7 Replikaten wurden vom 1000 Genomes Projekt heruntergeladen [ftp.1000genomes.ebi.ac.uk/ vol1/ftp/phase3/data/]. Allelzähldaten (verarbeitet mit der Standard-GTEx-Pipeline) für ein zufällig ausgewähltes einzelnes GTEX-11NUK aus der Midpoint-Phase des GTEx-Projekts wurden von dbGaP heruntergeladen [https://www.ncbi.nlm.nih.gov/projects/gap/cgi -bin/study.cgi?study_id=phs000424.v7.p2]. Wir verwendeten auch RNA-seq-Daten aus neuronalen Vorläuferzellen der Maus (GSE54016) [https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE54016].

KI-Schätzungspipeline

Die hier beschriebenen KI-Schätzwerkzeuge werden in zwei Teilen implementiert. Die Datenverarbeitungsschritte vom Read-Alignment bis zur Allel-Zählung basierten auf dem ASEReadCounter-Tool in der GATK-Pipeline 24 . Es wurde mit teilweise von S. Castel (github.com/secastel/allelecounter) entwickelten Python-Skripten neu implementiert und als ASEReadCounter* (github.com/gimelbrantlab/asereadcounter_star) bezeichnet. Die Berechnung des QCC, die Schätzung von Konfidenzintervallen und die differentielle KI-Analyse sind im Qllelic-Toolset implementiert (github.com/gimelbrantlab/Qllelic).

Referenzvorbereitung

Zwei benutzerdefinierte Elterngenome („Pseudogenome“ 44,45 siehe ASEReadCounter* at github.com/gimelbrantlab/asereadcounter_star) wurden für die Kartierung als Referenz verwendet. Für 129S1 × Cast/Ei F1 gekreuzte Mausproben werden Allele mit mütterlichen und väterlichen Stammgenomen bestimmt und stammspezifische Varianten für Humandaten (Geuvadis-Projekt 16 ) wurden phasengesteuerte SNP-Variantenaufrufe verwendet. Entsprechende allelische Varianten aus der Single Nucleotide Polymorphism database 142 (dbSNP142 46 ) oder das 1000 Genomes Project Phase 3 Strukturvariantenaufrufset wurden in das Referenzgenom eingefügt (GRCm38.86 oder hs37d5, 1000 Genome, Phase 2), um ein Paar „elterlicher“ Referenzgenome für die weitere Analyse zu erhalten (für ein ausgearbeitetes Beispiel siehe Ergänzende Anmerkung S6). Für jeden Organismus haben wir auch eine vcf-Datei erstellt, wobei ein Allel als Referenz (mütterliches 129S1 oder erstes phasengesteuertes Allel) und das andere als alternatives Allel betrachtet wird. In der Downstream-Analyse wurden nur heterozygote Stellen verwendet.

Berechnung der Allelzahlen

Alignment: RNA-seq-Reads wurden mit dem STAR-Aligner (v.2.5.4a) 47 auf jedem von zwei Pseudogenomen mit einem Standardschwellenwert für die Qualität des Alignments ausgerichtet. Es wurden nur eindeutig ausgerichtete Reads weiter berücksichtigt ( Parameter –outFilterMultimapNmax 1 wurde verwendet).

Allel-Zuordnung: Reads, die nur in einem der Alignments vorhanden waren, und Reads, die für eines der Alignments eine bessere Alignment-Qualität aufwiesen, wurden der entsprechenden Allel-Read-Gruppe zugeordnet und entsprechend markiert. Die verbleibenden Reads (nicht überlappende heterozygote SNP-Positionen) wurden nicht stromabwärts verwendet. Dieses Verfahren basiert auf Python-Skripten von S.Castel.

Deduplizierung lesen: Bei Anwendung wurde Picard (v.2.8.0 broadinstitute.github.io/picard) MarkDuplicates verwendet.

Bibliotheks-Unterabtastung: Um sicherzustellen, dass alle ausgerichteten Zählungen zu ähnlichen Verteilungen gehören, wurden BAM-Dateien, die demselben Experiment entsprechen, unter Verwendung eines benutzerdefinierten Bash-Skripts auf dieselbe Größe unterabgetastet, wobei der Zufall mit dem Befehl shuf generiert wurde.

Allelzählung für SNPs: Bei einer gegebenen vcf-Datei mit heterozygoten Positionen (besprochen unter Referenzvorbereitung) wurde die Abdeckung über jeden SNP unter Verwendung von samtools mpileup (v.1.3.1) berechnet und geparst, um die Tabelle mit Allelzählungen zu erhalten. Dieses Verfahren basiert auf Python-Skripten von S.Castel.

Allelzählung für Gene: Alle Exons, die zum gleichen Gen gehören, wurden basierend auf der GTF-Datei zu einem einzigen Genmodell zusammengeführt (RefSeq GTF-Dateien, GRCm38.68 und GRCh37.63, wurden von Ensemble ftp://ftp.ensembl.org/ heruntergeladen) pub/release-68/gtf/ 48 ), ausgenommen überlappende Regionen, die zu mehreren Genen gehören. Die phasengesteuerten Allelzahlen für alle SNPs innerhalb des gesamten Genmodells wurden summiert:

Sofern nicht anders angegeben, wurden nur Gene mit ≥ 10 Gesamtzählungen für die weitere Analyse verwendet.

Schätzungen des Allelischen Ungleichgewichts: Schätzungen für AI für ein Gen g wurden als Anteil der mütterlichen Genzahlen erhalten (mg) zur Gesamtzahl der allelischen Gene:

Zusätzliche Tools zur KI-Berechnung

In unseren vergleichenden Analysen haben wir drei Tools verwendet: Qllelic (v0.3.2), MBASED (v1.20.0) und GeneiASE (v1.0.1). Aus Gründen der Einheitlichkeit wurden die Eingaben für Vergleiche für alle Werkzeuge gleich vorverarbeitet. Bei realen Daten wurden dieselben Gene gefiltert, damit die Daten alle Werkzeuganforderungen an SNP-Nummern und SNP-Coverages erfüllen (siehe ergänzende Abb. S4). In den Analysen wurden die Default-Parameter aller Tools verwendet (siehe Ergänzende Bilder S4, S7b):

Analyse bei einer Stichprobe: Für Qllelic: Standardparameter der Funktion PerformBinTestAIAnalysisForConditionNPoint(). Für MBASED: runMBASED-Funktion mit isPhased = TRUE, numSim = 10000 und der Rest auf Standardwerte gesetzt. Für GeneiASE: Standardparameter von geneiase -t static

Analyse mit zwei Stichproben: Für Qllelic: Standardparameter der Funktion PerformBinTestAIAnalysisForTwoConditions(). Für MBASED: runMBASED-Funktion mit isPhased = TRUE, numSim = 10000 und der Rest auf Standardwerte gesetzt. Für GeneiASE: Standardparameter von geneiase -t icd

Berechnung der Qualitätskorrekturkonstante für 2 Replikate

Da die Genabdeckung ein wesentlicher Parameter des proportionalen Beta-Binomial-Modells des allelischen Ungleichgewichts ist, haben wir mit dem Standardverfahren der Aufteilung von Genen in Bins nach Abdeckung begonnen, um unser Modell zu diskretisieren.

Bin-Grenzen wurden als aufgerundete Potenzen der Basis definiert B = 1,05: (ar=^<1> ceil ,lceil ^<2> ceil ,lceil ^<3> ceil ,ldots >) . Beachten Sie, dass QCC-Berechnungen nicht stark von der genauen Bin-Größe abhängen, siehe Ergänzungsbild S7. Jedes Gen g wurde einem Behälter nach dem Mittelwert seiner Zählungen zugeordnet C1g und C2g aus zwei technischen Replikaten:

dann jede bin Bich, enthält eine Reihe von Genen gich, wurde separat verarbeitet.

Passende AI-Verteilung als Beta-Binomial-Mischung

Um die Parameter einer Mischung aus zwei proportionalen Beta-Binomial-Verteilungen anzupassen, die den beobachteten AI aus dem gepoolten Replikat in jedem Abdeckungsbereich darstellen Bich:


Schau das Video: RNA-seq course: Quality control u0026 preprocessing of raw reads (Januar 2022).