06.07.2022 - Max-Planck-Institut für molekulare Genetik

Markergene in Zellclustern finden

Neue Methode erleichtert die Identifikation von Zelltyp-spezifischen Genen in Single-Cell-Daten

Die abertausenden Zellen in einer biologischen Probe sind alle individuell unterschiedlich und lassen sich einzeln analysieren. Anhand der Gene, die in ihnen aktiv sind, lassen sie sich in „Cluster“ zusammen sortieren. Aber welche Gene sind besonders charakteristisch für Cluster, was sind also ihre „Markergene“? Ein neues bioinformatisches Verfahren namens Association Plot erleichtert die Analyse dieser Daten.

Welche Gene sind spezifisch für einen bestimmten Zelltyp, „markieren“ also deren Identität? Wegen immer größer werdender Datenmengen wird diese Frage immer schwieriger zu beantworten. Häufig sind Markergene einfach Gene, die über Jahre hinweg immer wieder in bestimmten Zellpopulationen gefunden wurden. Jedoch könnten noch viel mehr Gene für einen bestimmten Zelltyp charakteristisch sein, die bisher noch unentdeckt sind.

Ein neues statistisches Verfahren zur Visualisierung der Genaktivität innerhalb eines Zellclusters erleichtert es, dessen Markergene zu finden. Diese „Association Plots“ (APL) vergleichen die Gene eines Clusters mit allen anderen Clustern des Datensatzes. Auch welche Gene in anderen Clustern vorkommen, lässt sich im APL-Diagramm leicht ablesen.

„Mit APL lassen sich nicht nur neue Markergene identifizieren, es funktioniert auch umgekehrt. In einem Datensatz mit unbenannten Clustern können wir Zelltypen bestimmen, wenn wir eine Liste bekannter Markergene als Grundlage nehmen“, sagt Elzbieta Gralinska vom Max-Planck-Institut für molekulare Genetik.

Die Biotechnologin arbeitet im Team von Martin Vingron, welches APL entwickelt, seine Funktion an zwei öffentlich verfügbaren Datensätzen demonstriert und die Ergebnisse in der Fachzeitschrift Journal of Molecular Biologyveröffentlicht hat. Zudem ist APL als kostenloses Modul für die Statistik-Umgebung R erschienen. Das APL-Modul erlaubt es den Forschenden, ihre Single-Cell-Daten visuell zu inspizieren und für detaillierte Einzelheiten einzelne Datenpunkte mit der Computermaus auszuwählen.

Einzelne Zellen analysieren und gruppieren

Warum ist es überhaupt notwendig, Markergene zu ermitteln? Moderne Sequenziertechnologien können inzwischen einzelne Erbgut-Moleküle in einzelnen Zellen analysieren. So kann etwa aus einer Blutprobe jede Zelle vereinzelt und eine Stichprobe der enthaltenen RNA entschlüsselt werden. Diese Daten repräsentieren aktive Gene, die zu RNA-Molekülen transkribiert wurden.

Der Vorteil: Statt zu rätseln, aus welchem Zelltyp nun eine bestimmte RNA stammt, lässt sich diese zu seinem Ursprung zurückverfolgen. Der Nachteil: Sequenzieren die Forschenden tausende RNA-Transkripte in jeder einzelnen von zehntausenden Zellen, entstehen schnell unübersichtliche Datenberge.

Ein Ausweg ist, die Zellen anhand ihrer Eigenschaften zu sortieren. „Einzelzelldaten setzen sich aus Vertretern verschiedenster Zelltypen zusammen. Wir sind jeweils an Zellen desselben Zelltyps interessiert, die sich alle ähnlich verhalten sollten“, erklärt Martin Vingron. Daher sei es sinnvoll, ähnliche Zellen vom Computer zu Gruppen zusammenfassen zu lassen, sagt er. „Für uns werden Zelltypen durch ihre Markergene definiert.“

Interaktiv Cluster erforschen

Anhand öffentlich verfügbarer Daten von weißen Blutzellen demonstrierte das Team sein neues Verfahren. Die vielen verschiedenartigen weißen Blutkörperchen wie T-Zellen, B-Zellen oder Monozyten befinden sich in unterschiedlichen Clustern. Die Forschenden bestätigten bekannte Markergene und konnten zeigen, dass enge Verwandte in der Gruppe der weißen Blutzellen auch große Ähnlichkeit in ihrer Genaktivität aufweisen.

„Jedes der charakteristischen Gene, die wir mit APL gefunden haben, wird von mindestens einer anderen Methode zum Aufspüren dieser Gene gefunden“, sagt Gralinska. Denn zur Bestimmung von Markergenen in Clustern existieren zwar bereits Algorithmen, erklärt die Forscherin. Doch die grafische Darstellung der Ergebnisse als Association Plots sei äußerst vorteilhaft. „Bestehende Verfahren liefern lediglich lange Listen von Genen und Score-Werten. User gehen die Liste häufig durch und brechen dann bei einem willkürlichen Schwellenwert ab“, sagt Gralinska.

Die neue Methode dagegen biete eine Möglichkeit, diese Gene zu visualisieren, auf jedes einzelne Gen zu klicken und dessen Aktivität genauer unter die Lupe zu nehmen. „Wir stellen nicht nur Listen von Markergenen zur Verfügung, sondern die Benutzerinnen und Benutzer können auch überprüfen, wie sich diese Gene verhalten“, sagt die Forscherin. „Mit Association Plots können sie in ihre Daten eintauchen, um mehr über die einzelnen Zelltypen zu erfahren.“ Zudem sei es sehr einfach, über kompatible Software in einem weiteren Schritt eine Gene-Ontology-Enrichment-Analyse durchzuführen. Dadurch ließe sich die biologische Funktion der interessantesten Gene aufschlüsseln – „ein sehr nützliches Feature“, findet Gralinska.

Das zugrundeliegende mathematische Modell

Die hochdimensionalen Daten aus Genaktivitäten von Zellen lassen sich visuell nicht ohne Informationsverlust darstellen. Dies erschwert auch die Analyse von Clusterdaten. „Unser Trick ist, dass wir viel mehr als nur zwei oder drei Dimensionen einbeziehen, letztlich aber ein zweidimensionales Diagramm erstellen können“, sagt Gralinska. 

Den Association Plots liegt ein mathematisches Verfahren zugrunde, das Gene und Zellen in einem hochdimensionalen Raum einbettet. Durch die Messung der Abstände zwischen Genen und Zellen in diesem Raum ergeben sich Wertepaare, die einerseits die Verbundenheit eines Gens zum eigenen Cluster und andererseits die Assoziation zu den anderen Clustern widerspiegeln.

„Ein Nachteil der Association Plots ist, dass wir auf geclusterte Daten angewiesen sind. Für das Clustering müssen wir andere Techniken einsetzen“, sagt Martin Vingron. „Nichtsdestotrotz hoffen wir, dass unser neues Verfahren viele neue Anwenderinnen und Anwender findet. Wir finden, dass ein visueller und interaktiver Prozess die Analyse einfach besser macht.“

Fakten, Hintergründe, Dossiers

  • Gene
  • Bioinformatik
  • Genaktivität
  • Datenanalyse
  • Zellanalyse

Mehr über MPI für molekulare Genetik

  • News

    Durchbruch in der Zellkulturtechnik: Mini-Gehirne für die Forschung der Zukunft

    „Outer Radial Glia“ (oRG)-Zellen sind Stammzellen des Nervensystems und für die Entwicklung der menschlichen Großhirnrinde von entscheidender Bedeutung. Im Labor sind sie bisher nur äußerst schwer zu kultivieren. Nun ist es einem Team von Max-Planck-Forschenden aus Berlin gelungen, Gehirnor ... mehr

    Die Stummschaltung im Genom aufheben

    Erblich bedingte Krankheiten, aber auch Krebs und Herz-Kreislauf-Erkrankungen könnten mit einem Phänomen in Zusammenhang stehen, das in der Wissenschaft als genomische Prägung bezeichnet wird. Dabei ist entweder nur das mütterlich vererbte oder das väterlich vererbte Gen aktiv. Ein Forschun ... mehr

    Betriebsanweisung für die Genregulation

    Woher wissen Zellen, wann sie welches Gen aktivieren müssen? Diese Information muss in der Sequenz der DNA verschlüsselt sein – wie genau, ist immer noch unklar. Forschende haben nun ausgelotet, welche Informationen aus Sequenzdaten extrahiert werden können, um vorherzusagen, welches Gen in ... mehr

Mehr über Max-Planck-Gesellschaft

  • News

    Ein neues Mikroskop beleuchtet die Funktionsweise von Nervenzellen tief im Gehirn

    Wie finden wir heraus, was in Nervenzellen tief im Gehirn vor sich geht, während ein Tier aktiv ist? Forschende des Max-Planck-Instituts für Neurobiologie des Verhaltens – caesar (MPINB) haben ein Miniatur-Mikroskop entwickelt, das Mäuse auf dem Kopf tragen können, während sie sich uneinges ... mehr

    Organentwicklung messen

    Ein Forscherteam aus Dresden und Wien entdeckt Zusammenhang zwischen der Verbindung dreidimensionaler Gewebestrukturen und der Entstehung ihrer Architektur. Das ermöglicht selbstorganisierende Gewebe zu entwickeln, die menschliche Organe simulieren. Die Organe im menschlichen Körper bestehe ... mehr

    Zurück in die Zukunft der Photosynthese

    Das zentrale Enzym der Photosynthese, Rubisco, ist das häufigste der Erde. Aber wie entwickelte sich Rubisco, und wie passte es sich den Veränderungen im Laufe der Erdgeschichte an? Durch Rekonstruktion von Milliarden Jahre alten Enzymen gelang es Forschern des Max-Planck-Instituts für terr ... mehr

q&more – die Networking-Plattform für exzellente Qualität in Labor und Prozess

q&more verfolgt den Anspruch, aktuelle Forschung und innovative Lösungen sichtbar zu machen und den Wissensaustausch zu unterstützen. Im Fokus des breiten Themenspektrums stehen höchste Qualitätsansprüche in einem hochinnovativen Branchenumfeld. Als moderne Wissensplattform bietet q&more den Akteuren im Markt einzigartige Networking-Möglichkeiten. International renommierte Autoren repräsentieren den aktuellen Wissenstand. Die Originalbeiträge werden attraktiv in einem anspruchsvollen Umfeld präsentiert und deutsch und englisch publiziert. Die Inhalte zeigen neue Konzepte und unkonventionelle Lösungsansätze auf.

> mehr zu q&more

q&more wird unterstützt von: