q&more
Meine Merkliste
my.chemie.de  
Login  
Boos_Header_qm_Q320_980x442

Versteckte Juwelen im Data Lake

Data Governance als Strategie für Wertschöpfung und Digitalisierung im Labor

Wolfgang Boos (Tecan Trading AG)

Im Bereich Datenanalyse und maschinelles Lernen sind Datenqualität und die „richtigen“ Datenarchitekturen der Schlüssel zum Erfolg. Data Governance erlaubt es Organisationen wichtige Elemente und Prozesse zu etablieren, um aus Daten Informationen mit Mehrwert zu generieren. Hinsichtlich der riesigen Datenmengen, die mit moderner Analysentechnik in Laboren erzeugt werden, wird es zunehmend wichtig, die gesammelten Daten auch entsprechend zu nutzen.

Aus den vielen publizierten Artikeln zum Thema Data Integrity [1] in regulierten Umgebungen könnte man schlussfolgern, dass sämtliche Datenaspekte in Laboren geklärt seien. Wenn der Fokus ausschließlich auf das Thema Compliance gerichtet wäre, würde dies wohl zutreffen. Es wird jedoch vor allem in datengetriebenen Forschungsbereichen wie Life Sciences und Biotechnologie immer wichtiger, die riesigen Datenmengen zu analysieren und in nutzbares Wissen umzuwandeln. Die Entwicklung von Applikationen im Bereich Big Data nimmt rapide zu und stellt zugleich neue Herausforderungen, vor allem in Hinsicht auf das Management und die Qualität der Daten.

Daten als wertvollstes Asset

Dieser Beitrag befasst sich eingehender mit den Wertschöpfungspotenzialen von Daten. Dabei kommt dem Aspekt der Data Governance die wichtigste Rolle zu. Aus Sicht der Corporate IT handelt es sich bei Data Governance um eine „alte“ Disziplin, da gesetzlichen Anforderungen (z.B. Dokumentationspflichten, oder Finanzvorschriften wie dem US-Amerikanischen Sarbanes-Oxley Act (SOX) aus dem Jahr 2002 (siehe hierzu [2]), usw. schon seit Jahrzehnten nachgekommen werden muss. Mit der fortschreitenden Digitalisierung stellen Daten eine fundamentale Ressource dar und gewinnen hinsichtlich ihres Wertschöpfungspotenzials zunehmend an Bedeutung. So rückt nun auch in den Laboren in Industrie und Forschungseinrichtungen zusätzlich zu den Compliance-Anforderungen die Nutzung von Daten zunehmend in den Fokus. Allerdings herrscht in vielen Unternehmen (außerhalb der IT-Abteilungen) noch Unklarheit über das Thema Data Governance, wobei das Bewusstsein hierfür mit den kontinuierlich wachsenden Datenmengen immer mehr zunimmt. Dieses Thema wird von der Wissenschaft erst seit Kurzem eingehender erforscht (siehe [3]).

Labore in den Life Sciences, der Biotechnologie und der chemischen Forschung sammeln üblicherweise Daten, die aus verschiedenen Quellen und Systemen stammen, wie etwa aus HPLC-Analysen, pH‑Wert-Messungen, UV‑VIS-Spektroskopie, Gewichtswerten, usw. Innovative Entwicklungen von Hochdurchsatztechnologien liefern riesige Mengen an komplexen und unstrukturierten Daten. Als Sammlung in sogenannten Data Lakes ermöglichen diese Daten den Zugang zu neuen Erkenntnissen und verfügen über das Potenzial, neues Wissen zu generieren und Innovationen zu schaffen. Für die Datenanalyse (Data Analytics) ist eine vollständige Transparenz im Datenmanagement unabdingbar. Dies beinhaltet auch sämtliche Metadaten (Gerät, Seriennummer, Datum und Zeitangabe, Betreiber, IDs, usw.). In diesem Zusammenhang haben die Qualität und Vollständigkeit der Daten oberste Priorität.

Wertvolle Informationen aus dem Data Lake extrahieren

Abb. 1 Von Daten zu Weisheit: „The Data Pyramid of Wisdom“ (eigene Darstellung). Die Grafik basiert auf dem sogenannten DIKW-Modell – data (Daten), information (Informationen), knowledge (Wissen), wisdom (Weisheit).

Data Analytics geht sehr oft mit Maschinellem Lernen einher. Dieses Zusammenspiel ist auch erwünscht, wenn es darum geht, neue Wachstumsfelder wie die Arzneimittelentwicklung voranzutreiben [4]. Der Begriff „Data Analytics“ wird häufig im Zusammenhang mit Big Data in den Bereichen Life Sciences und Künstliche Intelligenz/Maschinelles Lernen (KI/ML) verwendet. Wie zuvor erwähnt, basiert das schnelle Wachstum an Datenmengen auf neuen Technologien wie dem Hochdurchsatz-Screening oder neuartigen Analysetechniken in den sogenannten „Omics“-Feldern (wie in [5] erläutert). Eine erfolgreiche Datenanalyse kann nur betrieben werden, wenn die im Data Lake widergespiegelte Datenarchitektur den entsprechenden Anforderungen gerecht wird, um verwertbare Informationen zu gewinnen. Data Analytics kann so dazu dienen, Entscheidungsfindungsprozesse zu beschleunigen, die Produktivität zu erhöhen oder Vorhersagen zu treffen. Dies gelingt nur mit definierten Datenarchitekturen und mit metadatenangereicherten Labordaten. Fasst man all diese Informationen zusammen, spricht man von Value Added Data, also Wertschöpfung, wie in Abbildung 1 dargestellt: „The Data Pyramid of Wisdom“. Die Grafik basiert auf dem sogenannten DIKW-Modell – data (Daten), information (Informationen), knowledge (Wissen), wisdom (Weisheit). Dieses weitverbreitete hierarchische Modell wird häufig im Wissensmanagement und in der Informatik verwendet, wird jedoch inzwischen auch aufgrund seiner Einschränkungen kritisch diskutiert [6].

Data Governance im Labor

Um Daten im Forschungs- oder Industrielabor als wertvolles Asset nutzen zu können, müssen Best-Practice-Prozesse innerhalb der Organisation verstanden und angepasst werden. Ein guter Ausgangspunkt ist dabei die Einbindung der (Labor)-IT-Experten, um zu verstehen, welche strategische Ausrichtung bei Themen wie Datenharmonisierung, Anforderungen an Metadaten oder Datenarchitekturen möglich ist. Ein Data Governance Framework unterstützt die Entwicklung einer laborinternen Norm. Abbildung 2 veranschaulicht die vielen Teilaspekte von Data Governance [7], wobei sich mehrere dieser Aspekte mit den Best Practices von Data Integrity decken. Vor allem die Bereiche „Document & Content Management“, „Data Quality Management“, „Metadata Management“ und „Reference & Master Data Management“ (hellblau in Abbildung 2) sind bei Data Integrity ähnlich.

Im Folgenden sollen drei datenrelevante Aspekte im Labor (in Abbildung 2 grün hervorgehoben) näher betrachtet werden, die zusätzlich zu den bereits mit Data Governance verbundenen Voraussetzungen an Data Integrity eine wichtige Rolle spielen. Hinweis: Die anderen beiden Bereiche (dunkelblau) werden in diesem Beitrag nicht behandelt, da es sich hierbei eher um Themen aus dem IT-Bereich handelt.

Abb. 2 Schlüsselbereiche von Data Governance, modifiziert nach [7]

i) Data Architecture Management ist der Prozess, in dem Spezifikationen definiert und aufrecht erhalten werden, die

  • ein gemeinsames, standardisiertes Fachvokabular vorgeben,
  • strategische Datenanforderungen beschreiben,
  • anforderungsgerechte hochintegrierte Modelle darstellen, und
  • im Einklang stehen mit der Unternehmensstrategie und zugehörigen Geschäftsarchitekturen.

ii) Data Security Management ist die Planung, Entwicklung und Ausführung von Sicherheitsrichtlinien und -abläufen, die sichere Authentifizierung, Autorisierung, den Zugriff auf Daten und ihre Prüfbarkeit sowie Informations-Assets gewährleisten.

iii) Data Operation Management ist die Entwicklung, Erhaltung und Unterstützung von strukturierten Daten, um den Wert der Datenbestände für das Unternehmen bestmöglich auszuschöpfen.

Benötigt werden die Labordaten als Gesamtbild, auch Datenarchitektur genannt, und zwar unabhängig von der Art der Daten (ob rein digital und basierend auf vernetzten Lösungen, oder manuell erfasste Werte von Offline-Geräten). Innerhalb dieses Gesamtbildes müssen Datenklassifizierungen (z.B. persönliche Daten, Testergebnisse, Messwerte, usw.) mit Zugriffsanforderungen, die Teil des Data Security Management sind, definiert werden.

Um die Digitalisierung im Labor und innerhalb des Data Operation Management voranzutreiben und somit den Wert der Daten zu maximieren, sollten den Datenfluss unterbrechende Abläufe (Data Breaks) eliminiert oder streng begrenzt werden. Als Data Breaks bezeichnet man beispielsweise die manuelle Übertragung von Werten, die manuelle Dateneingabe in Laborsysteme oder das Anhängen eines Dokuments, auf das elektronisch nicht zugegriffen werden kann. Die manuelle Übertragung von einem nicht verbundenen Gerät zu Labordatenlösungen ist fehleranfällig. Weiterhin wird die verfügbare Menge an wertvollen Metadaten durch den zeitaufwendigen Vorgang verringert, auch weil die Metadaten vom Anwender nur beschränkt einsehbar sind.

Die Datenarchitektur unterstützt den Anwender dabei, den Datenfluss (Data Flow) und Arbeitsabläufe für die Erfassung von Labordaten zu definieren. In Verbindung mit dem Aspekt Data Operation Management kann der Datenfluss zwischen IT-Systemen, Analysegeräten und Messdaten Schritt für Schritt auf sinnvolle Weise definiert und umgesetzt werden.

Datensicherheit und Zugriffsrechte sind ein Muss

Wie zuvor erläutert, ist eine digitale Transformation im Labor nur dann möglich, wenn mehrere Bereiche von Data Governance gleichzeitig implementiert werden.

Data Security Management regelt die Zugriffsrechte und Datenklassifizierung, indem es die allgemeine Sichtbarkeit wertvoller Daten beschränkt. Zusammen mit einem Sicherheitskonzept für die Daten kann der Schutz wertvoller Data Assets gewährleistet werden. Hier offenbart sich ein Widerspruch in Bezug auf Data Lakes und Big Data Analytics, denn hierfür ist ein uneingeschränkter Zugriff auf alle Daten erforderlich. Bei Anwendungsfällen im Bereich Data Analytics kann die Anonymisierung von personenbezogenen Daten oder Patientendaten diesen Widerspruch lösen und dabei helfen, gesetzlichen Anforderungen wie etwa der von der Europäischen Union verabschiedeten DSGVO (Datenschutz-Grundverordnung) nachzukommen, die seit dem 25. Mai 2018 in Kraft ist (siehe [8]).

Von manueller hin zu voll integrierter Datensammlung

Abb. 3 Data Flow in einem digitalisierten Labor mit automatisiertem Datentransfer von den Geräten zum übergelagerten Data Lake

Die manuelle Übertragung von Daten bietet nur sehr beschränkte Möglichkeiten hinsichtlich Metadaten, doch im nächsten Schritt, der direkten Datenerfassung, eröffnen sich neue Möglichkeiten, um Messdaten mit einigen Metadaten anzureichern. Das Automatisieren der Datenströme von der Erfassungssoftware zu einem Data-Management-System ist Teil des End-to-End-Data-Flows, um die Anforderungen der Datenarchitektur zu erfüllen (siehe Abbildung 3).

Zusammenfassung

Die Erweiterung von Data Integrity durch die Grundsätze von Data Governance in Verbindung mit einer Strategie für Data Lakes und Data Analytics wird das Wertschöpfungspotenzial von Daten stark vorantreiben. Die Data Governance-Prinzipien regeln die Handhabung von Zugriffsrechten, Backup und Archivierung. Darüber hinaus setzen sie einen starken Schwerpunkt auf Sicherheitsaspekte, welche zunehmend eine Schlüsselrolle einnehmen. Werden nutzbare Metadaten von Beginn eines Experiments an mittels eines End-to-End-Workflows erfasst, erweitert dies die Möglichkeiten von Data Analytics, um neue Erkenntnisse zu gewinnen.

________________________________________________________________________________________

Kategorie: Labormanagement | Data Management

Literatur:
[1] U.S. Food and Drug Administration, https://www.fda.gov/files/drugs/published/Data-Integrity-and-Compliance-With-Current-Good-Manufacturing-Practice-Guidance-for-Industry.pdf, 2016 Apr, accessed on 2020 Oct 02
[2] Coates, John, C IV. (2007) The Goals and Promise of the Sarbanes-Oxley Act, Journal of Economic Perspectives, 21 (1): 91-116, DOI: 10.1257/jep.21.1.91
[3] Krotova, A., Eppelsheimer, J. (2019) Was bedeutet Data Governance? Eine Clusteranalyse der wissenschaftlichen Literatur zu Data Governance, Institut der Deutschen Wirtschaft, Köln, https://www.iwkoeln.de/fileadmin/user_upload/Studien/Gutachten/PDF/2019/Gutachten_Data_Governance_DEMAND_Template.pdf, accessed on 2020 Sep 29
[4] Mijuk, G., Drug development get big data analytics boost, https://www.novartis.com/stories/discovery/drug-development-gets-big-data-analytics-boost, Novartis, 2018 Jul 02, accessed on 2020 Oct 02
[5] Committee on the Review of Omics-Based Tests for Predicting Patient Outcomes in Clinical Trials; Board on Health Care Services; Board on Health Sciences Policy; Institute of Medicine; Micheel CM, Nass SJ, Omenn GS, editors. Evolution of Translational Omics: Lessons Learned and the Path Forward. Washington (DC): National Academies Press (US); 2012 Mar 23. 2, Omics-Based Clinical Discovery: Science, Technology, and Applications. Available from: https://www.ncbi.nlm.nih.gov/books/NBK202165/
[6] Williams, D. (2014) Models, Metaphors and Symbols for Information and Knowledge Systems, Journal of Entrepreneurship, Management and Innovation 10 (2014), 79-107, DOI: 10.7341/20141013
[7] Dama International, The DAMA Guide to the Data Management Body of Knowledge (DAMA-DMBOK), first edition, Basking Ridge, NJ, USA, Technics Publications, April 2009
[8] Official Journal of the European Union: Regulation (EU) 2016/679 (General Data Protection Regulation) of 27 April 2016, https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32016R0679, accessed on 2020 Oct 02

Publikationsdatum: 21.10.2020

Fakten, Hintergründe, Dossiers

  • Data Governance
  • Datenanalyse
  • maschinelles Lernen
  • Datenarchitektur
  • Compliance
  • Big Data
  • Data Lake
  • Datenmanagement
  • künstliche Intelligenz
  • Hochdurchsatz-Screening
  • Labordaten
  • Wissensmanagement
  • Informatik
  • Data Integrity
  • Digitalisierung
  • Laborsysteme
  • Datensicherheit

Weitere Artikel der Autoren

Alle Artikel

Mehr über Tecan

  • Autoren

    Wolfgang Boos

    Wolfgang Boos, Jahrgang 1965, studierte nach einer Ausbildung zum Informationselektroniker Technische Informatik an der FH Flensburg mit Abschluss Dipl.-Ing. (FH). Im Anschluss war er als Softwareentwickler im Forschungszentrum Jülich, Institut für Biotechnologie 2, verantwortlich für die S ... mehr

q&more – die Networking-Plattform für exzellente Qualität in Labor und Prozess

q&more verfolgt den Anspruch, aktuelle Forschung und innovative Lösungen sichtbar zu machen und den Wissensaustausch zu unterstützen. Im Fokus des breiten Themenspektrums stehen höchste Qualitätsansprüche in einem hochinnovativen Branchenumfeld. Als moderne Wissensplattform bietet q&more den Akteuren im Markt einzigartige Networking-Möglichkeiten. International renommierte Autoren repräsentieren den aktuellen Wissenstand. Die Originalbeiträge werden attraktiv in einem anspruchsvollen Umfeld präsentiert und deutsch und englisch publiziert. Die Inhalte zeigen neue Konzepte und unkonventionelle Lösungsansätze auf.

> mehr zu q&more

q&more wird unterstützt von:

 

Ihr Bowser ist nicht aktuell. Microsoft Internet Explorer 6.0 unterstützt einige Funktionen auf ie.DE nicht.