Im Bereich Datenanalyse und maschinelles Lernen sind Datenqualität und die „richtigen“ Datenarchitekturen der Schlüssel zum Erfolg. Data Governance erlaubt es Organisationen wichtige Elemente und Prozesse zu etablieren, um aus Daten Informationen mit Mehrwert zu generieren. Hinsichtlich der riesigen Datenmengen, die mit moderner Analysentechnik in Laboren erzeugt werden, wird es zunehmend wichtig, die gesammelten Daten auch entsprechend zu nutzen.
Aus den vielen publizierten Artikeln zum Thema Data Integrity [1] in regulierten Umgebungen könnte man schlussfolgern, dass sämtliche Datenaspekte in Laboren geklärt seien. Wenn der Fokus ausschließlich auf das Thema Compliance gerichtet wäre, würde dies wohl zutreffen. Es wird jedoch vor allem in datengetriebenen Forschungsbereichen wie Life Sciences und Biotechnologie immer wichtiger, die riesigen Datenmengen zu analysieren und in nutzbares Wissen umzuwandeln. Die Entwicklung von Applikationen im Bereich Big Data nimmt rapide zu und stellt zugleich neue Herausforderungen, vor allem in Hinsicht auf das Management und die Qualität der Daten.
Daten als wertvollstes Asset
Dieser Beitrag befasst sich eingehender mit den Wertschöpfungspotenzialen von Daten. Dabei kommt dem Aspekt der Data Governance die wichtigste Rolle zu. Aus Sicht der Corporate IT handelt es sich bei Data Governance um eine „alte“ Disziplin, da gesetzlichen Anforderungen (z.B. Dokumentationspflichten, oder Finanzvorschriften wie dem US-Amerikanischen Sarbanes-Oxley Act (SOX) aus dem Jahr 2002 (siehe hierzu [2]), usw. schon seit Jahrzehnten nachgekommen werden muss. Mit der fortschreitenden Digitalisierung stellen Daten eine fundamentale Ressource dar und gewinnen hinsichtlich ihres Wertschöpfungspotenzials zunehmend an Bedeutung. So rückt nun auch in den Laboren in Industrie und Forschungseinrichtungen zusätzlich zu den Compliance-Anforderungen die Nutzung von Daten zunehmend in den Fokus. Allerdings herrscht in vielen Unternehmen (außerhalb der IT-Abteilungen) noch Unklarheit über das Thema Data Governance, wobei das Bewusstsein hierfür mit den kontinuierlich wachsenden Datenmengen immer mehr zunimmt. Dieses Thema wird von der Wissenschaft erst seit Kurzem eingehender erforscht (siehe [3]).
Labore in den Life Sciences, der Biotechnologie und der chemischen Forschung sammeln üblicherweise Daten, die aus verschiedenen Quellen und Systemen stammen, wie etwa aus HPLC-Analysen, pH‑Wert-Messungen, UV‑VIS-Spektroskopie, Gewichtswerten, usw. Innovative Entwicklungen von Hochdurchsatztechnologien liefern riesige Mengen an komplexen und unstrukturierten Daten. Als Sammlung in sogenannten Data Lakes ermöglichen diese Daten den Zugang zu neuen Erkenntnissen und verfügen über das Potenzial, neues Wissen zu generieren und Innovationen zu schaffen. Für die Datenanalyse (Data Analytics) ist eine vollständige Transparenz im Datenmanagement unabdingbar. Dies beinhaltet auch sämtliche Metadaten (Gerät, Seriennummer, Datum und Zeitangabe, Betreiber, IDs, usw.). In diesem Zusammenhang haben die Qualität und Vollständigkeit der Daten oberste Priorität.
Wertvolle Informationen aus dem Data Lake extrahieren
Abb. 1 Von Daten zu Weisheit: „The Data Pyramid of Wisdom“ (eigene Darstellung). Die Grafik basiert auf dem sogenannten DIKW-Modell – data (Daten), information (Informationen), knowledge (Wissen), wisdom (Weisheit).
Data Analytics geht sehr oft mit Maschinellem Lernen einher. Dieses Zusammenspiel ist auch erwünscht, wenn es darum geht, neue Wachstumsfelder wie die Arzneimittelentwicklung voranzutreiben [4]. Der Begriff „Data Analytics“ wird häufig im Zusammenhang mit Big Data in den Bereichen Life Sciences und Künstliche Intelligenz/Maschinelles Lernen (KI/ML) verwendet. Wie zuvor erwähnt, basiert das schnelle Wachstum an Datenmengen auf neuen Technologien wie dem Hochdurchsatz-Screening oder neuartigen Analysetechniken in den sogenannten „Omics“-Feldern (wie in [5] erläutert). Eine erfolgreiche Datenanalyse kann nur betrieben werden, wenn die im Data Lake widergespiegelte Datenarchitektur den entsprechenden Anforderungen gerecht wird, um verwertbare Informationen zu gewinnen. Data Analytics kann so dazu dienen, Entscheidungsfindungsprozesse zu beschleunigen, die Produktivität zu erhöhen oder Vorhersagen zu treffen. Dies gelingt nur mit definierten Datenarchitekturen und mit metadatenangereicherten Labordaten. Fasst man all diese Informationen zusammen, spricht man von Value Added Data, also Wertschöpfung, wie in Abbildung 1 dargestellt: „The Data Pyramid of Wisdom“. Die Grafik basiert auf dem sogenannten DIKW-Modell – data (Daten), information (Informationen), knowledge (Wissen), wisdom (Weisheit). Dieses weitverbreitete hierarchische Modell wird häufig im Wissensmanagement und in der Informatik verwendet, wird jedoch inzwischen auch aufgrund seiner Einschränkungen kritisch diskutiert [6].
Data Governance im Labor
Um Daten im Forschungs- oder Industrielabor als wertvolles Asset nutzen zu können, müssen Best-Practice-Prozesse innerhalb der Organisation verstanden und angepasst werden. Ein guter Ausgangspunkt ist dabei die Einbindung der (Labor)-IT-Experten, um zu verstehen, welche strategische Ausrichtung bei Themen wie Datenharmonisierung, Anforderungen an Metadaten oder Datenarchitekturen möglich ist. Ein Data Governance Framework unterstützt die Entwicklung einer laborinternen Norm. Abbildung 2 veranschaulicht die vielen Teilaspekte von Data Governance [7], wobei sich mehrere dieser Aspekte mit den Best Practices von Data Integrity decken. Vor allem die Bereiche „Document & Content Management“, „Data Quality Management“, „Metadata Management“ und „Reference & Master Data Management“ (hellblau in Abbildung 2) sind bei Data Integrity ähnlich.
Im Folgenden sollen drei datenrelevante Aspekte im Labor (in Abbildung 2 grün hervorgehoben) näher betrachtet werden, die zusätzlich zu den bereits mit Data Governance verbundenen Voraussetzungen an Data Integrity eine wichtige Rolle spielen. Hinweis: Die anderen beiden Bereiche (dunkelblau) werden in diesem Beitrag nicht behandelt, da es sich hierbei eher um Themen aus dem IT-Bereich handelt.
Abb. 2 Schlüsselbereiche von Data Governance, modifiziert nach [7]
i) Data Architecture Management ist der Prozess, in dem Spezifikationen definiert und aufrecht erhalten werden, die
- ein gemeinsames, standardisiertes Fachvokabular vorgeben,
- strategische Datenanforderungen beschreiben,
- anforderungsgerechte hochintegrierte Modelle darstellen, und
- im Einklang stehen mit der Unternehmensstrategie und zugehörigen Geschäftsarchitekturen.
ii) Data Security Management ist die Planung, Entwicklung und Ausführung von Sicherheitsrichtlinien und -abläufen, die sichere Authentifizierung, Autorisierung, den Zugriff auf Daten und ihre Prüfbarkeit sowie Informations-Assets gewährleisten.
iii) Data Operation Management ist die Entwicklung, Erhaltung und Unterstützung von strukturierten Daten, um den Wert der Datenbestände für das Unternehmen bestmöglich auszuschöpfen.
Benötigt werden die Labordaten als Gesamtbild, auch Datenarchitektur genannt, und zwar unabhängig von der Art der Daten (ob rein digital und basierend auf vernetzten Lösungen, oder manuell erfasste Werte von Offline-Geräten). Innerhalb dieses Gesamtbildes müssen Datenklassifizierungen (z.B. persönliche Daten, Testergebnisse, Messwerte, usw.) mit Zugriffsanforderungen, die Teil des Data Security Management sind, definiert werden.
Um die Digitalisierung im Labor und innerhalb des Data Operation Management voranzutreiben und somit den Wert der Daten zu maximieren, sollten den Datenfluss unterbrechende Abläufe (Data Breaks) eliminiert oder streng begrenzt werden. Als Data Breaks bezeichnet man beispielsweise die manuelle Übertragung von Werten, die manuelle Dateneingabe in Laborsysteme oder das Anhängen eines Dokuments, auf das elektronisch nicht zugegriffen werden kann. Die manuelle Übertragung von einem nicht verbundenen Gerät zu Labordatenlösungen ist fehleranfällig. Weiterhin wird die verfügbare Menge an wertvollen Metadaten durch den zeitaufwendigen Vorgang verringert, auch weil die Metadaten vom Anwender nur beschränkt einsehbar sind.
Die Datenarchitektur unterstützt den Anwender dabei, den Datenfluss (Data Flow) und Arbeitsabläufe für die Erfassung von Labordaten zu definieren. In Verbindung mit dem Aspekt Data Operation Management kann der Datenfluss zwischen IT-Systemen, Analysegeräten und Messdaten Schritt für Schritt auf sinnvolle Weise definiert und umgesetzt werden.
Datensicherheit und Zugriffsrechte sind ein Muss
Wie zuvor erläutert, ist eine digitale Transformation im Labor nur dann möglich, wenn mehrere Bereiche von Data Governance gleichzeitig implementiert werden.
Data Security Management regelt die Zugriffsrechte und Datenklassifizierung, indem es die allgemeine Sichtbarkeit wertvoller Daten beschränkt. Zusammen mit einem Sicherheitskonzept für die Daten kann der Schutz wertvoller Data Assets gewährleistet werden. Hier offenbart sich ein Widerspruch in Bezug auf Data Lakes und Big Data Analytics, denn hierfür ist ein uneingeschränkter Zugriff auf alle Daten erforderlich. Bei Anwendungsfällen im Bereich Data Analytics kann die Anonymisierung von personenbezogenen Daten oder Patientendaten diesen Widerspruch lösen und dabei helfen, gesetzlichen Anforderungen wie etwa der von der Europäischen Union verabschiedeten DSGVO (Datenschutz-Grundverordnung) nachzukommen, die seit dem 25. Mai 2018 in Kraft ist (siehe [8]).
Von manueller hin zu voll integrierter Datensammlung
Abb. 3 Data Flow in einem digitalisierten Labor mit automatisiertem Datentransfer von den Geräten zum übergelagerten Data Lake
Die manuelle Übertragung von Daten bietet nur sehr beschränkte Möglichkeiten hinsichtlich Metadaten, doch im nächsten Schritt, der direkten Datenerfassung, eröffnen sich neue Möglichkeiten, um Messdaten mit einigen Metadaten anzureichern. Das Automatisieren der Datenströme von der Erfassungssoftware zu einem Data-Management-System ist Teil des End-to-End-Data-Flows, um die Anforderungen der Datenarchitektur zu erfüllen (siehe Abbildung 3).
Zusammenfassung
Die Erweiterung von Data Integrity durch die Grundsätze von Data Governance in Verbindung mit einer Strategie für Data Lakes und Data Analytics wird das Wertschöpfungspotenzial von Daten stark vorantreiben. Die Data Governance-Prinzipien regeln die Handhabung von Zugriffsrechten, Backup und Archivierung. Darüber hinaus setzen sie einen starken Schwerpunkt auf Sicherheitsaspekte, welche zunehmend eine Schlüsselrolle einnehmen. Werden nutzbare Metadaten von Beginn eines Experiments an mittels eines End-to-End-Workflows erfasst, erweitert dies die Möglichkeiten von Data Analytics, um neue Erkenntnisse zu gewinnen.
________________________________________________________________________________________
Kategorie: Labormanagement | Data Management
Literatur:
[1] U.S. Food and Drug Administration, https://www.fda.gov/files/drugs/published/Data-Integrity-and-Compliance-With-Current-Good-Manufacturing-Practice-Guidance-for-Industry.pdf, 2016 Apr, accessed on 2020 Oct 02
[2] Coates, John, C IV. (2007) The Goals and Promise of the Sarbanes-Oxley Act, Journal of Economic Perspectives, 21 (1): 91-116, DOI: 10.1257/jep.21.1.91
[3] Krotova, A., Eppelsheimer, J. (2019) Was bedeutet Data Governance? Eine Clusteranalyse der wissenschaftlichen Literatur zu Data Governance, Institut der Deutschen Wirtschaft, Köln, https://www.iwkoeln.de/fileadmin/user_upload/Studien/Gutachten/PDF/2019/Gutachten_Data_Governance_DEMAND_Template.pdf, accessed on 2020 Sep 29
[4] Mijuk, G., Drug development get big data analytics boost, https://www.novartis.com/stories/discovery/drug-development-gets-big-data-analytics-boost, Novartis, 2018 Jul 02, accessed on 2020 Oct 02
[5] Committee on the Review of Omics-Based Tests for Predicting Patient Outcomes in Clinical Trials; Board on Health Care Services; Board on Health Sciences Policy; Institute of Medicine; Micheel CM, Nass SJ, Omenn GS, editors. Evolution of Translational Omics: Lessons Learned and the Path Forward. Washington (DC): National Academies Press (US); 2012 Mar 23. 2, Omics-Based Clinical Discovery: Science, Technology, and Applications. Available from: https://www.ncbi.nlm.nih.gov/books/NBK202165/
[6] Williams, D. (2014) Models, Metaphors and Symbols for Information and Knowledge Systems, Journal of Entrepreneurship, Management and Innovation 10 (2014), 79-107, DOI: 10.7341/20141013
[7] Dama International, The DAMA Guide to the Data Management Body of Knowledge (DAMA-DMBOK), first edition, Basking Ridge, NJ, USA, Technics Publications, April 2009
[8] Official Journal of the European Union: Regulation (EU) 2016/679 (General Data Protection Regulation) of 27 April 2016, https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32016R0679, accessed on 2020 Oct 02
Headerbild: iStock.com | BlackJack3D, koto_feja
Publikationsdatum:
21.10.2020