
Das erklärt sich von selbst? Forschungsdatenmanagement und die Rolle der Data Stewards.
In unserem empirisch fundierten Sonderforschungsbereich, in dem ein besonderes Augenmerk auf die Analyse der Wirklichkeit in ihren verschiedenen räumlichen Ausformungen, Widersprüchlichkeiten und Verwobenheiten gelegt wird, sehen wir uns einer schier unendlichen und exponentiell wachsenden Flut analysierbarer, zumeist digitaler Daten gegenüber. Der vorliegende Blogbeitrag argumentiert, dass im Sinne reflexiver Methodologien ein doppelter Datenbegriff essentiell ist. Darüber hinaus wird ein Blick auf die Entwicklung neu zertifizierter Wissenschaftsprofessionen des Forschungsdatenmanagements (FDM) und deren Einfluss auf das Forschungsdatenmanagement als Tätigkeit geworfen. Im vorliegenden Beitrag werfe ich als Data Steward am SFB einen Blick auf den benannten Um-Ordnungsprozess.
Der Forschungsprozess ist durchzogen von Formen der Digitalisierung, ob Datensitzungen in hybriden Sessions, digitalen Aufzeichnungen, dem Lesen dieses Artikels beziehungsweise dessen Schreiben und auf allen anderen Ebenen. Auch in der empirischen Sozialforschung sind Forschungsdaten zunehmend digital. Ob MP3-Audiodateien als Interviewmitschnitte, eingescannte Mappings oder große Paneldatensätze. Auf die Zunahme der alltäglichen Nutzung des Computers in den Achtziger- und Neunzigerjahren wurden im ersten Jahrzehnt des neuen Jahrtausends immer größere Teile speziell der Aufbereitung und Analyse von Forschungsdaten digital möglich. Mittlerweile ist nahezu der gesamte Forschungsprozess von Computern und den ihnen zugrundeliegenden Infrastrukturen durchdrungen. Der Ausbau digitaler Forschungsdateninfrastrukturen folgte der gesamtgesellschaftlichen Entwicklung. Die Einführung der Nationalen Forschungsdateninfrastruktur (NFDI) im Jahr 2020, gefördert bis 2028 durch die Deutsche Forschungsgemeinschaft (DFG), stellt sowohl einen Entwicklungsschritt als auch eine politische Willensbekundung dar. Die Gemeinsame Wissenschaftskonferenz, die gemeinsame Wissenschaftsförderdachorganisation von Bund und Ländern, fordert, dass die NFDI Standards im Datenmanagement setzen und als digitaler, regional verteilter und vernetzter Wissensspeicher „Forschungsdaten nachhaltig sichern und nutzbar machen [soll]“ (GWK 2018, S. 1). Ein Prozess, als Teilmenge der gesamtgesellschaftlichen Digitalisierungs- und Mediatisierungstendenz.
Diese Entwicklung findet ihren Ausdruck in der zunehmenden Bedeutung des zeichenhaften kommunikativen Handelns als Produktionsfaktor (vgl. Knoblauch 2018, S. 58). Die Verbreitung neuer Informations- und Kommunikationstechnologien bedingt die Zunahme digital mediatisierten kommunikativen Handelns. Andreas Hepp bezeichnet diesen Prozess als tiefgreifende Mediatisierung, wobei es sich um eine gesellschaftliche Durchdringung mittels digitaler Medien und der ihnen zugrundeliegenden Infrastrukturen handelt (vgl. Hepp 2018, S. 198). Kommunikatives Handeln erscheint uns demnach zunehmend als Formen der vom Leibkörper abgelösten Objektivation. So sind viele der im SFB analysierten Forschungsdaten Formen der Konservierung sozialer Interaktionen. Unabhängig davon, ob beispielsweise das Interview face-to-face oder via Videokonferenzsoftware geführt wird, werden beide letztlich transkribiert. Während das erste eine soziale Situation in leibkörperlicher Kopräsenz ist, ist das zweite zwar nicht gänzlich vom Leibkörper abgelöst, stellt aber eine andere Form der sensorischen Erfahrung dar. Doch die Erhebungen stellen auch andere kommunikative Formen dar. So unterscheiden sich oftmals die Situationen vor und nach dem Interview und mit ihnen auch die Erfahrung der Ethnographin.
Die Durchdringung der Digitalisierung verschiedener Lebenswelten und die damit einhergehende Sedimentierung in unseren Gebrauchswissensbeständen eröffnen neue Potentiale für die Forschung. Als Alltagsakteur*innen sammeln wir Wissen über den Umgang mit Formen digitaler Mediatisierung. Die Suche, Erstellung, der Austausch, die Verarbeitung sowie die Analyse von Daten und Informationen erfolgt schneller, wenn auch neu vermittelt. Die Möglichkeit des relativ ortsunabhängigen Austauschs innerhalb von Forschungscommunities ist vereinfacht. Digitale Systeme generieren technische Metadaten quasi als Nebeneffekt ihrer Funktion. Diese Feststellung trifft selbstverständlich ebenfalls auf unseren SFB zu. Forschungsdaten werden im Feld von Forschenden, Feldassisten*innen oder Forschungspartner*innen gesammelt, wo nötig digitalisiert, in der Cloud und auf Festplatten zwischengespeichert, durch ein DSGVO-konformes Large Language Model transkribiert, von Projektmitarbeitenden vorkodiert, in hybriden Datensitzungen analysiert, mit Softwareunterstützung visualisiert und zu Artikeln synthetisiert, nach einigem Hin und Her wechselseitig kommentiert und annotiert und schließlich publiziert, um dann auf zumeist öffentlichen und digitalen Wegen zugänglich zu sein, um womöglich gelesen und zitiert zu werden.
Es erscheint naheliegend, dieses der Digitalisierung zugrunde liegende Potenzial zu nutzen. In diesem Sinne verweise ich auf die professionsbezogenen Kodexe, wie den DFG-Kodex „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“. Ein Beispiel ist die Leitlinie 13, die die Herstellung von öffentlichem Zugang zu Forschungsergebnissen fordert. In der Leitlinie wird erläutert, dass sobald eine Entscheidung über eine öffentliche Zugänglichmachung von Forschungsergebnissen getroffen wurde, diese von Wissenschaftler*innen vollständig und nachvollziehbar beschrieben werden soll. „Dazu gehört es auch, soweit dies möglich und zumutbar ist, die den Ergebnissen zugrunde liegenden Forschungsdaten, Materialien und Informationen, die angewandten Methoden sowie die eingesetzte Software verfügbar zu machen und Arbeitsabläufe umfänglich darzulegen“ (DFG 2022, S. 18f). Das Zitat legt nahe, dass es sich im Wesentlichen um eine Dokumentation handelt. Die DFG-Checkliste für Antragstellende (DFG 2021) führt auf, welche Aspekte bei einer Dokumentation zu berücksichtigen sind. Dabei geht es um die Darstellung von technischen Kennziffern, nicht jedoch um die Darstellung des Erkenntnisprozesses außerhalb unmittelbarer Projektergebnisse. Die im Zitat erwähnte Darlegung der Abläufe des Forschungsprozesses stellt eine wesentliche Herausforderung dar, die sich kaum aus den generischen Forschungsdatenmanagementhandreichungen und Erklärungen herleiten lässt. Die generischen Handreichungen sehen sich mit unterschiedlichen Institutionalisierungsgraden der berufsbezogenen FDM-Praktiken konfrontiert, so dass sie oft ungenau bleiben. Ein Sinnbild generischer Handreichungen ist der Forschungsdatenlebenszyklus.
Besonders prägend im Feld des FDM ist der Forschungsdatenlebenszyklus, der in sechs Stadien verläuft – sechs Stadien, die einen geschlossenen Kreislauf bilden.
- Forschungsvorhaben planen. In dieser Etappe wird das Forschungsprojekt und -design entwickelt.
- Daten erheben. Die Daten werden generiert oder gesammelt. Die notwendigen Einwilligungen und sonstigen Dokumente werden eingeholt.
- Daten aufbereiten und analysieren. Die Rohdaten werden in Forschungsdaten umgewandelt und analysiert.
- Daten teilen und publizieren. Die Forschungsdaten werden nach ihren bereits festgelegten Nachnutzbarkeiten zugänglich gemacht, dafür werden die nötigen Dokumente (bspw. Einwilligungen) zusammengestellt.
- Daten archivieren. Die Forschungsdatenkorpora werden für Standards der Archivierung aufbereitet und archiviert.
- Daten nachnutzen. Die Forschungsdaten werden für unterschiedliche Szenarien nutzbar gemacht.

Quelle: Forschungsdaten.info, Darstellung des Forschungsdatenlebenszyklus
Die Darstellung des Forschungsprozesses erfolgt idealtypisch und baut wesentlich auf den Anforderungen quantitativer Forschungsdesigns auf. Das ist aus mindestens zwei Gründen problematisch. Erstens wird der Forschungsprozess hier als linearer Prozess verstanden. Zweitens, und darauf aufbauend, weißt der zugrundeliegende Begriff digitaler Forschungsdaten einige Schwächen auf indem er eine Tendenz zur Vereinseitigung von Forschungsdaten zu digitalen Daten hat. Im Anschluss an Knoblauch und Wilke (in Veröffentlichung) will ich für einen doppelten Forschungsdatenbegriff argumentieren. Das Forschungsdatum steht im Zentrum und dessen Biographie gilt es zu dokumentieren. Die allgemeinen Standards orientieren sich an der verbrieften Fürsorgepflicht, sei es forschungsrechtlich oder ethisch, sowie dem Nachvollzug des methodologischen Vorgehens. Wenn die technischen Spuren des Forschungsprozesses, die dem Datum mittels Metadaten und sonstigen Dokumenten der Belegpflicht zugeordnet sind, als vollumfänglich erscheinen, dann wird nicht der Erkenntnisprozess, sondern die Biographie digitaler Dateien nachgezeichnet.
Kritik 1: Forschung als linearer Prozess
Der Forschungsdatenlebenszyklus stellt eine Fortsetzung des Forschungsmanagements (vgl. Unterteilung der Forschungspraxis) dar, wobei der Fokus nicht auf dem einzelnen Forschungsprojekt liegt, sondern auf der prinzipiellen Möglichkeit sekundäranalytischer Forschungsarbeiten in Projekten Dritter. Im Rahmen der Projektplanung, bei der die Erstellung eines Datenmanagementplans zunehmend obligatorisch wird, kann die Reflexion des Forschungsprozesses sowie der zu erwartenden Etappen und Ziele des Forschungsvorhabens nützlich und sensibilisierend sein. Diese Anforderungen sind jedoch nicht an die Struktur des Forschungsprozesses selbst geknüpft, sondern an dessen konventionalisierte Ausgestaltung. Die wirkliche Forschungsarbeit erfordert beispielsweise beim Theoretical Sampling der Grounded Theory eine qualitativ indizierte theoretische Sättigung, welche die Trennung von Analyse, Aufbereitung und Erhebung zu einer künstlichen macht. Die theoretische Sättigung, wie sie von Barney Glaser und Anselm Strauss 1967 begründet wurde, versteht Jörg Strübing als ein Abbruchkriterium für Phasen im Forschungsprozess. Dieses Kriterium ist gegeben, wenn bei der Wiederholung des Verfahrens keine zusätzlichen Erkenntnisse mehr gewonnen werden. (vgl. Strübing 2019, S. 533).
Die Forschungspraxis verstehender Forschungsdesigns vollzieht sich in diesem Sinne in einer zirkulierenden, hermeneutischen Bewegung zwischen Vorurteil und Verstehen. Diese Bewegung wird von Hans-Georg Gadamer in seinem zentralen Werk „Wahrheit und Methode“ skizziert. „So läuft die Bewegung des Verstehens stets vom Ganzen zum Teil und zurück zum Ganzen. Die Aufgabe ist, in konzentrischen Kreisen die Einheit des verstandenen Sinnes zu erweitern. Einstimmung aller Einzelheiten zum Ganzen ist das jeweilige Kriterium für die Richtigkeit des Verstehens. Das Ausbleiben solcher Einstimmung bedeutet Scheitern des Verstehens“ (Gadamer 1993, S. 57). In diesem Sinne stellt der Forschungsdatenlebenszyklus ein vorläufiges Urteil gegenüber dem antizipierten Sinn dar, das mit der wirklichen Erfahrung in Wechselwirkung gebracht werden muss. Der erzeugte oder entdeckte Sinn ist aus dem Einzelnen gebildet im Kontext des Ganzen.
Das Beispiel des Theoretical Sampling mitsamt der Gegenstandsangemessenheit des verstehenden Paradigmas verdeutlicht, dass einige Forschungsdesigns der Logik einer Unterteilbarkeit des Forschungsprozesses entgegenstehen. Dass diese Ungenauigkeit durch den Forschungsdatenlebenszyklus gelöst werden kann, ist zu bezweifeln. Die Arbeit von uns Data Stewards kann anschließend an Rothfritz (2021) in diesem Aspekt als Boundary-Work betrachtet werden. Ziel ist es, die generischen Anforderungen und ihre jeweiligen Konkretisierungen in beide soziale Welten einzubringen.
Kritik 2: Definition von Forschungsdaten
Die These, dass der Sinn des Einzelnen erst im Kontext des Ganzen verständlich wird, sollte auch als Anforderung an die Kontexte gelten, in denen Forschungsdaten archiviert werden könnten. Die Handreichungen orientieren sich dabei jedoch an einem Minimalkonsens, der disziplinübergreifend Gültigkeit besitzt. Analog zu technischen Aufzeichnungsgeräten werden Forschende für die Thematik sensibilisiert. Das Argument, dass ein unterkomplexer Datenbegriff tendenziell zu einseitigen FDM-Maßnahmen führen kann, ist naheliegend. Auf verschiedenen Fachtagungen wurde richtigerweise von Vertreter*innen der DFG auf die Anforderung an die Fachcommunities verwiesen. Alsbald die jeweiligen Fachdisziplinen den Datenbegriff der DFG anführen, wird dieses Vorgehen jedoch tautologisch.
Eine verstehende Soziologie sollte sich von einer potentiellen Vereinseitigung des Datenbegriffs frei machen und stattdessen einen doppelten Begriff von Daten entwickeln. Der zu entwickelnde doppelte Datenbegriff, für den ich argumentiere, versteht Forschungsdaten sowohl als Objektivierung und als auch als Objektivation (vgl. Knoblauch 2017, S. 161ff.). Als doppelter Datenbegriff verstehe ich daran anschließend somit den Umstand, dass ein Forschungsdatum zugleich sowohl auf den Forschungsprozess bezugnehmend ist als auch auf dessen Materialität. Beispielsweise ist ein Interviewdatum sowohl die Konservierung einer sozialen Situation (Objektivierung) als auch ein digitales Artefakt (Objektivation). Die Möglichkeit, den Forschungsprozess weitgehend technisch zu dokumentieren, schafft das Potential einer besseren Nachvollziehbarkeit des Datums, führt aber nicht zur Dokumentation der sozialen Situation, sondern zu ihrer scheinbar isolierbaren Darstellung. Dies sind aber Vorurteile in Anlehnung an Gadamer und keine empirisch abgesicherten Verstehensprozesse.
Um dem doppelten Datenbegriff gerecht zu werden, bedarf es daher einer Skizze des Erkenntnisprozesses, der mit der Entwicklung des Forschungsdatums als Datei verbunden, aber nicht mit ihm identisch ist. Objektivation ist das Forschungsdatum als Forschungsmaterial. Als gesammelter oder erzeugter Träger von etwas. Dieser Träger ist unter spezifischen Umständen entstanden, mit bestimmten Einwilligungserklärungen von Forschungspartner*innen, verdeckt oder offen, online oder offline. Als digitaler Träger kommen hier zudem weitere technische Metadaten in Betracht, wie beispielsweise Dateiformate, die den Datentyp prägen. Als Forschungsmaterial steht das Datum für sich und unabhängig des Bedeutungsgewebes um das Material herum. Als Objektivierung ist das Datum Erkenntnisprodukt, mithilfe dessen durch Sedimentierung gemachter Erfahrungen Wissen erzeugt wurde. Wissen verstehe ich als etwas Relationales, als Wissen von etwas, genauer als sozialisierte Formen sozialen Sinns.
Speziell qualitative Forschungsdaten weisen eine Vielzahl an Informationen auf, die kaum unterteilbar sind, sondern in ihrer Indexikalität ihre Güte aufweisen. Mit der Kontextualisierung des Forschungsdatums als Datensorte, beispielsweise durch die Methodenberichte, wird der analytische Fokus im Material nachvollziehbar, jedoch nicht eigenständiger Träger des gesammelten Wissens. Aus dieser Perspektive ist das Datum also ein konservierter Wirklichkeitsauszug, Produkt der Erfahrungen von Forscher*innen in Wechselwirkung mit ihrem Feld und dessen Kontexturen. Ein Beispiel hierfür sind die Krisenexperimente, bei denen Harold Garfinkel den Studierenden seines Seminars u. a. die Aufgabe erteilte, sich gegenüber ihren Eltern als höfliche Fremde zu verhalten. Die nicht vorab informierten Akteur*innen versuchten, die sozialen Interaktionen zu reparieren und ihre Erwartungen zu explizieren, die sonst in einer Vagheit formuliert und von sozialisierten Akteur*innen in der Interaktion interpretiert werden.
Zur Doppelstruktur des generischen und granularen FDM
Die Sozialforschung im Speziellen sowie die Wissenschaft im Allgemeinen sind von neuen technischen Möglichkeiten und gesellschaftlichen Um-Ordnungsprozessen durchzogen. Die Digitalisierung stabilisiert diese Prozesse. Forschenden gegenüber nimmt die Anspruchshaltung multipler Verantwortlichkeiten zu. Generische FDM-Handreichungen sind eine Reaktion auf diese Entwicklung. Allerdings besteht die Gefahr, dass FDM ohne intervenierende Data Stewards, die sowohl professionsrelevante als auch FDM-spezifische Wissensbestände haben, wesentlich als ein äußerer Anspruch erscheint, der die Lebenswelt von Wissenschaftler*innen kolonialisiert. Granulare (also nah an der Primärforschung ansässige) Data Stewards oder informierte Forschende könnten in diesem Sinne eine konventionierende Ausgleichbewegung darstellen zu generischen Standards und somit den rein der erwarteten Biografie des Forschungsdatums folgenden Prozessen entgegenwirken.
Autorbiographie: Willi Pröbrock ist wissenschaftlicher Mitarbeiter an der Technischen Universität Berlin und im SFB 1265 im Teilprojekt „Forschungsdatenmanagement“ tätig. Als ausgebildeter Soziologe liegt sein Forschungsschwerpunkt auf der Entwicklung einer Kultur des Datenteilens.
Quellen
DFG (2021). Umgang mit Forschungsdaten. Abgerufen von https://www.dfg.de/resource/blob/174732/3c6343eed2054edc0d184edff9786044/forschungsdaten-checkliste-de-data.pdf. Zugriff: 30.09.2024.
DFG (2022 [2019]). Leitlinien zur Sicherung guter wissenschaftlicher Praxis – Kodex. Bonn: DFG.
Gadamer, H.-G. (1986 [1993]). Wahrheit und Methode. Ergänzungen Register. Tübingen: J.C.B. Mohr (Paul Siebeck).
Gemeinsame Wirtschaftskonferenz (2018): Pressemitteilung: Forschungsdaten nachhaltig sichern und nutzbar machen – Startschuss für eine Nationale Forschungsdateninfrastruktur. In: PM 13/2018. Berlin/Bonn: GWK.
Hepp, A. (2018). Die kommunikative Konstruktion der Wirklichkeit – oder: Sozial- und Gesellschaftstheorie in Zeiten tiefgreifender Mediatisierung: Symposiumsbeitrag zu: Hubert Knoblauch, Die kommunikative Konstruktion der Wirklichkeit. Wiesbaden: Springer VS 2017, 438 S., gb., 49,99 €. Soziologische Revue, 41 (Issue 2), 198-207.
Knoblauch, H. (2017). Die kommunikative Konstruktion der Wirklichkeit. Wiesbaden: Springer VS.
Knoblauch, H. (2018). Kommunikationsgesellschaft. Oder: Warum der kommunikative Konstruktivismus die Medienforschung benötigt. In: J. Reichertz & R. Bettmann (Hrsg.), Kommunikation – Medien – Konstruktion. Braucht die Medienforschung den Kommunikativen Konstruktivismus? (S. 47-62). Wiesbaden: Springer VS.
Wilke, R., & Knoblauch, H. (im Druck): Forschungsdaten der qualitativen sozialwissenschaftlichen Videoanalyse. In R. Wilke & H. Knoblauch (Hrsg.), Videographie und Videoanalyse. Beltz.
Strübing, Jörg (2019). Grounded Theory und Theoretical Sampling. In: N. Baur & J. Blasius (Hrsg.), Handbuch Methoden der empirischen Sozialforschung (S. 525-544). Wiesbaden: Springer VS.
Rothfritz, Laura. 2021. Data Stewardship als Boundary-Work. Bausteine Forschungsdatenmanagement. Empfehlungen und Erfahrungsberichte für die Praxis von Forschungsdatenmanagerinnen und -managern Nr. 3/2021: S. 106-118. DOI:10.17192/bfdm.2021.3.8344
Bildquelle:
Forschungsdaten.info (2024). Der Datenlebenszyklus. Stationen des Forschungsdatenmanagements. Abgerufen von https://forschungsdaten.info/themen/informieren-und-planen/datenlebenszyklus/. Zugriff: 30.09.2024.