Entwicklung von RDA

erstellt von Peter Wittenburg veröffentlicht 2018/02/27 11:31:38 GMT+1, zuletzt geändert: 2018-02-27T11:31:38+01:00

Im folgenden Diagramm werden die Meilensteine hin zur Entwicklung von RDA, RDA DE und FAIR in seiner heutigen Form kurz dargestellt. Im Text werden die einzelnen Veranstaltungen und die Entwicklungen erläutert.

history-rda.png

 Es gab seit dem Jahr 2005 zunehmend Berichte über die wachsende Bedeutung der Daten in der Wissenschaft und auch Industrie. Wir wollen hier nur auf zwei wichtige Publikationen zu dem Thema hinweisen, die unter anderem zur Gründung von RDA beigetragen haben.

 Im Jahre 2006 hat Jim Gray, ein Microsoft Datenbank Experte, in einem Vortrag zum ersten Mal seine Ideen von dem 4. Paradigma in der Wissenschaft vorgetragen, der Daten-Intensiven Wissenschaft. Dieses führte im Rahmen von Veranstaltungen zum Thema eScience zu dem Buch "The Fourth Paradigm"[1], das viele relevante Beiträge zur Daten-Intensiven Wissenschaft und auch einen Verweis auf den Beitrag von J. Gray enthält (2009, editiert von T. Hey, S. Tansley und K. Tolle).

4th-dimension.jpg

 Ein weiterer wichtiger Meilenstein war die Einrichtung der "High Level Expert Group zu wissenschaftlichen Daten" der Europäischen Kommission (EC), die nach mehreren intensiven Sitzungen den Bericht "Riding the Waves" im Jahre 2011 offiziell an die EC‑Kommissarin Nelie Kroes übergeben hatte[2].

riding the wave.jpg

In diesem Bericht wurde die EC aufgefordert, konkrete Aktionen zu finanzieren, um die Wettbewerbsfähigkeit der europäischen Wissenschaft in diesem neuen Bereich absichern zu helfen. Konsequenz dieses Berichts waren unter anderem die folgenden konkreten Initiativen:

  • eine weitere Förderung der OpenAIRE Initiative
  • eine Förderung der EUDAT Dateninfrastruktur-Initiative
  • eine Förderung der RDA-Initiative

 Im März 2012 kamen im Rahmen der International Conference on Research Infrastructures (ICRI) 2012[3] in Kopenhagen 75 Datenexperten aus 15 verschiedenen Ländern, vor allem aus Europa und den USA, zusammen. Die Europäer hatten den Namen DAITF (Data Access and Interoperability Task Force) an Anlehnung an das Vorbild der Internet Engineering Task Force gewählt und wollten über Datenaspekte diskutieren, während die US-Kollegen von NSF und NIST bereits mit einem konkreten Organisationsvorschlag auftraten. Einerseits konnten wir also viele inhaltliche Punkte ansprechen, andererseits konnte auf dem Treffen eine Beschleunigung hinsichtlich der Gründung einer Bottom-Up Organisation erzielt werden.

Bereits damals auf diesem ersten Treffen präsentierte Larry Lannom[4] seine Ideen zu Schichten des Umgehens mit Daten. Er unterschied Discovery (Metadaten-Ebene), Access (Zugriff auf die Daten), Interpretation (syntak-tische/ semantische Verarbeitung der Daten) und Reuse (Verwenden von Daten in anderen Kontexten).

larry.png

Im Herbst 2012 kam es zu einem ersten vorbereitenden großen Treffen in Washington, auf dem bereits der Name diskutiert wurde und auf dem sich erste Arbeitsgruppen formierten. Im März 2013 kam es dann in Göteborg zum offiziellen Start der RDA Initiative. Die Initiative war deutlich als eine Bottom-Up Initiative gekennzeichnet, wobei die drei wesentlichen Förderer (EC, NSF/NIST, Australische Regierung) bewusst im Hintergrund blieben und die Organisierung der Initiative einem anfänglichen Steering Board überließen, das gebildet wurde, nachdem die Entscheidungen für eine Förderung gefällt waren. In Europa wurde Im September 2012 das erste RDA Europa Projekt für einen Zeitraum von 2,5 Jahren finanziert. Ende Februar 2018 wird das dritte Projekt dieser Art (RDA Europa 3) beendigt. Die drei nationalen/regionalen Projekte waren Wege, um einerseits die jeweiligen Netzwerke auszubauen und andererseits die globale RDA Initiative finanziell zu unterstützen, d.h. es wurden Mittel bereitgestellt, um einen Generalsekretär und ein Sekretariat zu unterstützen und vor allem auch, um die halbjährlich stattfindenden RDA Plenaries mit zu finanzieren. Eine grundsätzliche Entscheidung war die, keine Mittel für die Teilnahme an Arbeits- und Interessen-Gruppen zu finanzieren. Diese Aktivitäten sollten ausschließlich vom Engagement der Mitglieder und interessierten Organisation getragen werden.

Nach diesem Anfang in Göteborg im März 2013 mit vielen Fragezeichen entwickelte sich die RDA schneller und problemloser als es sich das anfängliche Steering Board, an dem aus Europa Leif Laaksonen[5] und Peter Wittenburg[6] teilnahmen, vorstellen konnte. Hier seien ein paar Beispiele genannt:

  • Es wurde relativ schnell eine einfache Organisations-Struktur erarbeitet mit einem Council[7] an der Spitze, das sich letztlich nur um die Aufstellung und Einhaltung allgemeiner Grundsätze und Regeln kümmert, sich aber nicht in die Arbeit der Gruppen einmischt. Etwas später kamen zwei wichtige Boards hinzu, die dem Council Rat geben: (1) Das Technical Advisory Board[8] entpuppte sich als äußerst wichtig, da es die RDA Gruppen inhaltlich berät und aus gewählten Mitgliedern besteht. (2) Das Organisational Board[9] wurde aus Vertretern der Organisationen gebildet, die RDA finanzieren.
  • Nach anfänglichen 5 Arbeitsgruppen haben sich inzwischen an die 80 Arbeits- und Interessen-Gruppen zu sehr unterschiedlichen Themen gebildet. Zum Teil sind diese Gruppen Forschungsdisziplin-organisiert, andere sind mehr orientiert an Infrastruktur-Themen.
  • Die Zahl der Mitglieder ist auf ca. 6.000 angewachsen, wobei etwa 1.000 sehr aktiv in den verschiedenen Gruppen und Foren engagiert sind.
  • Insgesamt wurden bereits 10 Plenaries[10] erfolgreich durchgeführt, wobei diese Plenaries immer wieder die Momente sind, in denen die aktiven Experten zusammenkommen, um Fortschritte in ihrer Arbeit zu erzielen. So sind die Plenaries unverzichtbares "Zuckerbrot" und "Peitsche" gleichzeitig, um Ergebnisse zu erzielen.

Insgesamt kann man heute feststellen, dass RDA eine wichtige globale und disziplinübergreifende Plattform geworden ist, die Spezifikationen und Empfehlungen im Bereich der Daten ausarbeitet, die zu einem Teil bereits jetzt von großer Wichtigkeit sind und in Zukunft noch an Bedeutung gewinnen werden. Wie es sich für eine bottom-up Initiative gehört, ist die Frage, ob alle Ergebnisse der Gruppen von Relevanz sein werden, nicht zielführend. Es kommt immer wieder das Verlangen nach einer "Konvergenz" innerhalb von RDA auf, was unweigerlich mit top-down Elementen verknüpft wäre und zu einem Ende der freiwilligen Teilnahme führen würde. Das Streben nach konvergenten Resultaten muss derart organisiert werden, dass es Konzepte gibt, die andere mitreißen können, bzw. dass Foren über die einzelnen Gruppen hinaus gebildet werden. Hierzu kann man anmerken, dass sich die halbjährigen Treffen der RDA Gruppen-Chairs als ein wichtiges Mittel der Interaktion und auch Konvergenzbildung herausgestellt haben. Dazu gibt es Ansätze von verschiedenen Experten aus verschiedenen RDA-Gruppen, die sich auf der Basis von RDA Resultaten organisieren und parallel zu RDA an Implementierungs-Konzepten arbeiten, um ein Momentum zu erzeugen.

Die Relevanz von RDA soll an vier Beispielen dargestellt werden. (1) L. Lannoms Beitrag in 2012 (siehe oben) wurde für einige der Gruppen innerhalb der RDA zu einem Ausgangspunkt ihrer Arbeit. Die Diskussionen über Schichten und Prinzipien wurden breit geführt, wie man am Diagramm erkennen kann, wobei hier der ähnlich lautende Beitrag der OECD fehlt. Letztlich führten sie zu den elegant formulierten FAIR-Prinzipien von FORCE11[11], die mittlerweile zu einer weltweit breit anerkannten "Sprache" geworden sind. Das Data Core Model der RDA DFT Arbeitsgruppe[12] schlägt eine mögliche Implementierung dieser Prinzipien vor. (2) Die Verwendung von Persistenten Identifikatoren (PID) für Daten, die 2012 von einigen wenigen bereits praktiziert wurde, ist nunmehr breit akzeptiert und wird in vielen Communities angewendet[13]. Dabei wird deutlich, dass die "Scholarly Communication Community" auf Zitationen etc. fokussiert und DOIs empfiehlt, und die "Data Analytics Community" sich zunehmend auf die Referenzierbarkeit ihrer Millionen von Datenentitäten aus Programmen und Workflows heraus fokussiert und zumeist Handles[14] verwendet. Letztere erweitern zunehmend die Optionen der Verwendung von PIDs zur Definition des Konzepts der Digitalen Objekte, die die Datenlandschaft revolutionieren könnten. (3) Als drittes Beispiel soll das Engagement der weltweit aktiven Agrar-Community genannt werden, die sich RDA als ein neutrales Forum ausgewählt haben, um über alle Grenzen bestehender Initiativen hinweg weltweite Standards für die Spezifikation von Resultaten aus Experimenten und Observationen mit Weizen, Reis etc. festzulegen und auch von der FAO anerkannt werden.

dft-fair.png

In Deutschland entstand sehr frühzeitig der Wunsch, sich national zusammenzuschließen, da nicht alle Experten aus verschiedenen Gründen zu den verschieden Plenaries fahren können und dies auch nicht unbedingt sinnvoll ist. Bereits im November 2014 kam es zu einem ersten nationalen Treffen in Potsdam mit dem Ziel, eine breite Community von Experten aus D anzusprechen, die Resultate von RDA zu präsentieren und zu diskutieren, Erkenntnisse aus deutschen Projekten in RDA Aktivitäten hineinzutragen bzw. neue RDA-Aktivitäten zu starten und auch dafür zu werben, RDA Resultate konkrete in der Arbeit umzusetzen. Dieses Treffen wurde dann in Absprache mit der DINI Initiative jährlich abgehalten und zusätzlich wurden jeweils einmal im Jahr (Mai, Juni) Trainingskurse an verschiedenen Standorten angeboten.

Vor ca. einem Jahr begann in der RDA eine Diskussion, die Bedeutung der nationalen/regionalen RDA Initiativen zu stärken und sie besser einzubinden, ohne die zentrale Bedeutung der RDA Gruppen als Kern der Aktivitäten zu schmälern. Auch auf der Ebene der EC gab es neue Gedanken zu der Frage der Organisation der Unterstützung, denn die nationalen Gruppen in DE, FR, FI, NL, ES, GR, etc. erwiesen sich als ausgezeichnetes Mittel, um größere Kreise von Experten einzubinden. Parallel dazu gab es in Deutschland eine Diskussion, die Vorbereitungen der Treffen, das Einwerben von Mitteln, das Ausbreiten der Aktivitäten, etc. strukturierter und transparenter anzupacken. Eine breitere Umfrage ergab, dass eine Vielzahl der Kollegen sich für die Gründung eines Vereins aussprach. In einer Gruppe von 25 KollegInnen wurde eine Satzung erarbeitet und im November wurde der Verein gegründet, wobei wie immer 7 KollegInnen erforderlich waren, um den Verein zu gründen. Im März 2018 ist eine erste richtige Mitgliederversammlung geplant, auf dem ein erster repräsentativer und richtig operierender Vorstand gewählt werden soll. Wichtig ist dabei, die zwei Ebenen RDA DE Community und RDA DE e.V. sauber zu unterscheiden und den Bottom-Up Charakter der Community möglichst wenig zu beeinträchtigen. RDA DE spielt dabei momentan eine Vorreiterrolle insofern als sich in mehreren Nationen legale Entitäten bilden, um strukturiert und transparent Mittel zu verwalten etc.

[1] https://www.microsoft.com/en-us/research/publication/fourth-paradigm-data-intensive-scientific-discovery/

[2] https://ec.europa.eu/digital-single-market/en/news/digital-agenda-unlock-full-value-scientific-data-high-level-group-presents-report

[3] http://www.icri2012.dk/www.ereg.me/ehome/index06e1.html

[4] https://www.rd-alliance.org/about/organization/key-profiles/larry-lannom.html

[5] https://www.rd-alliance.org/about/organization/key-profiles/leif-laaksonen.html

[6] https://www.rd-alliance.org/about/organization/key-profiles/peter-wittenburg.html

[7] https://www.rd-alliance.org/about-rda/our-leadership/rda-council.html; Das Council wurde anfänglich von den Förderern in Zusammenarbeit mit den Leitern der nationalen/regionalen Gruppen zusammengestellt, um Senior Personen zu involvieren und eine Balance herzustellen.

[8] https://www.rd-alliance.org/about-rda/our-leadership/rda-technical-advisory-board.html

[9] https://www.rd-alliance.org/about-rda/our-leadership/rda-organisational-advisory-board.html

[10] Göteborg, Washington, Dublin, Amsterdam, San Diego, Paris, Tokio, Denver, Barcelona, Montreal

[11] https://www.force11.org/group/fairgroup/fairprinciples

[12] http://hdl.handle.net/11304/5d760a3e-991d-11e5-9bb4-2b0aad496318

[13] Dies lässt sich z.B. an einem Papier der GEDE Gruppe (https://rd-alliance.org/groups/gede-group-european-data-experts-rda) zur Verwendung von PIDs ablesen, in der Delegierte von 47 großen europäischen Forschungsinfrastrukturen Einigkeit erzielt haben.

[14] Handles sind PIDs, die nunmehr von der Internationalen DONA Foundation unterstützt werden, wobei auch die DOIs Handles mit dem Präfix 10 und einem speziellen "Geschäftsmodell" sind.