Das Forschungsdatenzentrum – ein Gewinn für die Wissenschaft
Das Forschungsdatenzentrum (FDZ) der Länder wurde im April 2002 aus der Taufe gehoben – seinerzeit noch mit dem Status eines Pilotprojektes, das in den Folgejahren bis 2010 vom Bundesministerium für Bildung und Forschung (BMBF) gefördert wurde. Nach Abschluss der Verwaltungsvereinbarung der Statistischen Landesämter zur dauerhaften Etablierung des FDZ befindet sich dieses seit dem Geschäftsjahr 2011 in dauerhaftem Betrieb. Es war das Hauptziel, mit dem FDZ der Länder der Wissenschaft einen grundlegend verbesserten und komfortableren, vielfältig nutzbaren Zugang zu Mikrodaten, also anonymisierten Einzeldaten für Auswertungszwecke, zu ermöglichen. In dieser Funktion sind die Forschungsdatenzentren des Bundes und der Länder1 mittlerweile anerkanntermaßen als Serviceeinrichtungen für viele Wissenschaftlerinnen und Wissenschaftler zu einem Eckpfeiler der Analysearbeit und zu einem innovativen Vorreiter der Datenbereitstellung für die Wissenschaft geworden.2 Damit wurde auch ein großer Beitrag für eine stärkere Vernetzung der amtlichen Statistik mit der Wissenschaft geleistet. Nicht zuletzt wurde der amtlichen Statistik auf diesem Wege für eigene Forschungsvorhaben ein zusätzlich nutzbares Potenzial der Mikrodatenauswertung an die Hand gegeben. In diesem Beitrag soll nun aus der baden-württembergischen Perspektive ein Überblick zu wichtigen Aspekten der Datennutzung gegeben werden.
FDZ-Standort Baden Württemberg: Zentralisierte Datenhaltung für Umweltstatistiken und Statistiken des Baugewerbes
Das FDZ als Arbeitsgemeinschaft der Statistischen Ämter der Länder verfügt in jedem Landesamt über einen regionalen Standort, wobei 13 Standorte eine fachliche Zuständigkeit für einen speziellen Statistikbereich ausüben (Übersicht). Diese Arbeitsbereiche sind beispielsweise die Bildungs- und Kulturstatistiken, Statistiken zu Dienstleistungen, Bevölkerung, Gesundheitswesen, der Mikrozensus, die Industriestatistik, um nur einige auszugsweise zu nennen. Das Statistische Landesamt Baden-Württemberg ist fachlich zuständig für die Umweltstatistiken sowie die Statistiken des Baugewerbes und übernimmt für diese Bereiche auch die zentralisierte Datenhaltung, mit der länderübergreifend die Datensätze an die Nutzer bereit gestellt werden können.3 Im Einzelnen umfasst das Angebot des Statistischen Landesamts Baden-Württemberg anonymisierte Mikrodaten zur Wasserwirtschaft für die öffentliche und gewerbliche Wasserwirtschaft. Hier können fünf Statistiken mit Angaben von 36 000 Betreibern von Anlagen zur Wassergewinnung und -verwendung, zur Abwasserbehandlung und zum Abwasserverbleib sowie zur Kanalisation analysiert werden. Aus der Umweltökonomie stehen Mikrodaten von zwei Statistiken mit über 60 Merkmalen zur Verfügung. Sie enthalten Angaben von rund 8 000 Unternehmen und 9 000 Betrieben zu Umweltschutzgütern und -investitionen. Aus der Abfallwirtschaft können Einzeldaten von zwei Statistiken mit über 70 Merkmalen bereitgestellt werden. Sie liefern Informationen über Menge, Verwertung und Beseitigung von Abfällen von rund 43 000 Anlagen der Abfallentsorgung. Zudem liegen Angaben zu Bauschuttaufbereitungsanlagen und Asphaltmischanlagen vor. Zusätzlich ist der FDZ-Standort Stuttgart zuständig für ausgewählte Statistiken des Baugewerbes. Die anderen fachlich zuständigen Standorte nehmen analog die zentralisierte Datenhaltung für ihren Statistikbereich vor.
Das Statistische Landesamt Baden-Württemberg ist mit einem Gastwissenschaftlerarbeitsplatz (GWAP) ausgestattet, an dem die Forscher mit den Statistikanalyseprogrammen Stata, SPSS, R und SAS arbeiten können, aber aus Datenschutzgründen am Analyse-PC keinen Zugang zum Internet oder E-Mail haben. Zu dem umfangreichen Aufgabenspektrum eines FDZ-Standortes zählen insbesondere die fachliche Betreuung und Beratung der Wissenschaftlerinnen und Wissenschaftler, die organisatorische, fachliche und datenschutzrechtliche Abwicklung der Nutzungsanträge, die Erstellung von Mikrodatensätzen und Metadaten für die unterschiedlichsten Nutzeranforderungen, die Entwicklung von Anonymisierungskonzepten für die bereitgestellten Datensätze sowie die Sicherstellung der oftmals komplexen statistischen Geheimhaltung. Im Statistischen Landesamt Baden-Württemberg werden pro Jahr bis zu sechs Vorhaben am GWAP betreut. Die GWAP-Nutzungen der letzten Jahre verteilen sich dabei in etwa gleich auf Forschungsinstitute und Universitäten aus Baden-Württemberg.
Das FDZ des Statistischen Landesamtes Baden-Württemberg befindet sich dabei in einer vielfältigen Forschungslandschaft. Baden-Württemberg hat mit über 100 Forschungs- und Entwicklungseinrichtungen4 ein breites Spektrum an außeruniversitären Einrichtungen. Darüber hinaus bildet die Hochschullandschaft vor allem mit den Universitäten, Pädagogischen Hochschulen, Hochschulen für Angewandte Wissenschaften und der Dualen Hochschule Baden-Württemberg das Fundament eines breit aufgestellten Lehr- und Forschungsprogramms. Im Jahr 2013 entfielen rund 15 % aller in Deutschland für Forschung und Entwicklung aufgewandten Ausgaben auf Baden-Württemberg. Vor allem renommierte Institutionen in Baden-Württemberg mit wirtschafts- und sozialwissenschaftlichen Forschungsprojekten sind rege Nachfrager nach Mikrodaten des FDZ.
Zugangswege zu den Mikrodaten und Datenangebot: Ein Baukasten variabler Analysemöglichkeiten für die Forschung
Den beschränkten Auswertungsmöglichkeiten aggregierter Daten durch ein feststehendes Tabellenprogramm und eine begrenzte Auswahl von Merkmalskombinationen stehen die erheblichen Vorteile der Einzeldatenauswertung gegenüber. Die FDZ des Bundes und der Länder bieten den Wissenschaftlerinnen und Wissenschaftlern eine flexible und vielseitige Auswertung von anonymisierten Einzeldatensätzen je nach den spezifischen Forschungsinteressen nach räumlichen sowie unterschiedlichsten sachlichen Kriterien auf der Grundlage eines weitgefächerten Merkmalskatalogs. Der Forschung steht damit quasi ein Baukasten, ein Datenpool, mit einem je nach Nutzerinteresse differenzierten Datenangebot für derzeit rund 100 Statistiken zur Verfügung. Die Wissenschaftlerinnen und Wissenschaftler können dabei wählen zwischen der Einzeldatenanalyse mit den Zugangswegen der On-Site- oder Off-Site-Nutzung. In diesem Rahmen sind wiederum jeweils unterschiedliche Auswahloptionen vorhanden, die auf einem abgestuften Anonymisierungskonzept für die Nutzung der Mikrodaten beruhen.
On-Site-Nutzung der Mikrodaten: Geringerer Informationsverlust
Beim Zugangsweg der »On-Site-Nutzung« werden die Mikrodaten nach den geltenden Sicherheitsbedingungen im FDZ-Bereich der Statistischen Landesämter bereitgestellt. Durch die besonderen Maßnahmen der Datensicherheit in den Räumen des Statistischen Landesamtes ist ein weniger restriktiver Anonymisierungsgrad bei den individuell auf die Forschungsinteressen der Wissenschaft aufbereiteten Einzeldatensätzen und damit ein breiteres Spektrum innovativer Datenanalyse möglich.
Ein Weg der On-Site-Nutzung besteht darin, dass die Forscher an einem GWAP die statistische Analyse durchführen, ohne dass die bereit gestellten, faktisch anonymisierten5 Originaldaten den Arbeitsplatz verlassen dürfen. Nach Abschluss ihrer Analysen erhalten die Wissenschaftlerinnen und Wissenschaftler die von den Mitarbeitern des Forschungsdatenzentrums auf Statistische Geheimhaltung geprüften Daten.
Der andere Zugangsweg bei der On-Site-Nutzung zu den Mikrodaten besteht in der Kontrollierten Datenfernverarbeitung (KDFV). Im Rahmen dieses Fernrechnungsverfahrens erstellen die Wissenschaftlerinnen und Wissenschaftler ein Auswertungsprogramm auf der Basis des vom fachlich zuständigen FDZ-Standort übermittelten Strukturdatensatzes, der zwar in Struktur und Merkmalsgliederung mit dem Originaldatensatz identisch ist, aber keine Originaldaten enthält. Im FDZ-Standort wird das Auswertungsprogramm der Forscher eingehend durchgeprüft und die Auswertung anschließend mit dem formal anonymisierten6 Originaldatensatz vorgenommen. Die Wissenschaftlerinnen und Wissenschaftler erhalten danach auch in diesem Fall die rechnerisch und auf Geheimhaltung geprüften Ergebnisse, also absolut anonyme Informationen, zurück.
Off-Site-Nutzung: Höherer Anonymisierungsgrad der Mikrodaten
Gegenüber den On-Site-Datenangeboten mit den erweiterten Auswertungsmöglichkeiten weisen die Produkte beim Off-Site-Zugangsweg einen höheren Anonymisierungsgrad und damit auch gewisse Informationsverluste auf. Der Vorteil für die Forscher besteht indessen in der Möglichkeit, die Einzeldaten am eigenen Arbeitsplatz zu analysieren. Sie können hierbei auf spezielle standardisierte Scientific-Use-Files (SUF) zurückgreifen, die einen hohen Anonymisierungsstandard haben und deshalb den wissenschaftlichen Einrichtungen zur Verfügung gestellt werden können. Um die statistische Geheimhaltung sicher zu stellen, müssen bei Nutzung dieser Einzeldaten allerdings Informationseinschränkungen auf fachlicher und räumlicher Ebene in Kauf genommen werden. Zu den Off-Site-Angeboten zählen darüber hinaus die Public-Use-Files (PUF). Dies sind absolut anonyme Datensätze – darunter auch die für universitäre Veranstaltungen entwickelten Campus-Files, die von der Homepage der FDZ herunter geladen werden können.
Die Auswertung für das Forschungsdatenzentrum Baden-Württemberg/Standort Stuttgart zeigt über alle beantragten Nutzungen für das Jahr 2015 eine klare Dominanz der On-Site-Nutzungen, also der Analyse von Mikrodaten an einem GWAP oder über die KDFV. Rund zwei Drittel (67 %)7 der Forschungsvorhaben werden auf diesem Nutzungsweg abgewickelt und ein Drittel entfällt auf die Off-Site-Nutzung, das heißt die Bereitstellung von Scientific-Use-Files.
Ausweitung des Analysepotenzials durch Kombination und Integration verschiedener Statistiken
Ein aus der Forschungsperspektive besonders interessantes Element aus dem Baukasten des Datenangebots sind die »Amtlichen Firmendaten für Deutschland (AFiD)«. Die Mikrodaten der AFiD-Produkte können im Längsschnitt (Paneldaten) miteinander verknüpft werden, sodass Zeitreihen auf Einzeldatenbasis von verschiedenen Erhebungszeitpunkten einer Statistik zur Verfügung stehen. Mikrodaten auf der Grundlage dieser Datenintegration im Längsschnitt stehen unter anderem in den AFiD-Panel »Agrarstruktur«, »Dienstleistungen«, »Industriebetriebe« und »Industrieunternehmen« bereit. Zugleich können für einzelne Betriebe und Unternehmen die Mikrodaten auch im Querschnitt aus verschiedenen Statistiken, also zu einem deutlich erweiterten Merkmalskranz zusammen geführt werden. Mit dieser Datenintegration kann beispielsweise das Industriepanel mit den Modulen Verdienststrukturerhebung und umweltstatistischen Modulen wie den Umweltschutzinvestitionen und Umweltschutzgüter verknüpft werden. Insoweit ermöglicht der erweiterte Merkmalskatalog und das größere Spektrum zu untersuchender Interdependenzen, das sich durch die Datenintegration erschließt, eine vertiefende Auswertung. Innovative Datenanalysen werden damit auch in regionaler Hinsicht, allerdings mit Einschränkungen durch die zunehmende statistische Geheimhaltung, erweitert.
Die Einzeldaten der AFiD-Produkte können On-Site an den GWAP der FDZ des Bundes und der Länder sowie über die KDFV genutzt werden.8 Die Nachfrage nach AFiD-Produkten zeigt in den letzten 5 Jahren eine zunehmende Tendenz, wobei hier der überwiegende Anteil auf die Wirtschaftsstatistiken entfällt.9 Im Jahr 2015 betrafen rund 80 % der Nutzungen Wirtschaftsstatistiken und 20 % Umwelt- und Agrardaten. Bezogen auf alle Nutzungsanträge schwankte die Anzahl der Anträge mit mindestens einem AFiD-Produkt in diesem Zeitraum zwischen 16 und 29 Anträge pro Jahr.
Große Bandbreite nachgefragter Statistiken …
Der Standort Baden-Württemberg war im Zeitraum 2011 bis 2015 mit jährlich 320 bis 360 Nutzungsanträgen der Wissenschaft befasst bzw. an der Abwicklung dieser von den FDZ des Bundes und der Länder bearbeiteten Projektanträgen beteiligt.10 Der Anteil der neuen Anträge schwankt dabei zwischen 72 % und 83 %. Bei den restlichen Nutzungsanträgen handelt es sich um Ergänzungen bereits bestehender Anträge. Bei Betrachtung des zugrunde liegenden Projektrahmens der Nutzungen im FDZ fällt auf, dass die Eigenmittelprojekte11 und die Erstellung von Dissertationen sowie Habilitationen mit Anteilen von rund 29 % bzw. gut 26 % im Jahr 2015 die eindeutigen Schwerpunkte bilden. Projekte im Auftrag von Ministerien nehmen einen Anteil von gut einem Zehntel ein. Die Zahl der Nutzungsanträge von Forschungseinrichtungen in Baden-Württemberg bei den FDZ des Bundes und der Länder belief sich im zurückliegenden Jahr auf 53 und betraf insgesamt 65 Statistiken.
Die statistischen Quellen, auf denen die Forschungsvorhaben der Wissenschaft aufbauen, zeigen eine außerordentlich große Bandbreite. Oft nachgefragt am aktuellen Rand sind – und hier nur auszugsweise genannt – beispielsweise der Mikrozensus, die Zeitbudgeterhebung, die Lohn- und Einkommenssteuerstatistik, die Verdienststrukturerhebung, die Einkommens- und Verbrauchsstichprobe und die Todesursachenstatistik. Auch Daten aus der Agrarstrukturerhebung finden ein reges Nutzerinteresse und zunehmend die seit dem letzten Quartal 2015 zur Verfügung stehenden Mikrodaten aus dem Zensus 2011. Wie groß die Spannweite ist, verdeutlichen auch die zwar weniger häufigen, aber regelmäßigen Nutzungsanfragen nach Statistiken der Adoption, Statistiken über stationäre Pflegeeinrichtungen oder nach der Strafverfolgungsstatistik.
… mit Schwerpunkt auf Mikrozensus und Bevölkerungsstatistiken …
Rund 28 % der im FDZ nachgefragten Statistiken12 entfielen auf den Mikrozensus und die Bevölkerungsstatistik, gefolgt von den Wirtschaftsstatistiken mit einem Anteil von 17 % und Statistiken aus Haushaltsbefragungen (16 %). Rund jede zehnte Anfrage betraf Statistiken zu den Themen Gesundheit bzw. Steuern und Finanzen. Eine im Vergleich zu den Vorjahren größere Bedeutung für die diversen Forschungsvorhaben gewinnen darüber hinaus Statistiken aus dem Umwelt- und Agrarbereich (rund 6 %) und zu dem Themenspektrum Soziale Sicherung und Rechtspflege (rund 9 %). Im Zeitablauf verbergen sich hinter dieser Nachfragestruktur allerdings erhebliche Schwankungen. So lag im 1. Halbjahr 2016 beispielsweise der Anteil der Bevölkerungsstatistiken und des Mikrozensus bei 34 % und der der Umwelt- und Agrarstatistiken immerhin bei rund 9 %. Bei den nachgefragten Statistiken von Forschungseinrichtungen in Baden-Württemberg liegt der Anteil der Nutzungen von Wirtschafts- sowie Umwelt- und Agrarstatistiken über dem Bundesdurchschnitt.
… für eine vielfältige Forschungspalette
Allein die kursorische Betrachtung der wissenschaftlichen Themen, die mit den Mikrodaten der FDZ bearbeitet werden, erschließt die immense Vielfalt der Datennutzung durch die Wissenschaft. Neben demografischen sowie sozioökonomischen Forschungsprojekten, wie zum Beispiel zu Effekten von Einwanderungen auf die Arbeitsmarktsituation und das Bildungsverhalten, zum Einfluss des Erwerbsstatus auf Familienstrukturen oder zur Berechnung von Armutsmaßen auf Basis verschiedener Datenquellen, findet sich auch eine breite Themenpalette zu Arbeitsmarktstudien. Hier reicht das Spektrum beispielsweise von Untersuchungen des Beschäftigungsumfangs von Frauen und Männern nach Branchen und dessen Einfluss auf die Wertschöpfung über Aspekte der Beschäftigung in sozialen Berufen bis zur differenzierten Betrachtung der Auswirkungen digitaler und mobiler Arbeit in den verschiedenen Wirtschaftsbereichen. Wissenschaftliche Projekte zum Verhalten von Unternehmen in spezifischen Konjunkturphasen, Effekte von Offshoring oder der Zusammenhang von Entwicklung des internationalen Güterhandels und unternehmerischen Ausrichtungen illustrieren beispielhaft makroökonomische Fragenstellungen. Umweltanalytische Untersuchungen widmen sich unter anderem Problemen regionaler Auswirkungen des Klimawandels, der Schadstoffbelastung von Gewässern oder Fragen der Energieeffizienz und deren Konsequenzen für die CO2-Emissionen. Themen zu Gesundheitsfragen beschäftigen sich mit Aspekten der Zentralisierung im Gesundheitswesen, der regionalen Verteilung von Sterbefällen oder mit Einflussfaktoren für Innovationen im Gesundheitswesen, um hier nur einen Auszug der Themenvielfalt wiederzugeben.
Im Rahmen der Nutzung der Mikrodaten im eigenen Analysebereich des Statistischen Landesamtes Baden-Württemberg sind beispielsweise Studien zu den Determinanten der individuellen Lohnhöhe im Produzierenden Gewerbe und im Dienstleistungsbereich sowie zur zunehmenden Marktkonzentration im Krankenhaussektor geplant. Datenbasis hierfür bildet die Verdienststrukturerhebung bzw. die Krankenhausstatistik. Eine weitere Studie soll die Investitions- und Beschäftigungsentwicklung im Verarbeitenden Gewerbe betrachten und analysieren, in wieweit sich diese seit der Finanzkrise geändert hat. Die Analyse soll auf Basis des AFiD-Panels »Industrieunternehmen« vorgenommen werden.
Steigende Komplexität der Nutzungsanfragen
Anhand einer Auswertung der Nutzungsanträge ist über die letzten Jahre eine Tendenz zu einer steigenden Komplexität der Forschungsanträge zu beobachten. Auf der Basis verschiedener Faktoren wie Anzahl der Statistiken und Erhebungsjahre, Verknüpfung der Einzeldaten mit externen Daten, Verknüpfung von Statistiken (als Panel oder im Querschnitt), gewählter Zugangsweg, angewandte Analysemethode und zum Beispiel regionale Ebene der Auswertung, wurden die Nutzeranträge im FDZ-Standort Baden-Württemberg auf einer Skala von 1 (weniger komplex) bis 6 (sehr komplex) eingestuft. Im Ergebnis zeichnet sich eine Abnahme der weniger komplexen Nutzungsanträge mit der Konsequenz einer insgesamt aufwändigeren und zeitintensiveren Bearbeitung der nachgefragten Statistiken ab. Komplexer in der Abwicklung gestalten sich vor allem Projektanträge, die Verknüpfungen von Daten, zum Beispiel das Anspielen von Daten externer Quellen oder Mikrodaten als Zeitreihen, eine tiefere regionale Auswertungsstufe und eine vergleichsweise diffizile Analysemethode beinhalten.
Ausblick
Der dargestellten wachsenden Komplexität der Forschungsprojekte Rechnung zu tragen, ohne die Leistungsqualität einzuschränken, ist eine von ausgewählten Herausforderungen, die die FDZ in nächster Zeit beschäftigen wird. Weitere wichtige Arbeitsthemen stellen auch die Überarbeitung und Weiterentwicklung von Metadaten, wie zum Beispiel die Erstellung von Metadatenreports nach einer einheitlichen Struktur, und die Verfahren zur statistischen Geheimhaltung dar. Bei der statistischen Geheimhaltung ist unter anderem zu klären, inwieweit datenverändernde Verfahren zur Erstellung von anonymisierten Datensätzen zum Einsatz kommen können. Darüber hinaus wird die zusätzliche Bereitstellung georeferenzierter Daten durch die FDZ eine wichtige Rolle spielen. Zu den kontinuierlichen Aufgaben zählen die verschiedensten Aktivitäten der Öffentlichkeitsarbeit, die die Tätigkeit der FDZ in Form von Veröffentlichungen, Presseberichten, Vorträgen oder Nutzerkonferenzen bekannt machen. Hier sind zum Beispiel die vorbereitenden Arbeiten für die Durchführung der AFiD-Nutzerkonferenz im Frühsommer 2017 zu nennen. Im Rahmen dieser Veranstaltung werden AFiD-Projekte von den Wissenschaftlerinnen und Wissenschaftlern vorgestellt und der Austausch der Wissenschaft mit dem FDZ gefördert.