Navigation und Service

Scientific Use File

1Informationen zur externen wissenschaftlichen Nutzung

Um die intensivere Nutzung der Krebsregisterdaten für die Forschung zu fördern, stellt das Zentrum für Krebsregisterdaten die Daten der Krebsregister auch Dritten auf Antrag zur Verfügung. Hierbei muss ein wissenschaftliches Interesse nachgewiesen werden.

Voraussichtlich Mitte 2023 wird der neue Datensatz für Forschende verfügbar sein

Die Erweiterung des Datensatz zum 31.12.2022 beginnt mit den Diagnosejahren 2020/2021 und verkürzt damit die Frist für die Lieferung der Register an das ZfKD um ein Jahr auf ein Jahr nach Abschluss eines Kalenderjahres. Für die Vorjahre ist weiterhin auch ein rein epidemiologischer Datensatz mit den jeweils aktuellen Diagnosejahren verfügbar. Mangels Vergleichbarkeit zwischen den Datensätzen wird der Datensatz zu den Diagnosejahren vor 2020 jedoch keine Angaben zur Therapie mehr enthalten.
Aufgrund der mit der erweiterten Datenlieferung verbundenen technischen und zeitlichen Umstellungen ist für die erste Bereitstellung der neuen Daten mit Verzögerungen von einigen Monate zu rechnen. Die Daten werden verfügbar sein, sobald die Daten aus allen Bundesländern eingetroffen und auf formale Konsistenz überprüft sind. Dies wird voraussichtlich Mitte 2023 der Fall sein. Anträge auf Nutzung der verfügbaren (epidemiologischen) Daten auch für die Diagnosejahre vor 2020 können weiterhin jederzeit gestellt werden.

Aufbau des Datensatzes

Die höhere Komplexität der Daten bedingt eine verschachtelte Struktur des zugrundliegenden Datenschemas: die Datenlieferung an das ZfKD erfolgt nicht mehr in einer einfachen „Rechtecktabelle“, in der Erkrankungsfälle als Zeilen und Variablen als Spalten dargestellt sind, sondern als xml-Schema.
Der Datensatz wird durch folgende Elemente strukturiert: Eine Person bildet als Patient die grundlegende Einheit im Datensatz. Jeder Tumor enthält wiederum nur ein Element „Primärdiagnose“ (unter anderem mit Angaben zum Tumorstadium und zur Histologie und Lokalisation des Tumors), kann aber jeweils mehrere Elemente für die einzelnen Therapieformen (OP, Strahlen- und systemische Therapie) sowie mehrere Folgeereignisse wie Progressionen oder Rezidive aufweisen. Diese zusätzlichen Elemente können für dem jeweiligen Tumor einer Patientin/eines Patienten auch mehrfach verwendet werden, was es ermöglicht, auch komplexe Krankheitsverläufe einer oder mehrerer Krebserkrankungen einer Person abzubilden. Die eigentlichen Variablen, die die auswertbaren Informationen enthalten, sind jeweils einem dieser Elemente zugeordnet (s. Abbildung 1).
Die Umsetzung dieses komplexen Datenschemas in ein auswertefähiges Format (beispielsweise .csv) wird dadurch ermöglicht, dass für jedes für eine Fragestellung benötigte Element im Datenschema jeweils eine Tabelle erstellt wird, die durch eine durch das ZfKD zu vergebende fallbezogene Nummer verknüpft werden.

Abb.1: Vereinfachtes Datenschema (mit ausgewählten Variablen) Abb.1: Vereinfachtes Datenschema (mit ausgewählten Variablen)

Plausibilitätsgeprüfte Daten und weitere Qualitätsmerkmale

Die zu übermittelnden Daten werden bereits in den Registern auf Plausibilität geprüft und weitgehend um Widersprüche bereinigt.
Das ZfKD schätzt zudem nach einem etablierten Verfahren die Vollzähligkeit der Erfassung von Krebsneuerkrankungen. Nach den Erfahrungen aus den letzten Jahren ist seit etwa 2015 und auch nach der Umstellung auf die klinisch-epidemiologische Krebsregistrierung bundesweit von einer hohen Vollzähligkeit der Erfassung (>90%) auszugehen. Es ist derzeit allerdings noch nicht abzusehen, ob dies bei der kommenden Datenlieferung auch schon für das Jahr 2021 gilt.
Als eine der Bedingungen für die Finanzierung der Krebsregister durch die Krankenkassen sind Mindestkriterien für die Vollständigkeit bestimmter Variablen (z.B. Tumorstadien), die zuletzt von allen Registern erfüllt wurden.
Für die Schätzung der Vollzähligkeit gemeldeter Therapien und Folgeereignissen hingegen existieren derzeit noch keine etablierten Verfahren. Das ZfKD wird hierzu daher zunächst keine fundierte Einschätzung abgeben können, wie vollständig tumorbezogene Therapien im Verlauf einer Behandlung von den Behandlern gemeldet und dementsprechend im Datensatz erfasst werden. Es ist vor allem für Verlaufsereignisse und Therapieänderungen noch nicht unbedingt davon auszugehen, dass diese derzeit für alle Diagnosen und in jeder Region vollzählig gemeldet werden, dies betrifft nach ersten Erfahrungen aus den Registern möglicherweise vor allem Meldungen aus dem ambulanten Bereich. Diese Limitation ist bei den Auswertungen zwingend zu beachten.
Das ZfKD wird zusammen mit den Registern in den nächsten Jahren Methoden entwickeln, die zumindest eine qualitative Einschätzung dieser Qualitätsaspekte erlauben. Forschende, die den erweiterten Datensatz beantragen und für eigene Auswertungen nutzen wollen, sollten einplanen, diese Aspekte mit klinischer Expertise kritisch zu prüfen bzw. bewerten zu lassen, um Fehlinterpretationen zu vermeiden.

Wie können die Daten beantragt werden? Was müssen Antragstellende beachten?

Wie bisher müssen Antragstellende ein wissenschaftliches Interesse an den Daten nachweisen. Die mit dem Projekt verfolgten Fragestellungen sind anzugeben. Im Antrag ist nachvollziehbar darzulegen, dass der Umfang und die Struktur der beantragten Daten geeignet und erforderlich sind, um die zu untersuchenden Fragen zu beantworten. Hierzu ist zu beschreiben, welche Variablen für welche Erkrankungsfälle (beispielsweise Diagnosen, Diagnosejahre, etc.) für das Projekt benötigt werden. Es sollte nachvollziehbar sein, ob das im Antrag angegebene Vorhaben mit den beim Zentrum für Krebsregisterdaten vorliegenden Daten bearbeitet werden kann. Hierfür sollten auch die geplanten Auswertungsmethoden skizziert werden. Auch eine Nennung relevanter Vorarbeiten auf dem jeweiligen Forschungsgebiet ist hilfreich, aber nicht Bedingung für die Genehmigung. Wenn für das Projekt weitere Daten (beispielsweise Abrechnungsdaten der GKV, Daten aus eigenen Studien) herangezogen werden, müssen diese im Antrag beschrieben werden. In diesem Fall sollte aus dem Antrag auch hervorgehen, für welche Fragestellungen innerhalb des Projekts die Krebsregisterdaten genutzt werden. Das ZfKD wird in den nächsten Monaten angepasste Antragsformulare zur Verfügung stellen.

Eine Verknüpfung mit anderen Daten auf Einzelfallebene (Record Linkage) ist nicht erlaubt

Der Datensatz enthält keine direkt identifizierenden Daten (beispielsweise Versicherungsnummern), eine Verknüpfung auf Einzelfallebene ist jedoch auch über ein sogenanntes probabilistisches Record Linkage anhand anderer Merkmale des Datensatzes (wie beispielsweise Geburtsmonat und-jahr, Kreiskennziffer, Geschlecht und Diagnosemonat und-jahr) mit den Daten des ZfKD nicht erlaubt.
Eine geplante regionale Zusammenführung von Ergebnismengen mit Bevölkerungsdaten, wie sie in epidemiologischen Auswertungen für das Bilden von Raten angewandt wird, oder mit weiteren regionalstatistischen Informationen ist im Antrag anzugeben. Bei der Publikation von Ergebnissen ist sicherzustellen, dass keine Schlussfolgerungen auf einzelne Personen möglich sind.

Öffentliches Verzeichnis zu Forschungsprojekten mit den Krebsregisterdaten

Zur Erhöhung der Transparenz über die wissenschaftliche Nutzung der Krebsregisterdaten wurde ein öffentliches Antragsverzeichnis eingerichtet, in dem bewilligte Forschungsanträge aufgeführt werden. Antragstellende erhalten einen permanenten Identifikator für den Eintrag im Verzeichnis, mit dem auf Inhalt des Forschungsvorhabens und Version des bereitgestellten Datensatzes beispielsweise in Publikationen verwiesen werden kann. Bei Interesse können hier noch weitere Angaben zu den Projekten, wie beispielsweise, statistische Analysepläne oder Angaben zur Finanzierung des Vorhabens veröffentlicht werden. Nähere Informationen finden Sie hier.

Erhöhte Datenschutz-Anforderungen an die Datennutzung nach Genehmigung

Die Zugangswege für die Nutzung des erweiterten Datensatzes hängen von der Einschätzung des Reidentifikationsrisikos ab, das für jeden Datenantrag vom ZfKD unter Einbeziehung des wissenschaftlichen Ausschusses geprüft wird. Kriterien für diese Prüfung werden derzeit entwickelt. Wird das Risiko, dass mittels der beantragten Daten Personen wieder identifiziert werden können, als gering eingeschätzt, können die beantragten Daten wie bisher zum Download in einem für das Projekt geeigneten Format (beispielsweise csv-) bereitgestellt werden. Im anderen Fall trifft das ZfKD Maßnahmen, um das Reidentifikationsrisiko zu senken. Diese Maßnahmen können unter anderem darin bestehen, dass bestimmte Variablen, wie beispielsweise Alter und Wohnort, aggregiert und damit vergröbert werden. Falls solche Maßnahmen nicht ausreichen oder das Forschungsvorhaben zu sehr einschränken, sollen Auswertungen in einer kontrollierten Analyseumgebung ermöglicht werden. Das RKI prüft derzeit die technische Umsetzung solcher Lösungen.

Kosten

Die Berechnung der Gebühren erfolgt auf Grundlage des Bundesgebührengesetzes, der Allgemeinen Gebührenverordnung und der Besonderen Gebührenverordnung des Bundesministeriums für Gesundheit für die individuell zurechenbaren Leistungen in seinem Zuständigkeitsbereich. Bestimmte Antragstellende können von den Gebühren befreit werden. Ansonsten hängt die Höhe der Gebühren vom Aufwand für Vorbereitung und Analyse am ZfKD ab. Je besser die Informationen im Antrag spezifiziert sind, umso schneller die Bearbeitung und umso geringer der Aufwand. Weitere Informationen finden sich unter dem Punkt "Gebühren und Auslagen".

Onkologischer Basisdatensatz und Beantragung von Daten über die Landeskrebsregister

Grundsätzlich können auch die Daten der Landeskrebsregister beantragt werden, wobei sich die Möglichkeiten und Antragsbedingungen von Land zu Land leicht unterscheiden. Dies empfiehlt sich insbesondere für regional landesspezifische Projekte oder für solche, die Informationen zu den behandelnden Einrichtungen benötigen bzw. auf andere, am ZfKD nicht verfügbare Daten angewiesen sind. Die Informationen, die im onkologischen Basisdatensatz enthalten sind, finden Sie unter www.basisdatensatz.de

Stand: 19.01.2023

Zusatzinformationen

Datenbankabfrage

Datenbankabfrage

Hier haben Sie die Möglichkeit, eigene Abfragen zu aktuellen Neuerkrankungs- und Sterberaten zu starten.