Tethys RDR verwaltet forschungsrelevante Entitäten und ihre Metadaten mithilfe eines relationalen Datenbankverwaltungssystems (PostgreSQL). Das Datenbankmodell umfasst spezifische Datenstrukturen, Tabellen und Beziehungen, die für den Umgang mit komplexen wissenschaftlichen Daten wie Metadaten und Datenherkunft konzipiert sind. Um die Integrität der Daten sicherzustellen, umfasst das Datenbankmodell Dateneinschränkungen und Validierungsregeln, implementierte Zugriffskontrollen, um einzuschränken, wer Änderungen an den Daten vornehmen kann, Zeitstempel und Prüfsummen wie MD5 und SHA-512 (siehe R14).
Zur Einhaltung internationaler Metadatenstandards wie Dublin Core, DataCite und ISO 19139 werden die relevanten Informationen per Mapping (XSLT Transformation) on-the-fly direkt aus der Datenbank geliefert. Durch die Zuordnung von Tethys-RDR-Metadaten zu diesen internationalen Standards wird es für andere Systeme einfacher, Metadaten auszutauschen und zu integrieren, was wiederum die Entdeckung, den Zugriff und die Wiederverwendung von Daten und anderen Ressourcen (z. B. OGC CSW Metadata Harvesting (ISO19139) aus dem Tethys RDR OAI-PMH-Endpunkt).
Das Repository nutzt DataCite Fabrica-Dienste, um Digital Object Identifiers (DOIs) zuzuweisen, um die Zugänglichkeit und Authentizität der Daten sicherzustellen. DOIs werden nicht automatisch nach der Einreichung vergeben, sondern erst, nachdem die Veröffentlichung der Daten durch die Mitarbeiter des Repositoriums (Herausgeber, Gutachter) auf Vollständigkeit und Richtigkeit überprüft wurde. Ein typischer Tethys-RDR-Datensatz enthält neben den Daten selbst immer auch Metadaten und ggf. eine detaillierte Beschreibung, z.B. in Form einer PDF-Datei mit Informationen zur Datenstruktur, Eignung, Geometrie, Zitierungen und Provenienz.
Tethys RDR bietet eine benutzerfreundliche Oberfläche, die die Eingabe von Metadaten und das Hochladen von Datensätzen vereinfacht. Der Einsatz von Eingabemasken, Hilfemenüs, Vorschlägen und automatischer Validierung erhöht die Effizienz des Dateneingabe- und Upload-Prozesses und verringert gleichzeitig die Fehlerwahrscheinlichkeit.
Nach der Veröffentlichung können Einreicher ihre Datendateien oder Metadaten nicht ohne die Beteiligung von Tethys RDR-Mitarbeitern aktualisieren. Der Kurationsprozess stellt sicher, dass alle am Datensatz vorgenommenen Aktualisierungen ordnungsgemäß überprüft, genehmigt und dokumentiert werden, wodurch die Genauigkeit und Integrität der Inhalte des Repositorys gewahrt bleibt. Größere Änderungen an der Datei(en), dem Titel oder den Erstellern führen zu einer neuen Version, die nicht ohne einen weiteren Kuratierungsprozess veröffentlicht werden kann. Der neue und der vorherige Datensatz werden in ihren jeweiligen beschreibenden Metadaten referenziert. Um die verschiedenen Versionen eines Datensatzes bequem verfolgen zu können, bietet das Tethys RDR-Frontend auch ein Dropdown-Menü, in dem Sie alle verfügbaren Versionen des Datensatzes anzeigen und daraus auswählen können. Der ursprüngliche DOI des veröffentlichten Datensatzes führt immer zur neuesten Version.
Die eigentlichen Datenobjekte in Tethys werden als „Datenreihen“ gespeichert (eine Reihe von Datenpunkten in numerischer, Datums-/Uhrzeit-, Zeichenfolgen- oder Binärform). Jeder Dateneintrag in einer Datenreihe bezieht sich auf Metadaten zum Objekt:
Typ des Datenpunkts (numerisch, Datum, Zeichenfolge, Binärdatei)
verantwortlicher Wissenschaftler (PI)
Methodik
für Binärdateien auch Hashes und Dateigröße, absoluter Speicherort im Bucket-Speicher
Bei numerischen Daten werden auch Informationen wie signifikante Ziffern formatiert
Das Datenbankschema von Tethys wird ständig an neue Metadatenstandards angepasst. Dabei werden bereits vorhandene Metadaten von Datensätzen entsprechend neuer Standards angepasst und erweitert. Es wird große Sorgfalt darauf verwendet, keine inkompatiblen Änderungen an den Metadaten des Objekts vorzunehmen.
Nicht alle Daten von Tethys werden in tabellarischer Form bereitgestellt. Einige Datensätze sind nur in kompakten, Community-spezifischen Binärformaten wie NetCDF, Geopackage oder statischen Bildern verfügbar. Die langfristige Aufbewahrung dieser Formate ist ein komplexes Problem. Daher hat Tethys einige Formatregeln entwickelt, bevor Daten in Binärformaten akzeptiert werden. Zur Archivierung werden derzeit alle folgenden Formate akzeptiert. Wenn möglich, werden unkomprimierte Formate bevorzugt:
Bilder: JPEG, PNG, TIFF
Dokumente: PDF-A (bevorzugt), ODF, OOXML
Medienbehälter:
NetCDF, vorzugsweise unter Verwendung von "Climate and Forecast Metadata Conventions" - in allen anderen Fällen ist eine detaillierte Dokumentation erforderlich
Geopackage, vorzugsweise für Geodaten verwendet
Diese Liste ist nicht vollständig. Tethys fügt dieser Liste möglicherweise weitere Formate hinzu. Sollte eines dieser Formate veraltet sein oder durch spätere Standards ersetzt werden, wird Tethys sein Bestes tun, diese in moderne Ersatzformate umzuwandeln, aber weiterhin die Originaldaten verfügbar zu halten.
In Abstimmung mit wissenschaftlichen Gemeinschaften hat Tethys eine Dokumentation zur Harmonisierung von Metadaten und Daten für die Archivierung entwickelt. Diese Dokumente enthalten auch Informationen darüber, wie mit der Langzeitarchivierung umgegangen wird (falls zutreffend).
Um den physischen Zugriff auf archivierte Daten sicherzustellen, kümmert sich das Rechenzentrum der Geosphere Austria um die ordnungsgemäße Funktion von Hard- und Softwaresystemen einschließlich der Datensicherung und Datenmigration von veralteten Medien. Geosphere Austria hat folgende technisch-organisatorische Maßnahmen umgesetzt:
Feuer und Rauch
Meldesysteme und Feuerlöscher
Überwachung von Temperatur und Luftfeuchtigkeit im Serverraum
Klimaanlage im Serverraum
USV-System und Notstrom-Dieselgeneratoren
RAID-System / Festplattenspiegelung in Virtualisierungsumgebung
Speicherung von Backup-Medien an physisch getrennten, sicheren Orten
Backup-Konzept und Vorhandensein eines Notfallplans
Backup-Überwachung und Berichterstattung, regelmäßige Prüfsummenvalidierung
Zur Dokumentation aller Systeme kommt Gitea zum Einsatz
Benutzerberechtigungsverwaltung
E-Mail-Prüfung mit Antivirensoftware
Netzwerk-Firewall
Einbrucherkennungssystem
Eine Übertragung des Sorgerechts kann durch die Reduzierung von Tethys auf ein dateibasiertes Repository verwaltet werden. In diesem Fall würde eine dateibasierte Kopie aller Datensätze inklusive möglicher binärer Objektdateien erstellt und entweder von der Geosphere Austria zur Verfügung gestellt werden. In jedem Fall garantieren die Gastinstitutionen, dass die Daten und Metadaten noch mindestens 10 Jahre nach der formellen Stilllegung von Tethys verfügbar sind.
Aus rechtlichen Gründen (z. B. Urheberrecht / Art. 17 DSGVO) kann es vorkommen, dass Urheberrechtsinhaber, betroffene Personen oder Behörden verlangen, veröffentlichte Datensätze und deren Inhalte dauerhaft zu löschen. In diesem Fall wird eine Tombstone-Seite erstellt, die mit dem DOI-Namen des Datensatzes verknüpft ist und potenzielle Benutzer über die Löschung informiert.