Upload
magnus-pfeffer
View
238
Download
0
Embed Size (px)
DESCRIPTION
Presentation given at the BI Symposium on December 5th, 2014.
Citation preview
Cloud Computing für die Verarbeitung von Metadaten
Prof. Magnus [email protected]
Überblick Herausforderung Metadatenmanagement
Werkzeuge zum Metadatenmanagement
Cloud-basierte Dienstleistungen
Aktuelle Projekte
Fazit
5.12.2014 BI Symposium 2014 3
Herausforderung Metadatenmanagement
5.12.2014 BI Symposium 2014 4
Früher war alles einfacher... (Online-)Katalog
Titelaufnahmen gedruckter Medien mit lokalem Bestand Verknüpfte Normdaten Zentrale, kooperative Bearbeitung im Verbund
Datenmanagement Ein Datenformat (MAB2) Ein Regelwerk (RAK) Ein Datenlieferant (Verbund) Ein Datenempfänger (integriertes Bibliothekssystem oder
lokaler OPAC)
5.12.2014 BI Symposium 2014 5
Und heute? Resource Discovery
Elektronischer und gedruckter Bestand Bücher und Zeitschriften Titel- und Aufsatzebene
Konsortial erworbene elektronische Zugänge Bibliografische Daten Volltexte
Andere digitale Medien Bilddatenbanken Digitalisate
Freie Quellen Open Access
Nicht lizenzierte Medien Bibliografischer Nachweis als Ausgangspunkt für Lieferdienste
5.12.2014 BI Symposium 2014 6
Und heute? Datenmanagement
Viele Datenformate MAB2, Marc21, Dublin Core, METS/MODS, …
Viele Regelwerke RAK, AACR, RDA, ...
Viele Datenquellen Eigene Datenbanken, Verbund, Konsortium, Lieferanten,
Anbieter, ... Mehrere Datenempfänger
Integriertes Bibliothekssystem Resource Discovery System
5.12.2014 BI Symposium 2014 7
Herausforderungen Komplexität der Datenverarbeitung
Kenntnis von Formaten Qualitätssicherung Informationsverluste
Datenmengen Mehrere zehn Millionen Einträge nur für lizenzierte Medien
möglich Freie + nichtlizenzierte Medien → mehrere hundert
Millionen Einträge
5.12.2014 BI Symposium 2014 8
Werkzeuge zum Metadatenmanagement
5.12.2014 BI Symposium 2014 9
Metafacture Entwickelt im Rahmen des Projekts Culturegraph
Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW
Komponenten Flux
Skriptsprache zum Aufbau von Verarbeitungs-Pipelines Umwandlung, Speichern und Analysieren von Daten Keine Programmiersprachenkenntnisse erforderlich
Morph Anwendungsspezifische Sprache zur Verarbeitung von Metadaten Modellierung als „Pipeline“ Konfiguration in XML
Framework Technische Umsetzung der einzelnen Komponenten in Java Erweiterbar durch eigene Programme
5.12.2014 BI Symposium 2014 10
Catmandu Sammlung von Werkzeugen zur Datenverarbeitung in
Bibliotheken Einlesen von Metadaten aus unterschiedlichen Quellen Speichern von Metadaten Suchen in Metadaten Export und Umwandlung in unterschiedliche Formate
Sprache „Fix“ Beschreibung von Transformationen und Bearbeitung von
Metadaten
Entwicklung von eigenen Abläufen und Anwendungen durch Kombination der Werkzeuge mit anderen Entwicklungsumgebungen
5.12.2014 BI Symposium 2014 11
d:swarm Datenintegrations- und -modellierungswerkzeug
Flexibles (elastisches), graphenbasiertes Datenmodell Überführung von Daten aus heterogenen Datenquellen
Middleware-Lösung Durchführung aller bibliothekarischen
Datenverarbeitungsprozesse zwischen bestehenden Datenmanagementsystemen und
Webanwendungen (z.B. Discovery-System)
Unterstützt u.a. Analysen zur Verbesserung der Datenqualität Deduplizierung und Zusammenführen von Titeldaten FRBRisierung bibliographischer Daten
5.12.2014 BI Symposium 2014 12
Cloud-basierte Dienstleistungen
5.12.2014 BI Symposium 2014 13
Das Versprechen der „Cloud“ Web-basierte Dienstleistungen
Von einfacher Infrastruktur bis zu komplexer Software
Skalierung der Leistung nach Bedarf Gigantische Speichervolumina Schnelle Rechenleistung
Nutzungsbasierte Abrechnung Keine hohen Anschaffungskosten Planbare laufende Kosten
5.12.2014 BI Symposium 2014 14
Cloud: Einfache Dienstleistungen Rechnerkapazität
Virtuelle Server in Rechenzentren Auswahl bei Ausstattung und Betriebssystem Große Anzahl in kurzer Zeit buchbar
Speicherkapazität Anteile an großen Festplatten-Verbünden Auswahl bei Geschwindigkeit und Netzanbindung Sehr große Datenmengen speicherbar
→ „Infrastructure-as-a-Service“ (IaaS)
5.12.2014 BI Symposium 2014 15
Produkte Rechenkapazität
Amazon Elastic Compute Cloud (EC2) Google Compute Engine Microsoft Azure Virtual Machines
Speicherkapazität Amazon Simple Storage Service (S3) Google Storage Microsoft Azure Storage
5.12.2014 BI Symposium 2014 16
Nutzungsszenarien Wechsel der Arbeitsumgebung
Vom eigenen Arbeitsplatzrechner oder lokalen Server zum virtuellen Server beim Cloud-Anbieter
Vorteil: Geringere Kosten bei höherer Kapazität Beispiel: Amazon EC2 Typ „c3.8xlarge“ mit 32 CPUs und 60
GB RAM: $1,68 pro Stunde
Zentrale Speicherung von großen Datenmengen Metadaten unter freien Lizenzen („Open Data“) Vorteil: Schneller Zugriff ohne Last für Netzwerke von
Datenanbietern Beispiel: Google Storage 50GB mit 10GB Transfers:
$2,61 pro Monat
5.12.2014 BI Symposium 2014 17
Cloud: Definierte Umgebungen Bereitstellung von Schnittstellen zur Programmierung
spezifischer Anwendungen
Höherer Abstraktionsgrad Kunde „sieht“ nur die Schnittstellen, nicht mehr die virtuelle
Maschine mit Betriebssystem Umsetzung in Infrastruktur Aufgabe des Diensteanbieters
Angebote für unterschiedliche Zielanwendungen Wissenschaftliche Datenverarbeitung Web-basierte Anwendungen Datenbanken
→ „Platform-as-a-Service“ (PaaS)
5.12.2014 BI Symposium 2014 18
Produkte Google App Engine
Plattform für die Entwicklung von Web-Applikationen Programmiersprachen: Java, Python, PHP, Go Eigenschaften
Persistente Speicherung von Daten Automatische Skalierung und Lastverteilung Programmabläufe, die nicht von Webzugriffen ausgelöst
werden Asynchrone Berechnungen, zeitgesteuerte Läufe
Aber: Kein direkter Zugang zum Server
5.12.2014 BI Symposium 2014 19
Produkte Hadoop
Plattform zur Programmierung verteilter Berechnungen zur echten Skalierung für sehr große Datenmengen
Eigenschaften Persistente Speicherung und Datenzugriff über alle Rechner
des Verbundes Automatisiert Aufteilen des Arbeitspakets, Verteilen auf
mehrere Rechner, Zusammenführen der Ergebnisse Programmierung in Java Zusätzliche Skriptsprachen zur einfacheren Programmierung
(z.B. „Pig Latin“)
5.12.2014 BI Symposium 2014 20
Produkte AWS DynamoDB
NoSQL-Datenbankservice NoSQL
Speicherung von Schlüssel-Wert-Paaren Speicherung von teilstrukturierten Daten Besser geeignet für typische Anwendungen im Metadatenbereich
als klassische relationale Datenbanken
Eigenschaften
Sehr schneller schlüsselbasierter Zugriff auf Daten konsistente Latenz im einstelligen Millisekundenbereich Skalierung für alle Größenordnungen
5.12.2014 BI Symposium 2014 21
Nutzungsszenarien Hadoop
Verteilte Bearbeitung sehr großer Datenmengen Komplexe Operationen
Datenvergleich und Clustering ähnlicher Daten Datenbereinigung
Unterstützt in Metafacture
NoSQL Zentrale indexierte Ablage von Daten („Backend“)
Schneller Zugriff über Identifikatoren Spontane Abfragen und einfache Analysen direkt über die
Datenbank möglich Unterstützt in Catmandu und Metafacture
5.12.2014 BI Symposium 2014 22
Cloud: Einzelanwendungen Anwendungen für Endanwender
Komplette Abstraktion der technischen Umsetzung Kunde nutzt nur noch eine web-basierte Schnittstelle Umsetzung und Skalierung Aufgabe des Anbieters
Zahlreiche Angebote Dropbox Google Mail Microsoft Office 365 online …
Aber: (Noch) keine für Metadatenverarbeitung
→ „Software-as-a-Service“ (SaaS)
5.12.2014 BI Symposium 2014 23
Aktuelle Projekte
5.12.2014 BI Symposium 2014 24
Datenaggregation Idee
Sammeln von Open-Data Metadatenpaketen Dokumentierte Ablage in Cloud-Speicherdienst Bereitstellung in mehreren Datenformaten
Erhoffter Nutzen Zentrale Anlaufstelle für Datennutzer Vermeidung von Doppelarbeit Einfache Nachnutzung in virtuellen Servern
5.12.2014 BI Symposium 2014 25
Toolsets Idee
Bereitstellung von Werkzeugen und Programme zur Metdatenverarbeitung ohne aufwändige Installation
Vorbereitete Server-Einrichtung für Cloud-Dienste Wenn möglich: Testinstallationen mit web-basiertem
Zugang
Erhoffter Nutzen Niederschwelliger Zugang zu den Werkzeugen Einfache Evaluation der Möglichkeiten Nutzung in der Lehre
5.12.2014 BI Symposium 2014 26
Fazit
5.12.2014 BI Symposium 2014 27
Es sieht ganz gut aus... Komplexität der Verarbeitung
Es gibt gute Werkzeuge zur Vereinfachung häufiger Bearbeitungsschritte
Zahlreiche Projekte Unterschiedliche Ansätze und Schwerpunkte Sehr aktive Entwicklung
Anwendungen in der Praxis und Forschung Bald: Anwendung in der Lehre
5.12.2014 BI Symposium 2014 28
Es sieht ganz gut aus... Cloud-Dienste
Einfacher Effizienzgewinn und Kostenvorteile durch die Umstieg auf IaaS-Angebote jederzeit realisierbar
Gemeinsame Nutzung von Daten und Werkzeugen durch Bereitstellung in Cloud-Angeboten
Skalierung auch für sehr große Datenmengen durch die Nutzung von PaaS-Angeboten technisch möglich
Und besonders: d:swarm als vielversprechender Ansatz eines SaaS-Angebots im Bereich Metadatenmanagement
5.12.2014 BI Symposium 2014 29
Fragen
??
5.12.2014 BI Symposium 2014 30
Danke für Ihre Aufmerksamkeit!
Folien online unterhttp://www.slideshare.net/MagnusPfeffer/
Dieses Werk bzw. Inhalt steht unter einerCreative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.