Upload
mbetterm
View
530
Download
1
Embed Size (px)
DESCRIPTION
Status Quo und Zukunft von AAN
Citation preview
Vortrag
Status Quo und Zukunft von AANs
Referent: Mirko Bettermann
29.11.10 Status Quo und Zukunft von AANs 2
Inhalt
Artefakt-Akteur-NetzwerkeNetzwerk- und DokumentanalyseEingesetzte TechnologienStatus Quo, Probleme, Lösungen
29.11.10 Status Quo und Zukunft von AANs 3
Akteur-Netzwerk
Soziales Netzwerk: Eine Menge von Beziehungen, die zwischen Personen bestehen, und Rückschlüsse auf das Sozialverhalten der Personen erlaubenBeispiele: XING, studiVZAkteur-Netzwerk: Abstraktion eines Sozialen NetzwerkesBeziehungen zwischen Akteuren werden als ACT2 Beziehungen bezeichnetMögliches Vokabular: Friend-Of-A-Friend
29.11.10 Status Quo und Zukunft von AANs 4
Artefakt-Netzwerk
Netzwerk von Artefakten die miteinander in Beziehung stehenArtefakt: Verallgemeinerung des DokumentbegriffsBeziehungen zwischen Artefakten werden als ART2 Beziehungen bezeichnetMögliche Vokabulare:
Semantically-Interlinked Online Communities (SIOC)Dublin Core Metadata Initiative (DCMI)
29.11.10 Status Quo und Zukunft von AANs 5
Artefact-Akteur-Netzwerke (1)
Konsolidierung von Artefakt-Netzwerken und Akteur-NetzwerkenErlauben von zusätzlichen Actor-Artefact und Artefact-Actor-Beziehungen
29.11.10 Status Quo und Zukunft von AANs 6
Artefact-Akteur-Netzwerke (2)
29.11.10 Status Quo und Zukunft von AANs 7
Überblick
Artefakt-Akteur-NetzwerkeNetzwerk- und DokumentanalyseEingesetzte TechnologienStatus Quo, Probleme, Lösungen
29.11.10 Status Quo und Zukunft von AANs 8
Netzwerkanalyse (1)
Die Dichte gibt die Stärke der Verbundenheit eines Netzwerkes an
Die Zentralität eines Knotens gibt an wie stark dieser in das Gesamtnetzwerk eingebunden ist
Degree-ZentralitätBetweenness-Zentralität
Dichte= Anzahl KantenAnzahl möglicherKanten
29.11.10 Status Quo und Zukunft von AANs 9
Netzwerkanalyse (2)
Degree-ZentralitätEin Knoten ist zentral wenn er mit möglichst vielen anderen Knoten in Beziehung steht
Betweenness-ZentralitätEin Knoten ist zentral wenn er auf vielen kürzesten Wegen zwischen Knotenpaaren vorkommt
29.11.10 Status Quo und Zukunft von AANs 10
Netzwerkanalyse (3)
29.11.10 Status Quo und Zukunft von AANs 11
Dokumentanalyse (1)
Jedes Dokument wird durch eine Menge von Schlüsselwörtern charakterisiertDie Relevanz eines Schlüsselwortes sagt aus wie gut dieses das jeweilige Dokument beschreibtSchlüsselwörter können entweder durch Benutzer oder durch Dienste bestimmt werdenRelevanz=Termfrequenz⋅Inverse Dokumentfrequenz
29.11.10 Status Quo und Zukunft von AANs 12
Dokumentanalyse (2)
SemSim-Funktion zur Berechnung der Ähnlichkeit zweier Texte A und BConSim berechnet die Ähnlichkeit der Relevanzen eines Schlüsselwortes das A und B beschreibt
29.11.10 Status Quo und Zukunft von AANs 13
Dokumentanalyse (3)
SemSim gewichtet die Ähnlichkeit der Relevanzen mit dem Wert der kleineren RelevanzAnschließendes aufsummieren für alle gemeinsamen SchlüsselwörterQuadrieren des ConSim bewirkt GlättungSemSim ist bereits implementiert – weitere Funktionen zur Ähnlichkeitsberechnung sind in Arbeit
29.11.10 Status Quo und Zukunft von AANs 14
Dokumentanalyse (4)
29.11.10 Status Quo und Zukunft von AANs 15
Überblick
Artefakt-Akteur-NetzwerkeNetzwerk- und DokumentanalyseEingesetzte TechnologienStatus Quo, Probleme, Lösungen
29.11.10 Status Quo und Zukunft von AANs 16
Ressource Description Framework (1)
Standard zur Beschreibung von Ressourcen des InternetAusdehnung auf Beschreibung von durch URI bestimmbare Entitäten (z. B. Katalogdienste, Feeds, Dateien)RDF ist durch Maschinen auswertbar und durchsuchbar (SPARQL)RDF Datenmodell basiert auf gerichteten Graphen
29.11.10 Status Quo und Zukunft von AANs 17
Ressource Description Framework (2)
Daten sind wahre Aussagen über RessourcenAussagen bestehen aus Tripel Subjekt, Prädikat und ObjektSubjekt: Die Ressource über die eine Aussage getroffen wirdPrädikat: Die Eigenschaft des SubjektsObjekt: Das Argument des PrädikatsDie Menge aller Aussagen bildet einen gerichteten Graph
29.11.10 Status Quo und Zukunft von AANs 18
OWL
Formale Beschreibungssprachen vom W3C Hier zur Definition von Ontologien (RDF-Vokabulare) eingesetztBasiert technisch gesehen auf der RDF-Syntax, kann aber wesentlich mehr
VererbungInverse, Symmetrie, Transitivität, KardinalitätenPrädikatenlogik
29.11.10 Status Quo und Zukunft von AANs 19
Ontologie
29.11.10 Status Quo und Zukunft von AANs 20
Jena
Java basiertes Open Source Framework für Semantische NetzeSpeichern und Laden von Graphen in RDF NotationUnterstützt OWL-Ontologien und bietet automatische InferenzbildungSchnelles Einfügen und Wiederfinden von RDF TripelnErmöglicht abrufen der Daten durch SPARQL
29.11.10 Status Quo und Zukunft von AANs 21
OSGi
Open Services Gateway initiative: Hardwareunabhängige dynamische SoftwareplattformErleichtert die Implementierung von Komponenten-basierter SoftwareErmöglicht das Einbinden neuer Komponenten zur Laufzeit und ohne CodeänderungKommunikation der Komponenten durch OSGi-Dienste
29.11.10 Status Quo und Zukunft von AANs 22
Überblick
Artefakt-Akteur-NetzwerkeNetzwerk- und DokumentanalyseEingesetzte TechnologienStatus Quo, Probleme, Lösungen
29.11.10 Status Quo und Zukunft von AANs 23
Ablauf (1)
29.11.10 Status Quo und Zukunft von AANs 24
Ablauf (2)
29.11.10 Status Quo und Zukunft von AANs 25
Crawler/CrawlerManager (1)
Empfangen Content-Analyse AufträgeDer CrawlerManager nutzt die Dienste des Crawlers und bietet selbst Funktionen auf höherer EbeneDer Crawler bekommt die URI des zu analysierenden Artefaktes und setzt die Verarbeitungskette in Gang
AccessorMimeTyperParser
29.11.10 Status Quo und Zukunft von AANs 26
Ablauf (3)
29.11.10 Status Quo und Zukunft von AANs 27
Crawler/CrawlerManager (2)
Jeder Crawl-Auftrag wird in einen eigenständigen Thread ausgeführtCrawler erzeugt CrawlerDataObjectProblem:
Bei Systemausfall geht das CrawlerDataObject und damit alle während des Jobs gewonnenen Daten verloren
Lösung:Sicherung der CrawlerDataObjects in einer Datenbank
29.11.10 Status Quo und Zukunft von AANs 28
Ablauf (4)
29.11.10 Status Quo und Zukunft von AANs 29
Parser
Sucht in den Ressourcen nach semantischen RelationenSchreibt in den Jena DataStore und den FullTextStoreProblem:
Zu jeder Ressourcen URI kann ein Volltext abgelegt werden. Abstract oder Kompletter Volltext möglich.
Lösung:Kennzeichnung durch zusätzlichen Parameter
29.11.10 Status Quo und Zukunft von AANs 30
Jena DataStore
Speichert vom Parser erzeugte RDF-Tripel die der Ontologie genügenProbleme:
Inferenzen werden erst nach konkreten Anfragen durchgeführtInferenzen werden nicht persistent gespeichert
Lösung:Inferenzen durchführen wenn neue Tripel gespeichert werden und persistent speichern
29.11.10 Status Quo und Zukunft von AANs 31
FullTextLucene
Konkrete Implementierung des FullTextStore und RelevanceStore in einer KomponenteBestimmung von Schlüsselwörtern erfordert die Speicherung von VolltextSpeichert die Relevanzen von SchlüsselwörternInformiert die TextAnalyser und die ReferenceAnalyser Komponente durch OSGi Events
29.11.10 Status Quo und Zukunft von AANs 32
Analysing-Block (1)
Network-AnalyserReagieren auf Änderungen im DatastoreAnalysieren das Netzwerk (Dichte, Zentralität)
TextAnalyser:Reagieren auf Updates im FulltextstoreBestimmen Schlüsselwörter und Named Entities und legen diese im DataStore abOrchestr8Analyser, OpenCalaisAnalyser, CosineAnalyser
29.11.10 Status Quo und Zukunft von AANs 33
Analysing-Block (2)
RelevanceAnalyserReagiert auf OSGi Events vom FullTextLuceneSemSimAnalyser: berechnet die Semantische Ähnlichkeit von Artefakten nach der SemSim-Funktion
Problem:Ähnlichkeiten werden „on the fly“ berechnet und nicht persistent gespeichert
Lösung:SimitarityStore zur persistenten Speicherung
29.11.10 Status Quo und Zukunft von AANs 34
Fertig!
Vielen Dank für die Aufmerksamkeit!
29.11.10 Status Quo und Zukunft von AANs 35
Literatur (1)
Wolfgang Reinhardt, Matthias Moi, Tobias Varlemann: Artefact-Actor-Networks as tie between social networks and artefact networks
Matthias Moi: Soziale Netzwerkanalyse in Artefact-Actor-Networks
Wolfgang Reinhardt, Tobias Varlemann, Matthias Moi, Adrian Wilke: Modeling, obtaining and storing data from social media tools with Artefact-Actor-Networks
Tobias Varlemann: Konzeption und Entwicklung einer Architektur zur semantischen Analyse, Speicherung und Bereitstellung von Daten aus Blogs und Microblogs in Artefact-Actor-Networks, Universität Paderborn, 2010
29.11.10 Status Quo und Zukunft von AANs 36
Literatur (2)
Adrian Wilke: Analysis and integration of Web 2.0 data sources into a system for analysis and storage of Artefact-Actor-Networks, Universität Paderborn, 2010
Tobias Varlemann: Kleine Einführung ins RDF und Jena
Tobias Varlemann: Kleine Einführung ins OSGi
Gespräche und E-mail Austausch mit:Adrian Wilke, Christian Meier, Tobias Varlemann, Matthias Moi