Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 20021 Web Warehousing Teil 2 der...

Preview:

Citation preview

KFK Verteilte Systeme/Informationssysteme WS 2002 1Dezember, 02

Web Warehousing

Teil 2 der Präsentation „Web Warehousing und Knowledge Management“

Gerda Jelleschitzgerda.jelleschitz@gmx.at

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 2

Überblick1. web-based query and reporting2. web-OLAP3. web-based statistical analysis and data

mining4. web-based graphical information systems5. text information management systems6. search engines and facilities7. text mining systems8. multimedia information management systems

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 3

1. Web-Based Query und Reportingwas sind /wofür sind

query tools reporting tools

welche Technologien wofürVorteile einer Web-Warehousing-

Applikation

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 4

Query Toolseine Anfrage unmittelbar an die

DatenbankModus „pro-active“ Einsatz:

die gewünschte Information ändert sich oft Benutzer zu unterschiedlichen Zeiten

unterschiedliche Informationen benötigen wichtig, dass Information zeitgerecht und

sofort verfügbar ist

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 5

Reporting Toolsein Report wird generiert und danach

abgespeichertModus „reactive“ Einsatz:

wenn die Information für eine bestimmte Zeit gültig ist

wenn User die selbe Info in dem selben Format öfter und jederzeit benötigen

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 6

Welche Technologien wofürReporting Query

PPP ideal!

CGI möglich ideal

Java mit JDBC möglich gut

Client-Applikation

möglich andere Nachteile!

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 7

Vorteile einer Web-Warehousing-Anwendung Einsparungen beim

Netzwerk End-User-Workstations End-User-Software Software-Wartung und End-User-

Support Möglichkeit von jedem Ort der Welt

aus zu arbeiten, weltweite Konsistenz

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 8

2. Web-OLAPWas ist OLAPCharakteristika einer erfolgreichen

OLAP-ImplementationDesign-AnsätzeData-Management-Ansätze

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 9

Was ist OLAPOnLine Analytical Processing Daten werden aus einer Datenbank ermittelt

und übersichtlich dargestellt  Base Reports vordefiniertes Layout haben

Styles (zB straight, sparse/nested, stacked/nested).  NavigierbarkeitOLAP für Online-Aktivitäten und nicht als

Report-Writer einzusetzen!

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 10

Charakteristika einer erfolgreichen OLAP-Implementation

V volatile content

A actionable

I important

N navigatable

S stable format & dimensions

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 11

Design-AnsätzePrecalculate and Store Calculate on the Fly Hybride Ansätze

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 12

Data-Management-Ansätzebig cube – little cube

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 13

3. Web-Based Statistical Analysis and Data MiningAnalytische Tools Was ist Data-MiningKategorien ermittelter Informationstatistische Produktedata discovery toolsVergleichArchitektonische Ansätze

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 14

Analytical Toolkitsstatistische AnalyseData Discovery

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 15

Kategorien ermittelbarer InformationDesciptive InformationPredictive InformationExploratory/Explanatory DiscoverySpecialized Insights

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 16

Was ist Data Mining?große Mengen an Daten analysieren

um versteckte Muster oder Charakteristika zu entdecken, zu beschreiben

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 17

Überblick Statistische Produkte

KorrelationsanalyseFaktoranalyseRegressionsanalyse

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 18

Überblick Data Discovery Tools auch data mining, information

discovery oder knowledge discovery

Neuronale Netze CHAID

(chi-square automatic interaction detection)

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 19

VergleichAnforderungen an den BenutzerAufbereitung der DatenMathematische GrundlagenZuverlässigkeit der Ergebnisse

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 20

VergleichAnforderungen an den Benutzer

allgemein: Statistical Tools verlangen größeres Verständnis

von statistischen GrundlagenBedienung

Statistical Tools: benötigt meist einen Statistiker Data Discovery Tools: sehr einfach

Interpretation der Ergebnisse Statistical Tools:ohne Statistik-Kenntnisse sehr

schwer Data Discovery Tools: üblicherweise leicht zu

verstehen und schwer zu misinterpretieren

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 21

VergleichAufbereitung der Daten

Statistical Toolssehr hohen

Standards im Sinne von Menge Genauigkeit

Data Discovery Tools

mit weniger und qualitativ schlechteren Daten können bereits Ergebnisse erzielt werden

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 22

VergleichMathematical Foundations

Statistical Tools traditionelle Statistik

extrem hohen Standards für Tests und Messungen

Data Discovery Tools neuere, weniger traditionell definierte oder

bewiesene Formen statistischer Analyse Modelle meist viel einfacher zu erstellenAbhängigkeiten weit schwerer zu beweisenden

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 23

VergleichZuverlässigkeit der Ergebnisse

statistischen Ergebnisse i.a. genauer und verlässlicher als Data Discovery

ungleich höhere Kosten der statistischen Tools bzw deren Anwendung!

Bevorzugung der Data-Discovery-Tools, v.a. wenn kleine Ungenauigkeiten keine Auswirkungen haben

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 24

Architektonische Ansätze100% server-based100% client-basedHybride Ansätze

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 25

4. Web-Based Graphical and Geo- graphical Information Systems

Arten graphischer Informationsysteme traditional charting and drawing-sw Virtual Reality (2D/3D/4D) – Reality

Representations Mehrdimensionale abstrakte

Repräsentationen Geographische Informationssysteme

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 26

Traditional Charting and Drawing-SoftwareFunktionalität weit verbreitet!

zB Excel, Lotus 1-2-3, .......Wert

große Mengen Daten in klare Muster klar Trends und Richtungen zu zeigen den Kommunikationsprozess

vereinfachen

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 27

Virtual Reality (2D/3D/4D) – Reality Representations

jene Anwendungen, die die Realität darstellen (zB Darstellung von Vorgängen innerhalb eines Kernkraftwerks)

Layering Applications

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 28

Mehrdimensionale abstrakte Repräsentationen

stellt extrem komplexe, mehrdimensionale Daten stark vereinfacht graphisch dar

Visual Data Mining

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 29

Geographische Informationssystemelayers und overlays ...

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 30

5. Text Information Management SystemsIdee: System sucht Texte, liest sie, und

bewertet sieText Information Management

System(TIMS) ist ein System, bestehend aus Menschen Prozessen, Hard- und Software „Rohstoffen“, in diesem Fall Texte in jeder

erdenklichen Form.

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 31

Text Information Management SystemsTIMS werden unterschieden nach

1.den wichtigsten Kategorien von TIMS2.ihren funktionellen Komponenten3.ihr Zustell- und Ausführmodell4.ihren Informationsquellen5.der Menge/Art an Texten

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 32

Die wichtigsten Kategorien von TIMSsearch engines und search enabler

web-based public domain subscription search services corporate digital libraries

subscription/conscription servicescollaborative work environments

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 33

Search Engines und Search Enablerkeyword searcheinengen des Suchfelds

geographisch zeitlich sprachlich Inhalt (Graphiken, Videos etc) .....

Search Enabler: neue Generation „super-Suchmaschinen“

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 34

Subscription/Conscription Servicesnews servicesstock quotes/monitoringon-line clipping servicesspecial interests groupsmarketing conscription servicescorporate conscription services

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 35

Collaboratorive Work EnvironmentsShared Reference Libraries

Work Flow Management Systems

Collaborative Problem Solving and Think Tank Applications

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 36

TextanalyseAnsätze zur Textanalyse enthalten:

Keyword oder „Abstract“ Analyse Word Count Phrase and Word Combination Count Context Evaluation Advanced Analytical Techniques

2 Arten in Suchmaschinen integriert freistehend

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 37

Funktionelle Komponenten eines TIMSTIMS üblicherweise Kombination aus

Texterstellung Textkonvertierung Speicherung der Texte Wartung der Verzeichnisse Texte indexieren und katalogisieren Textanalyse Textsuche und –retrieval Textformatierung und -anzeige

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 38

TIMS Delivery and Execution Models

Pull Model vs. Push Model

Targeted Model vs. Broadcast Model

User-based-Model vs. Agent-based-Model

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 39

TIMS InformationsquellenPublic Domain Marketing Materials Brokered Information Corporate Property

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 40

6. Search Engines und FacilitiesArchitekturVariationen in der Arbeitsweise

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 41

Search Engines und Facilities - Architekturjede Suchmaschine hat zumindest

folgende Komponenten: User Request Facility Search Template Search Universe Index Index Builder Query Builder und Execution Mechanism User Response Facility

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 42

Variationen in der ArbeitsweiseVerschiedene Index-Schemen

einfacher Suchmaschinen-Index mehrwertige Index-Spalten multipler Index

Art der Indexerstellung von Menschen job-based Spider

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 43

7. Text Mining Systemeumfasst

Information und/oder Wissen aus Dokumenten extrahieren

Trends in Dokumenten entdecken Informationen über Menschen, Orte und

Dinge aus Dokumenten herauslesen Dokumente zusammenfassen

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 44

Text Mining SystemeTechniken:

Content Summarization Content Search Trend Analysis Document Categorization Lexical Analysis Grammatical Analysis Semantic Analysis Linguistic Analysis Cluster Analysis

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 45

8. Multimedia Information SystemsKategorien

Hybride Suchsysteme reine Multimedia Such- und Retrieval-

Systeme Multimedia Analyse Systeme Sicherheits- und Identifikationssysteme

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 46

Unterschiede zu TIMS

Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 47

Ansätze zur IndexerstellungSimple Name Search Keyword Search Descriptive Document Search Referenceable Document Search Descriptive Database Search Multimedia Mining Tools Real-time matching

Recommended