Upload
achim-nasser
View
108
Download
1
Embed Size (px)
Citation preview
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Business Intelligence (BI)Business Intelligence (BI) gilt heute als generalisierender Begriff für Methoden des intelligenten Sammelns und Auswerten von Daten mit dem Ziel einen Mehrwert für die Unternehmenssteuerung zu erzielen.
Das Messen der wich-tigsten Ist-Zustände (Key Performance Indicator) im Verbund mit analytischen Verfahren (OLAP, Data Mining) und daraus abgeleiteten Vorher-sagen (Forecasting) sollen den Produk-tivitätsfaktor "Informa-tion" maximal verwer-ten.
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Die Business-Intelligence-Pyramide
Hervor-ragende
Kapitalrendite
Zusammensetzung und Umsetzung
Wissen(Fähigkeit zum Beantworten aller
geschäftsrelevanten Fragen)
Erkenntnisse(gezielt, zeitnahe, vollständige, aber auch einfache Analyse)
Informationen(relevant, vollständig, kontextbezogen, zuverlässig, aktuell)
Daten(Integration, Bereinigung, Unternehmensmodellierung, Konsolidierung;
Transformation und Aggregation)
Quelle: frei nach IT-FOKUS 6/2003
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Data Warehouse
Ein Data Warehouse ist eine sachverhaltsbezogene, integrierte, unveränderliche und zeitraumbezogene Datensammlung zur Unterstützung von Managementent scheidungen.W. H. Inmon (USA 1996)
Mit dem Begriff Data Warehouse i.e.S. wird generell eine von den opera-tionalen DV-Systemen isolierte Datenbank umschrieben, die als unter-nehmensweite Datenbasis für alle Ausprägungen managementunter-stützender Systeme dient und durch eine strikte Trennung von operatio-nalen und entscheidungsunterstützenden Daten und Systemen gekenn-zeichnet ist.Mucksch, Behme (BRD 1997)
Ein Data Warehouse ist eine Sammlung von integrierten Informationen, welche von den betrieblichen operativen Systemen und anderen externen Datenquellen gewonnen werden. Der spezielle Zweck ist die Unterstützung von betrieblichen Entscheidungen, nicht betrieblichen Tätigkeiten.M. J. Corey, M. Abbey (USA 1997)
Es gibt sehr gute Portale, z. B.: http://www.datawarehousingonline.com/
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Grundlegende Architektur eines Data Warehouse( frei nach Quelle: Anahory/Murray: Datawarehouse, S. 59 )
AusführlicheInformationen
Zusammen-fassungsin-formationen
Meta-Daten
Archivierteausführliche
Informationen
Einfügem
anager
Abfragem
anager
Warehouse-Manager OLAP-Werkzeuge
OperationaleDaten
ExterneDaten
relational multidimensional(denormalisiert Star- bzw. Snowflake-Schema) (Cube)
Auswertung mittels OLAP(Online Analytical Processing)
ROLAP MOLAP (relationales OLAP) (multidimensionales OLAP)
HOLAP (hybrides OLAP)
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Speicherung im Data Warehouse
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Spezielle Data-Warehouse-Datenmodelle strukturieren das Data Warehouse (DWH)
Kernpunkt der Speicherung ausführlicher Data-Warehouse Informationen zu einem ausgewählten Thema ist immer
eine Faktentabelle mit zu analysierenden Messwerten.
Diese wird mit Dimensionswerten (vermutete Einflussgrößen auf die Entwicklung der Fakten) indiziert, um die Fakten aus unterschiedlichen Sichten analysieren zu können. Das daraus entstehende typische Schema des Modells wird Star-Schema (bzw. in erweiterter Form auch Star- oder Snowflake-Schema) genannt).
FaktDimension 1
Dimension 4Dimension 5
Dimension 3
Dimension 2
Dimension n
Legende: Faktentabelle
Star-Dimensionsdaten
Snowflake-Dimensionsdaten
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Starflake-Schema einer Datenbank Beispiel
Periode
Markt Vertrieb
Versand(Fakten)
Monat Quartal
Sommer-Saison
Produkt
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Beispiel einer Dimensionstabelle "Periode"
Schlüssel Bezeichnung Jahr Quartal Monat Saison
00001 Jan. 2000 2000 1 1 0
00002 Feb. 2000 2000 1 2 0
00003 Mär. 2000 2000 1 3 0
00004 Apr. 2000 2000 2 4 0
00005 Mai 2000 2000 2 5 1
00006 Jun. 2000 2000 2 6 1
… … … … … …
01007 Jul. 2001 2001 3 7 1
01008 Aug. 2001 2001 3 8 1
01009 Sep. 2001 2001 3 9 1
01010 Okt. 2001 2001 4 10 0
01011 Nov. 2001 2001 4 11 0
01012 Dez. 2001 2001 4 12 0
02001 Jan. 2002 2002 1 1 0
Spalten in Dimensionstabellen spiegeln Hierarchien wieder, z. B. Jahr Quartal Monat Bezeichnung aber auch Saison Jahr u.a.
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Hierarchien in Dimensionen
1. Ausgeglichene HierachienBeispiel Periode 1. Quartal Januar Februar März
2. Quartal April Mai Juni3. Quartal Juli August September4. Quartal Oktober November Dezember
Jahr Quartal MonatAnmerkung: Benennung der Hierarchien einfach.
2. Unausgeglichene HierachienBeispiel Abteilungsstruktur
Firmenkunden Großkunden KleinkundenPrivatkunden Region Süd Region NordÖffentlicher Dienst
Anmerkung: Benennung der Hierarchien schwierig.
2002
3. Unregelmäßige HierachienBeispiel Regionen
Land Region StaatAnmerkung: Benennung der Hierarchien einfach, aber bestimmte Hierarchie-stufen ggf. bedeutungslos für bestimmte Werte. Z. B. keine Region und kein Staat für Lichtenstein.
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Fragestellungen - Datenräume - Methoden
Fragestellung Raum Mathematische Disziplin
Welchen Preis hat Produkt 3497?
Datenraum Mengenlehre,Mengenalgebra
Welcher Umsatz wurde mit Produkt 3497 in Berlin im Monat Februar 2001 erzielt?
Multidimensionaler Raum Online Analytical Processing (OLAP):
Pivot Tabellen
Wie haben sich die Umsätze in den letzten drei Jahren verändert?
Varianzraum Data Mining:RegressionKorrelation
Welche Faktoren beeinflussen den Umsatz unserer Produkte in den Mittelmeerländern?
Raum der Einflussgrößen Data Mining:Entscheidungsbäume,
Cluster Analyse, Neuronale Netze
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Typisierung von OLAP-Abfragen
rotate ("Drehen" des OLAP-Würfels) Es interessiert der Zusammenhang einiger ausgewählter Dimensionen .
slice ("Ausschneiden" von Ebenen aus dem OLAP-Würfel) Eine Dimension wird auf einen interessierenden Wert eingeschränkt.
dice ("Abteilen" von Teilwürfeln aus dem OLAP-Würfel)Einschränkung der Dimensionen auf einen ausgewählten Wertebereich.
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Zur Methodik der Pivot-Tabelle(am Beispiel MS-Excel)
FaktenDimension 1 (vertikal)
Dimension 3 (Blatt) Dimension 2 (horizontal) Quelldaten
Fakten (Measures) Dimension Roll-up Drill-Down
1000 € Produkt A 1000 € 1000 €
960 € Produkt B 960 € 960 €
…
5345 € Produkt gruppe 1 5345 € 5345 €
2020 € Produkt E
450 € Produkt F
…
4600 € Produkt gruppe 2 4600 € 4600 €
…
123560 € Produkt-kategorie X
123560 € 123560 €
…
876500 € Gesamt 876500 € 876500
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Navigieren in multidimensionalen Speichern
Roll-up vom Detail zur AggregationDrill-down vom Aggregat zum Detail
OLAP-Datenbank Relationale Datenbank
Art der Abfrage analytisch transaktionsorientiert
Abfragesprache Herstellerspezifisch, zukünftig standar-disiert durch das OLAP-Council und Microsofts OLE DB for OLAP
Structured Query Language (SQL)
Abfragegeschwin-digkeit
vorhersagbar schnell nicht vorhersagbar
Berechnungsmög-lichkeiten
umfangreich und über mehrere Dimensionen (Cross Dimensional)
begrenzt
Update-Mechanismus
zyklisch Echtzeit
Speicherform mehrdimensional zweidimensional
Wachstum der Daten
Abhängig von der Dichte der Daten, daher schwierig vorhersagbar
einfach vorhersagbar
Technisches Symbol
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Gegenüberstellung OLAP/RDBMS
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Datentransformation mit ETL-Tools
Data WarehouseData Mart
OLTP-Datenbank
ETLExtract
TransformLoad
Datenquellen Ziel-Datenbank
ETL-Tools dienen zur Migration von Quelldaten in eine andere Datenressource in der Regel innerhalb einer analytischen Umgebung.
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Merkmale des ETL-Prozesses
Merkmal Ausprägung Beschreibung
Art der Extraktion
volle ExtraktionExtraktion aller in einem Quellsystem vorhandenen Datensätze
Delta-ExtraktionEinlesen eingefügter oder aktualisierter Datensätze
Extraktionsszenario
Push-SzenarioInitiator des ETL-Prozesses ist das Quellsystem
Pull-SzenarioInitiator des ETL-Prozesses ist das Data Warehouse
Warte-/Ladezeit
synchrone Extraktion Extraktion der Datensätze in Real-time
asynchrone ExtraktionDatensätze werden gespeichert und später weitergeleitet
asynchrones Batchingerfolgt auf Abruf, ereignisgesteuert oder per zeitlicher Einplanung (Scheduling)
Gültigkeitsbereich der Daten
MappingProjektion aller Datensätze der Quellsysteme
Selektion Auswahl analyserelevanter Daten
Aggregation festgelegte Granularitätsstufe
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Ausgewählte Analysewerkzeuge für BI
Anbieter Produkt WWW
Arcplan inSight/dynaSight www.arcplan.de
Business Objects
BusinessObjects/ OLAP@Work
www.businessobjects.com
Cognos NowaView/PowerPlay www.cognos.de
Comshare DecisionWeb www.codec.de
Hyperion Wired for OLAP www.hyperion.de
Information Builders
WebFOCUS www.informationbuilders.com
Intellicube Software AG
OnVision www.intellicube.de
Knosys ProClarity www.dcsoft.de
Microsoft MS-Excel 2000 www.microsoft.de
MIS AG Decisionware www.mis.de
Seagate Software
Info www.seagatesoftware.com
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Business Objekts Enterprise Beispiel eines BI-Tools
Quelle: IT-FOKUS 6/2003
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Portale als Data Warehouse Client
Beispiel BA: http://www.hyperwave.com/d/references/ba.html
Ziel: Kombination von Data Warehouse-, Analyse- und Reporting-Lösungen auf Basis einer integrierten Portalstruktur.
• Technologische Integration von OLTP- und Data Warehouse-Systemen.
• Online-Verfügbarkeit des Data Warehouse.• Abrufbarkeit von unterschiedlichen Endgeräten;
Wiedererkennungseffekte.• Angemessene Sicherheit bei parallelen Zugriffsmöglichkeiten.
Anforderungen
Portal-Framework (z. B. zur Personalisierung ). Einbindung heterogener Datenquellen durch Portlets. Endnutzergerechte BI-Tools. Data-Warehouse-Basisstruktur.
IT-Infrastruktur
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Beispiel InSight Marktführer der BI-Tools
Aus der MS-OLAP-Server-DEMO footmart werden ausgewählte Sichten (rechte Seite) als Grafik angezeigt. Quelle: http://www.dynasight.com/ von Arcplan.
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Übersicht über relevante Data Warehouse Anbieter
Anbieter Produkt WWW
Cognos BI Platform www.cognos.de *.com
Hyperion Hyberion Essbase www.hyberion.de *.com
IBM Visual Warehouse www.ibm.de
Information Builders SmartMart www.informationbuilders.com
Informix Informix MetaCube ROLAP www.informix.com
Microsoft OLAP- / Analysis Services www.microsoft.de *.com
MicroStrategy MicroStrategy www.microstrategy.com
NCR TeraData www.ncr.com
Oracle Express www.oracle.de
Pilot DSS Suite www.pilotsw.com
SAP Business Warehouse www.sap.de
SAS SAS System www.sas.com
Seagate Software Holos www.seagatesoftware.com
Sybase Sybase Warehouse Studio www.sybase.com
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Marktübersicht Data Warehouses (Computer Zeitung Ausgabe 09/2004)
Anbieter Hersteller Produktname Web-Adresse Installationszahl (D/USA)
Aruba Informatik Aruba Informatik EIS / EIP www.aruba-informatik.de ca. 350 Installationen gesamt
Bytesteps Bytesteps Olymp www.bytesteps.net auf Anfrage
Group 1 Software Group 1 Software Sagent Solution www.group1.de 100 (Deutschland), 2.000 (weltweit)
Informatica Informatica Powercenter www.informatica.com/de 500 (Deutschland), 5.000 (weltweit)
MicroStrategy Deutschland MicroStrategy MicroStrategy 7i www.microstrategy.de keine Angabe
MID MID Innovator www.mid.de auf Anfrage
m:pro IT Consult m:pro IT Consult m:odm/m:pro object Data Model www.mpro.de 30
Oracle Oracle Oracle Data Warehouse www.oracle.com/de keine Angabe
Orenburg Orenburg Board M.I.T. www.board.de > 1.000
PeopleSoft PeopleSoft Enterprise Warehouse www.peoplesoft.de keine Angabe
Retek Deutschland Retek Deutschland Retek Data Warehouse www.retek.com ca. 50
Samac Software Samac Software Dyna Server/400 www.samac.de keine Angabe
Samac Software Samac Software Dyna Server/Windows www.samac.de keine Angabe
Samac Software Samac Software Mining Server/400 www.samac.de keine Angabe
Samac Software Samac Software MIT/400 www.samac.de keine Angabe
Scopeland Technology Scopeland Technology Scopeland 2000 (DW) www.scopeland.de ca. 100
Teradata, a division of NCR Teradata Teradate Warehouse Miner www.teradata.com 100 Kunden weltweit
Transaction Software Transaction Software Transbase Hypercube www.transaction.de keine Angabe
Alle Daten beruhen auf Angaben der Hersteller oder Distributoren.Für die Richtigkeit der Daten wird keine Haftung übernommen. (c) AWi Verlag 1999-2004.
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Typische betriebliche Data-Warehouse-Umgebung
Data Marts für Abteilungen
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Anwendungsszenarien für Data Mining
Data Mining bietet eine Reihe von Methoden, die je nach Aufgabe und Fragestellung zum Einsatz kommen, um bisher verborgene Zusammenhänge in der Datenbasis aufzudecken.
Aufgaben desData Mining
Methoden desData Mining
BeispielhafteFragestellungenPrognosemodell Response-Wahr-
scheinlichkeit
Identifikationertragreicher
Segmente
Analyse von Kaufmustern
CustomerProfiling
Prognose
Segmentierung und
Kategorisierung
Assoziations-analyse
Klassifikation
NeuronaleNetze
Entscheidungs-bäume
Cluster-verfahren
Assoziations-verfahren
in MS-SQL-Server 2000 Analysis Services implementiert.
Beispielhafte Fragestellungen
Aufgaben des Data Mining
Methoden des Data Mining
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Prinzip des Training und der Vorhersage
"Training des Modells"
Einflussdaten Vorhersagedaten
Falldaten
Häufigkeiten
Vorhersage (apply)
Klassenbildung (build)
Ein Modell wird trainiert, auf Basis der ermittelten Wahrscheinlichkeiten werden Vorhersagedaten berechnet.
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
MS-Analysis-Services Begriffswelt
• Ziel eines Dataminingmodells ist das Erkennen von Mustern in einer datenbank-gespeicherten Datenmenge (= trainieren); zum Beispiel das Erkennen des Musters, nach dem Kunden ihre Kundenkarten auswählen.
• Um die für die Mustererkennung erforderlichen Daten auswerten zu können, muss eine Tabelle (Dimension) ausgewählt werden, welche die zu untersuchenden Fälle enthält (Fallschlüsseltabelle). Nach der Data Warehouse Begriffswelt sind die zu untersuchen-den Fälle immer Bestandteil einer Dimension (nicht der Fakten).
• Ein Fall bezeichnet die Datensammlung, aus der eine zu analysierende Einheit besteht (z. B. die Daten eines Kunden).Er wird durch die Fallschlüsselspalte (z. B. Kunden-ID) identifiziert.
• Eine Eigenschaft des Falls (Vorhersagbare Spalte(n)) ist auszuwählen. Für diese sollen verursachende Eingabewerte ermittelt werden.
• Dafür stehen unterschiedliche Methoden zur Verfügung: "Microsoft Decision Trees" für die Berechnung von Entscheidungsbäumen. "Microsoft Clustering" ("Nearest Neighbor-Verfahren") für die Clusteranalyse (hierbei entfallen vorhersagbare Spalten).
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
MS-Analysis-Service Plus und Minus
• Erweiterung der DB-Funktionalität
• Transfermöglichkeit des Mo-dells auf andere Datenquellen
• Gemeinsame Bedienoberfläche mit OLAP-Tools
• Enge Integration mit OLAP-Speicher und RDBMS MS-SQL-Server 2000
• Gute Dokumentation, inklusiveAnwendungsbeispiel
• Geringer Methodenvorrat
• Schlichte Ergebnisprä-sentation
• MS OLE DB Provider for Data Mining Services un-ausgereift.
+ -
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Bewertung von Data Mining Plattformen durch Gartner Group
Abilityto
Execute
Oracle
SAP SAS Information Builders
Microsoft
Hyperion
Seagate Comshare
Pilot Software
CA/Platinum Gentia
Sagent
AlphaBlox
Panorama Arcplan
Niche Player Visionaries
Completeness of Vision
Challengers Leaders
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Spezialisten machen Data Mining wahrnehmbar
Beispiel SPSS( http://www.spss.de )
Das Konzept des Predictive Analytics
soll aus der Analyse des Vergangenen Modelle für die Zukunft generieren.
"Predictive analytics connects data to effective action by drawing reliable conclusions about current conditions and future events. "
FHTW Berlin Datenbanken Prof. Dr. Zschockelt
Produktübersicht SPSS
Statistik
SPSS Produktlinie
SPSS WebApp
Data Mining
AnswerTree
Clementine
LexiQuest
Business Intelligence
OLAP Hub
Showcase® Solutions
Predictive Analytic Applications
DataDistilleries
Market Research
SPSS MR Dimensions
NetGenesis
Predictive Web Analytics
SPSS Predictive Marketing
Components
Analytical components