Kompleksowe rozwiązanie CRM Comarch aCRM – CRM ......systemy Comarch Campaign Management, Comarch Sa-les Management oraz Comarch Contact Center pozwa-lając zbudować kompletną

banking, insurance & capital marketsKompleksowe rozwiązanie CRM

Comarch aCRM – CRM analityczny

Banking, Insurance and Capital Markets

Wprowadzenie

Wiele lat doświadczeń w budowie i wdrażaniu aplikacji

służących zarządzaniu relacjami z klientami, szczególnie

na łamach sektora finansowego i telekomunikacyjnego,

zaowocowało stworzeniem przez Comarch zaawansowa-

nych systemów wspierających realizację strategii CRM.

Najnowszy system opracowywany przez Comarch – Co-

march ACRM, to doskonale narzędzie dedykowane wy-

dobywaniu złożonych związków i informacji ukrytych

w dużych zbiorach danych, celem wsparcia procesu po-

dejmowania decyzji zawiązanych z zarządzaniem rela-

cjami z klientami, zarówno na poziomie strategicznym

jak i operacyjnym.


2


Comarch Analytical CRM (Comarch ACRM) to platfor-

ma analityczno – decyzyjna nowej generacji, zapewnia-

jąca dostęp do szerokiej gamy rozwiązań gwarantują-

cych sprawne i efektywne prowadzenie analiz mających

na celu pozyskanie i strategiczne wykorzystanie wie-

dzy ukrytej w gromadzonych systematycznie danych

operacyjnych i transakcyjnych. Wykryte na bazie da-

nych zależności oraz trendy udostępniane są w posta-

ci modeli analitycznych, które dzięki łatwej integracji

platformy analitycznej z innymi systemami wspierają

funkcjonalnie pozostałe rozwiązania dostępne w pa-

kiecie Comarch CRM.

Możliwości platformy analityczno - decyzyjnej dosko-

nale uzupełniają funkcjonalności realizowanych przez

systemy Comarch Campaign Management, Comarch Sa-

les Management oraz Comarch Contact Center pozwa-

lając zbudować kompletną platformę do zarządzania

relacjami z klientami. Umożliwia to osiągnięcie opty-

malnej użyteczności oraz maksymalnej kapitalizacji i zy-

skowności na strategii CRM.

Unikalnymi cechami systemu Comarch ACRM są:

• Wykorzystanie zawansowanych metod i algorytmów

data mining.

• Interaktywna wizualizacja danych.

• Intuicyjny ergonomiczny interfejs oraz łatwość

obsługi.

• Rozbudowany moduł pomocy kontekstowej.

• Łatwość integracji platformy z innymi systemami

(skutkująca możliwością integracji, a tym samym

wzbogaceniem funkcjonalnym pozostałych modułów

rozwiązania Comarch CRM, takich jak Comarch Campa-

ign Managemen oraz Comarch Sales Management).

Korzyści

Działanie systemu ACRM jest ukierunkowane na sper-

sonalizowanie kontaktu z klientem, które prowadzi do

zwiększenia lojalności klienta wobec usługodawcy oraz

poczucia satysfakcji z korzystania z jego usług. Wdroże-

nie rozwiązania Comarch ACRM przynosi liczne wymier-

ne korzyści, do których należy przede wszystkim zaliczyć

wzrost jakości, trwałości i wartości relacji z klientem.

Inne korzystne aspekty stosowania systemu, to:

• Dostęp do aktualnej i kompleksowej informacji

o klientach.

• Analiza zachowań pojedynczych klientów oraz two-

rzenie personalizowanej relacji.

• Poprawa jakości i efektywności realizowanych działań

marketingowych (wzrost rentowności, obniżenie

kosztów).

• Pomiar efektywności kampanii marketingowych.

• Identyfikacja i obniżenie ryzyka utraty klientów,

poprawa lojalności klientów.

• Wyróżnienie grup jednorodnych klientów.

• Dopasowanie oferty produktowej do oczekiwań

klientów.

Spośród unikalnych cech platformy wyróżnić można:

• Zastosowanie mechanizmów umożliwiających prowa-

dzenie zaawansowanych analiz wielowymiarowych

zbiorów danych w czasie rzeczywistym.

• Zintegrowanie w jednym systemie funkcjonalności

systemów służących do identyfikacji anomalii,

budowania lojalności i tworzenia trwałych relacji

z klientami (CRM).

• Wyposażenie systemu w wiedzę ekspercką o modelach

zachowań klientów z funkcjonalnością optymalizacji

tych modeli i kształtowania nowych modeli w trakcie

działania systemu.

3


Optymalizacja kampanii marketingowychPojęcie to obejmuje szeroki zakres analiz ukierunkowa-

nych na zwiększenie skuteczności działań marketingo-

wych. Proces tworzenia kampanii marketingowych to

pewna powtarzalna sekwencja działań. Na etapie każde-

go z nich należy podjąć decyzje, które wywierają istotny

wpływ na rezultaty realizowanych kampanii. Comarch

ACRM wspomaga użytkownika w doborze optymalnych

działań w poszczególnych etapach kampanii.

Dobór grupy docelowej klientówPrecyzyjny dobór grupy docelowej niejednokrotnie ma

fundamentalny wpływ na efekty kampanii marketingo-

wych. System ACRM bazując na danych opisujących re-

akcje oraz działanie klientów w przeszłości za pomocą

analizy regresji, reguł asocjacji oraz metod klasyfikacji

oraz grupowania pozwala w całej zbiorowości wyróż-

nić klientów, którzy z największym prawdopodobień-

stwem zareagują na formułowaną ofertę.

Dobór grupy testowej klientówSystem pozwala na wygenerowanie grupy testowej,

która zostanie wykorzystana jako benchmark dla opra-

cowanej kampanii marketingowej. W systemie będzie

można definiować ograniczenia pozwalające zawęzić

populację, z której będzie losowana próba zgodnie z na-

rzuconymi kryteriami.

Dobór najlepszego kanału komunikacyjnego

z perspektywy: klienta, produktu, kampaniiPodobnie jak w przypadku doboru grupy docelowej,

także i ten element ma bardzo istotny wpływ na rezul-

taty realizowanych kampanii. System ACRM pomaga

użytkownikowi wybrać optymalną formę komunikacji

z klientem na podstawie rezultatów analizy grupowa-

nia i klasyfikacji wskazujących grupy klientów podob-

nie reagujących na dane medium.

Modelowanie wyników kampanii i identyfikacja

czynników o znaczącym wpływie na wynikNa podstawie wyników kampanii zarówno standardo-

wych jak i testowych można z wykorzystaniem metod

dostępnych w systemie ACRM zidentyfikować główne

cechy klientów, które miały istotny wpływ na ich reak-

cję. Szczególnie są tu metody klasyfikacyjne jak również

informację prezentowane przez statystyki opisowe.

Analizy Cross - Sell / Up – SellCross - sell (sprzedaż krzyżowa) jest procesem, w któ-

rym obecnym klientom organizacji oferuje się produkty

i usługi, którymi mogą oni być potencjalnie zaintereso-

wani. Szczególnym przypadkiem cross-sellingu jest tzw.

up-selling, w przypadku którego dla obecnych klientów

organizacji przygotowywana jest nowa oferta związa-

na z dotychczas preferowanymi przez nich produktami

i usługami. Ideą przyświecającą cross-sellingowi i up-

sellingowi jest optymalizacja oferty produktowej tak,

by maksymalizować jej użyteczność zarówno dla klien-

ta jak i usługodawcy w celu maksymalizacji zysków i za-

dowolenia klienta.

Celem systemu ACRM jest wparcie działań Cross i Up-Sell

poprzez zastosowanie metod klasyfikacji, segmentacji

oraz reguł asocjacji (analizy koszykowej) realizowanych

na bazie zaawansowanych algorytmów dostępnych

w systemie w celu wydobycia nietrywialnych zależno-

ści pomiędzy produktami i usługami nabywanych łącz-

nie przez klientów.

Wynikiem analiz Cross-sell i Up-sell może być zarów-

no lista klientów, którzy z określonym prawdopodo-

bieństwem zdecydują się na zakup danego produktu,

lub lista produktów i usług często nabywanych razem

przez klientów.

Analizy Cross Sell i Up Sell realizowane są w systemie

ACRM z wykorzystaniem udostępnionych w nim me-

tod klasyfikacji, segmentacji oraz reguł asocjacji (ana-

lizy koszykowej).

Wspierane cele biznesowe4


Analiza dla lojalności, utrzymania i ochrony przed utratą klientówCelem powyższych analiz jest ochrona obecnej bazy

klientów poprzez wytypowanie jednostek najbardziej

zagrożonych rezygnacją z produktów i usług oferowa-

nych przez usługodawcę, oraz wsparcie doboru najlep-

szych działań zapobiegawczych. System wspiera nie

tylko identyfikację klientów najbardziej zagrożonych

odejściem, oferuje także możliwość identyfikacji najbar-

dziej istotnych przyczyn oraz charakterystyki klientów

którzy najczęściej decydują się na migrację.

Segmentacja i profilowanie klientówSegmentacja jest procesem podziału bazy klientów na

względnie jednorodne, podobne grupy. Klienci zakwali-

fikowani do określonego segmentu mogą być podobni

do siebie pod wieloma różnymi względami np.: docho-

dów, preferencji, zachowania itp.. Jednym z podstawo-

wych celów segmentacji jest uwypuklenie różnic pomię-

dzy profilami poszczególnych grup klientów, co pozwala

na dopasowanie odpowiedniego zestawu działań mar-

ketingowych do każdej z grup. Segmentacja pozwala na

uzyskanie znaczących korzyści poprzez wspomaganie

następujących działań:

• Określenie profilu danego segmentu.

• Określenie profilu usług/produktów dla poszczegól-

nych segmentów.

• Wyróżnienie charakterystycznych grup klientów.

• Identyfikacja najbardziej oraz najmniej dochodowych

segmentów klientów.

• Ujawnienie "niszowych" grup klientów.

• Analiza migracji klientów pomiędzy segmentami.

• Zwiększenie dokładności analiz przez ich dywersyfi-

kację w poszczególnych segmentach.

Segmentacja w systemie ACRM jest realizowana z wyko-

rzystaniem udostępnionych w systemie zaawansowa-

nych algorytmów klasyfikacji i grupowania. Algorytmy

te pozwalają na osiągnięcie wysokiej jakości wyników

analiz pozwalających podejmować trafne decyzje.

5


Praca z arkuszami danychPodstawową jednostką aplikacji jest arkusz zawierający

przygotowane pod kątem analiz dane źródłowe. Wgląd

do arkusza odbywa się za pomocą zakładek „Dane” oraz

„Metadane”. Zakładka „Dane” umożliwia podgląd danych

jednostkowych oraz wykonywanie podstawowych ope-

racji edycyjnych. Rolą zakładki „Metadane” jest prezenta-

cja struktury arkusza wraz z podstawowymi statystyka-

mi opisowymi stanowiącymi element wstępnej analizy

zawartych w arkuszu danych źródłowych.

Arkusz podzielony na kolumny i wiersze daje możli-

wość wykonywania podstawowych operacji na kolum-

nach, w tym:

• tworzenie, usuwanie i przestawianie kolumn,

• wypełnianie kolumn skopiowanymi z innych arkuszy

danymi,

• wykonywanie operacji matematycznych, logicznych,

statystycznych oraz tekstowych:

• matematyczne: podstawowe operacje matematycz-

ne, przekształcenia funkcyjne, w tym trygonometrycz-

ne, logarytmiczne, potęgowe, wykładnicze i inne,

• logiczne: reguły warunkowe, operatory logiczne,

• statystyczne: średnia, mediana, odchylenie

standardowe i inne,

• tekstowe: m.in. dzielenie, dodawanie, konkatena-

cja i wycinanie łańcuchów tekstowych

• przekształcania danych w kolumnach z automatycz-

nymi lub predefiniowanymi regułami grupowania

danych

• sortowanie danych – w tym sortowanie proste, tzn.

względem jednej wybranej kolumny, lub zaawanso-

wane, względem wybranej grupy kolumn,

• filtrowanie danych – zgodnie ze zdefiniowanymi

regułami logicznymi,

• wypełnianie liczbami losowymi o rozkładzie normal-

nym lub prostokątnym,

• typowe operacje edytorskie (kolor, czcionka, pogru-

bienie), funkcja „znajdź” oraz „idź do”.

Operacje na kolumnach wykonuje się w intuicyj-

ny sposób. Ciągle obecny system pomocy konteksto-

wej daje szansę szybkiego rozwiązania ewentualnych

wątpliwości.

W złożonej analizie Data Mining, podczas pracy na ba-

zach danych o pokaźnych rozmiarach, podgląd warto-

ści liczbowych często nie tylko nie jest konieczny ale

wręcz nieprzydatny. W takich sytuacjach wystarczają-

ca jest znajomość typu danych, histogramu, podstawo-

wych charakterystyk statystycznych, ew. opisu słow-

nego kolumny. Wszystkie te funkcje spełnia zakładka

„Metadane” prezentująca informacje dotyczące kolumn

arkusza, a całość podsumowana jest statystykami opi-

Oferowana funkcjonalność

Edytor równańArkusz kalkulacyjny

6


sowymi oraz wykresem histogramu dla aktualnie pod-

świetlonej na liście zmiennej.

Na podstawie informacji zawartych w metadanych,

użytkownik dokonuje wstępnej selekcji wielkości, któ-

re chce poddać analizie. Może także tworzyć nowe ko-

lumny oraz wykonywać na nich operacje analogiczne

jak w przypadku widoku danych.

Budowa modeli opartych o Data MiningAplikacja wyposażona jest w szereg sprawdzonych na-

rzędzi analitycznych oraz nowoczesnych technik Data

Mining. Narzędzia te wspierają następujące obszary

analityczne:

• deduplikacja danych,

• analiza brakujących wartości,

• wykrywanie nietypowych wartości,

• redukcja wymiaru analizy,

• analiza korelacji dwóch i wielu zmiennych,

• regresja liniowa, multiplikatywna, eksponencjalna

i logistyczna,

• tworzenie grup kategorycznych w oparciu o reguły

narzucone przez użytkownika,

• testowanie statystyczne,

• grupowanie w oparciu o samouczące się algorytmy

bez nauczyciela,

• klasyfikacja przy pomocy samouczących się algoryt-

mów drzew decyzyjnych,

• analiza koszykowa.

Każde z tych narzędzi może być stosowane samodziel-

nie na zbiorze danych zawartych w arkuszu kalkulacyj-

nym aplikacji. Wstępna, optymalna dla większości za-

stosowań, parametryzacja udostępnionych narzędzi

gwarantuje uzyskanie poprawnych i gotowych do wyko-

rzystania w dalszych obliczeniach wyników, nawet w sy-

tuacji, gdy aplikacją posługuje się osoba nie posiadają-

ca wykształcenia statystycznego. Wszystkie kluczowe

dla danej analizy parametry oraz zakres otrzymanych

w ramach analizy wyników mogą być konfigurowane

według preferencji użytkownika w celu dostosowania

się do specyficznych potrzeb analizy oraz specyfiki da-

nych, na których analiza ta jest przeprowadzana.

Budowanie efektywnych modeli Data Mining oznacza

połączenie wszystkich tych narzędzi w jeden cykl roz-

poczynający się wyborem cech, które mogą mieć wpływ

na wielkość wynikową, następnie przechodzący poprzez

detekcję i eliminację duplikatów, analizę brakujących

wartości itd., a kończący się budową modelu klasyfika-

cyjnego, który można zapisać i wykorzystać do klasy-

fikowania nowych obiektów (klientów) zapisywanych

w bazie danych.

Pulpit systemu aCRMZakładka Metadane

7


Możliwości analityczne rozwiązania ACRMDeduplikacja danychOdczytana z bazy danych tablica może zawierać rekor-

dy reprezentujące ten sam obiekt rzeczywisty. W nie-

których sytuacjach, gdy wpisy te nieznacznie się różnią

– tak może być na przykład w wyniku błędnego wypeł-

nienie formularza, proste filtrowanie mające na celu

usunięcie powtarzających się wpisów zawodzi. Także

specyficzne zapytania do bazy mogą zwracać rekordy

o powtarzającej się treści.

Deduplikacja danych daje możliwość wykrycia powtarza-

jących się rekordów niezależnie od tego, czy zapis w nich

jest identyczny, czy też na skutek pomyłki lub niewypeł-

nionych pól, tylko częściowo się pokrywa. Użytkownik do-

staje możliwość automatycznego usunięcia podobnych

wierszy, ew. przejrzenia ich i samodzielnego usunięcia.

W ramach aplikacji, w celu detekcji powtarzających się

rekordów udostępnione są następujące algorytmy:

• funkcje odległościowe: Levenshtein distance, Jaro-

Winkler distance, Jaccard Coefficient, Sokal – Michener

distance, miernik syntetyczny,

• podobieństwo fonetyczne: Soundex, Daitch-Mokotoff (do-

stosowany do języków Europy środkowo-wschodniej),

• zaawansowany, stosowany dla struktur hierarchicz-

nych, algorytm DELPFII.

Analiza brakujących wartościInformacja zapisana w bazie danych najczęściej jest

niekompletna. Większość klientów nie posiada wpi-

sów we wszystkich możliwych kolumnach znajdują-

cych się w bazie danych. Znaczna część algorytmów,

do poprawnego działania, wymaga jednak, by informa-

cja wejściowa była pełna. W takiej sytuacji, należy uzu-

pełnić brakujące wartości. Aplikacja wyposażona jest

w szereg algorytmów uzupełniających brakujące war-

tości, które bazują na:

• rozkładzie wartości w próbce: losowanie wartości

zgodne z rozkładem próbki, metoda k najbliższych

sąsiadów,

• zależnościach zachodzących pomiędzy kolumnami:

regresja liniowa,

• statystyce opisowej kolumny: średnia, mediana.

Zastosowanie tych algorytmów jest gwarancją popraw-

nego i nie zniekształconego działania narzędzi wyma-

gających pełnej informacji w kolumnie.

Wykrywanie wartości nietypowychInnym problemem często spotykanym w bazach da-

nych jest istnienie tzw. wartości nietypowych, tzn. ta-

kich, które w znaczny sposób różnią się od wszystkich

pozostałych. Zazwyczaj stanowią one niewielki procent

wszystkich wpisów. Z ich obecnością wiążą się jednak

dwa problemy:

Deduplikacja danych

8


• ze względu na niskie występowanie i wielowymia-

rowość bazy, nie są łatwe do wykrycia tradycyjnymi

metodami (tj. poprzez filtrowanie),

• znaczne różnice w stosunku do pozostałych elementów

bazy są przyczyną zniekształceń wyników działania

algorytmów wrażliwych na rozkład wartości analizo-

wanych wielkości.

Zaimplementowany w aplikacji szereg algorytmów ba-

dających rozkład próbki gwarantuje wykrycie oraz mo-

dyfikację wartości uznanej za nietypową. W zależności

od złożoności problemu, aplikacja oferuje użytkowni-

kowi poszukiwanie wartości nietypowych za pomo-

cą metod:

• bazujących na statystycznym rozkładzie analizowanej

próbki: metoda standaryzacji,

• graficznych,

• regresyjnych,

• opartych o miary odległości,

• grupujących: dbScan (ang. Density – Based Spatial

Clustering of Applications with Noise), BIRCH (ang.

Balanced Iterative Reducing and Clustering using

Hierarchies),

• klasyfikujących

Metody te różnią się złożonością obliczeniową i precy-

zją. Dla niewielkich baz danych skutecznymi będą szyb-

kie metody statystyczne. Dla ogromnych, wielowymia-

rowych baz dopiero metody klasyfikujące i grupujące

okażą się efektywne.

Redukcja wymiaru analizyCzas obliczeń rośnie proporcjonalnie do ilości danych

poddanych analizie. Precyzja wyników natomiast, wy-

kazuje odwrotną tendencję: im wymiar przestrzeni pa-

rametrycznej jest wyższy, tym dokładność wyników jest

niższa. Ważnym jest więc, by ze wszystkich dostępnych

kolumn analizowanej tablicy bazy danych, wybrać je-

dynie te, które mają najsilniejszy, decydujący związek

z wynikiem analizy.

Aplikacja oferuje szereg półautomatycznych i w pełni

automatycznych rozwiązań wspierających analityka

przy wyborze kolumn do analizy:

• Macierze zmienności, korelacji oraz odwrócona ma-

cierz współczynników korelacji pomiędzy zmiennymi

uzupełnione czytelnymi histogramami i wykresami

rozrzutu dają analitykowi możliwość samodzielnego

lub półautomatycznego wyboru tych zmiennych, które

z jednej strony wykazują zależność ze zmiennymi

zależnymi, a z drugiej strony według jego wiedzy

powinny być zawarte w analizie.

• Redukcja liczby kolumn oparta o testy statystyczne –

metoda wykorzystywana przy badaniach regresyjnych

– gwarantuje model o wysokiej precyzji prognozowania

Redukcja wymiaru analizy

9


przy minimalnej liczbie zmiennych wymaganych do

uzyskania.

• Metoda głównych składowych (ang. Principal Component

Analysis) w pełni automatyczna metoda, poszukująca

takiego obrotu przestrzeni parametrycznej, w którym nowe

zmienne będą maksymalizować zależność ze zmienną

zależną i minimalizować zależności pomiędzy sobą.

Analiza zmienności oraz korelacji dwóch i wielu

zmiennychAnaliza zmienności i korelacji zmiennych to narzędzie

wspierające analityka na dwóch płaszczyznach:

• daje możliwość oceny istotności zmiennych dla dalszej

analizy,

• pozwala przygotować czytelną, uzupełnioną o wy-

kresy rozrzutu i histogramy, prezentację zależności

zachodzącymi pomiędzy zmiennymi.

Narzędzie jest konfigurowalne. Daje możliwość tworze-

nia tabel krzyżowych, testowania statystycznego nieza-

leżności zmiennych w oparciu o test chi-kwadrat, wy-

boru różnych współczynników korelacji – Czuprowa, V

Cramera, Yule’a, Spearsmana, Pearsona oraz różnych ty-

pów graficznej prezentacji wyniku (histogramów dwu

i trzech zmiennych, o wartościach względnych i bez-

względnych, macierzowy wykres rozrzutu w przypad-

ku badania korelacji wielu zmiennych).

Analiza regresji liniowej, multiplikatywnej,

eksponencjalnej i logistycznejAnaliza regresji jest metodą poszukującą zależności okre-

ślonego typu pomiędzy włączonymi do badania zmien-

nymi. Jest podstawowym narzędziem każdego anality-

ka. Przy jego pomocy tworzy się modele matematyczne,

które zastosowane dla nowych obiektów prognozują ich

zachowanie opisane wybraną zmienną zależną.

Aplikacja oferuje analizę regresji następujących zależ-

ności funkcyjnych:

• liniowej – uniwersalna, najczęściej zachodząca po-

między zmiennymi zależność,

• multiplikatywna – mająca zastosowanie szczególnie

w ekonomii,

• eksponencjalna – wykorzystywana w zagadnieniach

technicznych i finansowych

• logistyczna – prognozująca zajście lub brak zajścia

określonego zdarzenia.

Niezależnie od wyboru typu regresji, każdą zmienną nie-

zależną można dodatkowo przekształcić przy pomocy

jednej z wielu zależności funkcyjnych, typu: logarytm,

potęga, odwrotność i inne. Daje to możliwość tworze-

nia praktycznie dowolnie złożonego modelu matema-

tycznego, najlepiej opisującego badane zjawisko. W przy-

padku niejasnej zależności, aplikacja oferuje możliwość

automatycznego dopasowania takiej krzywej do zbioru

punktów, która najlepiej oddaje związek pomiędzy wska-

zanymi zmiennymi.

Poza podstawowymi, domyślnymi ustawieniami, użyt-

kownik może dokonać zmiany wartości parametrów

wpływających na wynik modelu końcowego regresji

lub na sposób graficznej prezentacji modelu. Do dys-

pozycji ma możliwość:

• wyłączenia wyrazu wolnego,

• eliminacji zmiennych słabo wpływających na zmienną

zależną, przy czym próg eliminacji może być dowolnie

zmieniany przez użytkownika,

• dodania przedziałów ufności dla regresji,

• dodania przedziałów ufności dla wartości

prognozowanej,

• obliczenia szeregu statystyk opisujących uzyskany

model, w tym analizy wariancji ANOVA (ang. ANalysis

Of VAriance), tablicy korelacji, analizy reszt (badająca

spełnienie założeń dotyczących regresji), granic ufności

dla dopasowanych parametrów.

Wyniki analizy prezentowane są w postaci:

• wykresów rozrzutu z naniesioną dopasowaną krzywą,

przedziałami ufności dla regresji i prognozowanych

wartości,

• czytelnych, bogatych w informacje liczbowe raportów

podsumowujących analizę lub opisujących zależności

statystyczne dla uzyskanego modelu,

• modułu obliczającego prognozowaną wartość na

podstawie uzyskanego modelu, w którym użytkownik

po wyborze dowolnego zestawu wartości zmiennych

uwzględnionych w modelu, uzyskuje wynik w postaci

10


przedziału wartości, które zmienna, w ramach okre-

ślonego poziomu ufności, może realizować.

Modele regresji pracują poprawnie nie tylko dla zmien-

nych ciągłych, ale także dla dychotomicznych (przyjmu-

jących dwie wartości) oraz kategorycznych.

Modele regresji logistycznej wykorzystywane są w anali-

zie Data Mining. Ich siłą jest wysoka skuteczność w przewi-

dywaniu zajścia określonego zjawiska. Są stosowane przy

analizie wpływu różnego typu czynników (np. wiek, wyso-

kość zarobków, terminowość spłat kredytu itd.) na bieżą-

ce lub przyszłe zachowanie i preferencje klienta (np. praw-

dopodobne odejście, prawdopodobne spłacenie kredytu,

prawdopodobna pozytywna reakcja na promocję itd.)

Tworzenie grup kategorycznych w oparciu o reguły

narzucone przez użytkownikaW wielu analizach przydatną jest możliwość podzielenia

zmiennej ciągłej na intuicyjne, ułatwiające interpreta-

cję wyników, kategorie. Kategoryzowanie zmiennej po-

maga także w przygotowaniu czytelniejszych wykresów.

O wiele łatwiej jest bowiem zaprezentować, przykłado-

wo, charakterystykę wiekową grupy klientów, gdy jest

ona podzielona na kilka kategorii - na przykład {„nasto-

latki”, „młodzież”, „osoby dojrzałe”, „seniorzy”}, niż w sy-

tuacji, w której na osi wiek należałoby odłożyć wszyst-

kie możliwe wartości wieku klientów.

Narzędzie oferowane w aplikacji umożliwia w intuicyj-

ny sposób zgrupowanie dowolnych zmiennych zapi-

sanych w tabeli bazy danych – mogą to być zarówno

wartości liczbowe, jak i kategoryczne. Możliwym jest

utworzenie także grup dla wartości, które w tabeli nie

występują, ale wystąpić mogą w przyszłości. Aplikacja

automatycznie doda do grup nowe elementy, gdy tylko

pojawią się one w bazie. Nazwy kategorii można utwo-

rzyć samodzielnie lub pobrać je z tabeli.

Testowanie statystyczneTestowanie statystyczne wykorzystywane jest w wielu

sytuacjach, zarówno przed rozpoczęciem szczegółowe-

go modelowania, jak i po jego zakończeniu, by zweryfi-

kować statystyczną istotność uzyskanych wyników.

Przykładowe obszary zastosowań testów statystycznych:

• Ocena próbki danych pod względem reprezentatyw-

ności całej populacji bazy danych.

• Porównanie próbek pomiędzy sobą pod względem

wartości średnich i wariancji.

• Sprawdzenie braku statystycznej istotności w różnicy

pomiędzy średnią lub wariancją próbki, a średnią lub

wariancją całej populacji.

• Weryfikacja istotności w różnicy wartości obliczonych

na podstawie różnych modeli.

• Sprawdzenie spełnienia założeń regresji liniowej.

• Sprawdzenie normalności rozkładu wartości próbki.

W aplikacji udostępnione są następujące testy:

• istotności średniej,

• równości dwóch średnich,

• istotności wariancji,

• równości dwóch wariancji,

• niezależności chi-kwadrat,

• Smirnowa-Kołmogorowa o identyczności rozkładów

dwóch populacji,

• normalności χ2 Pearsona,

• normalności χ2 Jarque-Bera,

• normalności Shapiro-Wilka.

Grupowanie w oparciu o samouczące się algorytmy

(ang. unsupervised learning)W przypadku pojedynczej cechy, analityk jest w stanie

samodzielnie podzielić klientów na grupy najlepiej od-

zwierciedlające rozkład wartości badanej cechy. W sy-

tuacji, gdy segmentacji należy dokonać na podstawie

dziesiątków lub nawet setek cech, niezbędnym jest po-

służenie się narzędziem do automatycznego grupowa-

nia opartego o tzw. miary podobieństwa.

Grupowanie (ang. clustering) ma na celu wykrycie obiek-

tów (np. klientów), których cechy i (lub) zachowanie

są podobne. Przyporządkowanie nowych klientów do

utworzonych, na podstawie próby, klastrów pozwala

poznać ich prawdopodobne preferencje i oczekiwania

wobec usługodawcy.

Do dyspozycji analityka udostępnione zostaną nastę-

pujące metody grupowania:

11


12

• k-means, k-medoids, PAN (ang. Partition Around Me-

doids), CLARA (ang. Clustering LARge Applications),

CLARANS (ang. Clustering Large Applications based on

RANdomized Search) – szybkie i uniwersalne algorytmy

nadające się do grupowania prawie każdego typu

danych numerycznych,

• dbScan (ang. Density – Based Spatial Clustering of

Applications with Noise) – bardzo precyzyjny algorytm,

oparty o badanie funkcji rozkładu gęstości punktów

w przestrzeni parametrycznej.

• BIRCH (ang. Balanced Iterative Reducing and Clustering

using Hierarchies) – nowoczesny, złożony obliczeniowo

algorytm, przeznaczony do analiz ogromnych baz

danych; stosuje się go najczęściej do wstępnego

podziału bazy danych na mniejsze części, analizowane

dalej przez pozostałe, z wymienionych algorytmów.

Każdy z algorytmów jest wstępnie sparametryzowany

w taki sposób, by otrzymane wyniki były optymalne dla

większości przypadków. Analityk może jednak wpłynąć

na wiele wielkości, od których wykonanie algorytmu

zależy, jak: liczba klastrów, liczba iteracji, początkowy

wybór środka klastra, wybór miary odległości (euklide-

sowa, Manhattan, Czebyszewa), wybór sposobu norma-

lizacji, parametryzacja warunku stopu.

Aplikacja daje także możliwość próby automatycznego

ustalenia optymalnej liczby klastrów niezbędnej do po-

prawnego opisu całej próby – tzw. walidacja krzyżowa

(ang. cross-validation).

Wyniki analizy zapisane są w postaci raportów

obejmujących:

• podsumowanie analizy grupowania,

• początkowe położenie środków klastrów,

• końcowe położenie środków klastrów – czyli opis

najbardziej reprezentatywnych obiektów,

• przyporządkowanie numeru klastra do każdego

rekordu próbki,

• statystki opisowe klastrów, rozkład cech, histogramy,

• liczebność klastrów,

• względne odległości pomiędzy środkami klastrów,

• przebieg iteracji.

Klasyfikacja przy pomocy samouczących się

algorytmów drzew decyzyjnychDrzewa klasyfikacyjne służą do wyodrębnienia tych

cech opisujących zachowanie klienta, które mają naj-

większy wpływ na podejmowane przez niego decyzje.

Drzewa powstają w postaci reguł logicznych, które za-

stosowane na dowolnym kliencie z bazy danych lub na

Drzewa decyzyjne


13

nowym kliencie dają wynik w postaci prawdopodob-

nego zachowania się klienta, tj. klasyfikują klienta do

określonej klasy zachowań – np. skorzysta promocji /

nie skorzysta z promocji; będzie ubiegać się o kredyt /

nie będzie ubiegać się o kredyt.

Aplikacja udostępnia następujące modele drzew

decyzyjnych:

• CART (ang. Classification and Regression Trees)

• C4.5

• QUEST (ang. Quick Unbiased Efficient Statistical Tree)

• CHAID (ang. Chi – squared Automatic Interaction

Detector)

Każdy z algorytmów działa w oparciu o inne założenia

dotyczące klasyfikacji oraz klasyfikuje na podstawie in-

nych kryteriów statystycznych. Analityk ma więc możli-

wość wyboru tego drzewa, które z najmniejszym błędem,

tj. najdokładniej opisuje analizowaną próbkę klientów.

By uzyskać jak najdokładniejsze wyniki końcowe, wszyst-

kie algorytmy są tak sparametryzowane, by pracować

efektywnie na dowolnym zbiorze danych ciągłych lub

kategorycznych. Analityk ma jednak dostęp do wszyst-

kich kluczowych parametrów algorytmu (warunki stopu,

przycinanie, wartości progowe funkcji podziału i inne),

tak by dostosować go do specyficznych potrzeb aktual-

nie konstruowanego modelu.

Wyniki prezentowane są w postaci graficznej – pełne drze-

wo, z krótkim opisem statystycznym każdego jego wę-

zła, jak i tekstowej w postaci raportów opisujących staty-

styczny rozkład cech oraz dokładność klasyfikacyjną.

Analiza danych przy pomocy sieci neuronowychSieci neuronowe to potężne, samouczące się algorytmy,

które “w locie” analizują przesyłane przez nie dane i w spo-

sób ciągły, razem z napływającymi kolejnymi wartościa-

mi liczbowymi, przebudowują swoją strukturę, tak by jak

najlepiej zrozumieć strukturę danych wejściowych.

Sieci dzielą się zasadniczo na dwa typy:

• Uczące się bez nauczyciela – sieć samoczynnie próbuje

rozpoznać reguły rządzące strukturą napływających

liczb. Tego typu sieci wykorzystuje się przy grupowaniu

danych, przy poszukiwaniu klastrów.

• Uczące się z nauczycielem – tego rodzaju sieć uczy się

poprzez prezentację jej kolejnych rekordów danych

wejściowych oraz związanych z nimi oczekiwany

przez nas wynik. Odpowiednio nauczona sieć, po

zaprezentowaniu jej nieznanego rekordu danych,

jest w stanie z dużą precyzją przewidzieć związaną

z nim wartość. Tego typu sieci w Data Mining stosuje

się przede wszystkim do analiz klasyfikacyjnych.

W aplikacji zaimplementowane są następujące typy

sieci:

• Perceptron wielowarstwowy – Wstecznej propagacji

• Perceptron wielowarstwowy – Levenberga-Marquardta

• Sieć jednokierunkowa o radialnej funkcji bazowej

• Sieć ontogeniczna – Incremental Network

• Mapa Kohonena

Analiza koszykowaAnaliza koszykowa (ang. Market Basket Analysis) służy

do ustalenia tych produktów lub usług, z których klien-

ci korzystają najczęściej razem. Trafna analiza koszy-

kowa umożliwia łączenie usług w pakiety promocyj-

ne. Innym zastosowaniem jest oferowanie klientom

tych dodatkowych usług, z których z dużym prawdo-

podobieństwem, wynikającym z analizy historii zaku-

pów, skorzystają.

Na podstawie analizy koszykowej obliczane jest praw-

dopodobieństwo skorzystania z konkretnej usługi, pod

warunkiem, że skorzystano także z innej, wskazanej

przez analityka. Wynikiem pracy narzędzia jest raport

wskazujący związki (prawdopodobieństwo, korelacji,

błąd standardowy) sprzedażowe zachodzące dla wska-

zanych produktów.


14

Wdrażanie modeli analitycznychModele analityczne budowane są najczęściej na podsta-

wie próbki elementów wylosowanych z bazy danych. Ich

głównym przeznaczeniem jest jednak prognozowanie

zachowania się wszystkich obiektów - nie tylko tych, na

podstawie których modele zostały utworzone.

Każdy model analityczny przygotowany przy pomocy

narzędzi udostępnionych w aplikacji może zostać zapi-

sany, a następnie wykorzystany przy analizie całej bazy

danych lub wskazanej jej części.

Modele opracowane w module analitycznym są prze-

syłane i zapisywane w module decyzyjnym. Od tej pory

mogą być wykorzystane przez wszystkie aplikacje CRM,

które są zintegrowanie z aCRM.

Moduł wizualizacji wynikówModuł Wizualizacji to interaktywny system graficznej

prezentacji danych. Użytkownik dostaje do dyspozycji

zestaw w pełni konfigurowalnych dwu- oraz trójwymia-

rowych wykresów, które w efektywny i przejrzysty spo-

sób obrazują zależności pomiędzy wybranymi wielko-

ściami. Wśród dostępnych typów wykresów są:

• histogram (2-3 wymiarowy)

• wykresy rozrzutu 1 i 2 zmiennych

• macierzowe wykresy rozrzutu (dla wielu zmiennych)

• wykres kołowy

• wykres pierścieniowy

• wykres słupkowy

• wykres bąbelkowy

• wykres liniowy

• wykres ramka - wąsy

Dzięki wykorzystanej technologii zapewnia się interaktyw-

ność wykresów w zakresie charakterystycznym dla danego

typu (np. przełączanie prezentacji histogramu z trybu stan-

dardowego na unormowany i odwrotnie; możliwość rota-

cji histogramu 3D, sterowanie rozmiarem wykresu itd.).

Moduł pomocyModuł pomocy to rozbudowane narzędzie towarzyszące

użytkownikowi podczas jego pracy, którego celem jest

uczynienie budowy modeli analitycznych zadaniem in-

tuicyjnie prostym.

Funkcjonalność modułu pomocy została podzielona

na trzy części:

• Pomoc kontekstowa – każdemu ekranowi towarzyszy

pasek z informacją o głównym zastosowaniu aktualnie

dostępnych opcji i informacji. Zawartość paska zmienia

się po przeniesieniu i zatrzymaniu wskaźnika myszy

nad polem wymagającym podpowiedzi. Jeśli krótka

podpowiedź kontekstowa jest niewystarczająca,

przycisk „Więcej” odsyła bezpośrednio do punktów

Pomocy zawierających szczegółowe informacje.

• Pomoc dostępna w postaci podręcznika – rozbudo-

wany system pomocy zawiera opis każdej funkcjonal-

ności programu pod kątem zastosowania jej oraz jej

interakcji z innymi elementami programu. W pomocy

znajduje się także pełna dokumentacja analityczna

szczegółowo opisująca algorytmy, którymi posługuje

się program. Dodatkowo, pomoc uzupełniona jest

w zbiór zaindeksowanych słów kluczowych, po których

użytkownik może ją przeszukiwać.

• System kreatorów – przeprowadza przez szereg dłu-

gich procesów przygotowania danych liczbowych oraz

interpretacji wyników końcowych. Na każdym kroku

sugeruje się użytkownikowi różne możliwości, które może

w następnym kroku wykonać oraz podpowiada efekt,

który może uzyskać decydując się na konkretny wybór.


15

Widok „Akcje” dla zapisanego modelu Raport wynikowy z przeprowadzonych analiz

Wykres bąbelkowy

Histogram 3D

Pomoc kontekstowa

Podręcznik statystyczny


Środowisko pracyAplikacja ACRM dostępna jest w środowisku sieciowym

i zrealizowana jest w architekturze wielowarstwowej

(dostęp do aplikacji z poziomu przeglądarki interneto-

wej) z wykorzystaniem architektury portletowej opar-

tej na rozwiązaniu Comarch CMS 4.0. Główne korzyści

płynące z zaproponowanej architektury oraz tech-

nologii obejmują: kompatybilność rozwiązania z po-

zostałymi modułami platformy Comarch CRM, a tym

samym łatwość integracji modułów, oraz możliwość

współdzielenia przez użytkowników aplikacji projek-

tów analitycznych.

Architektura logiczna platformy analityczno – decyzyjnej W systemie możemy wyróżnić dwa obszary funkcjonalne:

• Obszar analityczny (Data Analysis Module): związany

z pobieraniem i przygotowywaniem danych oraz bu-

dową i oceną jakości modeli za pomocą algorytmów

udostępnianych w systemie

• Obszar decyzyjny (Decision Support Module): umożli-

wiający wykorzystanie opracowanych modeli w celu

optymalizacji podejmowanych decyzji biznesowych

(np. wykorzystanie modelu w celu doboru docelowej

grupy klientów maksymalizującej spodziewane zyski

z kampanii sprzedażowej)

Moduł analitycznyModuł analityczny to skalowalna platforma przezna-

czona do analizy i eksploracji dużych zbiorów danych

z wykorzystaniem zaawansowanych metod zarówno

statystycznych jak i algorytmów Data Mining. Do pod-

stawowych funkcji modułu należy import danych z do-

stępnych źródeł danych (baz, hurtowni oraz plików pła-

skich), prezentacja statystyk opisowych, wizualizacja

danych oraz realizacja procesu data mining. Na szcze-

gólną uwagę zasługuje moduł wizualizacji danych, który

dzięki interaktywnym wykresom pozwala bardzo dokład-

nie przedstawić strukturę danych, co znacznie wspiera

pracę i rozszerza wiedzę analityka. Udostępnione funk-

cjonalności zapewniają możliwość eksploracji dowolnie

dużych zbiorów danych w celu modelowania rozwiązań

dla wspomaganych celów biznesowych.

Moduł decyzyjnyModuł decyzyjny to drugi element systemu w pełni zin-

tegrowany z modułem analitycznym. Odpowiedzialny

jest za integrację i współpracę systemu ACRM z pozo-

stałymi modułami platformy Comarch CRM. Umożliwia

wykorzystanie opracowanych w ramach modułu anali-

tycznego modeli, nie wymagając przy tym od użytkow-

ników zaawansowanej wiedzy merytorycznej z zakresu

statystyki oraz analiz data mining.

Koncepcja współpracy z innymi elementami

systemu

Przepływ informacji w systemie CRM

16


Moduł decyzyjny.Wsparcie dla konsultantów obsługujących klienta.Dla pana Kowalskiego, klienta banku ABC, ostatni mie-

siąc nie był najlepszy w kontaktach z jego bankiem. Pan

Kowalski właśnie kupił nowe mieszkanie. Ma świeżo za-

ciągnięty dług hipoteczny. W zeszłym miesiącu bank na-

liczył mu niespodziewanie wysokie odsetki od kredytu.

Złożył telefoniczną reklamację od pobranej kwoty. Roz-

mowa była dość nerwowa i nieprzyjemna. Okazało się,

że w umowie o kredyt jest zapis, który obciąża go dodat-

kowymi kosztami. Nie był tego świadomy. Jest rozczaro-

wany faktem, że bank uczciwie go nie ostrzegł o dodat-

kowych opłatach. Teraz jest prawie pewny, że chciałby

przenieść kredyt hipoteczny do innego banku i w tej

sprawie udał się do swojego oddziału banku ABC.

Konsultant obsługujący pana Kowalskiego, przywitał

się z nim oraz poprosił o identyfikację kartą. System

CRM wczytał z bazy CRM informacje o kliencie. W tym

samym czasie moduł decyzyjny sprawdził w hurtowni

danych, czy nie pojawiły się nowe wpisy dotyczące pana

Kowalskiego w innych modułach systemu. Odnalazł in-

formację o złożonej i odrzuconej przez bank reklama-

cji. Ponieważ model szacujący prawdopodobieństwo

odejścia klientów z banku ocenił na podstawie histo-

rii współpracy pana Kowalskiego z bankiem oraz faktu

złożenia przez niego w ostatnim czasie reklamacji nie

rozstrzygniętej na jego korzyść, prawdopodobieństwo

odejścia pana Kowalskiego jako wysokie, moduł decy-

zyjny przesłał konsultantowi informacje:

„Dnia 12.02.2008 złożona telefonicznie reklamacja;

notatka konsultanta ‘Klient reklamuje wysokość

naliczonych odsetek za kredyt hipoteczny. Jest zde-

nerwowany i niezadowolony, że nikt go nie ostrzegł

o dodatkowych opłatach’

Dnia 14.02.2008 – reklamacja: odrzucona

Prawdopodobieństwo odejścia z banku: wysokie”

Konsultant natychmiast po przeczytaniu tekstu z ter-

minala zapewnił pana Kowalskiego, że jest mu bardzo

przykro, że został postawiony w takiej nieprzyjemnej sy-

tuacji. Zaoferował mu pomoc w dokładnym przeanali-

zowaniu umowy kredytowej. Zapewnił także, że żadne

dodatkowe opłaty już go nie czekają.

Gdy to wszystko mówił, moduł decyzyjny sprawdził, z ja-

kich produktów bankowych w ostatnim czasie korzysta-

ły osoby o profilu zbliżonym do profilu pana Kowalskie-

go. Wynik tych analiz wzmocniły zapisane w systemie

wnioski analizy koszykowej sugerujące, że klient byłby

z dużym prawdopodobieństwem zainteresowany krót-

koterminowym kredytem gotówkowym. A ponieważ po-

lityką banku jest zaoferować 20% upustu dla klientów

zagrożonych odejściem na tego typu kredytach, moduł

decyzyjny przesłał konsultantowi wiadomość:

„Okazja sprzedażowa: kredyt gotówkowy; upust:

20%”.

Pan Kowalski opuścił bank pozytywnie zaskoczony. Zo-

stał przeproszony, zaoferowano mu pomoc w dokładnym

zrozumieniu sposoby naliczenia rat, a w ramach przepro-

sin zaproponowano mu na bardzo korzystnych warun-

kach kredyt gotówkowy – akurat taki, jaki wkrótce i tak

miał zamiar zaciągnąć. „Bank ABC potrafi postawić się

w sytuacji klienta” – pomyślał pan Kowalski i zadowolo-

ny z rozstrzygnięcia problemów udał się do domu.

Moduł analitycznyPoprawa skuteczności akcji reklamowej.Firma XYZ posiadająca w swoich bazach danych około

100 000 zarejestrowanych klientów, zdecydowała się

zwrócić do tych swoich klientów, którzy potencjalnie

byliby szczególnie zainteresowani zakupem roczne-

go abonamentu na nową usługę oferowaną przez fir-

mę XYZ. W poprzednim roku, z usługi podobnego typu

skorzystało ok. 3% (łącznie 590) osób wśród tych, do któ-

rych firma XYZ zwróciła się bezpośrednio z ofertą. Aby

zminimalizować koszty pozyskania nowych klientów,

firma XYZ postanowiła wykorzystać algorytmy Data

Mining i przy ich pomocy ustalić charakterystykę klien-

tów, którzy z największym prawdopodobieństwem za-

kupią nową usługę w bieżącym roku.

Ponieważ algorytmy Data Mining działają najskuteczniej,

gdy obie kategorie decyzji reprezentowane są przez po-

dobną liczbę przypadków, do 590 osób, które kupiły rok

wcześniej usługę, dolosowano reprezentatywną próbę

853 klientów, którzy z usługi skorzystać nie chcieli. W ten

sposób uzyskano procentowy rozkład 41%/59% klien-

Przykłady wykorzystania systemu

17


tów którzy skorzystali i nie skorzystali z nowej usługi

rok wcześniej. Do zbudowania modelu postanowiono

wykorzystać 5 cech opisujących klientów, nazwanych

umownie: Cecha1, Cecha2, ..., Cecha5, których znormali-

zowane wartości zmieniają się w przedziale -1 do 1.

Wstępne analizy nie wykazały żadnych oczywistych

związków pomiędzy badanymi cechami, a skłonnością

klienta do skorzystania z oferty nowej usługi. Przykła-

dem jest wykres Cechy2 w funkcji Cechy1, na którym

klientów, którzy rok wcześniej skorzystali z nowej usłu-

gi oznaczono kolorem czerwonym. Rozkład czerwonych

punktów w żaden charakterystyczny sposób nie ukła-

da się na tle punktów czarnych.

W pierwszym kroku zostały wykorzystane analizy seg-

mentacyjne. Algorytmy klastrujące dane ujawniły 4 wy-

raźne skupiska punktów. Na rysunku Cechy2 w funkcji

Cechy1 zostały one oznaczone różnymi kolorami.

Klienci w obrębie każdego klastra wykazują różny sto-

pień zainteresowania nowymi usługami. Zilustrowane

jest to na rysunku przedstawiającym wykres słupko-

wy rozkładu liczności klientów w każdym z klastrów.

W pierwszym, największym klastrze liczącym 481 klien-

tów, aż 69% klientów kupiło rok wcześniej nową usługę.

Gdyby na tym etapie zaprzestać dalszych analiz i z nową

ofertą ograniczyć się do klientów zaklasyfikowanych

do klastra 1, oczekiwalibyśmy wzrostu wykupu usługi

w stosunku 69/41 =1.68, co przełożyłoby się na wzrost

skuteczności akcji sprzedaży z 3% do ok. 5%.

Pozostałe segmenty klientów wykazują zainteresowanie

nowymi usługami na podobnym poziomie co cała grupa

(klaster 2: 41%/59%) lub na znacznie niższym poziomie:

klaster3: 22%/78% i klaster4: 13% (tak) do 87% (nie).

Aby sprawdzić, czy istnieją jakieś szczególne wartości

cech opisujących klientów, które są przyczyną ich zain-

teresowania nowymi usługami, podzielony na klastry

zbiór klientów poddano procesowi klasyfikacji przez

drzewo decyzyjne CHAID.

Zależność Cechy2 w funkcji Cechy1. Kolory rozróż-

niają decyzję podjętą przez klientów

Zależność Cechy2 w funkcji Cechy1. Kolory rozróż-

niają znalezione klastry

18


Charakterystyka klastrówDrzewo decyzyjne ilustrujące zależność decyzji od

numeru klastra oraz wartości Cechy1

Wynik klasyfikacji potwierdził, że przyporządkowanie

klientów do znalezionych klastrów jest czynnikiem decy-

dującym dla określenia stopnia zainteresowania nowymi

usługami. Drzewo decyzyjne dokonało pierwszego po-

działu właśnie ze względu na przynależność do poszcze-

gólnych klastrów. W drugim podziale wziął udział tylko

klaster1, co oznacza, że w pozostałych klastrach żadna

cecha nie wpływa ani pozytywnie, ani negatywnie na

preferencje klientów względem nowych usług. Pierwszy

klaster został podzielony ze względu na Cechę1. Szcze-

gólnie interesującym jest węzeł drzewa, który oddzielił

klientów, dla których Cecha1 przyjęła wartość wyższą

niż -0.18. Aż 97% z nich kupiło rok wcześniej zaoferowa-

ną im nową usługę, co oznacza prawie dwu i pół krot-

ny ( 97%/41% = 2.37 ) przyrost wskaźnika zainteresowa-

nia nowymi usługami względem całej grupy.

Wniosek końcowy: jeśli ograniczy się wysłanie oferty do

klientów należących do klastra1 i przyjmujących war-

tość Cechy1 większą od -0.18, to zamiast 3% należy ocze-

kiwać kupna usługi na poziomie ponad 7%.

Czy ten wskaźnik można dalej poprawiać? Tak. Po pierw-

sze: można eksperymentować z licznością dolosowa-

nej liczby klientów, którzy nie wykupili usługi rok wcze-

śniej. Po drugie: można skorzystać z innych algorytmów

klasyfikacyjnych. Po trzecie, można próbować dodat-

kowo modelować dane wejściowe, tj. sprawdzić, czy

nie ma w nich jakiś wartości szczególnie odchylonych

lub zmienić metody imputacji danych. W końcu, moż-

na próbować zmienić zestaw cech opisujących bada-

ną grupę klientów.

Ten ilustracyjny przykład ogranicza się zaledwie do po-

działu dwóch zmiennych, podczas, gdy standardowo

dostępne są dziesiątki, a nawet setki zmiennych. Szcze-

gółowo prowadzona analiza Data Mining może dopro-

wadzić do wzrostu współczynnika pozytywnej odpowie-

dzi na promocję nawet do 47% (referencja: „Data mining

and customer relationship marketing in the banking in-

dustry”; autorzy: Leong Gerry, Chan Kin; opublikowane

w Singapore Management Review (2002))

19

www.finanse.comarch.plwww.comarch.com www.comarch.pl www.comarch.de www.comarch.ru

Polska

Kraków, Gdańsk,

Katowice, Lublin,

Łódź, Poznań, Szczecin,

Warszawa, Wrocław

Belgia Bruksela

Finlandia Helsinki

Francja Lille

Litwa Wilno

Niemcy Drezno

Panama Panama City

Rosja Moskwa

Słowacja Bratysława

Stany Zjednoczone

Chicago, Miami

Ukraina Kijów

Zjednoczone Emiraty

Arabskie Dubai

Copyright © Comarch 2008. Wszystkie prawa zastrzeżone. Żadna część tej pracy nie może być powielana i rozpowszechniana, w jakiejkolwiek formie i w jakikolwiek sposób (elektroniczny, mechaniczny) włącznie z fotokopiowaniem, nagrywaniem na taśmy lub przy użyciu innych systemów, a także tłumaczona na jakikolwiek język bez pisemnej zgody Comarch S.A. (Wydawca). Wydawca dołożył wszelkich starań, aby informacje zawarte w tym dokumencie były zgodne z prawdą oraz wolne od błędów i braków. Wydawca zastrzega sobie prawo do dokonywania zmian w dokumencie bez informowania o tym. Fragmenty dokumentu mogą nie być zgodne z ostatnimi wersjami oprogramowania. Znaki handlowe „Comarch” są wyłączną własnością Comarch SA i nie mogą być wykorzystywane bez pisemnej zgody Wydawcy. Pozostałe znaki handlowe są własnością poszczególnych firm.

PL-2008.05

Spółka ComArch Spółka Akcyjna z siedzibą w Krakowie, Aleja Jana Pawła II 39A, zarejestrowana w Krajowym Rejestrze Sądowym prowadzonym przez Sąd Rejonowy dla Krakowa - Śródmieścia w Krakowie XI Wydział Gospodarczy Krajowego Rejestru Sądowego pod numerem KRS 0000057567. Wysokość kapitału zakładowego Spółki wynosi 7.960.596,00 zł. Kapitał zakładowy został wpłacony w całości. NIP: 677 - 00 - 65 - 406

Comarch jest wiodącym środkowoeuropejskim dostawcą biznesowych

rozwiązań IT, które kompleksowo obsługują relacje z klientami i optymalizują

działalność operacyjną oraz procesy biznesowe. Głównym atutem firmy jest

głęboka wiedza branżowa, którą przekazujemy naszym klientom w postaci

zintegrowanych systemów informatycznych w sektorach telekomunikacyjnym,

usług finansowych, administracji publicznej, oraz dla dużych, średnich i małych

przedsiębiorstw. Comarch zatrudnia ponad 2700 najwyższej klasy specjalistów

w Europie, USA i na Bliskim Wschodzie.

Comarch SA

Al. Jana Pawła II 39 a

31-864 Kraków

Polska

Tel: +48 12 64 61 000

faks: +48 12 64 61 100

e-mail: [email protected]

Documents

Kompleksowe rozwiązanie CRM Comarch aCRM – CRM ......systemy Comarch Campaign Management, Comarch Sa-les Management oraz Comarch Contact Center pozwa-lając zbudować kompletną