Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Simon Selak
UČINKOVITO UPRAVLJANJE VSEBIN V
FARMACEVTSKEM PODJETJU
Diplomsko delo
Maribor, april 2012
UČINKOVITO UPRAVLJANJE VSEBIN V
FARMACEVTSKEM PODJETJU
Diplomsko delo
Študent: Simon Selak
Študijski program: Univerzitetni študijski program
Računalništvo in informatika
Smer: Informatika
Mentor: red. prof. dr. Marjan Heričko, univ. dipl. inţ. rač. in inf.
Lektorica: Darinka Lamut, prof.
I
II
Zahvala
Najlepše se zahvaljujem mentorjema, prof. dr. Marjanu Heričku in dr. Srečku Zupančiču,
za mentorstvo in pomoč pri pisanju diplomskega dela. Zahvala velja tudi IT-oddelku
podjetja Krka, ki mi je pomagal in omogočil izdelavo diplomskega dela.
III
UČINKOVITO UPRAVLJANJE VSEBIN V
FARMACEVTSKEM PODJETJU
Ključne besede: iskalnik na ravni podjetja, strukturirana vsebina, nestrukturirani podatki,
Google GSA, Microsoft FAST, dokumentacijski sistemi
UDK: [004.6+659.2.004]:615(043.2)
Povzetek
Diplomsko delo obravnava problematiko velike količine urejenih in neurejenih podatkov, s
katero se srečuje sodobno farmacevtsko podjetje. Opisuje vpeljavo skupnega iskalnika na
ravni podjetja, ki bo znal iskati po podatkih, ki so v različnih sistemih in po navadi tudi v
različnih virih. Uporabniku naj bi vrnil pomembne in točne zadetke ter obenem upravljal
tudi dostope in varnostno politiko. V našem podjetju smo postavili in preizkusili dva
trenutno vodilna iskalnika. S ključnimi uporabniki smo naredili podrobno funkcionalno in
tudi stroškovno analizo.
IV
EFFICIENT CONTENT MANAGEMENT IN A
PHARMACEUTICAL COMPANY
Key words: enterprise search, structured data, non-structured data, Google GSA,
Microsoft FAST, document management systems
UDK: [004.6+659.2.004]:615(043.2)
Abstract
This thesis deals with the issue with large amounts of structured and non-structured data,
that trouble modern pharmaceutical company. The thesis describes implementation of an
in-company search engine that will search through data contained in various systems and
usually even different sources. Users will receive relevant and precise based on their
access rights and safety policies. Our company introduced and tested two currently
leading enterprise search engines. Together with our key users, we conducted a thorough
functional and financial analysis that is very important to company.
V
VSEBINA
1 UVOD ............................................................................................................................ 1
2 OPIS PROBLEMATIKE ............................................................................................... 3
2.1 Upravljanje vsebin poslovnega informacijskega sistema (ECM) ........................... 4
2.2 Iskalnik na ravni podjetja ........................................................................................ 8
2.3 Soodvisnost ........................................................................................................... 12
3 PREGLED CELOTNE INFRASTRUKTURE IN DOKUMENTACIJSKIH
SISTEMOV V IZBRANEM FARMACEVTSKEM PODJETJU ....................................... 13
3.1 Infrastruktura ........................................................................................................ 13
3.2 Dokumentacijski sistemi ....................................................................................... 14
3.2.1 Rešitev EMC Documentum ........................................................................... 14
3.2.2 Rešitev za arhiviranje – Centera .................................................................... 16
3.2.3 Izmenjava datotek .......................................................................................... 16
3.2.4 Sistem Microsoft Office SharePoint Server 2007 ......................................... 17
3.2.5 Sistem Microsoft Office SharePoint Server 2010 ......................................... 18
3.2.6 Modul SAP DMS .......................................................................................... 20
4 MOŢNOSTI ISKANJA PODATKOV PO RAZLIČNIH DOKUMENTACIJSKIH
SISTEMIH ........................................................................................................................... 21
4.1 Analiza in namembnost različnih iskalnikov ES .................................................. 22
4.1.1 Iskalnik Microsoft FAST ............................................................................... 23
4.1.2 Iskalnik Google GSA .................................................................................... 25
4.1.3 Vgrajeni iskalnik Documentum FAST .......................................................... 26
4.2 Primerjava iskalnikov eDiscovery in iskalnika na ravni podjetja ......................... 26
VI
5 MERILA ZA IZBIRO ISKALNIKA ES V FARMACEVTSKEM PODJETJU .......... 28
5.1 Smiselnost vpeljave – uporabniški vidik ............................................................... 29
5.2 Postavitev testnega sistema ................................................................................... 30
5.2.1 Iskalnik Microsoft FAST ............................................................................... 31
5.2.2 Iskalnik Google GSA ..................................................................................... 34
5.2.3 Iskalnik Documentum FAST ......................................................................... 34
6 REZULTATI PRIMERJAVE ISKALNIKOV ............................................................. 35
6.1 Arhitektura postavitve iskalnika ............................................................................ 35
6.2 Cenovno merilo ..................................................................................................... 36
6.2.1 Licenčna politika postavitve iskalnika Microsoft FAST ................................ 37
6.2.2 Iskalnik Google GSA ..................................................................................... 38
6.2.3 Cenovna analiza ............................................................................................. 40
6.3 Rezultati iskanja strukturiranih in nestrukturiranih podatkov ............................... 47
7 PREDLOG KONČNE ZGRADBE SISTEMA ............................................................ 48
7.1 Ureditev podatkov glede na uporabljene sisteme .................................................. 49
7.2 Izbira iskalnika ES ................................................................................................. 50
8 SKLEP .......................................................................................................................... 52
9 LITERATURA ............................................................................................................. 53
10 PRILOGE ...................................................................................................................... 58
10.1 Kazalo slik ............................................................................................................. 58
10.2 Kazalo tabel ........................................................................................................... 58
10.3 Vprašalnik .............................................................................................................. 59
VII
UPORABLJENE KRATICE
Kratica Angleško
ACL Access Control List
AIIM Association for Information and Image Management
API Application Programming Interface
CAL Client Access License
CMIS Content Management Interoperability Services
CMS Content Management System
CPE Central Processing Unit
CRM Customer Relations Management
DFS Distributed File System
DMS Document Management System
DNS Domain Name System
ECM Enterprise Content Management
EDMS Electronic Document Management System
EIM Enterprise Information Management
ERM Enterprise Record Management
ERP Enterprise Resource Planning
ES Enterprise Search
EXIF Exchangeable Image File Format
FAST Microsoft FAST
GSA Google Search Appliance
GxP Good Practice quality guidelines
HA High Availability
HTTP Hyper Text Transfer Protocol
IA Information Architecture
IT Information Technology
OS Operating System
PLM Product Lifecycle Managment
POC Proof Of Concept
VIII
RAID Redundant Array of Independent Disks
RAM Random Access Memory
ROI Return of Investment
SQL Structured Query Language
TCO Total Cost of Ownership
WORM Write Once Read Many
XML Extensible Markup Language
1
1 UVOD
Osnovna dejavnost farmacevtskega podjetja je proizvodnja zdravil, ki mora biti vseskozi
sledljiva in dokumentirana. Med samo proizvodnjo zdravil različnih farmacevtskih oblik
nastaja ogromna količina dokumentacije, ki se odlaga v različne sisteme. Poleg omenjenih
pa obstajajo tudi dokumenti in zapisi, ki niso neposredno povezani s proizvodnjo, temveč
podpirajo druge poslovne procese v podjetju (promocija, prodaja, kadrovska sluţba itd.).
Namen diplomskega dela je analiza dokumentacijskih sistemov, uporabljenih v
farmacevtskem podjetju, ter podatkov (dokumentov), shranjenih v teh sistemih. Sistemi se
lahko razlikujejo glede na zaupnost, celovitost in razpoloţljivost podatkov. Učinkovito
upravljanje vsebin pa je mogoče le z jasno postavljeno strategijo o hranjenju in iskanju
podatkov.
Cilj diplomskega dela je predstaviti problematiko iskanja strukturiranih in nestrukturiranih
podatkov ne glede na sistem, v katerem so shranjeni, in namen, za katerega bodo
uporabljeni. Iskanje v takšnem obsegu in ob dejstvu, da mora iskalnik upoštevati tudi vse
pravice uporabnika za dostop do podatkov, je mogoče le s centralnim iskalnikom na ravni
podjetja. V diplomskem delu bomo nekatere predstavili, podrobneje pa bomo analizirali
Microsoft FAST in Google GSA, ki sta trenutno najprimernejša. Na podlagi analize in
vseh pridobljenih podatkov bomo predlagali optimalno rešitev za upravljanje vsebin v
farmacevtskem podjetju.
V drugem poglavju se bomo osredotočili na analizo obseţnosti problematike ES in ECM.
Prikazali bomo, da ju ne moremo obravnavati ločeno, temveč med njima obstaja močna
soodvisnost.
V tretjem poglavju se bomo seznanili s tipično infrastrukturo postavitve
dokumentacijskega sistema in s sistemi, namenjenimi za hranjenje podatkov.
Četrto poglavje obravnava različne moţnosti iskanja podatkov po dokumentacijskih
sistemih.
2
Za to se uporabljajo iskalniki na ravni podjetja, ki pa se razlikujejo glede na svojo
namembnost (za katero panogo so optimizirani) in prikaz podatkov, ki jih iščemo
(eDiscovery – vsi podatki so enako pomembni).
V petem poglavju smo raziskali problematiko iskanja podatkov v podjetju (anketiranje
uporabnikov) ter postavili in predstavili testno okolje.
Šesto poglavje vsebuje rezultate primerjave iskalnikov s cenovnega in z uporabniškega
vidika. Skušali smo predstaviti ceno vpeljave takšne rešitve, ki je odvisna od števila
dokumentov in števila uporabnikov, ki dostopajo do iskalnika. Naredili smo tudi analizo
vračanja investicije po letih, v odvisnosti od števila uporabnikov. Pred koncem je
predstavljena še povprečna vrednost uporabniških ocen, pridobljenih z vprašalnikom, ki
smo ga izdelali posebej za to analizo.
Sedmo poglavje opisuje končno zgradbo sistema in podaja priporočilo za ureditev
podatkov glede na uporabljene sisteme pred vpeljavo globalnega iskalnika na ravni
sistema. Poglavje sklenemo s primerjavo ključnih funkcionalnosti obeh iskalnikov (Google
GSA, Microsoft FAST).
Diplomsko delo se zaključi s sklepom, ki je zapisan v osmem poglavju.
3
2 OPIS PROBLEMATIKE
Obvladovanje procesa ţivljenjskega cikla izdelka (PLM – Product Lifecycle Managment) v
podjetju ima za posledico [1]:
• finančne učinke (hitrejši nastop na trgu, večji prihodki, manjši razvojni stroški),
• časovne učinke (trajanje projektov, spremembe),
• učinke na kakovost (proizvodnja, manjša odstopanja, večje zadovoljstvo strank),
• poslovne učinke (inovacije, ponovna uporabljivost gradnikov, sledljivost, nastavljivost).
Podporo ţivljenjskemu ciklu izdelka (PLM) skupaj tvori vrsta modulov, ki lahko
zagotavljajo optimalno prehajanje ţivljenjskega cikla izdelka in omogočajo celovit pregled
njegove ţivljenjske poti. Pridobivanje ustreznih podatkov o izdelku na tej njegovi
(optimalni) ţivljenjski poti je lahko velikokrat ovira, če omenjeno področje pridobivanja
podatkov ni ustrezno obravnavano.
V farmacevtskem podjetju razpolagamo s pribliţno 250 tipi dokumentov. Nekaj
najpomembnejših je:
analitska dokumentacija
dokumentacija o delovanju podjetja
finančno računovodska dokumentacija
kadrovska dokumentacija
razvojna dokumentacija
registracijska dokumentacija
proizvodnja dokumentacija
dokumentacija kakovosti
dokumentacija o proizvodih
Dejstvo: kaj nam pomenijo podatki, če jih ne moremo najti?
Pravilnost shranjevanja in iskanja podatkov zagotavljata dve med seboj močno odvisni
področji. Soodvisnost teh dveh področij je temelj za uspešno oziroma optimalno
obvladovanje dokumentacije v farmacevtskem podjetju.
4
Prvi pomemben člen je iskalnik na ravni podjetja (ES – Enterprise Search), še
pomembnejše področje pa je pravilno upravljanje z vsebino (ECM – Enterprise Content
Management), ki je dostopna v različnih sistemih in shranjena v različnih shrambah
(repozitorijih). Nekatere shrambe so centralne in namenjene dolgotrajnemu hranjenju
podatkov, druge pa so lokalne za določeni sistem. Za optimalno iskanje podatkov oziroma
dokumentov, ki vsebujejo te podatke, sta poleg dobrega iskalnika torej pomembni tudi
urejenost podatkov in postavitev sistemov, ki shranjujejo te podatke (strategija upravljanja
vsebin).
2.1 Upravljanje vsebin poslovnega informacijskega sistema (ECM)
Sistemi za upravljanje vsebin v podjetju (ECM) pomagajo podjetjem in drugim velikim
ustanovam racionalizirati in avtomatizirati poslovne procese, dostop in upravljanje vseh
oblik vsebin ter avtomatizirati upravljanje zapisov za izpolnjevanje potreb po skladnosti.
Sistemi ECM omogočajo vse, kar potrebujemo za sprejem pravočasnih, pametnih in
stroškovno učinkovitih odločitev, saj je pri velikih podjetjih pravilna odločitev ob pravem
trenutku najpomembnejša [21].
Izdelki za upravljanje vsebin v podjetju ponujajo prilagodljivo in razširljivo ogrodje za
[22]:
upravljanje vsebine,
avtomatiziranje, racionaliziranje in analiziranje poslovnih procesov, naravnanih na
dokumente,
izboljševanje sodelovanja med več sistemi za upravljanje,
pomoč pri zagotavljanju skladnosti.
Sistem ECM je pogosto obravnavan kot en sam subjekt. V resnici pa je to skupek več
tehnologij, kjer se vsaka s svojimi lastnostmi poveţe v skupno interakcijo med uporabniki,
poslovnimi informacijami in njihovimi procesi. Takšno razumevanje je podlaga za
poslovno in informacijsko (IT) strategijo [23]. Sistemi ECM ponujajo nešteto moţnosti in
koristi za podjetje. Lahko jih vpeljemo v vsako podjetje, na vsako platformo, v vsak
računalnik ali intranet, tako da vplivajo praktično na čisto vsakega uporabnika.
5
Sistemi ECM so se razvili postopoma . Vsaka tehnologija se je razvijala po svoje,
uporabniki pa so jih potem zdruţevali v neko celoto. Vendar je to kmalu postal nepotrebno
zapleten proces. Od uporabnikov se zahteva, da se naučijo dela z več vmesniki, pri čemer
upravljajo z vsebinami ali dostopajo do njih in s tem omogočajo interakcijo s poslovnimi
aplikacijami. Največkrat se zgodi, da organizacije nimajo centralizirane strategije za
obravnavo vsebin in dostop do njih, imenovano tudi informacijska arhitektura.
Informacijska arhitektura (IA) ponuja celosten pogled na organizacijske potrebe po ECM
in strateški razvoj tehnologije v okviru nadzorovane metode za upravljanje vsebin in
procesov [2].
Z informacijsko arhitekturo pride več plasti za upravljanje informacij in funkcionalnosti, ki
so vezane kot storitev, ki je sposobna, da – ne glede na število vsebin virov in zbirk –
uporabniku zagotavlja poenostavljen pogled do vseh podatkov na enem mestu.
Sistemi ECM prinašajo številne koristi za uporabnike in IT [2]:
zmanjšanje redundance: ECM zmanjšuje (odpravlja) odvečne funkcionalnosti in
orodja v organizaciji, kot so: več iskalnikov, navezanost na določeno posebno
podatkovno bazo, večkratni zapisi in sistemi za upravljanje, pri čemer je vsak vezan
na en oddelek, več platform za zajem vsebine, vsak sistem samostojno razporejen
na drugo mesto v podjetju, po moţnosti vezan na enkratno uporabo, več sistemov
za zajem, vsak je povezan z določeno aplikacijo ali oddelkom; uporabnikove
interakcije z upravljanjem vsebin se zato poenostavijo, ni se mu več treba ukvarjati
z menjavanjem in usklajevanjem vmesnikov in orodij za dostop do vsebin in s tem
do optimizacije poslovnega procesa;
zmanjšanje tveganj: ECM odpravlja vsebinsko redundanco, kar posledično
zmanjšuje stroške skladiščenja in zmanjša tveganje glede morebitne izgube;
celostni pristop k upravljanju vsebin odpravlja moţnost, da več uporabnikov shrani
dokument z enako vsebino na različna mesta, saj je na voljo samo eno skladišče, ki
se lahko upravlja centralno, je zavarovano in ne ovira dostopa; organizacijska
tveganja in upoštevanje pravil je zato laţje upravljati; potek in vsebina politike (na
primer upravljanje zapisov politike) sta splošno razporejena centralno;
6
večja produktivnost in zadovoljstvo uporabnikov: če je sistem ECM dobro
opredeljen, se poveča zadovoljstvo uporabnikov, ki ga zagotavlja enoten vmesnik
za vse vsebine in procese (s tem poenostavlja dolge zapletene procese); čeprav je na
voljo enoten uporabniški vmesnik, ta omogoča tudi veliko prilagodljivost, zato
lahko preprosto dostopamo do vsebin, vključno z iskanjem in navigacijo; to ima za
posledico večjo produktivnost in večjo učinkovitost, ki ju zagotavljata enotna točka
in intuitiven dostop do vsebin; procesi in vsebine so tesneje povezani, zmanjša se
interakcija z uporabnikom, tako da lahko ta več časa posveti optimizaciji in drugim,
za poslovni proces pomembnim stvarem;
stroški IT: vpeljava ECM odpravlja odvečne funkcionalnosti (na primer več
sistemov za shranjevanje in zajemanje dokumentov) in tudi stroške IT, povezane z
vzdrţevanjem in s podporo teh sistemov.
Za mnoge organizacije je razvoj ECM nov izziv, kako vpeljati logiko v svojo poslovno
strategijo. V večini organizacij se je ECM razvil postopno, korak za korakom. Velikokrat
se zgodi, da v organizaciji najdemo več iskalnikov, sisteme za zajemanje, orodja za potek
dela, orodja za urejanje in upravljanje zapisov in podobno, po navadi še na različnih
platformah [23]. Lahko bi trdili, da če sistem deluje, ga ni treba spreminjati. Čeprav je
navzven videti, da sistem deluje, da so procesi dobro definirani in da je vsak uporabnik v
verigi uspešen pri svojem delu, se dolgoročno izkaţe, da vendarle ni tako. Posledica je
neproduktivno in frustrirajoče obnašanje celotne skupine.
Uporabniki slej ko prej ugotovijo, da njihovo delo ne prinaša ţelenega rezultata. Postanejo
nekakšna točka integracije, ki ročno zagotavlja povezljivost med več zbirkami vsebin, med
vmesniki in procesi. Obstaja potreba po vzpostavitvi ECM v celotni organizaciji, ki
omogoča navzkriţno delovanje oddelkov in uporabo vsebin in procesov. Poleg tega se
lahko kompleksnost IT in z njo povezani stroški občutno zmanjšajo. Oblikovanje
informacijske arhitekture zahteva razvoj strategije. Centralizirana strategija ECM ima
celosten pogled na potrebe organizacije [3]. Razvoj ECM je tako poslovni proces kot
tehnologija. Spremljajo jo potrebe po centralni uvedbi funkcionalnosti, a pod pogojem, da
je platforma dovolj zmogljiva za vse uporabnike in aplikacije.
7
Ko so popis procesov, določitev potrebnih tehnologij ECM, pregled funkcionalnosti in
popis obstoječih naloţb tehnologije končani, lahko organizacija začne oblikovati strategijo
za uspešno vpeljavo. ECM je treba postaviti tako, da je osnovni nabor funkcionalnosti na
voljo vsej organizaciji, tako kot na primer telefonsko omreţje.
Preučena mora biti tudi najboljša praksa, kako naj bodo pravilno povezani vsi procesi z
vsemi vsebinami [24]. Posvetiti se moramo tudi temu, kako se bomo lotili povezovanja ţe
vpeljanih procesov z obstoječimi sistemi, ki ţe vsebujejo podatke. Obstoječe povezave
med aplikacijami je treba ohraniti.
Slika 2.1: Diagram rešitve ECM [4]
Kakšen bo rezultat vpeljave, je odvisno od dveh osnovnih arhitekturnih modelov. V prvem
modelu je en sam ponudnik za zagotavljanje vseh funkcionalnosti ECM. V tem primeru
rešitev prinaša popolnoma zdruţen nabor funkcionalnosti v enem paketu. Drugi
arhitekturni model vpelje različne tehnologije v skupni ECM. V tem modelu je več
različnih tehnologij povezanih med sabo, tako da tvorijo končni izdelek za upravljanje
8
vsebin (slika 2.1). Seveda morajo biti zdruţljive in realno izvedljive. To je uporabno na
področju, kjer imamo posebne procese, ki niso standardizirani. Prvi model pa se po navadi
uporablja, kadar imamo v organizaciji ţe neko funkcionalno rešitev, ki je ne bomo menjali,
dodatno pa vpeljujemo nov pristop in tehnologijo, ki bo rešitev za podporo novim
poslovnim procesom.
V vsakem primeru je raven razdrobljenosti prilagodljiva. Eno rešitev na primer uporabimo
za zagotavljanje integriranega iskanja, upravljanje zapisov in upravljanje dokumentov,
medtem ko preostale funkcije, ki jih ne moremo zdruţiti v skupen sistem, vpeljemo,
kolikor se pač da, in jih uporabljamo posamično.
Poudariti velja, da mora biti izbran pravilen postopek uvajanja ECM. Tak, ki bo izkoristil
vse moţnosti organizacije in bo prilagojen tako, da bo najbolje izkoriščal organizacijske
pristojnosti, moči, sposobnosti in prednosti morebitnih zunanjih izvajalcev ter obstoječih
naloţb. Na odločanje o tem, kateri postopek uvajanja ECM je najprimernejši za
organizacijo, vpliva veliko dejavnikov, med drugim tudi velika geografska razpršenost
organizacij, ki bi lahko imele koristi od zunanjega izvajanja [22].
2.2 Iskalnik na ravni podjetja
Številna podjetja ţe od nekdaj vlagajo ogromno truda v razvoj spletnih avtorizacijskih
sistemov, ki obsegajo veliko vidikov notranjih procesov, tako imenovanih intranetnih
(notranjih) sistemov [25]. Nekateri notranji sistemi ne zagotavljajo le dostopa do različnih
strukturiranih informacij (na primer do seznama članov kakšne delovne skupine ali
seznama zasedenih sejnih sob itd.) [26], temveč tudi do nestrukturiranih dokumentov z
besedilom (na primer študijskih gradiv za univerzitetni program, notranje dokumentacije
itd.). Prav tako pa je trend, da se vsebina ne ureja več po mapah, temveč jo pregledujemo z
iskalnikom (primer tudi v Windowsih 7, kjer se izbiranje po menijih opušča) [27].
Pogosto se uporabniki v velikem podjetju teţko znajdejo po vsebini. Za iskanje po besedilu
moramo zagotoviti druga navigacijska sredstva. Teţave, ki jih ima notranji, intranetni
sistem pri iskanju, se zelo razlikujejo od iskanja po vsebinah, ki se uporablja pri javno
dostopnih virih svetovnega spleta.
9
Problem je slediti pravicam dostopa s spletnih strani do dokumentov, ker intranetni sistemi
pogosto vsebujejo dokumente in strani, ki ne smejo biti dostopni vsakemu registriranemu
uporabniku. Tudi z razširjenim iskanjem po sistemu torej ni mogoče dostopati do njih ali
jih celo prikazati kot zadetke.
Sistemi za iskanje po vsebini so pogosto zgrajeni kot programska oprema, ki ohranja
indeks dokumentov in izvaja povpraševanje po njem. Razpoloţljivost dokumenta (ali
splošneje objekta) je uporabniku (predmetu) najlaţje opisati z matriko predmet/vrstica,
objekt/stolpec, ki vsebuje dejanske nastavitve dovoljenj in dostopov (podskupina lahko
gleda, piše, izbriše itd.). Shranjevanje matrike kot celote je nepraktično.
Zato si sistemi (naj bo to spletna stran ali operacijski sistem) pogosto shranjujejo le dele
matrike, bodisi kot vrstice, pogosto imenovane properties (na primer: uporabnik root lahko
prebere vsako datoteko), ali kot stolpce, ki se imenujejo seznami za nadzor dostopa (ACL
– Access Control List). Nekateri sistemi za shranjevanje podatkov shranjujejo pravice
dostopa eksplicitno (npr. datotečni sistemi), medtem ko imajo drugi pravice vključene kar
znotraj sistema samega.
Če ţelimo zmanjšati velikost matrike za dostop (shranjena bodisi kot lastnosti – properties
ali ACL), moramo predmete organizirati v neke logične skupine (npr. skupina zaposlenih
ali zaposleni, ki imajo univerzitetno izobrazbo). Največkrat je uporabljen naslednji način:
seznam skupin, ki jim uporabnik pripada,
seznam skupin, ki lahko berejo neki dokument.
Zadnja moţnost, če seveda ni boljšega načina zdruţevanja, je umestitev vsakega
posameznika v ločeno skupino [27].
Večina iskalnikov na ravni podjetja je zgrajena podobno. Arhitektura sistema je sestavljena
iz naslednjih gradnikov [5]:
baza podatkov SQL shranjuje strukturirane podatke nekega sistema;
dokumentacijska shramba – velike besedilne in večpredstavnostne datoteke so
običajno shranjene zunaj podatkovne baze;
10
spletni vmesnik, prek katerega uporabnik komunicira s sistemom, po navadi je to
spletni brskalnik;
pregledovanje/indeksiranje – prenos statičnega dokumenta iz skladišča ali s
samodejno zgrajene dinamične strani, ki jo proţi streţnik HTTP, ter umestitev v
indeks;
iskalni indeks vsebuje podatkovno strukturo, generirano na podlagi prenesenega
statičnega dokumenta;
iskalni streţnik dobi razčlenjene poizvedbe s streţnika HTTP, jih obdela z
uporabo pripravljenega indeksa in pošlje rezultate nazaj na streţnik HTTP, kjer so
potem oblikovani in prikazani uporabniku.
Upoštevajmo, da iskalni streţnik ne komunicira s podatkovno bazo SQL, tako da so
predrazčlenjene poizvedbe edini vir informacij.
Predlagani sistem deluje na treh področjih, na katere vpliva dodelitev dostopov in pravic
[5]:
indeksiranje dokumenta: ta del sistema teče neprekinjeno v ozadju, tako da na
njegovo odzivnost ne vpliva; kar zadeva splošno učinkovitost, pričakujemo, da bo
ovrednotenje dostopa in pravic do dokumenta zanemarljivo in bo vzelo zelo malo
sistemskih sredstev;
upoštevanje uporabniških pravic: to je lahko zelo hitro in je razmeroma draga
operacija, odvisno od oblike vira podatkov;
izvajanje poizvedbe: vpliv na sistem v tem delu je lahko zelo velik; iskalni
streţnik potrebuje za obdelavo velik in/ali dolg dodaten seznam identifikatorjev za
dokumente z veliko virtualnih ţetonov, vendar je z nekaj optimizacije lahko iskanje
precej krajše, brez pravic dostopa; po drugi strani pa se poizvedbe izvajajo v imenu
uporabnika, ki lahko dostopa do velikega dela razpoloţljivih dokumentov; cilj je še
skrajšati iskanje s poenostavljenimi seznami za virtualne ţetone.
Glavna prednost tega sistema je, da za delovanje ne zahteva pravic dostopa do posameznih
dokumentov. To je še posebej koristno, če je zadetkov pri iskanju veliko in so vsi zelo
pomembni, vendar nedostopni za določenega uporabnika. S tem sistemom izločimo
nedostopne dokumente ţe pri poizvedbi. Pri tem gre za upravljanje pravic po celotnem
11
viru, kjer z iskalnikom, ki je v intranetu in ima v ozadju podporo za virtualne ţetone,
obdelamo veliko količino podatkov in izluščimo tisto, kar nam je najpomembnejše.
Tak iskalnik se lahko uporablja za številne druge namene. Uporaben je recimo tudi za
analizo podatkov, saj se pri takem iskanju kmalu pokaţe, koliko primerkov istega objekta
imamo nevede v bazi, ki po nepotrebnem zasedajo prostor.
Velikokrat lahko pravice dostopov do nekega sistema prenesemo v pravice, ki jih ima
uporabnik pri iskanju in dostopanju do objektov. Virtualni ţetoni predstavljajo skupine
uporabnikov ali merilo, ki se upošteva pri poizvedbi. Obstajajo primeri, ko ta pridobitev
rezultatov ni preprosta, saj so včasih podatki popolnoma neurejeni, uporabniki pa premalo
razvrščeni. Tukaj potem ločimo zmogljivejše iskalne sisteme (slika 2.2) od običajnih
iskalnikov v namiznem okolju.
Slika 2.2: Diagram iskalnika na ravni podjetja [6]
12
2.3 Soodvisnost
V podjetjih so podatkovne baze pogosto nenadzorovane in neorganizirane, saj rastejo, zato
jih je vse teţje nadzorovati in urejati. Rezultat so pogosto različne nepovezane shrambe, od
katerih vsaka deluje neodvisno. Tukaj pridejo do veljave notranje operativne storitve
(CMIS – Content Management Interoperability Services), ki ponujajo povezovanje
nekaterih od teh odlagališč.
CMIS so predlagali vodilni ponudniki rešitev za upravljanje vsebin septembra 2008 in ga
nato predali organizaciji OASIS za širši pregled in morebitno izdajo. Zdaj je v obravnavi v
tehničnem odboru, s ciljem uporabe »spletnih storitev in vmesnikov Web 2.0, da se
omogoči izmenjava informacij in upravljanje vsebin zbirk iz različnih virov. Medtem se
zdi, da nekatere organizacije opuščajo povezljivost svojih zbirk. Namesto tega raje
uporabljajo iskalnik na ravni podjetja. Organizacija AIIM je v raziskavi poudarila, da sam
koncept sistemov ECM še vedno ţivi v 35 % organizacij, medtem ko se bo nekje 9 %
preostalih odločilo uporabili iskanje na ravni podjetja za rešitev tega problema« [28].
Uporabiti ţelimo iskanje in v prvem zadetku dobiti iskan in pričakovan zadetek. Ideja, da
lahko namestimo iskalno orodje v naše podjetje in rešimo teţavo z neurejeno vsebino, je
napačna. Tehnologija ES je v zadnjem času močno napredovala in zagotavlja realne
rezultate pri iskanju. Toda ali to pomeni, da se lahko odpovemo povezovanju podatkovnih
baz in samo iščemo po vseh naenkrat? Odgovor je ne.
Sama vpeljava rešitve ES v podjetje za iskanje po vseh podatkovnih bazah nam ne razreši
problematike ECM. S tako strategijo lahko dobimo učinkovito iskanje, ki bo dajalo neke
povprečne rezultate, vendar za optimalno upravljanje s podatki potrebujemo oba sistema,
ES in ECM, ki ju je treba skrbno uskladiti. Sistemi ECM ne delujejo dobro, če nimajo
ustreznega indeksa in urejenega shranjevanja datotek (pravilen tip, način zapisa vsebine,
ustrezna lokacija in opremljenost z metapodatki). Brez tega bodo neučinkoviti in bomo za
kasnejše urejanje našega skladišča porabili veliko denarja. Torej ECM ali ES? Odgovor je
– oba [28]!
13
3 PREGLED CELOTNE INFRASTRUKTURE IN
DOKUMENTACIJSKIH SISTEMOV V IZBRANEM
FARMACEVTSKEM PODJETJU
3.1 Infrastruktura
Slika 3.1: Infrastruktura dokumentacijskega sistema v farmacevtskem podjetju
Splošna infrastruktura v farmacevtskem podjetju ima za osnovo rešitev EMC
Documentum, na katerega se povezuje aplikacijski streţnik. Uporabniki prek spletnega
odjemalca dostopajo do aplikacijskega streţnika, v katerem so naloţene ustrezne aplikacije
za delo s sistemom. Podatki so fizično shranjeni v arhivskem sistemu Centera, s katerim se
prek Archive services povezuje tudi SAP DMS. Sistem Documentum je povezan tudi z
raznimi mreţnimi deljenimi diski in portalom SharePoint (slika 3.1).
14
3.2 Dokumentacijski sistemi
Tipični dokumentacijski sistemi, s katerimi bi uporabniki radi obvladovali kritično
dokumentacijo GxP, morajo imeti neko platformo (npr. Documentum), na kateri teče
aplikacija za upravljanje z dokumentacijo. Za podporo ţivljenjskega cikla dokumentov pa
je potrebna povezljivost med sistemi. Ker je primarni nedokumentacijski sistem
transakcijski (SAP), potrebujemo za povezljivost procesov in objektov ustrezne vmesnike.
Ti zagotavljajo pretok informacij med transakcijskim in dokumentacijskim sistemom.
Vedno pa obstajajo sistemi, ki še niso vključeni v ţivljenjski cikel izdelka, zato so
obravnavani kot samostojni dokumentacijski sistemi. Za zagotavljanje pravilnih podatkov
v pravem časovnem obdobju pa je ključen ustrezen iskalnik, ki zdruţuje sisteme in
uporabniku v vsakem trenutku ponuja ustrezne podatke glede na zahteve.
3.2.1 Rešitev EMC Documentum
EMC Documentum je celovita programska rešitev za upravljanje vsebin. Omogoča
ustvarjanje in upravljanje vseh vrst podatkov, kot so dokumenti, spletne strani, datoteke
HTML in multimedijske vsebine. Vse to omogoča platforma in moţnost trajnega
shranjevanja podatkov [29]. Platforma EMC Documentum Enterprise Content
Management je druţina izdelkov, ki zagotavljajo ustvarjanje, upravljanje in arhiviranje
vsebin.
Ţivljenjski cikel se začne, ko se vsebina, ki jo avtor ali proces zajame, slika ali ročno
ustvari. Ko so podatki v skladišču EMC Documentum, upravljanje prevzame EMC
Documentum Content Server, ki ponuja osnovne storitve za upravljanje vsebin, kot so
ustvarjanje dokumentacijskih delovnih tokov, upravljanje storitev knjiţnic in varnost.
Naslednja stopnja v ţivljenjskem ciklu je dostava na poljubno število in vrsto medijev,
vključno s tiskanjem, odlaganje na spletne strani ali portal, brezţično napravo ali CD-
ROM. Zadnja stopnja v ţivljenjskem ciklu vsebine vključuje arhiviranje in shranjevanje
[30].
15
EMC Documentum Content Server zdruţuje značilnosti relacijske baze in datotečnega
skladišča in ponuja naslednje funkcionalnosti [31]:
upravlja s shrambo EMC Documentum in omogoča številne funkcije za nadzor
vsebine (objektna baza, različice vsebin, virtualni dokumenti itd.) ter procesov
(delovni tokovi, ţivljenjski cikli itd.);
organizacijam omogoča shranjevanje, upravljanje in objavljanje različnih tipov
vsebin, vključno s HTML in z XML, grafičnimi in multimedijskimi vsebinami ter
drugimi tipi datotek, pa tudi s tradicionalnimi dokumenti, narejenimi z namiznimi
aplikacijami;
standardna globalna shramba in odprta arhitektura omogočata preprosto
povezljivost z drugimi izvori podatkov in vsebinami;
ustreza zahtevam zakonskih predpisov in dobre poslovne prakse;
omogoča industrijsko nadgradnjo za obdelavo terazlogov informacij in na tisoče
sočasnih uporabnikov;
omogoča poslovno analizo in sodelovanje na zaščiteni vsebini za uporabnike zunaj
varnostnega zidu in ne glede na geografsko lokacijo;
ponuja robustno zaščito, ki preprečuje nepooblaščen vstop in hkrati dovoljuje
uporabnikom delo na daljavo;
omogoča shranjevanje vsebine neposredno v shrambo in dinamično objavljanje
odobrenih informacij prek več kanalov.
EMC Documentum Administrator je zmogljivo upravljavsko spletno orodje, ki:
poenostavlja vzdrţevanje globalno razporejene namestitve EMC Documentuma;
omogoča enotno točko vstopa za upravljanje vseh shramb, streţnikov, uporabnikov
in skupin, ne glede na njihovo lokacijo;
omogoča širok razpon nalog za upravljanje z oblikami in s predlogami, z indeksi in
nadzorom sej – vse z ţe znanimi spletnimi pregledovalniki;
omogoča zapisovanje in beleţenje sistemskih dogodkov, kot so dostop do datotek,
brisanje, dejavnosti delovnih tokov, za poročila, analize in namen skladnosti [31].
16
3.2.2 Rešitev za arhiviranje – Centera
Rešitev EMC Centera za shranjevanje podatkov uporablja magnetni trdi disk. Tehnologija
se imenuje WORM (Write Once Read Many). Uporaba običajnih magnetnih trdih diskov
kot medija za shranjevanje podatkov omogoča hiter, varen in neprekinjen dostop do
digitalnih vsebin, kot so skenirani dokumenti, slike, elektronski zapisi in druga
računalniška poročila, e-pošta, dokumenti Microsoft Office in še mnoge druge vrste
podatkov, ki zahtevajo dolgoročno shranjevanje s takojšnjim dostopom.
Centero sestavlja nabor programske opreme in funkcij API, ki nadzorujejo ustvarjanje,
shranjevanje in upravljanje objektov kot končnih podatkov. Sistem EMC Centera ponuja
varno in zanesljivo shranjevanje podatkov, ki izpolnjujejo zakonske zahteve skladnosti
SEC 17a-4, Sarbanes-Oxley, HIPAA [32].
Skladiščne zmogljivosti sistema so od 5,4 TB do več kot 73 TB v eni streţniški omari.
Sistemi za shranjevanje podatkov Centera so narejeni tako, da rastejo eksponentno, kot
naraščajo zahteve za shranjevanje stalnih podatkovnih vsebin. Za večjo potrebo po
prostoru več omar Centera z zmogljivostjo 73 TB sestavimo v eno samo celoto, ki ponuja
več sto terazlogov skladiščnih zmogljivosti v enem bazenu za shranjevanje Centera [33].
3.2.3 Izmenjava datotek
Z uvedbo novega operacijskega sistema Windows 7 se je v podjetjih pojavil problem
iskanja podatkov po deljenih diskih. Podjetja običajno ne uporabljajo imen streţnikov
(\\streznik\share), temveč protokol DFS, kjer ime streţnika skrijejo (\\domena\share).
Windows XP je omogočal, da si je vsak nastavil svoje deljene diske, ki jih je nato
indeksiral. Tako si je vsak uporabnik gradil svojo bazo indeksov. Z uporabniškega vidika
je bila funkcionalnost zelo uporabna in zanimiva, s stališča podjetja pa je obremenjevala
tako omreţne povezave kot tudi diskovne zmogljivosti. Z novejšo različico okolja
Windows se je ta moţnost ukinila. Za iskanje podatkov po mreţnih diskih je zato nujna
vpeljava iskalnika na ravni podjetja [41].
17
3.2.4 Sistem Microsoft Office SharePoint Server 2007
Microsoft Office SharePoint Server 2007 je del sistema Microsoft Office 2007. V
organizaciji ga lahko uporabimo, da omogočimo delo v skupinah, upravljanje vsebine,
izvajanje poslovnih procesov in dostop do informacij, ki so potrebne za doseganje ciljev
organizacije in izvajanje procesov.
Z uporabo predlog spletnega mesta in drugih funkcij sistema Office SharePoint Server
2007 lahko hitro in učinkovito ustvarimo mesta, ki omogočajo objavljanje vsebine,
upravljanje vsebine, upravljanje zapisov in dostop do poslovnih informacij, ki jih
potrebujemo v organizaciji. Ustvarimo lahko na primer mesto za celotno podjetje,
organizacijski portal, mesto spletne prisotnosti ali mesta s posebnim namenom, kot so
skladišče vsebine ali delovni prostori za sestanke. Na teh mestih lahko sodelujemo in si
izmenjujemo informacije s sodelavci v organizaciji ali zunaj nje. Office SharePoint Server
2007 lahko uporabimo tudi za iskanje oseb, dokumentov ali podatkov, ki jih potrebujemo
za podporo poslovnih procesov na podlagi obrazcev in omogočanje dostopa do velike
količine poslovnih podatkov [34].
Office SharePoint Server 2007 lahko med drugim uporabimo za [34]:
učinkovito sodelovanje z drugimi v organizaciji – koledarje lahko na primer
uporabimo, kadar ţelimo videti, kdaj se bodo odvijali dogodki skupine, knjiţnice
dokumentov lahko uporabimo za shranjevanje dokumentov, ki jih uporabljamo v
skupini, oddelku ali celotni organizaciji, v spletnih dnevnikih lahko razpravljamo o
teţavah ali shranimo informacije v enciklopedijah, ki jih upravljajo samo
uporabniki;
ustvarjanje osebnih mest, na katerih lahko upravljamo informacije in jih delimo z
drugimi uporabniki; ustvarimo lahko na primer portal Moje mesto, kjer lahko
vidimo in upravljamo vse dokumente, opravila, povezave, koledarje programa
Microsoft Office Outlook 2007, sodelavce in druge osebne informacije na enem
osrednjem mestu;
18
iskanje oseb, strokovnjakov in podatkov za poslovne programe – na osebnih mestih
uporabnikov lahko na primer poiščemo osebo s posebnimi sposobnostmi, čeprav ne
poznamo njenega imena; poiščemo lahko tudi podatke v zbirki podatkov druţbe ali
v poslovnem programu podjetja, na primer v programu za upravljanje strank
(CRM);
upravljanje dokumentov, zapisov in spletne vsebine – morda je organizacija razvila
proces za umikanje dokumentov, ki jim je po določenem času potekla veljavnost;
objavljanje poročil, seznamov in ključnih kazalnikov učinkovitosti, tako da
poveţemo poslovne programe, na primer SAP ali Siebel, s streţnikom Microsoft
SQL Server 2005.
3.2.5 Sistem Microsoft Office SharePoint Server 2010
Sistem Microsoft Office SharePoint 2010 je poslovni portal za komunikacijo v podjetju.
Lahko ga deklariramo za neke vrste dokumentacijski sistem, vendar z omejenim naborom
funkcionalnosti. Je tudi iskalnik podatkov na portalu podjetja, spletna alternativa omreţnim
diskom, orodje za socialno mreţenje, orodje za poslovno inteligenco, projektno vodenje in
odjemalec za baze podatkov (slika 3.3).
Omenjeni sistem je Microsoftova platforma za spletne rešitve v poslovnem okolju za
avtomatizacijo procesov, ki niso pokriti s posebnimi programskimi rešitvami (predvsem
programi ERP) in pisarniškimi orodji. Microsoft je pri novi različici naredil velik korak
naprej. Osredotočili so se na uporabniški vmesnik kot prvi stik, ki ga imamo uporabniki s
sistemom SharePoint. V povezavi z uporabniškim vmesnikom je treba vsekakor omeniti,
da SharePoint 2010 zdaj podpira vse spletne brskalnike, medtem ko je v preteklosti deloval
le v brskalniku Internet Explorer.
Delo z dokumenti je ena od osnovnih funkcionalnosti portalov in področje, na katerem je
največ pričakovanj uporabnikov. V novi različici je centralno določeno upravljane
hierarhične taksonomije oznak, ki jih predpišejo upravitelji oziroma lastniki vsebin in jih
lahko vsilimo čez celoten portalski streţnik. Sem sodijo tudi metapodatki, ki se lahko
odslej samodejno polnijo, kot so, denimo, informacije EXIF o naloţeni fotografiji ali
19
datumu nastanka dokumentov. Platforma SharePoint je zelo uporabna za hrambo zapisov
(records), kar smo doslej počeli preteţno z bazami podatkov. Ţe na uporabniški ravni je na
voljo več mehanizmov za preverjanje vnesenih podatkov (recimo s šifranti, pogoji itd.). Če
smo v prejšnji različici imeli orodja za dostop do zunanjih virov (baz) podatkov, jih zdaj
lahko v sistemu SharePoint tudi urejamo in shranjujemo nazaj v matično aplikacijo. Sistem
SharePoint je tudi odjemalec za baze podatkov, kjer lahko opravljamo poizvedbe,
dodajamo podatke, polnimo sezame, in to z razvojnimi orodji in z moţnostjo vključitve
platforme Silverlight, pa tudi platforme za izdelavo poljubnih spletnih aplikacij, ki so vpete
v intranetno ali pa internetno okolje, delovnih tokov, sledljivosti in še marsičesa drugega.
Vgrajeni iskalnik je zelo zmogljiv in zna indeksirati ne samo podatke v portalu, temveč
tudi v drugih virih, kot so datotečni streţniki, poštni predali, podatkovne baze, poslovne
aplikacije, izbrane spletne strani. Med glavnimi pomanjkljivostmi predhodnega iskalnika
sta bila pomanjkljiv algoritem za razvrščanje podatkov in predvsem nezmoţnost iskanja
izrazov zgolj po korenu besede. Iskalnik lahko povsem prilagodimo svojim potrebam, tako
na ravni podjetja, skupine ali posameznika [35].
Slika 3.3: Primerjalni diagram MOSS 2010 [7]
20
3.2.6 Modul SAP DMS
Modul SAP Document Management System ponuja široko paleto funkcij za celovito
upravljanje z dokumenti, ki zagotavljajo, da se lahko dokumenti, shranjeni tako v sistemu
SAP kot v zunanjih sistemih, vodijo in upravljajo z enim sistemom. SAP DMS ponuja
enoten vmesnik za upravljanje shranjevanja dokumentov in njihovih opisnih podatkov
skupaj z dejanskimi dokumenti. SAP DMS ne shranjuje dokumentov fizično (shranjeni so
v zunanjem sistemu ali arhivu), ampak samo statuse in pomoţne podatke, njihovo
hierarhijo in njihove dostopne metode [36].
Modul SAP DMS je integriran v sistem SAP. Povezuje dokumentacijsko gradivo z
notranjimi dokumenti in predmeti v sistemu SAP. Modul DMS dostopa do digitalnih
vsebin, shranjenih v sistemu za arhiviranje, z uporabo standardnega vmesnika SAP
ArchiveLink. Druge dokumente in slike, ki so v kateremkoli drugem datotečnem streţniku
zunaj sistema SAP, je mogoče povezati tudi samo z opisnimi podatki o dokumentih.
Podobno tehniko lahko uporabimo tudi za druge aplikacije SAP. Dostop do dokumentov
nadzorujemo z zapletenim sistemom za nadzorovanje dostopa. Ţivljenjske cikle
dokumentov je mogoče upravljati in nadzorovati [37].
Modul za upravljanje dokumentov rešuje zahteve po [37]:
upravljanju različic in statusa dokumentov, delovnega toka, distribucije
dokumentov,
varnostnem shranjevanju brez podvajanj,
zdruţevanju z ERP brez dodatnih vmesnikov,
visokih zmogljivostih kljub veliki mnoţici podatkov,
poenostavitvi timskega dela in notranjega povezovanja,
preprostem povezovanju z drugimi poslovnimi objekti,
avtorizacijah,
upravljanju vseh vrst dokumentov.
21
4 MOŢNOSTI ISKANJA PODATKOV PO RAZLIČNIH
DOKUMENTACIJSKIH SISTEMIH
Različni iskalniki na ravni podjetja imajo različne konektorje za sisteme. Večina ţe
pripravljenih rešitev ţe zajema konektorje za najbolj znane sisteme, vendar pa je velikokrat
treba kupiti dodatno rešitev. Le tako lahko izkoristimo vse moţnosti, ki jih iskalnik ponuja.
Slika 4.1 prikazuje povezavo iskalnika na ravni podjetja s sistemi v farmacevtskem
podjetju prek namenskih konektorjev.
Slika 4.1: Povezava iskalnika ES z obstoječo infrastrukturo dokumentacijskega sistema
v farmacevtskem podjetju
22
4.1 Analiza in namembnost različnih iskalnikov ES
Velika podjetja kopičijo veliko količino podatkov. Ker je upravljanje podatkov velik
strošek, sta urejanje podatkov in dober iskalnik po različnih podatkovnih bazah izjemno
pomembna. Med zmogljivejše iskalnike na ravni podjetja sodijo [38]:
Autonomy
Njihove iskalne tehnologije so zelo posebne. Uporabljajo zmogljive matematične tehnike.
Iskalnik je zmoţen prepoznati pomen iz skoraj vsake digitalne vsebine (tudi zvok in
video).
Coveo
Coveo je na splošno zmogljiv iskalnik, ki delo opravlja hitro, zanesljivo in je preprost za
uporabo. Dodatna prednost je to, da za delovanje ne potrebuje zmogljive infrastrukture.
Iskati zna po praktično vseh vrstah podatkov in vsebin.
Endeca
Endeca uporablja hibridno tehnologijo iskanja – to pomeni, da je kriţanec med poslovno
inteligenco in iskalnikom za podjetja. Zato je koristen tako doma kot tudi za velike
podatkovne baze podjetja.
Funnelback
Funnelback Enterprise Search je programska rešitev, ki je zelo prilagodljiva in nastavljiva.
To je lahko iskanje spletnih strani, intranetnih portalov, baz podatkov, kjer prepozna
različne vrste dokumentov, še posebej Word in PDF (prepoznavanje besedila). Podprta sta
tudi iskanje po ključnih besedah in črkovalnik.
ISYS Search
Tehnologija ponuja odlične ţe vključene funkcionalnosti, to pomeni, da iskalnik omogoča
uporabnikom, da izboljšajo iskanje na različne načine. ISYS avtomatično ustvarja
kategorije, ki se lahko uporabljajo tudi pri iskanju in končnih rezultatih.
23
Memex
Veliko tovrstnih sistemov se uporablja v podjetništvu, javni upravi in vladnih
organizacijah. Tukaj so zahteve glede kakovosti informacij, dostopa, nadzora, skladnosti
itd. večje in stroţje kot pri zasebnih podjetjih. Memex ponuja tudi bogato strokovno znanje
in izkušnje s področja vodenja procesov, ki pomagajo strankam pri uvajanju in
racionalizaciji njihovih sistemov. Pomembna sta tudi prihranek časa in denarja ter boljša
uporaba omejenih virov.
Simplexo
Simplexo ponuja prijetno pragmatično in učinkovito moţnost za iskanje enterprise. V
podjetju je politika, ki predvideva, da bo večina uporabnikov ţelela iskati ţe v aplikaciji.
Ne ţelijo iti na posebno stran za iskanje, da bi dobili informacije, ki jih potrebujejo. Tako
Simplexova rešitev zagotavlja iskalno polje, ki bo vključeno v trenutno aplikacijo in bo
omogočalo, da bo iskanje potekalo od tam.
Zylab
Zylab ima najdaljšo zgodovino med ponudniki iskalnikov na ravni podjetja. Od zgodnjih
osemdesetih let zagotavlja iskalne tehnologije, ki so praktične, nezapletene in se zato
zlahka prilagajajo trgu iskalnikov na ravni podjetja. Danes je Zylab uspešno na poti, da
postane dobavitelj iskalnih rešitev in da bo s tem karseda pospešil rast podjetij. Širina
aplikacij ni posebej velika, vendar bo v nekaterih panogah (pravo, javni organi itd.)
ponudila stroškovno učinkovite rešitve za iskanje.
V naslednjih podpoglavjih bomo natančneje predstavili dva vodilna iskalnika na ravni
podjetja [8] in iskalnik, ki je integriran s sistemom EMC Documentum.
4.1.1 Iskalnik Microsoft FAST
FAST je eno od vodilnih svetovnih orodij za napredno iskanje po velikih shrambah [8].
Zagotavlja varne, ustrezne, točne in pravočasne odgovore, vpogled v iskanje novih
rezultatov, izboljšuje odločanje in reševanje poslovnih problemov.
24
Organizacijam omogoča prilagodljivo iskanje po podatkovnih bazah podjetja. Obenem pa
je tudi informacijska platforma za dostop, namenjena je zagotavljanju takojšnjega dostopa
do informacij. S to hitro kontekstno zmogljivostjo je mogoče zaznati kontekste in namene
poizvedb, iskati izraze in besedne zveze ter vrniti zahtevane rezultate, ki se pojavljajo v
okviru ujemanja besedila. Dobili smo tako izjemno natančne vsebinske rezultate kot tudi
kontekstualno, dinamično navigacijo za nadaljnje raziskovanje povezanih informacij.
Napredno jezikoslovje in relevantnost za upravljanje je mogoče še izboljšati in
poenostaviti.
FAST je zasnovan tako, da omogoča enostaven dostop do razpoloţljivih informacij, pri
čemer upošteva vse pravice uporabnika, ki izvajajo iskanje po različnih virih. Lahko se
vključi v varnostno strukturo organizacije in zagotavlja celovito in varno platformo iskanja
na ravni podjetja, ki se nanaša na varnostna merila na vseh kritičnih ravneh: vsebini,
streţniškem okolju in iskalnih aplikacijah. Omogoča dostop do različnih virov podatkov in
formatov ter različnih nosilcev podatkov. Ti so lahko formalno strukturirani podatki,
shranjeni v podatkovnih bazah, polstrukturirani podatki in nestrukturirani podatki,
shranjeni na spletnih straneh, e-pošta, blogi, dokumenti, predstavitve in podobno.
Izvorno podpira 81 jezikov in več kot 400 oblik raznih dokumentov, ki jih je mogoče
preprosto prilagoditi za obdelavo. Zagotavlja celovit nabor konektorjev za poenostavitev
povezovanja z bazami podatkov, e-poštnimi sistemi in s sistemi za upravljanje vsebin.
Poleg tega se lahko poveţe z informacijami iz različnih virov, recimo iz spletnih
streţnikov. To nam pomaga izkoristiti moč naših obstoječih informacijskih sredstev s
popolno integracijo podjetja.
FAST prinaša najbolj preizkušeno platformo poslovnega iskanja na trgu. Prav tako
zagotavlja eksponentno naraščanje poslovne vrednosti, povezuje svoje uporabnike s
pravimi informacijami, izdelki, storitvami in ljudmi [39].
25
4.1.2 Iskalnik Google GSA
V mnogih pogledih je Google pripravil način iskanja, ki je zelo konkurenčen mnogim
drugim ponudnikom iskalnih tehnologij. Večina nas pričakuje, da bomo vnesli nekaj
ključnih besed v polje in za rezultat dobili seznam virov, razvrščenih po pomembnosti.
V nekaterih organizacijah se bo to res zgodilo, v drugih z zahtevnejšimi potrebami pa bodo
lahko rezultati pod pričakovanji. Vendar če upoštevamo, da lahko celoten sistem GSA
postavimo z nekaj tisoč dolarji, bi bila velika škoda, če ga ne bi preizkusili. GSA je
kombinacija strojne in programske opreme, ki se preprosto vklopi v omreţje.
Googlov iskalnik na ravni podjetja se na prvi pogled zdi preprost, saj se navzven obnaša
kot naprava, ki jo preprosto samo vključimo in deluje (t. i. plug and play). Vendar bo zelo
verjetno zagotavljal uporabne rezultate za mnoge organizacije.
Googlova ponudba je velik napredek in vzpostavlja GSA kot modularno tehnologijo
iskanja, ki prek mreţe vzpostavi zvezno iskanje. Podpora je na voljo za vse, razen najbolj
specializiranih informacijskih virov in varnostnih funkcij. Ko je GSA nameščen, poskrbi
praktično sam zase. Dodatno zmogljivost doseţemo preprosto tako, da med sabo
poveţemo več takih naprav. Sistem je zgrajen modularno, njegova uvedba pa je enostavna.
Iskalnik Google GSA morda ne zna indeksirati vseh objektov in se morda ne znajde vedno
najbolje v zapletenih okoliščinah, v katerih ga uporabljajo velika podjetja, vendar je v
večini primerov edina najbliţja vnaprej pripravljena (t. i. out of the box) rešitev.
Google ima nekaj precej uglednih strank, ki uporabljajo GSA, vključno z BP, s Xeroxom
in Svetovno banko. To so velike postavitve naprav Google GSA [9].
Naprave se lahko poveţejo z drugimi aplikacijami in vračajo rezultate v okviru CRM, s
katerimi je povezana zunanja spletna stran, ali pa preprosto v ţe znanem Googlovem polju
za iskanje. Le vprašanje časa je, kdaj bodo drugi ponudniki tehnologij vključili to
tehnologijo v svoje rešitve. Pričakovati je, da bo Google samo še povečeval svoj deleţ na
trgu velikih iskalnikov.
26
GSA je na voljo v več različicah, ki omogočajo organizacijam dostop do večje mnoţice
informacij. GB-7007 se začne pri 500.000 dokumentih na licenco za iskanje. S povezavo
teh se da izkoristiti še tako velike baze podatkov [38].
4.1.3 Vgrajeni iskalnik Documentum FAST
EMC Documentum je zelo dolgo uporabljal FAST kot vgrajeni iskalnik v svojem sistemu
Documentum. Vendar ga je leta 2008 kupil Microsoft, ki do takrat ni imel konkretne
rešitve na tem področju. Jedro iskalnika je do danes ostalo skoraj nespremenjeno,
Microsoft mu je dodal le nekaj funkcionalnosti, tako da ima originalni iskalnik FAST
podobne značilnosti kot prej opisani Microsoftov iskalnik. EMC se je nato odločil, da
opusti FAST v svojem dokumentacijskem sistemu in razvije svoj iskalnik, ki pa je še v
razvojni fazi [10].
4.2 Primerjava iskalnikov eDiscovery in iskalnika na ravni podjetja
Sistem eDiscovery uporablja poseben proces iskanja, zbiranja in analiziranja informacij, ki
bi lahko v morebitnem ali dejanskem civilnem sodnem postopku veljale za dokazno
gradivo. Časovno je vezan na postopek, kot ga pozna predvsem pravna praksa ZDA.
Vsebine informacijskega sistema lahko vsebujejo informacije, ki jih v predsodnem
postopku katerakoli od vpletenih strani lahko zahteva glede na svoje interese. Ne gre torej
le za domeno ERM, s katerim dokazujemo pravno veljavnost vsebin, hranjenih na ravni
zapisov, temveč za katerekoli informacije – na primer podatke o notranji komunikaciji v
tekstovni, avdio ali video obliki –, ki z elektronskim razkrivanjem pripomorejo k
dokazovanju resnice.
Največja razlika med eDiscovery in ES je, da so pri prvem vsi podatki enako pomembni.
Ne zanima nas neki določen podatek oziroma rezultat. Vsi zadetki so pomembni, saj je
lahko vsak od njih naša mogoča rešitev oziroma sled, recimo pri reševanju v nekem
pravnem postopku.
27
V ZDA je zagotavljanje postopkov za elektronsko razkrivanje dolţnost, njeno
neizpolnjevanje pa je lahko kaznovano na sodišču. Slabo organizirano zagotavljanje zahtev
za elektronsko razkrivanje preprečuje vodstvu polno razumevanje poloţaja oziroma stanja
ob začetku sodnega primera, kar posledično vodi k odločitvam v postopku, ki temeljijo na
nekakovostnih informacijah. Takšno stanje ima lahko različne posledice. Po eni strani
lahko povzroči podraţitev sodnega postopka, po drugi pa je sistem, ki zajema preveč
nepotrebnih informacij, prav tako stroškovno neučinkovit.
Če pride do izbrisa vsebin neskladno s politiko določanja rokov hrambe, je sodišče v
postopku dolţno sklepati, da je izbrisana vsebina vsebovala informacije, ki so v postopku
škodljive za stranko, ki je takšen izbris izvršila.
V podjetju, kjer si skušamo z iskanjem privarčevati čas, takšno iskanje ne pride v
poštev. Zadetki so preveč splošni in s tem neuporabni za končnega uporabnika. Prav zato
je ES veliko primernejši, saj z uporabo filtrov in iskalnim algoritmom uporabnik dobi
veliko uporabnejše zadetke. Prav tako je eDiscovery premalo kompleksen sistem, saj je
obvladovanje dostopov pravic in varnosti teţje kot pri ES [40].
28
5 MERILA ZA IZBIRO ISKALNIKA ES V
FARMACEVTSKEM PODJETJU
Za optimalno izbiro bi bilo treba opraviti analizo vsakega iskalnika posebej, pri čemer bi
uporabili metodologijo vrednotenja po različnih kazalnikih: uporabnost, raznolikost,
točnost, učinkovitost, varnost, okolje (konektorji za sisteme), cena sistema, vzdrţevanje,
ocena ponudnika. Ker pa je takšna analiza preobseţna in časovno potratna in je bila, kot je
razvidno iz nekaterih poročil, ţe opravljena, se za hitrejšo izbiro ustreznega iskalnika lahko
sklicujemo na te različne vire. V njih sta po trenutni oceni glede na ceno, področje,
vzdrţevanje, podporo, panogo in sisteme, ki jih ţelimo indeksirati, najprimernejša Google
GSA in Microsoft FAST.
Microsoft je za postavitev okolja FAST ponudil strojno in programsko opremo ter ustrezno
pomoč pri namestitvi programske opreme. Ves nadzor in druge nastavitve virov, sistema in
dostopov je opravil oddelek IT. Pilotno testiranje Google GSA pa smo izvedli ob pomoči
zunanjega partnerja.
Dejstvo je, da imajo veliki farmacevti (originatorji) orodja ES, teţko pa je pridobiti
podatek o tem iz generičnih podjetij, primerljivih z našim. Zelo verjetno je, da uporabljajo
iskalnik na ravni ECM (Enterprise Content Management), na primer iskanje po
dokumentih samo v Documentumu, mogoče pa je, da uporabljajo tudi globalne rešitve ES.
Skratka, orodja ES obstajajo, njihova učinkovitost pa je odvisna od časa, ki ga je uporabnik
pripravljen vloţiti za doseganje optimalnih rezultatov, in od izbire ponudnika tega orodja.
Orodje ES si lahko predstavljamo kot neki notranji Bing, Yahoo ali Google, le da se
omejuje na vsebino v podjetju (Documentum, SharePoint, intranet, datotečne storitve itd.)
ali pa vključuje tudi zunanje spletne strani, če ga tako nastavimo.
Nekatere rešitve so dokaj preprosto izvedljive, druge pa potrebujejo veliko dela pri
administraciji in prilagajanju. Pregled nad takimi orodji je povzel Gartner (tabela 5.1).
29
Negativno Slabo Obetajoče Pozitivno Odlično
Endeca
Exalead
Fabasoft Mindbreeze
Google GSA
IBM
Isys Search Software
Microsoft FAST
Vivisimo
Tabela 5.1: Gartnerjeva primerjava iskalnikov ES (2011) [8]
5.1 Smiselnost vpeljave – uporabniški vidik
Pred začetkom projekta smo določeni ciljni skupini ključnih uporabnikov iz različnih
organizacijskih enot, enakomerno porazdeljenih po podjetju, zastavili naslednja vprašanja.
1.) Informativno nas zanima, pomen iskanja podatkov na ravni podjetja (majhen
vpliv, srednji, velik) in ali bi omenjena funkcionalnost centralnega iskanja
podatkov vplivala na vaše delo (predvsem ali bi vam koristila).
2.) Ali imate dokumentacijo, ki jo potrebujete za delo, shranjeno na različnih
lokacijah: na deljenih diskih, portalu SharePoint, v sistemu Documentum?
3.) Kakšna je vaša opredelitev glede na spodnjo analizo (kakšne vrste uporabnik bi
bili – tabela 5.2)?
Na podlagi njihovih odgovorov smo nato opravili analize.
30
Tabela 5.2: Pregled različnih vrst iskalcev [11]
Skupaj je v analizi v našem podjetju sodelovalo 10 ljudi z različnih področij. Od tega se je
za zelo aktivne iskalce vsebin (angl. heavy searchers) – 150 ur iskanja letno – opredelilo
šest oseb. Preostali pa smo nekje med srednje aktivnimi (angl. medium searchers; dve
osebi) – 50 ur – in občasnimi iskalci vsebin (angl. light searchers; dve osebi) – 38,7 ure.
5.2 Postavitev testnega sistema
Za POC (proof of concept) smo se glede na razpoloţljive ponujene vire osredotočili na
indeksiranje naslednjih virov:
domača stran,
testni SharePoint 2007 (interni portal Krkanet),
omreţni pomnilnik (omreţni pomnilnik IT),
omreţni pomnilnik (druge organizacije v podjetju),
testni Documentum,
omreţni deljeni disk (lokalni disk, dodeljen uporabnikom za testiranje),
ekstranet.
31
Treba je posebej poudariti, da so bila pri projektu ES upoštevana vsa pravila o dostopnosti
informacij po vlogah in nikoli ni noben uporabnik videl več podatkov, kot mu je to
dodeljeno z ustreznimi avtorizacijami (funkcionalnost ES).
Zanimivost: Včasih je bilo videti dokumente, za katere je uporabnik ocenil, da do njih ne
bi smel imeti dostopa. Analiza je pokazala, da sistem deluje pravilno in da ima uporabnik
za to pravice. Omenjena ugotovitev nazorno pokaţe povezanost področij ES in ECM.
Neurejenost na področju ECM ima lahko kritične posledice na področju ES.
5.2.1 Iskalnik Microsoft FAST
Za vrednotenje iskalnika Microsoft FAST smo na fizičnem streţniku (sliki 5.1, 5.2)
postavili dva virtualna računalnika. V prvem sta bila nameščena Microsoft SharePoint
2010 in baza SQL, v drugem pa Microsoft FAST Server.
Strojne zahteve za streţnik, v katerem teče FAST:
1. minimalne:
• RAM 8 GB,
• 4-jedrna CPE, 2,0 GHz,
• pomnilnik 50 GB;
2. priporočene:
• RAM 16 GB,
• 8-jedrna CPE, 2,0 GHz,
• pomnilnik 1 TB, RAID s 6 enotami.
Postavitev sistema FAST je skalabilna in odvisna od več dejavnikov:
o števila indeksiranih dokumentov in števila vključenih virov,
o števila uporabnikov, ki izvajajo poizvedbe,
o časa osveţevanja vseh podatkov,
o zagotavljanja razpoloţljivosti ipd.
32
Strojna oprema fizičnega streţnika je prikazana na slikah 5.1 in 5.2.
Slika 5.1: Sistemska specifikacija
33
Slika 5.2: Sistemska specifikacija, drugi del
34
5.2.2 Iskalnik Google GSA
Za vrednotenje Google GSA smo na dodatnem fizičnem streţniku postavili dva virtualna
računalnika, dejansko pa smo uporabili le enega za namestitev zunanjih konektorjev za
Documentum in SharePoint 2007. V produkcijskem okolju je priporočljivo v vsak streţnik
namestiti ustrezen konektor. Google GSA je tekel v fizičnem Googlovem streţniku (slika
5.3), ki je bil vključen v ceni. Programska oprema je tekla v okolju Linux. Uporabnik je
imel dostop le do osnovnih nastavitev. Da bi lahko odpravili napake, pa smo Googlu
omogočili povezavo s sistemom GSA.
Slika 5.3: Google GSA [12]
5.2.3 Iskalnik Documentum FAST
Prvotni Documentum FAST imamo trenutno ţe vgrajen v naš dokumentacijski sistem
Documentum. Sicer je EMC opustil ta iskalnik, saj je po prevzemu Microsofta razvil svojo
rešitev, imenovano xPlore [10]. Iskalnik FAST uporabljamo v Documentumu, vendar je za
širšo rabo ţal neuporaben, saj je vključen v obstoječo rešitev EMC Documentum, brez
konektorjev na druge sisteme.
35
6 REZULTATI PRIMERJAVE ISKALNIKOV
Za analizo smo sestavili vprašalnik, ki je predstavljen v prilogi, in ga poslali uporabnikom
(glej prilogo 10.3). Rezultati v poglavju 6.3 so prikazani kot povprečna vrednost ne glede
na organizacijsko enoto (OE). Razdelitev po OE ni smiselna zaradi majhnega števila
vzorcev in velike podobnosti med posameznimi odgovori ne glede na OE.
6.1 Arhitektura postavitve iskalnika
Slika 6.1 prikazuje notranjo strukturo iskalnika FAST.
Slika 6.1: Arhitektura iskalnika FAST [13]
Streţniki FAST imajo naslednje vloge:
obdelujejo in indeksirajo podatke,
izvajajo različne poizvedbe.
36
V velikih podjetjih (nekaj 1000 zaposlenih), kjer imajo veliko podatkov in različne
sisteme, so potrebni dodatni streţniki za zagotavljanje optimalnega odzivnega časa iskanja
podatkov (< 1 s – interne zahteve). Če hočemo zagotoviti zadovoljive rezultate obdelave in
iskanja podatkov, ki se bo za končnega uporabnika odvijalo v nekem realnem času,
potrebujemo veliko resursov, tako pri indeksiranju kot tudi pri poizvedbah. Omenjene
zahteve lahko doseţemo le s postavitvijo dodatnih namenskih streţnikov (Microsoft FAST,
SharePoint, Google GSA).
Slika 6.2: Število streţnikov glede na povečano število indeksov in poizvedb [14]
6.2 Cenovno merilo
Glede na število indeksiranih dokumentov smo se odločili za dva scenarija primerjave cen
sistemov z 10 in s 30 milijoni dokumentov. Dejansko število dokumentov v
farmacevtskem podjetju je seveda mnogo večje. Ţe v uvodnih stavkih naj poudarimo, da je
Microsoftova licenčna politika mnogo kompleksnejša, zato je teţko izluščiti vse stroške, ki
bi nastali pri uvedbi.
37
Omenjena analiza prikazuje dovolj realno stanje za dokaj kredibilne ugotovitve. Analiza
prikazuje stroške, porazdeljene po posameznih letih, čeprav je treba ob nakupu plačati
polno ceno za prva tri leta za oba sistema, pri Microsoftu se nato plačuje le vzdrţevalnina,
medtem ko pri Googlu po treh letih spet plačamo polno ceno sistema (običajna licenčna
politika za velika podjetja).
6.2.1 Licenčna politika postavitve iskalnika Microsoft FAST
Microsoft licencira glede na število uporabnikov iskalnika FAST ter število streţnikov
FAST in SharePoint 2010 (oba sta nujno potrebna). Prvo leto nakupa se plača celoten
znesek dokupa vseh licenc, tukaj je vključena tudi vzdrţevalnina, četrto in vsako naslednje
leto pa se plača le vzdrţevalnina (pribl. 33 % letnega zneska nakupa licenc).
Microsoft za delo s sistemom FAST poleg nakupa streţnikov FAST in SharePoint 2010
ponuja dve moţnosti nakupa uporabniških licenc, in sicer:
nadgraditev s sedanje Core CAL na SharePoint Enterprise CAL (cenejša moţnost),
nadgraditev s sedanje Core CAL na Enterprise CAL (draţja moţnost).
Za vse nadaljnje izračune smo upoštevali prvo (cenejšo) moţnost – SharePoint Enterprise
CAL. Licenca Enterprise CAL vsebuje veliko drugih Microsoftovih izdelkov, ki jih ne
potrebujemo. V analizo nismo vključili morebitne cene dodatnih konektorjev in potrebne
programske ali strojne opreme, diskovja, licenc SQL in drugih licenc, prav tako tudi ne
dodatnega sistema za visoko razpoloţljivost ter stroškov postavitve in vzdrţevanja sistema
(administracije). Zagotavljanje visoke razpoloţljivosti pri Microsoftu ne pomeni velikega
stroška glede na celotno naloţbo (pribl. 5–10 %), saj glavnino cene tvorijo uporabniki
SharePointa, in ne cena streţnikov FAST.
Ugotovitve:
Do obsega 40 milijonov dokumentov zadostujeta po dva streţnika FAST in
SharePoint 2010. Tak sistem zmore med 10 in 15 qps (angl. query per second –
zahtevkov na sekundo). Za več kot 40 milijonov dokumentov je priporočljiv
dodaten streţnik.
38
Za visoko razpoloţljivost sistemov je treba streţnike podvojiti.
Glede frekvence osveţevanja: za 5 milijonov dokumentov (400 KB) je čas
osveţevanja pod 10 urami, se pravi, da izpolnjujemo merilo treh dni.
Velikost indeksa ne vpliva na licence (št. licenc, vrsta licence itd.).
Opozorila so vključena in omogočajo pošiljanje obvestila prednastavljenim
uporabnikom, ko se določena vsebina pojavi v indeksu.
Kar se tiče dodatnih streţnikov, je stvar ţe poznana: obstoječi streţnik SharePoint 2010 se
uporabi za prezentacijski del, dodatni streţnik različice 2010 pa za administracijo.
SharePoint potrebuje še bazo SQL in seveda streţnik Windows, na katerem teče.
Za jezike, ki so podprti, niso potrebna dodatna plačila. Za dodatne konektorje na različne
sisteme je treba zagotoviti dodatne streţnike in dodatno plačljivo programsko opremo.
Prav tako je treba zagotoviti dovolj velike prostorske zmogljivosti za hranjenje in
serviranje indeksa. Vse navedene cene (tabela 6.1) so dobljene iz javnih ponudb v spletu.
Programska oprema Cena
SharePoint 2010 for Internet Sites, Enterprise 32.000–42.000 $
SharePoint 2010 for Internet Sites, Standard 9.000–12.000 $
SharePoint Server 2010 3.500–5.000 $
SharePoint 2010 CAL, Standard (core cal) 72–92 $ za CAL
SharePoint 2010 CAL, Enterprise 63–75 $ za CAL
SharePoint Foundation 2010 zastonj
FAST Search Server for SharePoint 2010 18.000–22.000 $
Enterprise CAL 180–200 $
Tabela 6.1: Cene Microsoftovih licenc [16]
6.2.2 Iskalnik Google GSA
Google GSA licencira glede na število dokumentov, ki jih indeksiramo. Google iskalnik
prodaja kot ţe nastavljeno celovito rešitev, tako uporabniku ni treba dokupiti ničesar (razen
konektorjev ter programske (OS) in strojne opreme (streţniki), ki je potrebna za njihovo
delovanje). Iskalnik je deloma nastavljiv, zato lahko nastavljamo posamezne filtre in s tem
reduciramo število indeksiranih dokumentov.
39
V analizo nismo vključili morebitne cene dodatnih konektorjev, potrebne programske ali
strojne opreme, licenc, prav tako tudi ne dodatnega sistema za visoko razpoloţljivost (HA).
Pri Googlu je cena za HA pribliţno 30 % cene prvega sistema (za 30 milijonov
dokumentov, za 10 milijonov in manj pa 5 %). Za doseganje učinkovitih zadetkov pa je
treba vseskozi imeti popoln nadzor nad viri in iskalnimi pojmi, da se lahko iskalnik
ustrezno prilagaja (administracija).
Google ne pozna t. i. vzdrţevalnine. Na vsake tri leta (ali dve leti, odločitev kupca) se
plača polna cena sistema. Google pa nato vedno dobavi novo škatlo GSA, ne glede na to, v
kakšnem stanju je obstoječa. Tabela 6.2 prikazuje cene sistema Google GSA glede na
število dokumentov, ki jih ţelimo indeksirati. GB7007 omogoča indeksiranje do 10
milijonov dokumentov, medtem ko GB9009 podpira 30 milijonov dokumentov.
TIP Google
3M
10M
30M
GB7007 DOCUMENTS WITH 2YR SUPPORT
AUTHORIZATION REQ
136500 364000 /
EDU GB7007 DOCUMENTS WITH 2YR
SUPPORT AUTHORIZATION REQ
109200 291200 /
GB7007 W/HOT BACK UP UNIT SUP
ALIGNED W/PRIMARY APPLIANCE
18200 18200 /
GB7007 DOCS DISCONNECTED WITH 2YR
SUPPORT AUTHORIZATION REQ
177450 473200 /
GB7007 W/HOT BACKUP DISC SUP
ALIGNED W/PRIMARY APPLIANCE
23660 23660 /
GB7007 DOCUMENTS WITH 3YR SUPPORT
AUTHORIZATION REQ
191100 509600 /
EDU GB7007 DOCUMENTS WITH 3YR
SUPPORT AUTHORIZATION REQ
152880 407680 /
GB7007 W/HOT BACK UP UNIT SUP
ALIGNED W/PRIMARY APPL 3YRS SUP
25480 25480 /
GB7007 DOCS DISCONNECTED WITH 3YR
SUPPORT AUTHORIZATION REQ
248430 662480 /
GB7007 W/HOT BACKUP DISC SUP
ALIGNED W/PRIMARY APPLIANCE
33124 33124 /
GB9009 DOCUMENTS WITH 2YR SUPPORT
AUTHORIZATION REQ
/ / 682500
EDU GB9009 DOCUMENTS WITH 2YR
SUPPORT AUTHORIZATION REQ
/ / 546000
GB9009 W/HOT BACK UP UNIT SUP
ALIGNED W/PRIMARY APPLIANCE
/ / 182000
40
GB9009 DOCS DISCONNECTED WITH 2YR
SUPPORT AUTHORIZATION REQ
/ / 887250
GB9009 W/HOT BACKUP DISC SUP
ALIGNED W/PRIMARY APPLIANCE
/ / 236600
GB9009 DOCUMENTS WITH 3YR SUPPORT
AUTHORIZATION REQ
/ / 955500
EDU GB9009 DOCUMENTS WITH 3YR
SUPPORT AUTHORIZATION REQ
/ / 764400
GB9009 W/HOT BACK UP UNIT SUP
ALIGNED W/PRIMARY APPL 3YRS SUP
/ / 254800
GB9009 DOCS DISCONNECTED WITH 3YR
SUPPORT AUTHORIZATION REQ
/ / 1242150
GB9009 W/HOT BACKUP DISC SUP
ALIGNED W/PRIMARY APPLIANCE
/ / 331240
Tabela 6.2: Cene sistema Google GSA glede na število dokumentov, ki jih bomo
indeksirali [15]
6.2.3 Cenovna analiza
Cenovna analiza je pri vpeljavi velikih iskalnikov zelo pomembna, saj ta vpliva na čas, ki
ga uporabnik porabi za iskanje, in s tem na njegovo učinkovitost ter tudi na celotne stroške
podjetja.
Sledi grafična predstavitev stroškovnih analiz:
TCO (Total Cost of Ownership) po letih – v evrih na leto,
letni stroški,
celotni stroški, porazdeljeni po letih.
Na slikah v nadaljevanju so za analizo upoštevane cene po ceniku. Te vključujejo le cene
licenc (Microsoft), pri Googlu pa tudi ceno strojne opreme za osnovno nastavitev (Google
ES teče na lastni strojni opremi). Google ne licencira glede na število uporabnikov, temveč
glede na število dokumentov.
41
Slika 6.3: Primerjalna analiza osnovnih stroškov
Slika 6.3 prikazuje primerjalno analizo osnovnih stroškov (v evrih, os y) vpeljave iskalnika
ES v podjetje po letih (os x).
Ker je Microsoft FAST licenčno odvisen od števila uporabnikov (iskalcev vsebine), smo
zanj pripravili in analizirali dva scenarija, in sicer za 1000 (samo izbrani uporabniki v
podjetju) in 6000 uporabnikov (vsi uporabniki, ki imajo dostop do portala SharePoint).
Google GSA pa je odvisen od števila dokumentov, zato smo zanj pripravili analizo treh
moţnosti, in sicer za 3 milijone, 10 milijonov in 30 milijonov dokumentov.
Google ne pozna vzdrţevalnine, zato TCO konstantno raste, medtem ko je pri Microsoftu
na začetku naloţba nekoliko večja, nato pa se ustali (vzdrţevalnina). Pri Microsoft FAST
osnovna nastavitev podpira okoli 40 milijonov dokumentov (upoštevati moramo, da je
treba sem prišteti za Microsoft ceno dodatne programske (OS, baza, SharePoint 2010) in
strojne opreme (diskovje), medtem ko je pri Googlu to ţe v t. i. GSA).
42
Slika 6.4: Osnovni stroški vpeljave in vzdrţevanja
Slika 6.4 prikazuje osnovne stroške, ki bi letno nastali zaradi vpeljave in vzdrţevanja
iskalnika ES.
Kot smo ţe omenili, smo stroške razdelili po letih, dejansko pa se plačujejo prva tri leta
naenkrat (FAST in GSA), potem pa se ta trend nadaljuje le pri Googlu GSA, saj Microsoft
zahteva le vzdrţevalnino (pribl. 33 % začetne cene licence na leto).
Slika 6.5: Stroški po posameznih letih
Slika 6.5 prikazuje porazdelitev stroškov po posameznih letih. Graf nazorno prikazuje
zmanjševanje začetne investicije po letih pri Microsoftu, medtem ko pri Googlu zaradi
licenčne politike ostajajo stroški po letih konstantni. Za osnovo izračuna smo pri
43
Microsoftu tudi tokrat upoštevali 1000 in 6000 uporabnikov, pri Googlu pa število
dokumentov (3 milijone, 10 milijonov, 30 milijonov).
Glede na raziskavo primernosti vpeljave iskalnika ES smo tudi sami naredili analizo ROI
(Return of Investment). Kljub dejstvu, da so se nekatere osebe izkazale za zelo pogoste
iskalce vsebin (angl. heavy searchers), smo za analizo vzeli merilo srednje aktivnih
iskalcev (angl. medium searchers), da zajamemo večji spekter uporabnikov – povprečje.
Preostale vrednosti, potrebne za izračun, so razvidne iz tabele 6.3.
Tabela 6.3: Podatki za analizo uporabnikov [11, 17, 18, 19]
Slika 6.6 prikazuje na skupnem grafu stroške vpeljave iskalnika in stroške prihranitve
sredstev (posledično časa) pri učinkovitem iskanju in najdenju podatkov. Na naslednjih
grafih pa bo natančneje prikazana razlika med obema podatkoma glede na posamezne
skupine uporabnikov iskalnika.
44
Slika 6.6: Povrnjeni stroški naloţbe
Najprej je na sliki 6.6 prikazana analiza ROI za 100, 500 in 1000 srednje aktivnih
uporabnikov (angl. medium searchers). To so uporabniki, ki na leto porabijo okoli 50 ur za
iskanje podatkov po različnih virih, kot so na primer SharePoint 2007, mreţni diski,
produktne strani, ekstranet itd. Glede na analizo jim lahko vpeljava dobrega iskalnika
prihrani 53,4 % časa, da pridejo do ţelenega zadetka. Na tem podatku temeljijo izračuni.
Glede na število aktivnih iskalcev, graf na sliki 6.6 prikazuje plačane licence za 1000 in
6000 uporabnikov rešitve Microsoft FAST, za Google pa število uporabnikov tako ali tako
ni pomembno. Prav tako so na isti sliki prikazani stroški vpeljave iskalnika oziroma cena
licenc.
Poglejmo si še razliko med odhodki in prihodki glede na izbran scenarij (iskalnik, število
plačanih licenc in število dejanskih srednje aktivnih iskalcev vsebine).
45
Slika 6.7: Stroški za 100 srednje aktivnih iskalcev
Slika 6.7 prikazuje analizo stroškov za 100 srednje aktivnih iskalcev vsebine. Negativen
predznak pomeni prihranek sredstev (os y), medtem ko os x prikazuje posamezna leta. Kot
smo ţe večkrat omenili, omenjeni stroški vsebujejo le stroške licenc (Microsoft) in sistema
(Google). Dejansko bi bil prihranek nekoliko manjši. Če graf ne kaţe prihranka, pomeni,
da se nam naloţba za dano število aktivnih iskalcev in uporabnikov nikoli ne povrne (če
plačamo licenco za 1000 oz. 6000 uporabnikov (Microsoft FAST), sistem pa uporablja le
100 uporabnikov).
Slika 6.8: Stroški za 500 srednje aktivnih iskalcev
46
Slika 6.8 prikazuje analizo stroškov za 500 srednje aktivnih iskalcev vsebine od 1000 ali
6000 plačanih licenc (Microsoft FAST). Drugo je enako kot pri sliki 6.7.
Lepo je razvidno, da če povečamo število uporabnikov in optimalno določimo podatke, ki
jih bomo vključili v iskanje, se nam lahko investicija dokaj hitro povrne oziroma je ţe od
samega začetka upravičena.
Slika 6.9: Stroški za 1000 srednje aktivnih iskalcev
Slika 6.9 prikazuje analizo stroškov za 1000 srednje aktivnih iskalcev vsebine od 1000 ali
6000 plačanih licenc (Microsoft FAST). Drugo je enako kot pri sliki 6.7. Tudi tukaj je
razvidno, kako veliki so lahko prihranki (tudi do 400.000 evrov) na leto, če imamo veliko
srednje aktivnih uporabnikov (in smo brez uporabnikov, za katere bi le plačevali licence,
njihova uporaba pa ni smiselna oziroma poslovno upravičena) in indeksirano le vsebino, ki
je nujno potrebna za delo (ne pa indeksiranega kar vsega povprek). Prav slednje pomeni,
da je treba vsebino in iskanja spremljati in jih sistematično urejati (administracija –
dodatna oseba, ki se ukvarja z iskalnikom, vsebino) za večje zadovoljstvo uporabnikov in
učinkovitost iskanja. Seveda se s tem ROI nekoliko zmanjša, vendar brez te investicije
lahko iskalnik kmalu postane le sam sebi namen, saj uporabnik ne bo našel iskane vsebine
dovolj hitro.
47
6.3 Rezultati iskanja strukturiranih in nestrukturiranih podatkov
Sistem (Google GSA, Microsoft FAST) je običajno potreboval manj kot sekundo, da je
prikazal rezultate poljubnih uporabniških poizvedb. Izjemoma se je zgodilo, da je katera
poizvedba trajala tudi 20 sekund (Google GSA), kar je po zagotovilih proizvajalca
posledica osnovne nastavitve konektorja SharePoint (način, kako ta bere avtorizacije).
FUNKCIJA MS FAST Google GSA
1.1 Število uporabnih funkcionalnosti in moţnosti 4.0 3.7
1.2 Preprostost iskanja 3.9 3.9
1.3 Kakšen je grafični vmesnik? 3.8 3.6
1.4 Ali je napredno iskanje (advanced) uporabno in
funkcionalno?
3.1 3.6
2.1 V kolikšni meri so podprti formati datotek? 4.3 4.1
2.2 Ali je zadosti podprtih jezikov? 4.6 4.2
2.3 Ali je iskanje po metapodatkih prek standardne ukazne
vrstice ustrezno in uporabno?
3.6 4.4
3.1 Kako iskalnik prepozna ključne besede? 4.1 3.6
3.2 Črkovalnik, citati, zvezdica (*) 3.9 3.0
3.3 Kako se iskalnik odzove na na novo premaknjene ali
ustvarjene datoteke?
3.8 3.9
3.4 Kako natančen je rezultat? 4.2 3.3
3.5 Ali lahko uporabnik preprosto, hitro sortira in ureja
najdene rezultate?
3.5 3.6
4.1 Kako hitro so najdeni in prikazani rezultati? 4.4 4.5
4.2 OCR (Optical Character Recognition) nad skeniranimi
datotekami pdf
3.7 N. F.
5.1 Ali iskalnik omogoča iskanje po osebnih mapah drugih
uporabnikov?
4.5 3.8
5.2 Ali je preprosto obiti varnostne mehanizme iskalnika? N. P. 2.8
6.4 Ali menite, da bi uvedba takšnega iskalnika koristila
vašemu delu?
5.0 4.9
6.6 Kateri iskalnik (FAST, Google) je po vašem mnenju
boljši, uporabnejši za vaše delo?
2,9 2.8
67,3
(51,4 %)
63,7
(48,6 %)
N. P. = uporabniki niso preizkusili, N. F. = ni funkcionalnosti
Legenda: 5 – dobro, 1 – slabo
Tabela 6.4: Povprečne končne ocene iskalnikov z uporabniškega vidika
48
7 PREDLOG KONČNE ZGRADBE SISTEMA
Glede na vsa ugotovljena dejstva, pridobljena z analizo in primerjavo, ugotavljamo, da sta
si sistema, ki smo ju primerjali, dokaj enakovredna. Pred dejansko odločitvijo za določeni
sistem je treba opraviti še natančno analizo količine podatkov, ki bi jih vključili v
indeksiranje (glej TCO, analizo ROI).
Iskalnik Microsoft FAST:
Ob predpostavki, da ima podjetje 10.000.000 dokumentov in 6000 uporabnikov,
predlagamo dva fizična streţnika FAST in dva streţnika SharePoint 2010. Za visoko
razpoloţljivost sistema je treba streţnike podvojiti (slika 7.1).
Slika 7.1: Predlagana zgradba za Microsoft FAST [14]
49
Iskalnik Google GSA:
Ob enaki predpostavki kot pri iskalniku FAST predlagamo en streţnik GSA 7007. Ta je
primeren za indeksiranje do 10 milijonov dokumentov. Za večje količine se uporabi model
9009, ki pa v tem primeru ne pride v poštev. Če iskalnik kritično vpliva na poslovanje
podjetja in je zahtevana visoka razpoloţljivost, priporočamo razporejevalnik poslov ali pa
stikalo DNS, ki ob napaki prenese delovanje iskalnika v drug streţnik (slika 7.2).
Slika 7.2: Predlagana zgradba za Google GSA [20]
7.1 Ureditev podatkov glede na uporabljene sisteme
Ne glede na to, kakšen iskalnik imamo, je treba imeti podatke najprej ustrezno urejene:
glede na zaupnost, kritičnost, celovitost – optimalni zbor sistema, kjer so podatki
shranjeni;
opremiti jih je treba z ustreznimi metapodatki;
karseda zniţati število podvojenih podatkov;
urediti pravice in dostope do posameznih datotek;
upoštevati ustrezen tip dokumentov (npr. iskanje po dokumentu pdf);
premišljeno izbrati vire, ki jih bomo vključili v iskalnik.
Podjetja morajo imeti jasno strategijo upravljanja z vsebino (ECM).
50
7.2 Izbira iskalnika ES
Glede na ugotovitve predlagamo ločena iskalnika za transakcijske in dokumentacijske
sisteme. Seveda z moţnostjo povezave, vendar le zaradi prijaznosti do uporabnika, da
dostopa le do enega iskalnika. Način zapisa in dostop do podatkov se v transakcijskih in
dokumentacijskih sistemih med seboj razlikujeta. Indeksiranje transakcijskega sistema
prek zunanjega konektorja ima lahko negativne posledice za zmogljivost sistema.
Prav tako je pri izbiri pomembno, katere sisteme ţe imamo v podjetju. FAST temelji na
sistemu SharePoint, zato je zelo uporaben, če ţe imamo veliko podatkov na portalu
SharePoint, saj je z njim tesno povezan. Po drugi strani pa je Google GSA samostojen in
preprost iskalnik ES, z moţnostjo vključiti indeksiranje tudi v oblaku (Google Apps).
Ker imata iskalnika različni licenčni politiki, ugotavljamo, da je Google GSA primeren za
izredno hitre postavitve, kjer število dokumentov ne presega treh milijonov. V tem primeru
je cenovno smotrn. Google ne licencira glede na število uporabnikov, zato je primeren
predvsem za organizacije z veliko uporabniki in nekaj milijoni dokumentov. Nasprotno je
Microsoft FAST primeren za veliko število dokumentov, in sicer za nekaj 10 milijonov
dokumentov, saj ima izredno skalabilno zgradbo (dograjujemo le streţnike FAST in
SharePoint). Poleg streţnikov FAST Microsoft zaračunava tudi licence uporabnikov, zato
je primernejši za sisteme z veliko dokumenti in malo uporabniki.
V farmacevtskem podjetju je zaradi preproste uporabe in upravljanja s pravicami
uporabnikov uporaba portala SharePoint v porastu. Na voljo je veliko dokumentov,
medtem ko uporabnikov ni toliko. Odločitev se v podjetju sprejme glede na intenzivna
pogajanja o ceni, saj sta oba sistema sprejemljiva (tabela 7.1).
51
Tabela 7.1: Primerjava iskalnikov na ravni podjetja
FUNKCIONALNOST Microsoft FAST Google GSA
Splošno
Iskanje oseb in drugih podatkov
Hitrost iskanja podatkov (prikaz zadetkov)
Skalabilnost rešitve (glede na št. dokumentov)
Integracija z Windows 7
Filtriranje zadetkov glede na metapodatke
Iskanje po napačno črkovanih besedah
Napredno analiziranje vsebine za izboljšavo
iskanja
Predogled zadetkov
Postavitev iskalnega okna glede na tip
uporabnika
Enostavna postavitev iskalnika
Vsebina in indeks
Hitrost analize in indeksiranja podatkov
Upoštevanje pravic na podatkovnih virih
Konektorji na druge sisteme
Izvajanje poizvedb in prikaz podatkov
Ročno spreminjanje pomembnosti vsebine
Samodejno rangiranje vsebine po pomembnosti
Upravljanje z zadetki (e-pošta, tiskanje,
kopiranje)
Prilagodljivost uporabniškega vmesnika
Ponudnik rešitve
Vzdrţevanje in podpora
Strategija in časovnica (nove funkcionalnosti)
Zanesljivost in stabilnost
Cena in licence
52
8 SKLEP
Za postavitev iskalnika na ravni podjetja smo uporabili le osnovne nastavitve. Zaradi
varnosti (kljub upoštevanju vseh varnostnih politik) nismo uporabili nobenih zaupnih
podatkov, čeprav bi to še nekoliko povečalo zadovoljstvo uporabnikov. Vse nastavitve in
konfiguracije smo izvedli na opremi v podjetju, potekale so pod nadzorom IT-ja.
Pri vseh točkah vprašalnika, ki smo ga uporabili za analizo, se da doseči bistvene
izboljšave z uvedbo nekaterih naprednih funkcionalnosti. Iskalnik z nadgradnjami
omogoča številne funkcionalnosti, ki lahko dodatno optimizirajo procese v podjetju: od
iskanja po slikah formul do učinkovite razpoznave besedila v skeniranih datotekah
(skenirane kot slike – MS FAST).
Na podlagi pridobljenega gradiva, analiz in člankov ocenjujemo, da bi sama vpeljava
iskalnika ES cenovno pomenila dodatnih 30 % celotne triletne naloţbe, kot je navedena v
tem delu. Glede na pridobljene izkušnje pri projektih POC ocenjujemo, da je vpeljava
Google GSA preprostejša in zato časovno krajša (1/3 proti 2/3). Google GSA pa je dosti
bolj zaprt sistem in ne omogoča velikega prilagajanja uporabnikom ali podjetju – v
nasprotju s sistemom MS FAST, ki omogoča nešteto uporabniških dodelav in moţnosti in
se lahko bolje prilagodi poslovnemu procesu. V realnem scenariju je priporočljivo
postopno vključevati vire s predhodnim pregledom vsebin in prečiščevanjem pravic
uporabnikov.
Pri uvajanju obeh iskalnikov smo imeli nekaj večjih in manjših teţav, zato lahko trdimo, da
je projekt vpeljave takega ES vse prej kot preprost, vendar glede na opravljene analize in
informacije, ki smo jih pridobili od uporabnikov, nedvomno potreben.
V diplomskem delu smo skušali predstaviti razseţnosti problematike učinkovitega
upravljanja vsebin v farmacevtskem podjetju. Ugotovili smo, da ima lahko nepoznavanje
področji (ES, ECM, PLM) velike finančne posledice za celotno organizacijo. Prav tako je
pomembno, da ta področja obravnavamo celovito, saj sicer ne moremo učinkovito
povezovati poslovnih procesov.
53
9 LITERATURA
[1] CIMdata. SAP’s New PLM Roadmap »Enabling Product and Service Leadership«
Dostopno na:
http://www.cimdata.com/newsletter/2008/29/July08CIS18.pdf (2008)
[2] Building an ECM Strategy – Alternatives and Decision Points. Dostopno na:
http://www.aiim.org.uk/resources/tk_ecmstrategy_aiim_08.pdf
[3] How an ECM Strategy Supports Information Management. Dostopno na:
http://www.cmswire.com/cms/information-management/how-an-ecm-strategy-
supports-information-management-008478.php
[4] The Technical Case for Case Management – Part 4 – Enterprise Content
Management. Dostopno na: http://www.appian.com (2010)
[5] Access Rights in Enterprise Full-text Search Searching Large Intranets Effectively
Using Virtual Terms. Dostopno na:
http://www.fi.muni.cz/reports/files/2010/FIMU-RS-2010-08.pdf (2010)
[6] Ngenius solution – Enterprise search. Dostopno na:
http://www.ngenioussolutions.com/SharepointFeatures/Enterprise%20Search.aspx
[7] Microsoft SharePoint 2010. Dostopno na: http://sharepoint.microsoft.com
[8] Gartner MarketScope for Enterprise Search. Dostopno na: http://www.gartner.com
[9] Google Search Appliance Customers. Dostopno na:
http://www.google.com/enterprise/search/customers.html
[10] Documentum xPlore, The New »FAST« Search. Dostopno na:
http://wordofpie.com/2010/10/04/documentum-xplore-the-new-fast-search/
54
[11] ROI of the Google Search Appliance: Site Search Deployments. Dostopno na:
http://static.googleusercontent.com/external_content/untrusted_dlcp/www.google.c
om/en//enterprise/pdf/google_roi_sitesearch.pdf
[12] Google GSA. Dostopno na: http://www.google.com/enterprise/search/
[13] FAST ESP Architecture. Dostopno na:
http://blogs.technet.com/b/vedant/archive/2009/03/06/fast-esp-architecture.aspx
[14] Scale-Out with FAST. Dostopno na:
http://msdn.microsoft.com/en-us/library/hh144966.aspx
[15] GlobalNET Services – Authorized information technology schedule pricelist.
Dostopno na: http://ebookbrowse.com/gs-35f-0241l-globalnet-services-gsa-
pricelist-pdf-d53037078
[16] SharePoint 2010 Licensing Part V: SharePoint 2010 Licensing Costs. Dostopno na:
http://stovereffect.com/2010/07/03/sharepoint-2010-licensing-part-v-sharepoint-
2010-licensing-costs/
[17] The High Cost of NotFinding Information - An IDC White Paper. Dostopno na:
http://ejitime.com/materials/IDC%20on%20The%20High%20Cost%20Of%20Not
%20Finding%20Information.pdf
[18] Nielson on Intranet Usability. Dostopno na:
http://www.sparklytrainers.com/blog/archives/2002/11/11/nielson_on_intranet_usa
bility.html
[19] Krka: Letos za malo tovarno novih ljudi. Dostopno na:
http://www.zurnal24.si/krka-letos-za-malo-tovarno-novih-ljudi-clanek-67819
55
[20] Google Search Appliance Overview. Dostopno na:
http://code.google.com/intl/sl-SI/apis/searchappliance/
[21] Wikipedia. Enterprise Content Management. Dostopno na:
http://en.wikipedia.org/wiki/Enterprise_content_management (2010)
[22] What is ECM. Dostopno na:
http://www.aiim.org/What-is-ECM-Enterprise-Content-Management
[23] IBM. Upravljanje vsebin v podjetju. Dostopno na:
http://www-01.ibm.com/software/si/data/content-management/products/
[24] ECM. Dostopno na:
http://www.knowledgelake.com/solutions/technology-solutions/Pages/enterprise-
content-management-ECM-for-sharepoint.aspx (2010)
[25] Enterprise Search – Technical Product Sheet. Dostopno na:
http://www.qsensei.com/static/pdf/q-sensei_es_technical_product_sheet.pdf
[26] SAP Community Network. Deb Gabriel. Enterprise Search. Dostopno na:
http://wiki.sdn.sap.com/wiki/display/BBA/Enterprise+Search (2011)
[27] Swapnil Arvind Paranjpe. Enhanced Value from Enterprise Content Search.
Raziskovalna naloga: CMS_1459295849_application_oriented_search.pdf (2008)
[28] Enterprise Search or Content Management. Dostopno na:
http://www.econtentmag.com/Articles/Column/Info-Insider/Enterprise-Search-or-
Content-Management-66671.htm (2010)
[29] EMC Documentum Platform. Dostopno na:
http://www.emc.com/products/detail/software/documentum-platform.htm (2011)
56
[30] Wikipedia. Documentum. Dostopno na:
http://en.wikipedia.org/wiki/Documentum (2009)
[31] Infotehna. Predstavitvena dokumentacija. Dostopno na:
http://www.infotehna.com/research-development (2009)
[32] Data Archive. What is EMC Centera. Dostopno na:
http://www.emc-centera.com/what-is-emc-centera.htm
[33] Data Archive. About EMC Centera. Dostopno na:
http://www.emc-centera.com/more-about-emc-centera.htm
[34] SharePoint 2007. Dostopno na:
http://www.tronintercenter.com/p-68-sharepoint-2007.aspx
[35] Vladimir Djurdjič. Monitor PRO. Dostopno na:
http://www.monitorpro.si/si/_detajl/?id=41643 (2010)
[36] Creative4u. Sap DMS. Dostopno na:
http://www.creative4u.eu/sap-consulting/sap-document-management.html
[37] Meglič Miran. Primer uporabe SAP DMS rešitve. Dostopno na:
http://www.sap.com/slovenia/about/events/worldtour10/pdf/
Informacije_na_dlani_danes.pdf (2010)
[38] Martin Butler. A Comparison of Enterprise Search Solutions. Raziskovalna naloga:
martinbutlersearchtechnologycomparisonreport.pdf (2009)
[39] Comperio. Microsoft FAST Search for SharePoint. Dostopno na:
http://www.comperiosearch.com/products/fast-search/
57
[40] Key E-Discovery Issues to Consider in 2011. An Osterman Research White Paper.
Osterman Research, Inc., (2011)
[41] DFS. Dostopno na: http://social.msdn.microsoft.com/Forums/en-
US/windowsdesktopsearchhelp/thread/85525c46-1ab5-46e1-a288-e36561a6ffab
58
10 PRILOGE
10.1 Kazalo slik
Slika 2.1: Diagram rešitve ECM ............................................................................................... 7
Slika 2.2: Diagram iskalnika na ravni podjetja ....................................................................... 11
Slika 3.1: Infrastruktura dokumentacijskega sistema v farmacevtskem podjetju .................... 13
Slika 3.3: Primerjalni diagram MOSS 2010 ............................................................................ 19
Slika 4.1: Povezava iskalnika ES z obstoječo infrastrukturo dokumentacijskega sistema v
farmacevtskem podjetju ........................................................................................................... 21
Slika 5.1: Sistemska specifikacija ............................................................................................ 32
Slika 5.2: Sistemska specifikacija, drugi del ............................................................................ 33
Slika 5.3: Google GSA ............................................................................................................ 34
Slika 6.1: Arhitektura iskalnika FAST .................................................................................... 35
Slika 6.2: Število streţnikov glede na povečano število indeksov in poizvedb ...................... 36
Slika 6.5: Stroški po posameznih letih ..................................................................................... 42
Slika 7.1: Predlagana zgradba za Microsoft FAST ................................................................. 48
Slika 7.2: Predlagana zgradba za Google GSA ....................................................................... 49
10.2 Kazalo tabel
Tabela 5.2: Pregled različnih vrst iskalcev .............................................................................. 30
Tabela 6.2: Cene sistema Google GSA glede na število dokumentov, ki jih bomo
indeksirali ................................................................................................................................. 40
Tabela 6.3: Podatki za analizo uporabnikov ........................................................................... 43
Tabela 6.4: Povprečne končne ocene iskalnikov z uporabniškega vidika ............................... 47
Tabela 7.1: Primerjava iskalnikov na ravni podjetja ................................................................ 51
59
10.3 Vprašalnik
IME, PRIIMEK:
OE: SEKTOR:
Na vprašanja odgovorite, prosim, z oceno od 1 (najslabše) do 5 (najboljše).
1. UPORABNOST
1.1. Število uporabnih funkcionalnosti in moţnosti, ki jih iskalnik omogoča?
1 2 3 4 5
1.2. Preprostost iskanja? Koliko korakov je potrebno od vpisa ključne besede do
dejanske končne datoteke ?
1 2 3 4 5
1.3. Kakšen je grafični vmesnik (splošni videz) iskalnika? Je preprost in pregleden?
Kakšne so ikone in njihova postavitev? Ali je videti profesionalno?
1 2 3 4 5
1.4. Ali je napredno iskanje (advanced) uporabno in funkcionalno?
1 2 3 4 5
2. VSESTRANSKOST
2.1. V kolikšni meri so podprti formati datotek, ki jih uporabljate pri svojem delu?
1 2 3 4 5
2.2. Ali je podprtih zadosti jezikov?
1 2 3 4 5
2.3. Ali je iskanje po metapodatkih prek standardne ukazne vrstice (moţnost advanced)
ustrezno in uporabno?
1 2 3 4 5
60
3. NATANČNOST
3.1. Kako iskalnik prepozna ključne besede? Ali loči med ednino in mnoţino? Ali loči
med velikimi in malimi črkami, če je napisana ista ključna beseda (splošno
mnenje)?
1 2 3 4 5
3.2. Ali ima iskalnik vgrajen črkovalnik? Ali prepozna citate? Prepozna zvezdico (npr.:
*beseda)?
1 2 3 4 5
3.3. Kako se iskalnik odzove na na novo premaknjene ali ustvarjene datoteke
(dvojnike)?
1 2 3 4 5
3.4. Kako natančen je rezultat? Je pregleden in uporaben za končnega uporabnika? Ali
ponudi neposredno povezavo do datoteke? Kako preprosto je razbrati zadetek med
številnimi rezultati?
1 2 3 4 5
3.5. Ali lahko uporabnik preprosto, hitro sortira in ureja najdene rezultate? Ali je način
ustrezen?
1 2 3 4 5
4. UČINKOVITOST
4.1. Kako hitro so najdeni in prikazani rezultati?
1 2 3 4 5
4.2. Ali iskalnik prepozna besedilo v skenirani datoteki (OCR)?
1 2 3 4 5
61
5. VARNOST
5.1. Ali iskalnik omogoča iskanje po osebnih mapah drugih uporabnikov? Ali
preprečuje iskanje po drugih virih, glede na pravice uporabnika?
1 2 3 4 5
5.2. Ali je preprosto obiti varnostne mehanizme iskalnika?
1 2 3 4 5
6. DODATNA VPRAŠANJA
6.1. Katere vire bi vi še vključili v iskanje enterprise?
6.2. Vaše ideje za izboljšanje iskalnika:
6.3. Koliko časa na mesec porabite za iskanje?
6.4. Ali menite, da bi uvedba takšnega iskalnika koristila vašemu delu?
6.5. Ali ste za uvedbo iskalnika enterprise v podjetje?
DA NE
Hvala za vaše odgovore.
62
63
64