Upload
uisk-ff-uk
View
35
Download
2
Embed Size (px)
Citation preview
Projekt Obálkyknih.cz
Jiří Nechvátal
Jihočeská vědecká knihovna v Českých Budějovicích
Jinonické pondělky 09.10. 2017
O projektu obalkyknih.cz
www.obalkyknih.cz
Historie projektu
2008 … vznik díky projektu Moravské zemské knihovny v rámci programu VISK3 za spolupráce s Vědeckou knihovnou v Olomouci
2011 ... projekt spravuje Městská knihovna v Praze
2013 … převod licence k software „databáze Obálkyknih.cz“ na SDRUK
2013 … Jihočeská vědecká knihovna získala práva k dalšímu rozvoji projektu …
O projektu obalkyknih.czAgreguje různé zdroje informací o dokumentech a poskytuje je knihovním a jiným
systémům :
Obálky knih a periodik (uložit obálku je však možno i u speciálních dokumentů – map, hudebnin, CD, DVD aj.)
Obsahy knih a periodik (naskenované obsahy zpřístupněné v podobě PDF souborů) Plné texty obsahů (převedené obsahy na text pomocí technologie OCR a
zpřístupněné pro indexaci knihovním systémem) Anotace (autorské, nakladatelské, ale i uživatelské popisy dokumentů pro snadnější
výběr čtenáři) Komentáře a hodnocení (možnost stažení dostupných komentářů a zároveň i
možnost exportu komentářů z jiných systémů na Obálkyknih.cz a tím zpřístupnění ostatním knihovnám)
Autority (obrazové a jiné materiály napojené na ID autority, např. fotografie osob, GPS souřadnice míst, www odkazy aj.)
Citace (citace podle normy ISO 690 generované z ověřených zdrojů či generované z vlastních dat knihoven)
To všechno v podobě jedné snadno použitelné služby.
O projektu obalkyknih.cz
databáze aktuálně obsahuje 1 540 000 obálek
298 000 obsahů
364 000 anotací
138 000 hodnocených titulů
10 000 komentářů
47 000 fotografií autorit
O projektu
Historie počtu dostupných obálek03. 06. 2011 497.000
15. 09. 2011 601.986
12. 12. 2012 731.880
17. 11. 2013 766.195
29. 10. 2014 902.217
29.09. 2015 1.000.000
19.09. 2016 1.260.000
07.10. 2017 1.539.111
O projektu obalkyknih.czhlavní servery jsou provozovány v Jihočeské vědecké knihovně v Českých
Budějovicích, záložní server je v Moravské zemské knihovně v Brně---------
v případě výpadku jednoho ze serverů mají knihovní systémy možnost přejít během několika vteřin na záložní stroj bez ztráty dostupnosti služeb pro své čtenáře
---------měsíčně hlavní server odbaví průměrně 55 miliónů požadavků, cca. 2 milióny denně,
průměrně 20 dotazů za vteřinu ---------
ve špičkách (9-15:00) odbavují servery 40-80 požadavků za vteřinu---------
denně do databáze je nově nahráno nebo upraveno průměrně 400 dokumentů---------
denní přírůstek dat činí 6 GB, z nich se následně generují náhledy obálek v různých rozlišeních, PDF dokumenty s obsahy a rozpoznává se text pomocí OCR
---------20 Mbit za vteřinu je datový tok ven ze serveru a na server což představuje cca. 85%
všech dat, které projdou internetovým připojením JVK
.
O projektu obalkyknih.cz
13 107
2 2 4 5
13
26
39 4044 42 44
38 3529
26
16 15 13 12 9 70
5
10
15
20
25
30
35
40
45
50
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
počet přístupů za vteřinu
hodiny
Statistika přístupů na server
Přesun serveru obálkyknih.cz z MZK do JVK
29.9.2014 od 22:00 do 00:00
cca. 1 TB dat
JVK převzala projekt kompletně do své správy
Technické řešení
CBVK
MZK
CBVK
INTERNET
Technické řešení – open source
Volně dostupné kódy: https://github.com/cbvk/obalkyknih/wiki
Technické řešení
Dotaz na identifikátor:
ISBN
ISSN
EAN
číslo ČNB
OCLC
vlastní identifikátor
http://cache.obalkyknih.cz/api/books?multi=[{“isbn”:”22978-80-267-0458-4”}]&sigla=CBA001&pretty=1
Technické řešení
CBVK
MZK
CBVK
Obálky a obsahy
Obálky a obsahy periodik
a vícesvazkových děl
Obálky periodik a vícesvazkových děl
Obálky periodik a vícesvazkových děl
Obálky periodik a vícesvazkových děl
Souborný záznam
Ročník 2017, číslo 7
Zvláštní číslo
Svázaný ročník
Obálky periodik a vícesvazkových děl
V API 3.1 je možné dotazování na části monografie/číslo periodika pomocí parametrů:
• part_no – Číslo části v případě monografie (podpole 245n). Číslo vydání v případě periodika. Používá se u monografie i periodika.
• part_name – Název části v případě monografie (podpole 245p). Nepoužívá se u periodika.
• part_year – Rok vydání periodika. Nepoužívá se u monografie.
• part_volume – Ročník vydání periodika. Nepoužívá se u monografie.
• part_note – Textová identifikace části monografie, nebo periodika pro knihovní IS, které nemají výše uvedené informace oddělené.
Obálky periodik a vícesvazkových děl
Na části monografie se dotazuje pomocí kombinace dodatečných parametrů part_no (číslo části MARC21 podpole 245n) + part_name (název části MARC21 podpole 245p). Je povinný pouze jeden z těchto parametrů.
http://cache.obalkyknih.cz/api/books?multi=[{"isbn":"978-80-86964-09-6","nbn":"cnb000154538","oclc":"(OCoLC)311597120","part_no":"část 1"}]
http://cache.obalkyknih.cz/api/books?multi=[{"isbn":"80-7203-268-2","nbn":"cnb000602512","part_name":"díl 1, sv. 1"}]
Obálky periodik a vícesvazkových děl
Na číslo periodika se dotazujeme pomocí kombinace dodatečných parametrů part_no + part_year + part_volume. Je povinná kombinace buďto part_no + part_year, nebo part_no + part_volume, ale doporučuje se dotazovat pomocí všech dostupných identifikátorů
http://cache.obalkyknih.cz/api/books?multi=[{"isbn":"0322-9629","part_year":"2014","part_volume":"51","part_no":„15"}]
http://cache.obalkyknih.cz/api/books?multi=[{"isbn":"0322-9629","part_year":"2014","part_volume":"51","part_no":„Nerozluštěné záhady 20. století"}]
Obálky periodik a vícesvazkových děl
Pokud knihovní IS neobsahuje výše uvedené parametry odděleně, ale obsahuje je v textovépodobě zapsané při katalogizaci, je možné uvádět i tento text/poznámku jako parametr part_note.
"Roč. 51, č. 4, rok 2014" http://cache.obalkyknih.cz/api/cover/?multi={"isbn":"0322-9629","part_note":"Roč. 51, č. 4, rok 2014 "}
nebo "R. 2014, Roč. 51, číslo 4"http://cache.obalkyknih.cz/api/cover/?multi={"isbn":"0322-9629","part_note":"R. 2014, Roč. 51, číslo 4"}
nebo "2014 51 4"http://cache.obalkyknih.cz/api/cover/?multi={"isbn":"0322-9629","part_note":"2014 51 4"}
nebo "[51] číslo 4."http://cache.obalkyknih.cz/api/cover/?multi={"isbn":"0322-9629","part_note":"[51] číslo 4."}
nebo "číslo duben 2014"http://cache.obalkyknih.cz/api/cover/?multi={"isbn":"0322-9629","part_note":"číslo duben 2014"}
nebo … vyzkoušejte sami u sebe a pošlete připomínky
Skenování periodik
obálky, obsahy
Skenování periodik - obálky, obsahy
Skenování periodik - obálky, obsahy
Skenování periodik - obálky, obsahy
750 periodik se skenuje celkem
155 - Národní knihovna ČR146 - Jihočeská vědecká knihovna v Českých Budějovicích 96 - Právnická fakulta – Masarykova univerzita 95 - Knihovna Ústavního soudu 89 - Krajská knihovna Karlovy Vary 45 - Krajská vědecká knihovna Liberec 39 - Moravskoslezská vědecká knihovna v Ostravě 26 - Moravská zemská knihovna 24 - Studijní a vědecká knihovna v Hradci Králové 11 - Univerzita Tomáše Bati ve Zlíně 6 - Pedagogická fakulta – Masarykova univerzita 5 - Univerzitní centrum Telč – Masarykova univerzita 4 - Teologická fakulta Jihočeské univerzity 3 - Archeologický ústav AV ČR 3 - Moravská galerie 2 - Přírodovědecká fakulta – Masarykova univerzita 2 - JABOK - Vyšší odborná škola sociálně ped. a teol.
Náhledy obálek
510 px
Náhledy obálek 510px
Náhledy obálek 510px
Náhledy obálek 510px
Náhledy obálek 510px
Náhledy obálek 510px
Fulltextové prohledávání
obsahů
Fulltextové prohledávání
Fulltextové prohledávání
Fulltextové prohledávání
Fulltextové prohledávání
PDF s obsahem – větší kvalita výstupu
původně se zdrojové obrázky zmenšily na 50%
aktuálne se ukládají PDF se 100% kvalitou
nárůst velikosti souboru na dvojnásobek
PDF s obsahem – větší kvalita výstupu
PDF s obsahem – větší kvalita výstupu
Anotace, komentáře a hodnocení
Anotace, komentáře a hodnocení
Stažení anotací, komentářů a hodnocení do knihovních katalogů
Vytvoření, načtení, update a smazání pomocí API
Tímto způsobem vkládají komentáře a hodnocení pouze registrované knihovny (neobsahuje roboty generované komentáře)
Export komentářů a hodnocení z vašich knihovních systémů na server obalkyknih.cz …
Anotace, komentáře a hodnocení
Každá knihovna vlastní pravidla:
poskytují jen přihlášení uživatelé
1 titul … 1 uživatel … 1 komentář
komentář může uživatel změnit do konce dne, pak již nelze
komentáře se ukládají lokálně a následně se každý den uploadují na jeden z frontend serverů – postará se o distribuci mezi servery
Anotace, komentáře a hodnoceníhttp://cache.obalkyknih.cz/api/books?multi=[{"isbn“:"978-80-86964-09-6"}]
rating_count Počet hodnocení díla čtenářirating_sum Součet bodů hodnocení díla udělených čtenářirating_avg5 Průměrné hodnocení přepočtené na stupnici 0-5rating_avg100 Průměrné hodnocení přepočtené na stupnici 0-100rating_url URL adresa s obrázkem hvězdiček, odpovídající průměru
hodnocení na stupnici 0-5.annotation Anotace („source“ a „html“)reviews Pole s komentáři
------------------------------------------------------------------------------------------created Datum vytvoření ve formátu ISO8601html_text Celý text komentáře (ne HTML !!!)rating Udělené hodnocení na stupnici 1..10library_name Název knihovny, která komentář vytvořilasigla Sigla knihovny, která komentář vytvořilaid Identifikátor záznamu ve zdrojovém informačním systému
Komentáře a hodnocení
Komentáře a hodnocení
Komentáře a hodnocení
Komentáře a hodnocení
přes 5 miliónu hodnocení u cca. 110 tisíc knih
Failover
Failover zajišťuje dostupnost služby obalkyknih.cz je řešen aplikačně - aplikace kontroluje dostupnost primárního
serveru a v případě jeho výpadku přepne stahování ze záložního serveru
API volání:
http://cache1.obalkyknih.cz/api/runtime/alive … JVK
http://cache2.obalkyknih.cz/api/runtime/alive … MZK
v případě dostupnosti vrátí odpověď ALIVE v případě jiné odpovědi, nebo v případě nezodpovězení do 10 s lze
považovat primární server za nedostupný a je potřeba kontaktovat záložní server (po 1 hodině testuje znovu)
Fotografie
autorit
Fotografie autorit
aktuálně ca 47 000 fotografií
Zdroj: WIKIMEDIA
vlastní aplikace
Album representantů všech oborů veřejného života československého
5 400 fotografií osobností – cca. polovina využita
Fotografie autorit
Fotografie autorit
Fotografie autorit
Fotografie autorit
Fotografie autorit
Regionální
osobnosti
Jihočeského
kraje
Fotografie autorit
Citace
CitaceImplementace citací podle normy ČSN ISO 690 1) sklízení bibliografických záznamů ze Souborného katalogu ČR a následným vytvořením citace, uloženy budou výsledky transformace - výsledné citace, které budou poskytovány pomocí API obálkyknih.cz 2) umožnění citování i jiných typů dokumentů, jako např. články, mapy, apod., které server obálkyknih.cz bude generovat dle pravidel na základě zaslaných dat knihovnou
Citace
https://github.com/cbvk/obalkyknih/wiki/ObalkyKnih-koncept-citace-%C4%8CSN-ISO-690
http://cache2.obalkyknih.cz/api/books/?multi=[%7B%22isbn%22:%22978-80-00-04411-8%22%7D]&pretty=1&sigla=CBA001
Citace
Citace
Push API
Push APICílem úkolu je zrychlit načítání (aktualizaci) dostupných informací obohacujících knižní katalogy. Jedná se o podporu urychlení přímo pro implementace knižních katalogů. Push API bude sloužit k proaktivnímu informování ze strany infrastruktury projektu Obálkyknih.cz (front-end serverů, případně back-end serveru) směrem k serverům knižních katalogů, které budou okamžitě na tuto informaci reagovat a budou schopny informace ve svých bázích aktualizovat. Kladný dopad to bude mít i pro vyhledávání ve fulltextech obsahů, poskytovaných projektem
Kramerius
Automatizované sklízení obsahů a obálek ze systému Kramerius
Technické řešení bude realizováno cestou OAI-PMH. V rámci úkolu bude řešeno obohacování datového modelu obalkyknih.cz o URL na fulltext titulu v systému Kramerius navázaný na siglu knihovny (pro možný výběr zdroje). Úloha umožní vytěžování dokumentů pořízených v rámci projektu NDK a dalších projektů (např. krajské digitalizace).
Automatizované sklízení obsahů a obálek ze systému Kramerius
Zdroje dat
Projekt čerpá data z několika zdrojů:
stahování obálek dokumentů od nakladatelů: prvotní zdroj obálek, který byl realizován na základě dohody sdružení SKIP s největšími nakladateli v ČR. Nakladatelé se mohou sami zaregistrovat na stránkách projektu a zpřístupnit svá data. V současnosti tímto způsobem získáváme cca 15 % obálek.
přispívání spolupracujícími knihovnami: projekt provozuje více jak dva roky vlastní program, tzv. skenovací klient (http://www.obalkyknih.cz/obalkyknih-scanner/). V současnosti se jedná o hlavní zdroj dat, který poskytuje cca 60 % obálek a obsahů. JVK skenuje všechny nově nakoupené dokumenty a postupně na server ukládáme i starší fond. Stejně tak postupuje několik dalších knihoven v ČR.
webové rozhraní projektu: na adrese http://www.obalkyknih.cz/upload mohou individuální přispěvatelé zaslat obálky svých dokumentů. Rozhraní nepodporuje posílání obsahů.
spolupracující webové portály. Importy dat přes veřejné nebo individuální XML exporty. Spolupracujeme s portály: zbozi.cz, srovname,cz, ereading.cz, flexibook.cz, cbdb.cz, ....
„sklízení“ rozličných zdrojů dat: individuální importy z jiných systémů.
Zdroje dat
Sklizeň dat z jiných systémů
Vlastní skenování
Skenovací klient
http://obalkyknih.cz/obalkyknih-scanner/
Vylepšení skenovacího klienta
podpora skenování dvojstran, resp. menších formátů monografií
podpora skenování na pozadí (uživatel v průběhu doby
skenování nemůže dnes provádět žádné další úkony)
odesílat sken na pozadí
možnost zastavení procesu skenování kdykoliv v průběhu procesu
skenování vídće autorit u jednoho titulu
Rozšířena podpora skenerů - nová záložka nastavení 'kompatibilita' skenování
Možnost ukládat naskenované obrázky do vlastní složky
Podpora skenování dvojstran
Podpora skenování dvojstran
Urychlení odesílání skenovaných dokumentů na server
Skenování autorit
Statistiky skenování
Skenovacíklient
statistikyvše
Skenovacíklient
statistiky 2017
Webové rozhraní
obalkyknih.cz
statistiky vše
Webové rozhraní
obalkyknih.cz
statistiky 2017
Statistiky skenování
http://servis.obalkyknih.cz/stat/
Statistiky využití serveru
antikvariaty.cz
import cca 55 000 obálek
Vědecká knihovna v Olomouci
import cca 55 000 obálek
Národní technická knihovna
15 000 obálek zahraničních publikací
MLP
říjen 2015 import cca 100 000 anotací
prosinec 2015 import cca- 56 000 hodnocení
Souborný katalog ČR
říjen 2015 import cca 50 000 anotací
„sklízení“ rozličných zdrojů dat: individuální importy z jiných systémů
Nové přírůstky: skenování studenty
8 studentů skenovalo, 2 přinášeli a odnášeli
v rámci odborné praxe bez nároků na odměnu
skenovali 8 dnů po 6ti hodinách denně
celkem naskenovali přes 14 000 stran (obálky,obsahy) u cca. 6000 dokumentů
… cca. 1,5 měsíční přírůstek od všech knihoven v ČR
další přínosy pro JVK ….
Pomožme si sami …
Každá knihovna může přispět …
naskenovat obálky a obsahy svých dokumentů
a uložit je na obalkyknih.cz
!!! Výsledky práce využijí všichni !!!
Stránky projektu
http://www.obalkyknih.cz
https://github.com/cbvk/obalkyknih/wiki
Dotazy
Projekt Obálkyknih.cz
Jiří Nechvátal
Jihočeská vědecká knihovna v Českých Budějovicích
Jinonické pondělky 09.10. 2017
zajímavost na závěr …
Po dobu prezentace server poskytl …
cca. 150 000 obálek a obsahů
Děkuji za pozornost