19
Nový český slovník pro kontrolu pravopisu LinuxDays 2019 Stanislav Horáček česká skupina kolem LibreOffice The Document Foundation 6. října 2019

Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

  • Upload
    others

  • View
    13

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Nový český slovník pro kontrolu pravopisuLinuxDays 2019

Stanislav Horáček

česká skupina kolem LibreOfficeThe Document Foundation

6. října 2019

Page 2: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Úvod

český slovník pro kontrolu pravopisu

Hunspell

slovník pod licencí GNU GPL

Toto je cesky slovnik pro kontrolu pravopisu zalozeny na ceskem

slovniku pro ispell, verze z 29. 10. 2006, ktery vytvoril Petr Kolar

spolu s desitkami dalsich prispevatelu.

Page 3: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Úvod

český slovník pro kontrolu pravopisu

Hunspell

slovník pod licencí GNU GPL

Toto je cesky slovnik pro kontrolu pravopisu zalozeny na ceskem

slovniku pro ispell, verze z 29. 10. 2006, ktery vytvoril Petr Kolar

spolu s desitkami dalsich prispevatelu.

Page 4: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Úvod

Český tvarotvorný slovník slovní zásoba

• Masarykova univerzita

• únor 2019, licence public domain (= CC0)

• analýza jazykového korpusu

• podstatná jména, přídavná jména, slovesa

• ~60 000 základních tvarů

• github.com/plin/slovnik

Page 5: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Úvod

Slovníková data na Wikidatech rozhraní

• oddělený prostor

• databáze slovní zásoby

• lexémy – tvary, významy, příznaky

• ~3000 základních tvarů

• během roku 2018, licence CC0

• stabilní, univerzální

• www.wikidata.org/wiki/Wikidata:Lexicographical_data/cs

Page 6: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Úvod

Český tvarotvorný slovník

+ slovníková data z Wikidat

= české CC0 slovníky

experimentální!

Page 7: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Úvod

Český tvarotvorný slovník

+ slovníková data z Wikidat

= české CC0 slovníky

experimentální!

Page 8: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vyzkoušet

rozšíření pro LibreOfficeextensions.libreoffice.org/extensions/czech-cc0-dictionaries-ceske-cc0-slovniky

Page 9: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vyzkoušet

doplněk pro software Mozillygitlab.com/strepon/czech-cc0-dictionaries/tree/master/mozilla

Page 10: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vyzkoušet

kontrola na ceskeslovniky.cz

Page 11: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Ukázky

Page 12: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Ukázky

Page 13: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Ukázky

Page 14: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Srovnání úspěšnosti

procentuální podíl slov označených jako chybná

2019.06 2019.08 2019.10 GNU GPL

Dobrodružství9,02 7,40 7,02 2,63

Sherlocka Holmese

Evangelium podle Jana 7,46 5,50 4,91 0,67

LibreOffice Writer:6,00 5,39 4,76 3,33

Praktický průvodce

R.U.R. 16,82 12,49 12,03 8,37

Ústava České republiky 7,89 6,52 6,23 0,90

program LinuxDays 34,05 33,12 32,97 29,10

Page 15: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vylepšit

• doplňování slov na Wikidata

Page 16: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vylepšit

nový lexém na Wikidatechwww.wikidata.org/wiki/Special:NewLexeme

Page 17: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vylepšit

šablony pro různé slovní druhytools.wmflabs.org/lexeme-forms/

Page 18: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vylepšit

• doplňování slov na Wikidata

• import z Tvarotvorného slovníku

• import z Wikislovníku, Wikidat

• vzory do Hunspellu

• nové šablony

• nahlášení ze softwaru

• kampaň pro určité texty

Page 19: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Shrnutí

nový český slovník kontroly pravopisu

• licence CC0

• experimentální

• Tvarotvorný slovník a Wikidata

• budoucnost?

• ceskeslovniky.cz

• gitlab.com/strepon/czech-cc0-dictionaries

[email protected]