Upload
jaegar
View
53
Download
0
Embed Size (px)
DESCRIPTION
Kaj početi s korpusom FidaPLUS : Horuk v nove čase. Špela Arhar, Filozofska fakulteta, Amebis [email protected]. Jota, 4. 12. 2006. Zasnova predavanja : referenčni korpusi, FIDA , Nova beseda, FidaPLUS: - o projektu FidaPLUS, - kako do gesla za delo s korpusom, - PowerPoint PPT Presentation
Citation preview
Jota, 4. 12. 2006
Kaj početi s korpusom FidaPLUS:
Horuk v nove čase
Špela Arhar, Filozofska fakulteta, [email protected]
Jota, 4. 12. 2006 2
Zasnova predavanja:
referenčni korpusi,
FIDA, Nova beseda,
FidaPLUS:
- o projektu FidaPLUS,
- kako do gesla za delo s korpusom,
- kaj s FidoPLUS početi.
Jota, 4. 12. 2006 3
Kaj je korpus?
Po določenih kriterijih urejena elektronska zbirka realnih besedil.
Referenčni korpus:
Jota, 4. 12. 2006 4
jezik vsakdanje rabe (pisni / govorni), obsežnost, sodobna besedila, en jezik, široka namenskost.
kakšna je raba jezika tukaj in zdaj
Jota, 4. 12. 2006 5
Recimo:
Kateri pridevniki se najpogosteje pojavljajo s samostalnikom “mati”?
Jota, 4. 12. 2006 6
Jota, 4. 12. 2006 7
Jota, 4. 12. 2006 8
Jota, 4. 12. 2006 9
Odnos referenčni korpus – jezikovni priročniki: 1 Jezikovni priročniki nastajajo na osnovi
korpusnih podatkov: primeri realne jezikovne rabe,
kaj je v resnici tipično v jeziku,
hitra in enostavna obdelava podatkov.
2 Raba korpusa dopolnjuje rabo jezikovnih priročnikov (sodobnejša besedila, možnost preučevanja konteksta, različne možnosti iskanja
informacij ...).
Referenčni korpusi za slovenščino:
Jota, 4. 12. 2006 10
FIDA <http://www.fida.net/>,
Nova beseda <http://bos.zrc-sazu.si/s_beseda.html>,
FidaPLUS <http://www.fidaplus.net/>.
Zgodba o FIDI:
Jota, 4. 12. 2006 11
nastajala med 1997 ter 2000,
Filozofska fakulteta, IJS, DZS, Amebis,
za potrebe slovenistične redakcije Oxfordovega ang-slo slovarja,
financirala DZS ter Amebis -> nikoli v celoti prosto dostopna.
Jota, 4. 12. 2006 12
Jota, 4. 12. 2006 13
Jota, 4. 12. 2006 14
Zgodba o Novi besedi:
Jota, 4. 12. 2006 15
na začetku je bila Beseda,
1999: 3 mio besed, leposlovje,
2005: 162 mio besed, dodani drugi žanri,
Inštitut za slovenski jezik Frana Ramovša ZRC SAZU,
ni lematizirana, ni uravnotežena.
Jota, 4. 12. 2006 16
Jota, 4. 12. 2006 17
Jota, 4. 12. 2006 18
Jota, 4. 12. 2006 19
Radi bi imeli referenčni korpus, ki je : velik,
sodoben,
uravnotežen,
lematiziran,
prosto dostopen,
ima zmogljiv in uporabniku prijazen konkordančnik
ter navodila za uporabo le-tega.
Jota, 4. 12. 2006 20
O gradnji korpusa:
Projekt Financiranje
Časovni okvir
Jezikovni viri za slovenščino.
Ministrstvo za šolstvo in šport, DZS in Amebis.
Gradnja korpusa
Filozofska fakulteta, Amebis, Fakulteta za družbene vede in Inštitut Jožef Stefan.April 2005–december 2006.
Jota, 4. 12. 2006 21
Rezultati projekta (1):
Obseg korpusa
700 mio besed - neuravnotežen
500 mio besed - uravnotežen
Ažurnost besedila, nastala med 1995 in 2006, plus besedila iz korpusa FIDA
Različni tipi pisnega jezika vsakodnevne rabe: časopisi, revije, učbeniki, leposlovje, internetna besedila, besedilni drobiž ...
Jota, 4. 12. 2006 22
Rezultati projekta (2):
Izboljšava lematizacije:
Lematizacija je pripisovanje osnovne (slovarske) oblike besednim oblikam v besedilu.
Jota, 4. 12. 2006 23
Razdvoumljanje lem (je – <biti>/<jesti>; lev - <lev>/<lev>),
večji slovar besednih oblik + ugibanje neznanih lem na osnovi končnic (blablaškega – <blablaški>).
Rezultati projekta (3):
Konkordančnik ASP32
nova statistična orodja za iskanje kolokatorjev (logaritem verjetnosti),
uporabniku prijaznejši vmesnik.
Jota, 4. 12. 2006 24
Rezultati projekta (4):
Prosta dostopnost: brezplačna registracija prek interneta.
Informacije za uporabnike: informacije o korpusu (besedilodajalci, korpusne statistike, o projektu ...),
natisljiv priročnik o delu s korpusom,
uporabniška pomoč.
Jota, 4. 12. 2006 25
prava stvar
Jota, 4. 12. 2006 26
Hočem korpus FidaPLUS!
kdaj kje
december 2006
www.fidaplus.net
VPRAŠ[email protected]
Jota, 4. 12. 2006 27