1. MM-Kodiranje Teksta, Racunarska Preyentacija Teksta

  • Upload
    -

  • View
    97

  • Download
    0

Embed Size (px)

Citation preview

Raunarska reprezentacija teksta Sadraj Nain reprezentovanja teksta u memoriji raunara Standardizacija kodiranja teksta 8-bitni kodni rasporedi Struktura fontova YUSCII raspored Unicode: 16-bitni kodni raspored Ponaanje programa koji koriste Unicode standard Ponaanje programa koji ne koriste Unicode standard

Reprezentacija teksta u memoriji raunara Svako slovo abecede predstavlja se jedinstvenim brojem, npr: a = 97, b = 98, c = 99, d = 100, ... Tekst zauzima susedne memorijske lokacije; u njih se smetaju brojevi koji odgovaraju nizu slova u tekstu.

b r a n k o

98 114 97 110 107 111

Standardizacija kodiranja teksta Da bi tekst predstavljen u jednom raunarskom sistemu bio pravilno interpretiran i u drugim sistemima, neophodno je da se svi sistemi pridravaju istog pravila za mapiranje slova na brojeve

.

...

a 97 b 98 c 99 d 100 e 101 . ...

8-bitni kodni rasporedi Jedno slovo se predstavlja jednim bajtom (8 bita), tj. binarnim brojem sa 8 cifara

Mogue je 28 = 256 kombinacija Mogue je istovremeno predstaviti 256 razliitih slova

ASCII American Standard Code for Information Interchange Najpoznatiji standard za kodiranje znakova Ameriki standard, koji u svojoj mapi od 256 znakova obuhvata: specijalne znake znake interpunkcije slova engleske abecede slova specifina za zapadnoevropske jezike (, , ...) oznake valuta ($, , ...)

Latinina slova specifina za istonoevropske jezike (, , ) ne mogu se predstaviti u tekstu ASCII omoguava reprezentaciju samo tekstova pisanih zapadnoevropskim jezicima

YUSCII

1/3

Raspored koji je nastao na osnovu ASCII-ja Odreeni znaci u ASCII tabeli zamenjeni su specifinim slovima srpske latinice

@ [ \ ] ^ `

64 91 92 93 94 96

64 91 92 93 94 96

{ 123 | 124 } 125 ~ 126

123 124 125 126

YUSCII

2/3

YUSCII nije standard ni meunarodni, niti domai Razmena YUSCII-kodiranog teksta je mogua Prikaz YUSCII-kodiranog teksta nije mogu, jer proizvoai fontova ne poznaju ovaj standard Delimino reenje je prepravka postojeih ASCII-kodiranih fontova, tako da se na mestima znakova [,],{,},@ nalaze ,,,, Ovakve fontove niko izvan ex-YU ne poznaje Kvalitet ovakvih fontova je esto nezadovoljavajui

Izbacivanje zagrada i drugih interpunkcijskih znakova nije dobro reenje

YUSCII

3/3

irilini YUSCII fontovi predstavljanje irilinog teksta nije predvieno ni ASCII, ni YUSCII rasporedom zamena slovnog lika sa kodom 100 (d) irilinim slovnim likom sa stanovita raunarske obrade jednako je loa kao i zamena slovnim likom

Promena pisma u srpskom tekstu (latinica -> irilica) pomou promene fonta (YUSCII latinini -> YUSCII irilini): obezbeuje human-readable tekst uz uslov da se i upotebljeni font prenese na novu lokaciju

ne obezbeuje machine-readable tekst

Standardni 8-bitni rasporedi ISO ISO 8859-1 (Western European) ISO 8859-2 (Central European) ISO 8859-5 (Cyrillic)

Microsoft Code Page 1250 (Central European) Code Page 1251 (Cyrillic) Code Page 1251 (Western)

8-bitni rasporedi i operativni sistemi Windows Microsoft CP 125x

Linux ISO 8859-x

MacOS Mac rasporedi

Microsoft CP 125x CP 1250 Times New Roman CE Arial CE ...

CP 1251 Times New Roman Cyr Arial Cyr ...

CP 1252 Times New Roman Arial ...

Unicode

1/4

8-bitni raspored moe da obuhvati 256 razliitih znakova promena fonta radi promene pisma kod upotrebe 8-bitnih rasporeda nije dovoljno dobro reenje Osnovna ideja Unicode rasporeda upotreba 16 bita (2 bajta) za reprezentaciju slova mogue istovremeno predstaviti 216 = 65536 slova dovoljno za najvei broj postojeih jezika kodiranje ideograma dalekoistonih jezika je pretrpelo kompromise zbog ogranienog mesta

Upotreba ovakvog rasporeda donosi mogunost reprezentacije teksta koji se sastoji iz vie pisama udvostruene memorijske zahteve u odnosu na 8-bitne rasporede

Unicode

2/4

Jedan font sadri vie pisama Tekst koji koristi vie pisama ima konzistentan izgled

Unicode

3/4

Unicode je meunarodni standard: ISO 10646 Ima podrku u savremenim operativnim sistemima Windows NT, 2000, XP Linux MacOS

Ima podrku u savremenim grafikim programima Microsoft Office Adobe InDesign Adobe Photoshop

Unicode

4/4

Savremeni fontovi se prave po Unicode rasporedu Formati fontova koji koriste Unicode TrueType OpenType

Formati fontova koji ne koriste Unicode Type 1 (PostScript)

Programi koji koriste Unicode pismo se bira preko odgovarajueg rasporeda tastature font se ne menja

Programi koji ne koriste Unicode Izborom tastature bira se i jedan od 8-bitnih Microsoft CP rasporeda Mora se izabrati i verzija fonta koja sadri slova po datom rasporedu Na primer Serbian (Latin) raspored tastature Times New Roman CE font Serbian (Cyrillic) raspored tastature Times New Roman Cyr font

Unicode fontovi u ne-Unicode programima Unicode fontovi kao to su Times New Roman, Arial, Courier New, Verdana, itd dostupni su i programima koji ne koriste Unicode Takvi programi vide Unicode fontove kao CP 1252 (Western) fontove Ne-Unicode programi mogu da vide i druge delove Unicode fonta, ali uz posebnu registraciju virtuelnih fontova u okviru operativnog sistemaTimes New Roman CE

Times New Roman Greek

Times New Roman Cyr