35
Sasaki – Markupforum 2011 Interna6onalisierung bei XML Felix Sasaki DFKI / Fachhochschule Potsdam W3C deutschösterr. Büro [email protected] Markupforum 2011

Sasaki markupforum2011

Embed Size (px)

Citation preview

Page 1: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Interna6onalisierung  bei  XML  

Felix  Sasaki  DFKI  /  Fachhochschule  Potsdam  

W3C  deutsch-­‐österr.  Büro  [email protected]  Markupforum  2011  

Page 2: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Über  mich  •  Studium  der  Japanologie  und  Linguis6k  in  Deutschland  und  Japan  

•  Disserta6on  im  Bereich  Computerlinguis6k  zu  Webtechnologien  und  mehrsprachigen  Daten  

•  2005-­‐2009:  Arbeit  in  Japan  beim  W3C,  hauptsächlich  in  der  „Interna6onaliza6on  Ac6vity“  

•  Seit  2009:  Professor  an  der  FH  Potsdam  /  Manager  des  W3C  deutsch-­‐österr.  Büro  

•  Seit  Herbst  2010:  Senior  Researcher  am  DFKI  (Deutsches  Forschungszentrum  für  Künstliche  Intelligenz)  

2  

Page 3: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Über  W3C  Büros  

•  Ein  Kontaktpunkt  wenn  man  ...  – W3C  (noch  nicht)  gut  kennt  – Spezifische  Fragen  hat  wie  „Wer  arbeitet  an  Thema  ABC  ...“  

– Neue  Themen  in  Webstandardisierung  einbringen  will  und  sich  fragt  wo  sie  passen  könnten  

•  Biee  sprechen  Sie  uns  an  –  zu  obigen  Themen,  und  sonst  auch  J  

3  

Page 4: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

INTERNATIONALISIERUNG  BEI  XML  –  EINIGE  TRADITIONELLE  THEMEN  

4  

Page 5: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Nutzung  von  Unicode  in  (XML)-­‐Technologien  

5  

Page 6: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Interna6onalisierte  Webadressen  

6  

•  Interna6onalized  Resource  Iden6fier  (IRI)  •  I18N  im  Pfad  einer  Webadresse,  z.B.:  

Page 7: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Spracheniden6fika6on  via  xml:lang  

7  

Sprachtags  wie  “en”,  “en-­‐us”,  “de”,  “ja”,  ...  Für  •  content-­‐negota6on  

Page 8: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Spracheniden6fika6on  via  xml:lang  

8  

Sprachtags  wie  “en”,  “en-­‐us”,  “de”,  “ja”,  ...  Für  •  content-­‐negota6on  •  Sprachspezifisches  Layout  

<span  xml:lang="zh-­‐CN">[雪 zh-­‐CN]</span>  <span  xml:lang="ja">[  雪 ja]</span>  <span  xml:lang="ko">[  雪 ko]</span>  

Page 9: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

NEUE  THEMEN  I:  KULTURSPEZIFISCHES  LAYOUT  AM  BEISPIEL  „JAPANISCH“  

9  

Page 10: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Japanisch  

•  Geschrieben  in  vier  Schreibsystemen  – Kanji  (漢字)  

•  Basiert  auf  chinesischen  ideographischen  Zeichen  – Hiragana  (ひらがな)  

•  Lautschriu  für  japanische  Wörter  

– Katakana  (カタカナ)  •  Lautschriu  für  ausländische  Wörter  

– Romaji  (romaji)  •  Lateinisches  Alphabet  

10  

Page 11: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Neue  Layout-­‐Konzepte:  Beispiel  KIHONHANMEN  

11  

Page 12: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

„Westliches“  Seitenlayout    

12  

•  Zunächst  Festlegung  der  Seitenränder  

•  Dann  Festlegung  des  Druckbereichs  

Page 13: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Japanisches  Seitenlayout    

13  

•  Zunächst  Festlegung  des  KIHONHANMEN  anhand  von  Zeichengröße,  Zeichenzahl,  Spaltenzahl,  Spaltenabstand  

•  Dann  Festlegung  der  Seitenränder  

Page 14: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Hintergrund:  reguläre  Ausmaße  japanischer  Zeichen  

14  

•  Vgl.  Dokument  „Requirements  for  Japanese  Text  Layout“  

hep://www.w3.org/TR/jlreq/  

Page 15: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Neue  Layout-­‐Bestandteile:  Ruby  

15  

•  Annota6onen  zum  Basistext  – Aussprache,  Erklärung,  ...  

•  Darstellung  via  sprachspezifischer  Layoutregeln  

Page 16: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Herausforderung  für  „Single-­‐source  Publishing“  

•  Andere  Inhalte  in  Abhängigkeit  von  der  Layoutrichtung  

   400cm          4          0          0          セ          ン          チ  

16  

Page 17: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Zusammenfassung  zu  kulturspezifischem  Layout  

•  Neue  – Konzepte  (vgl.  KIHONHANMEN)  – Bestandteile  (vgl.  Ruby)  – Sichten  auf  Verfahren  (z.B.  „Single-­‐source  Publishing“)  

=  neue  Terminologie!  •  Wo  kommt  XML?  

17  

Page 18: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Input  und  Output:  „W3C  Japanese  Layout  Task  force“  

•  Teilnehmer:  Experten  der  japanischen  Druckindustrie  +  aus  allen  Layout-­‐relevanten  Arbeitsgruppen  – CSS  – XSL  – SVG  

•  Ähnliche  Gruppen  im  W3C  für  Layout  im  Chinesischen  und  Koreanischen  

•  Einfluss  auch  auf  die  Entwicklung  von  ePub  3.0  

18  

Page 19: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

NEUE  THEMEN  II:  MEHRSPRACHIGKEIT  

19  

Page 20: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Interna6onalisierung:  

•  Basis  (Zeichenkodierung,  Spracheniden6fika6on)  

•  Erweiterungen  hinsichtlich  Darstellung  (interna6onales  Layout)  

•  Erweiterungen  hinsichtlich  Informa6onsverarbeitung:  Mehrsprachigkeit  (mit  automa6schen  Mieeln)  – Automa6sche  Übersetzung,  Zusammenfassung,  Qualitätskontrolle,  ...  

20  

Page 21: Sasaki markupforum2011

Sasaki  –  Markupforum  2011   21  

Was  man  für  Mehrsprachigkeit  im  Web  braucht  

•  Input  von  www.postbank.de  „Ob  Postbank  direkt,  Online-­‐Banking,  Online-­‐Brokerage  oder  myBHW.  Die  häufigsten  Fragen  zu  unseren  Transak6onssystemen  finden  Sie  an  dieser  Stelle.“    

•  Ausgabe  via  Google  translate  “Whether  Postbank  direct,  online  banking,  online  brokerage  or  myBHW.  Frequently  asked  ques6ons  about  our  transac6on  systems  can  be  found  at  this  loca6on.”  

Page 22: Sasaki markupforum2011

Sasaki  –  Markupforum  2011   22  

Lücke  1:  Maschinen  nutzen  keine  Metadaten  in  der  Eingabe  

•  Input  von  www.postbank.de  „Ob  Postbank  direkt,  Online-­‐Banking,  Online-­‐Brokerage  oder  myBHW.  Die  häufigsten  Fragen  zu  unseren  Transak6onssystemen  finden  Sie  an  dieser  Stelle.“    

•  Ausgabe  via  Google  translate  “Whether  Postbank  direct,  online  banking,  online  brokerage  or  myBHW.  Frequently  asked  ques6ons  about  our  transac6on  systems  can  be  found  at  this  loca6on.”  

Feste  Terminology  Sollte  nicht  übersetzt  werden.  Wenn  ein  Autor  diese  Informa6on  markiert  häee,  wäre  das  automa6sche  Tool  besser  

Page 23: Sasaki markupforum2011

Sasaki  –  Markupforum  2011   23  

Lücke  2:  Maschinen  kennen  keine  Prozesse  zur  Datenerzeugung  

•  Input  aus  einer  Datenbank  –  dem  „hidden  web“:  „Ob  <term>Postbank  direkt</term>,  <term>Online-­‐Banking</term>,  <term>Online-­‐Brokerage</term>  …“    

•  Ausgabe  im  Web:  „Ob  <em>Postbank  direkt</em>,  <em>Online-­‐Banking</em>,  <em>Online-­‐Brokerage</em>  …“    

Feste  Terminologie  (=  Metadaten)  …  

 …  wird  verloren  im  Web  L  

Publika6ons-­‐  prozess  

Page 24: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Lücke  3:  keine  eindeu6ge  Iden6fika6on  

•  Von  Metadaten  und  Verarbeitungsprozessen  (vorherige  Folien)  

•  Von  Ressourcen  –  was  ist  z.B.  ein  Lexikon  –  In  maschineller  Übersetzung?  –  In  Lokalisierung?  – Für  den  menschlichen  Leser?  –  ...  

•  Wiederverwendung  und  Kombina6on  von  Ressourcen  wird  behindert  

24  

Page 25: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Wer  kann  diese  Lücken  füllen?  

•  Autoren(systeme)  – Nutzung  von  Terminologie  /  Markierung  von  Übersetzbarkeit  z.B.  in  CMS  

•  Lokalisierer  –  Lokalisierungsworkflows  sensibel  für  Metadaten  (Quelltext-­‐  und  Prozess-­‐bezogen)  machen  

•  „Sprachtechnologie”  Experten  –  Tools  sensibel  machen  für  Metadaten  im  Quelltext  und  im  Prozess  

–  Ressourcen  und  Workflows  klar  beschreiben  

25  

Page 26: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Wie  können  die  Lücken  gefüllt  werden?  

•  Metadaten  standardisieren  •  Metadatennutzung  propagieren  bei  – Erzeugern  von  Inhalten  – Verschiedenen  Gliedern  der  Verarbeitungskeee  

•  Anwendungsszenarien  Community-­‐übergreifend  definieren  

26  

Page 27: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

ZUM  SCHLUSS:  PROJEKTHINTERGRUND  

27  

Page 28: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

EU-­‐Projekt  „Mul6lingual  Web“  

28  

Vgl.  hep://www.mul6lingualweb.eu/    

Page 29: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Hintergrund  •  Teilnehmer  aus  Industrie  und  Akademia  (z.B.  

Computerlinguis6k)  •  Ziel:  Lücken  zwischen  Industrien,  Nutzern  und  Forschern  

schließen  •  Outreach  zu  neuen  Entwicklungen  (z.B.  hinsichtlich  

interna6onalisiertem  Layout)  –  wie  in  dieser  Präsenta6on  J  

•  Mehr  gegenwär6ges  Verständnis  für  Bedürfnisse  von  Nutzern  und  Möglichkeiten  (automa6scher)  Verarbeitung)  

•  Toolentwicklung  –  Beispiel  “I18n  checker”  hep://rishida.net/tools/i18nchecker/    

29  

Page 30: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Teilnehmer  

30  

•  ERCIM/W3C:  coordina6on  •  CNR-­‐ILC  •  Facebook  Ireland  •  The  University  of  Applied  

Sciences  (UAS)  Potsdam  •  Ins6tut  Josef  Stefan  (JSI)  •  Ins6tutul  de  Cercetari  Pentru  

Intelegen6a  Ar6cificiala  (RACAI)  •  The  Language  Technology  Centre  •  Lionbridge  Belgium  •  Microsou  Ireland  •  Opera  Souware  

•  SAP  •  The  Transla6on  Automa6on  User  

Society  (TAUS)  •  Teknillinen  Korkeakoulu  •  University  of  Oviedo  (ILTO)  •  Universidad  Politécnica  de  

Madrid  (UPM)  •  The  Language  Resource  Centre  •  University  of  Economics,  Prague  •  Transware  Ltd  (WeLocalize)  •  XML-­‐INTL  

Page 31: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Workshops  zum  Community-­‐Bildung  

•  Erster  Workshop  26.-­‐27.  Oktober  2010,  Madrid:  „The  Mul6lingual  Web  –  Where  Are  We?“  

•  Zweiter  Workshop  4.-­‐5.  April  2011,  Pisa:  „Content  On  The  Mul6lingual  Web“  

31  

Page 32: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

EU-­‐Projekt  „META-­‐NET“  

•  Enge  Verbindung  zu  „Mul6lingual  Web“  •  Hauptziel:  Langfris6ge  Allianz  für  Sprachtechnologie  in  Europa  bauen  

•  Umfasst  mehr  als  40  teilnehmende  Organisa6onen  aus  30+  Ländern  

•  Wich6g:  Nutzer  von  Sprachtechnologie  involvieren  

32  

Page 33: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

META-­‐NET  

•  Nutzer  und  Sprachtechnologiefirmen  =  in  Europa  ou  KMUs  

•  Ziel  von  META-­‐NET  sind  schnelle  und  flexible  Einheiten  –  wie  Sie  J  

•  Die  EU  hat  entsprechende  Förderprogramme  veröffentlicht  -­‐  vgl.  hep://6nyurl.com/eu-­‐lt-­‐sme      („objec6ve  4.1“)    

33  

Page 34: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

META-­‐NET  

•  Event:  META-­‐FORUM  2011  •  Budapest,  27.-­‐29.  Juni  2011  •  Ziel:  Nutzer  /  Sprachtechnologieentwickler  /  „Entscheider“  zusammenbringen  

•  Ziele  für  die  Sprachtechnologie  in  den  nächsten  10  Jahren  disku6eren  

•  Details  und  bald  Registrierung  unter  hep://www.meta-­‐net.eu/events    

34  

Page 35: Sasaki markupforum2011

Sasaki  –  Markupforum  2011  

Thank  you  for  your  aeen6on!  Vielen  Dank  für  Ihre  Aufmerksamkeit  

ありがとうございました!  

35