25
UNIVERSITI PUTRA MALAYSIA PENGECAMAN TULISAN TANGAN TEKSJAWI MENGGUNAKAN PENGKELAS MULTIARAS KHAIRUDDIN BIN OMAR FSKTM 2000 1

UNIVERSITI PUTRA MALAYSIA PENGECAMAN TULISAN ...psasir.upm.edu.my/id/eprint/9645/1/FSKTM_2000_1_A.pdfFalsafah beliau yang bertajuk "Pengecaman Tulisan Tangan Teks Jawi Menggunakan

  • Upload
    others

  • View
    17

  • Download
    0

Embed Size (px)

Citation preview

  •  

    UNIVERSITI PUTRA MALAYSIA

    PENGECAMAN TULISAN TANGAN TEKSJAWI MENGGUNAKAN PENGKELAS MULTIARAS

    KHAIRUDDIN BIN OMAR

    FSKTM 2000 1

  • PENGECAMAN TULISAN TANGAN TEKS JA WI MENGGUNAKAN PENGKELAS MUL TIARAS

    Oleh

    KHAIRUDDIN BIN OMAR

    Tesis ini dikemukakan sebagai memenuhi keperluan bagi mendapatkan Ijazah Doktor Falsafah di Fakulti Sains Komputer dan Teknologi Maklumat

    Universiti Putra Malaysia April 2000

  • DEDlKASI

    Dengan nama Allah yang Maha Pemurah lagi Maha Mengasihani

    Penulis ingin merakamkan jutaan terima kasih di atas pengorbanan serta jasa

    kedua ibu-bapa yang telah bersusah payah membesarkan penulis sehingga apa yang

    penulis kecapi hari ini. Kedua-dua ibu bapa penulis telahpun kembali ke

    RahmatuLlah. Bapa penulis telah kembali ke RahmatuLlah pada 28 Julai 1 988 di

    Tanah Suci Mekah manakala ibu penulis pada 27 Mac 2000 di Johor Bahru sebelum

    sempat penulis membentangkan tesis ini. Semoga roh mereka berdua dicucuri

    rahmat dan di tempatkan di kalangan orang-orang yang soleh. Jasa mu tetap

    dikenang.

    Dedikasi ini ditujukan kepada isteri, Nor Hashimah binti Abu Bakar, dan

    anak-anak; Khairussyahidah, Khairunnajwa, Khairul Aiman, dan Khairunnur Aqilah,

    adik-adik di Johor Bahru; serta ibu dan bapa mertua di Mentakab, Pahang di atas

    pengorbanan, dorongan, sokongan, dan kesabaran yang diberikan sepanjang

    pengajian ini. Semoga Allah memberikan ganjaran yang setimpal di atas

    pengorl?anan tersebut.

    ii

  • Abstrak tesis yang dikemukakan kepada Senat Universiti Putra Malaysia sebagai memenuhi keperluan untuk ijazah Doktor Falsafah.

    PENGECAMAN TULISAN TANGAN TEKS JA WI MENGGUNAKAN PENGKELAS MUL TIARAS

    Oleh

    KHAIRUDDIN BIN OMAR

    April 2000

    Pengerusi: Ramlan bin Mahmod, Ph.D.

    Fakulti: Sains Komputer dan Teknologi Maklumat

    Pengecaman tulisan tangan teks Jawi adalah satu tugas yang sangat mencabar

    di dalam bidang Pengecaman Aksara Optik (P AO) disebabkan Jawi adalah satu

    tulisan jenis bersambung. Tesis ini mengenegahkan teknik untuk memperbaiki kadar

    pengecaman teks Jawi tulisan tangan. Skema barn yang lebih cekap untuk

    prapemprosesan, penemberengan, penyarian fitur dan pemonnalan aksara, dan

    pengkelasan telah direka untuk memenuhi objektif tersebut. Dntuk prapemprosesan,

    kaedah pembetulan pencongan dan erotan menggunakan kaedah histogram orientasi

    cerunan (HOC) yang asalnya digunakan untuk dokumen Latin telah dimasukkan

    sebagai satu daripada modul prapemprosesan. Satu skema barn untuk

    penemberengan telah diperkenalkan. Ia berasaskan kepada gabungan kaedah unjuran

    profail histogram dan penentuan titik tembereng ubah suai (PIT) membentuk

    kaedah penentuan titik tembereng (PTT). Fitur-fitur disarikan daripada aksara yang

    telah ditemberengkan menggunakan tiga jenis fitur. Fitur-fitur ini ialah struktur,

    fitur Momen Tak-berubah (MTB) dan Taburan Pilrsel Hitam (TPH). Algoritma

    penyingkiran bahagian sekunder aksara Jawi (seperti titik-titik, A" " dan maddah)

    juga telah diperkenalkan supaya dapat mengelakkan daripada salah cam sekunder ini.

    iii

  • Ia perlu dipisahkan terlebih dahulu sebelum melalui proses p'engecaman. Hal ini

    dapat mengurangkan bilangan kelas aksara Jawi daripada 124 kepada 60. Sebanyak

    200 sampel setiap kelas aksara Jawi telah diujikan untuk tujuan pengkelasan. Dua

    aras sistem pengkelasan terdiri daripada Pengkelas Kumpulan berasaskan Ukuran

    Keserupaan (PKUK) dan Pengkelas berganda Genetik-Perambat-balik (PGPB). Di

    aras pertama, PKUK menggunakan fitur struktur dan MTB untuk mengelompokkan

    kesemua aksara. Tujuh jenis primitif diperoleh menggunakan fitur struktur, dan

    proses pengelompokan berdasarkan kepada jenis primitif ini. Fitur MTB digunakan

    untuk mengirakan ukuran keserupaan dan kemudian menentukan kadar pengkelasan

    untuk setiap kumpulan. Setelah kesemua sampel aksara telah dikelompokkan, PGPB

    digunakan untuk mengkelaskan setiap aksara dalam kumpulan masing-masing dan

    dilarikan secara berasingan. Kelas aksara yang terbanyak ialah 14 aksara. Di aras

    kedua, PGPB dilaksanakan dalam dua peringkat iaitu peringkat pembelajaran, dan

    peringkat ujian. Di peringkat pembelajaran, pengkelasan ini menggunakan fitur MTB

    dan TPH, manakala di peringkat ujian pengkelas ini menggunakan maklumat

    tambahan iaitu maklumat yang diperoleh ketika menyingkirkan juzuk sekunder, dan

    di samping fitur MTB serta TPH. Pemecahan masalah ini kepada dua aras telah

    mengurangkan masa pembelajaran yang diambil oleh pengkelas dan beIjaya

    menambah kadar pengecaman. Tesis ini membicarakan secara terperinci setiap

    algoritma dan prestasinya terhadap sampel yang digunakan didalam ujikaji.

    Perbandingan juga dibuat terhadap kaedah pengawalan pemberat PB menggunakan

    pendekatan Sifar, Rawak, serta Rawak Nguyen-Widrow, di samping pendekatan

    ubah suai AG. Prestasi menggunakan AG (ubah suai) memberikan hasil pengkelasan

    yang dijanjikan.

    iv

  • Abstract of thesis presented to the Senate of Universiti Putra Malaysia in fulfilment of the requirements for the degree of Doctor of Philosophy.

    HANDWRITTEN JA WI TEXT RECOGNITION USING MULTILEVEL CLASSIFIER

    By

    KHAlRUDDIN BIN OMAR

    April 2000

    Chairman! Ramlan bin Mahmod, Ph. D.

    Faculty : Computer Science and Information Technology

    Recognizing Jawi handwritten text is a difficult task in the area of optical

    character recognition (OCR) since Jawi is a cursive type language. This thesis deals

    with techniques for improving the recognition rate of a cursive script Jawi text

    recognition system. A new efficient scheme for preprocessing, segmentation,

    features extraction and normalization of characters, and classification has been

    designed and implemented to achieve this objective. For preprocessing, skew and

    slant correction methods using the gradient orientation histogram (GOH) that are

    originaly solved for Latin documents are included as one of the preproccesing

    modules. A new scheme for segmentation is proposed and its based on combinations

    of histogram profile projection and modified Determination of Segmentation Points

    methods to form Determination of Segmentation Points method (DSP). Features are

    extracted from segmented characters using three type of features, these are structure,

    Moment Invariant (MI), and Black Pixel Distribution (BPD). Removal of

    secondaries for Jawi character (such as dots as well as the other secondaries alif and

    maddah) are also introduced to avoid misclassifications due to these secondaries.

    They are separated before the characters are passed to the recognition process. This

    v

  • removal is also reduced the number of classes to be processed from 124 to 60. Two

    hundred samples for each Jawi character classes are tested for classification

    purposes. The two level classification system consist of a group classifier based on

    similarity measure (GCSM) and multi classifier of Genetic Backpropagation

    (GBPC). At the first level, the GCSM used the structured and MI features to cluster

    all the characters. Seven types of primitives are obtained by using structured

    features, and the clustering process is based on these type of primitives. MI features

    are also used to obtain similarity measurement and to determine the classification

    rate for each group. After clustering all the sampels, the GBPC is used to classify all

    the characters within its group and implementation is done separately. The largest

    groups include only 14 characters of classes. At the second level, the GBPC is

    implemented in two steps, these include learning step, and testing step. In learning

    step, the classifier uses the MI and BPD features, while at the testing step, it uses

    the additional information previously recorded about the secondaries, as well as the

    MI and BPD features. By breaking this type of application into two levels of

    classification, the system has shown that the learning time taken was reduced and the

    recognition rate was increased. This thesis dicussed the details of each algorithm and

    its performance on the samples used in the experiment. We also present a

    comparison of several type of weight initializing for training BP such as zero value,

    random, and Nguyen-Widrow, as well as modified GA. The Performance of GA

    (modified) shows the promising results for classifications.

    vt

  • PENGHARGAAN

    Pertamanya penulis ingin mengucapkan syukur kehadrat Allah s.w.t. yang

    telah memberikan kekuatan, kesabaran, dorongan, dan haluan untuk

    menyempurnakan penulisan tesis ini.

    Seterusnya, P\;UUU., !ngin merakamkan setinggi-tinggi penghargaan kepada

    Jawatan Kuasa Penyeliaan yang dipengerusikan oleh Dr. Ramlan bin Mahmod di

    atas bimbingan, tunjuk ajar, motivasi dan nasihat yang amat berguna sepanjang

    penyelidikan ini dijalankan. Penulis juga ingin merakamkan jutaan terima kasih

    kepada ahli Jawatan Kuasa Penyeliaan yang terdiri daripada Dr. Abd Rahman bin

    Ramli dan Dr. Md. Nasir bin Sulaiman di atas segala nasihat, bimbingan, komen dan

    sokongan mereka.

    Di kesempatan ini juga penulis ingin mengucapkan terima kasih kepada

    semua rakan-rakan sepeIjuangan di atas dorongan yang telah diberi, terutamanya

    saudara Zurni, saudari Malathi, abang Ali, abang Rohamat, Shahidan, pensyarah

    pensyarah di Fakulti ini, adik-adik di bilik siswazah seperti Ehsan, Kamaruzzaman,

    Azmi, Kamal, dan ramai lagi seperti Ummu Salmah yang banyak membantu

    persekitaran dan corak pembelajaran di Fakulti ini.

    Tidak lupa juga kepada pihak Penaja iaitu Universiti Kebangsaan Malaysia

    yang telah membiayai segal a perbelanjaan sepanjang pengajian ini. Ini tennasuklah

    pembiayaan ketika penulis membuat lawatan sambi! menjalankan penyelidikan

    pendik di Universiti Loughborough, UK selama 3 bulan 2 minggu pada 23hb.

    vii

  • Februari hingga 6 Jun 1997. Lawatan tersebut telah banyak mempengaruhi hasil

    penyelidikan yang dihasilkan ini. Juga kepada Fakulti Sains Komputer dan

    Teknologi Maklumat yang telah mengizinkan penggunaan segal a kemudahan

    peralatan komputer termasuklah Internet.

    viii

  • Saya mengesahkan bahawa Jawatankuasa Pemeriksa bagi Khairuddin bin Omar telah mengadakan pemeriksaan akhir pada 1 1 April 2000 untuk menilai tesis Doktor Falsafah beliau yang bertajuk "Pengecaman Tulisan Tangan Teks Jawi Menggunakan Pengkelas Multiaras" mengikut Akta Universiti Pertanian Malaysia (Ijazah Lanjutan) 1 980 dan Peraturan-Peraturan Universiti Pertanian Malaysia (Jjazah Lanjutan) 1 98 1 . Jawatankuasa Pemeriksa memperakukan bahawa cal on ini layak dianugerahkan ijazah tersebut. Anggota Jawatankuasa Pemeriksa adalah seperti berikut:

    Hamidah binti Ibrahim, Ph.D. Wakil Dekan Pusat Pengajian Siswazah Universiti Putra Malaysia (Pengerusi)

    Ramlan bin Mahmod, Ph.D. Fakulti Sains Komputer dan Teknologi Maklumat Universiti Putra Malaysia (Ahli)

    Abd. Rahman bin Ramli, Ph.D. Fakulti Kejuruteraan Universiti Putra Malaysia (Ahli)

    Md. Nasir bin Sulaiman, Ph.D. Fakulti Sains Komputer dan Teknologi Maklumat Universiti Putra Malaysia (Ahli)

    . GHAZALI MOHAYIDIN, Ph.D. Pro sor Timbalan Dekan Pusat Pengajian Siswazah Universiti Putra Malaysia

    Tarikh: 0 1 JU N 2DOO

    ix

  • Tesis ini telah diserahkan kepada Senat Universiti Putra Malaysia dan telah diterima sebagai memenuhi keperluan untuk ijazah Doktor Falsafah.

    KAMIS A WANG, Ph.D. Profesor Madya Dekan Pusat Pengajian Siswazah Universiti Putra Malaysia

    Tarikh: 1 3 JUl 2000

  • Saya mengaku bahawa tesis ini adalah hasil kerja saya yang asH melainkan petikan dan sedutan yang telah diberi penghargaan di dalam tesis. Saya juga mengaku bahawa tesis ini tidak dimajukan untuk ijazah-ijazah lain di Universiti Putra Malaysia atau di institusi-institusi lain.

    c-=s� (Khairuddin bin Omar)

    Tarikh: '31. MG 1: �t5lJt}

    xi

  • KANDUNGAN

    MukaSurat

    DEDlKASI........................................................................... ii ABSTRAK........................................................................ . . . iii ABSTRACT ..... . . . . .. . . . .. .. ...... .... .... . . ... ... .. . . . . .. .. ... . .................... v PENGHARGAAN.................................................................. vii �EMBARAN PENGESi\JE(AN................................................... iJ{ PE1l1'r\{ATAAN �AS��..................................................... J{i SENARAI JADU�............................................................... J{vii SENARAI RAJi\JE(. . . . . . . . . . . . . . . ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... J{iJ{ SENARAI NAMA SINGKATAN ................ .............. '" . . . .. . . .. . . . . . . J{J{vi

    BAB

    I PENDAHULUAN .............................. '" ... ...... .... ..... .... 1 Pengenalan. . . .. . . . . . . . .. . . ... . . . . . .. . .. . . . . . . . . .. .. . . . . . . . . . . . . . . . . . . . . . ... 1 Latar Belakang Masalah. .. . .. . . . .. . . .. . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4 Objektif Kaj ian. . . .. . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Sumbangan Kajian. . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . ... 10 Skop Kajian ....... , ....... , . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Struktur Organisasi Tesis.. . .... ...... . . ...... ... . . . .. . . ...... ... . . . . .. . . 13

    II U�ASAN KARyA............................. ...... .... ........... .... 16 Pengenalan ... ...... ..................................................... '" 16 Sejarah Perkembangan PengecamTeks Optik Arab/Jawi............ 16 Ciri-ciri Teks Jawi/Arab......... .......... .. ......... ... ...... ...... .... 23 Keupayaan Satu Sistem PTOA. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . 27 Model Umum PTOA. .. .. .. . . .. .... . . . . . . .. . . . . .. . ........ . .. ....... .. .... 30 Prapemprosesan. . . . . . . . . . . . . .. . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... 31

    Latar Belakang Prapemprosesan. .. ............. ........ .... ... 35 Proses Perduaan (Ambang)............... .. ................... 35 Langkah BersyaratJPenyaman-Penipisan dan Kelicinan... 36

    Penipisan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 37 Pernormalan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Garis Tapak.. .. .. . . . .. . ..... . ....... . . . . . . . .. ........ ...... . .. . . . . 40 Pengesanan Sudut Pencong.. . .. . . . . . . . . . . . . ... .. . . . . . . . ... . .. . . 41

    Penemberengan.. . . .. . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Beberapa Konsep Penting dalam Penemberengan. . . . . . . . ... 43 Pemecahan Halaman.... .. . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . .. . . . . . 44 Penemberengan Perkataan ............. " . .. . . . . . . . . . . .. . . . . . ... 46

    Penyarian Fitur.... .. ... . .. .. ..... . .... . . . .. .......... ....... .. .. . . .. . . . .. . 47 Kaedah-kaedah Pengkelasan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... 49

    Kaedah Sintaktik . ................................... .......... . " 49

    xii

  • Kaedah Statistik. . . . . . . .. . . . . . . . . . .. . .. . . . . . . . . . . . . . . . . . . . . . . . . ... 50 Rangkaian Neural................................................ 52

    Pendekatan Hibrid ...... '" . ... .. . .. .... .. ... .. . .......... .. ..... ...... .... 54 Pembelajaran.. . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . .. . .. . . . . . . . . . .. .. . . . . . . . . .... 56 Pemprosesan Akhir............... ......................................... 57 Contoh Kaedah Penemberengan Aksara Arab......................... 58

    Pendekatan Histogram............... ..................... ....... 58 Penemberengan Baris Teks............................. 58 Penemberengan Perkataan. . . . . . .. . . . . . . . .. .. . .. . . .. . . . . 60 Penemberengan Aksara. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    Berasaskan Jumlah Lajur .... ...... " . . . . . . . . . 62 Berasaskan Pertimbangan Jarak di antara

    Dua Puncak Lampau. . . . . . .. . . . . . . . 62 Pembaikan Lanjutan. . . . .. . . . .. . . . . . . . . . . . . . . . . 63

    Pendekatan Penentuan Titik Tembereng Utama............ 64 Pendekatan Pewarnaan Komponen Terkait................... 68 Pendekatan Penentuan Titik Tembereng....................... 71

    Ciri-ciri dan Keupayaan Sistem PTOA................................. 74 Kesimpulan.. . . .. . . . . .. . . . .. . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74

    III METODOLOGI DAN REKABENTUK PTOJ 78 Pengenalan 78 Struktur Senibina PTOJ ....... ........... .... . . '" ... '" ............ '" '" 81 Modul Prapemprosesan... . . ... . .. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . 82

    SUb-Modul Pengimbas Imej ... ... ...... ...... ... ..... .... ... ... 83 Sub-Modul Penapisan Hingar. . . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . 83 Sub-Modl:I1 Proses Ambang ................. ;.................. 83 Sub-Modul Pengesan dan Pembetulan Pencongan. . . .. . .. .. 83 Sub-Modul Penipisan .... " . " . .. .. . . . . . . . . . . . . . . . . .. . . . . . . . . . ... 83 Sub-Modul Penemberengan.......................... .......... 83

    Modul Pemormalan dan Penyarian Fitur Aksara Jawi...... .... . .. ... 84 Sub-Modul Translasi ..................... '" ...... ... ... .... .... 84 Sub-Modul Penyingkir Juzuk Sekunder. . . . . . . . . . .. . .. . . . .. ... 84 Sub-Modul Penskilan. . . . .. . . . .. . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . ... 84 Sub-Modul Kelicinan . . . ...................................... " 85 Sub-Modul Penyari Fitur Struktur............................ 85 Sub-Modul Penyari Fitur MTB................................. 85 Sub-Modul Penyari Fitur TPH...... .. . ..................... ... 85

    Modul Pengkelasan ...... .... , . .. . ... . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . ... 85 Sub-Modul PKUK .. , ...... " ........................ , . . . . . . . . .... 86 Sub-Modul PGPB................. . . ......... . ...... .... ......... 86 Sub-Modul Aplikasi.. . .. . .. . . . . . . . . . . . . . . . . .. . . . . . .. . . .. .. . .. . .. 86

    Ringkasan. .. .. . .. . . . . . . . . . . . .. . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 86

    IV PRAPEMPROSESAN IMEJ JA WI TULISAN TANGAN...... 87 Pengenalan.................................................................. 87 Keterangan UJlkaJl....................................... . . .. . . . . . . . . . .. ... 88 Pemerolehan Data ............... ' " . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . .. 89 Penyingkiran Hingar - Penapisan Imej Jawi... ...... ............ ...... 89 Proses Ambang ... '" .............. .... ...... .... ..... .. . ... . .... . " . . . . . . . 90

    xiii

  • Pengesan dan Penormalan Pencongan dan Erotan Teks Jawi....... 92 Pembetulan Erotan .......... , ..... , ...................... " . . . . ... 97

    Peruplsan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... 100 Penemberengan atau Pisahan Teks Jawi......... ...... ... ...... ........ 104

    Penemberengan Baris Teks...................................... 106 Penemberengan Perkataan ................ , . . . . . . . . . . . . . . . . . .. . . . 107 Penemberengan Aksara... ... . . . . .. . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Titik Tembereng Berpotensi........... .... ... .......... ......... 114

    Sifat-sifat Titik Tembereng Data Ujian............... 117 Penemberengan Kasus Ke 1............................ 120 Penemberengan Kasus Ke II. . . . . . . . . . . . . . . . . . . . . . . . . . . 122

    Hasil Ujikaji Penemberengan...... ... ... .. . ... ................ 124 Ringkasan................................................................... 127

    V PERNORMALAN DAN PENY ARIAN FITUR AKSARA...... 129 Pengenalan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Skema Pemormalan Aksara Jawi.......... ...... ..... ............ ....... 130 Translasi... ...... .............. ................ ... ............ ...... ......... 131 Penyingkiran Bahagian Sekunder Aksara Jawi...... .................. 132 Penskilan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 140 Kelicinan......... ............ ..................... ............ ...... ... ..... 141

    Hasil Uji Kaji Pemormalan Aksara Jawi............ ... ....... 141 Penyarian Fitur ............... ... . .. .. . . . . . . . .. . . . . . .. . . . . . . . . . . . . .. . .. . . . . 145

    Penyarian Fitur Struktur............... ........................... 147 Penyusoran Kontur....................................... 150 Penghampiran Poligon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 151 Kecembungan Poligon ............... ;.................. 155 HasH Uji Kaji Penyarian Fitur Struktur............... 156

    Penyarian Fitur Momen Tak-Berubah.......................... 160 Penyarian Fitur Taburan Piksel Hitam......................... 162

    Ringkasan ......................................... , ... ...... ................ 168

    VI KAEDAH PENGECAMAN............................................ 168 Pengenalan .... ................. ................ " ............... " .... " ... , 168 Pengkelas Mengikut Kumpulan .................................... , ..... 169

    Ukuran Keserupaan .................... , .. . . .. . .. . . . . . . .. . . . . . . ... 171 Pokok Kata Putus ..... ..... " . . . . . . . . . . . . . . . . . . . . . .. . . .. . . . . . . . . . . . . . . . . . .. 173 RN Perambat-balik (PB) - Pengenalan................................. 175

    Seni Bina RKMA................................................. 176 Fungsi Pengaktifan ........................... " . . . . . . . . . . . . . .. .... 177 Model Latihan PB. .. ... . . . . . . . .. . . . . . . . . . ... . . . . . . . . . . .. . . . . . . . . . 178 Pilihan Pengawalan Pemberat dan Pincang................... 182

    Pengawalan Pemberat Rawak.... .. . ..... ......... ..... 183 Pengawalan Pemberat Rawak Nguyen-Widrow. . ... 184

    Algoritma PB...................................................... 185 Algoritma Latihan ..... , . . . . . . .. . . .. . . . . . . . .. .. . .. . . . . . . . 185 Algoritma Aplikasi. . . . .. ... . .. . . . .. . . . . . . . .. . . .. . .. . . .... 188

    Faktor-faktor yang Mempengaruhi Penumpuan Rangkaian 189 Pengkelasan Berganda bagi RKMA. . . .. . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . 193 Algoritma Genetik: Prinsip dan Fitur Asas.................. . . . . . . . . ... 196

    xiv

  • VII

    VIII

    Penilaian Keupayaan dalam AG.. . . . . . . . . . . .. . . . . . .. . . . . . . . . . . . . . . . . . .... 199 Prinsip dan Fitur Asas........................... ......... ........ 200

    Pengawalan Pemberat melalui Pengoptimuman AG. . . . . . .. . . . . . . . . . . 201 Awalan- Merawakkan VP ................ , ................. , . . . . 203 Pengiraan Nilai Keupayaan.. . .. . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . ... 203 Pilihan - Memilih VP untuk Terus Hidup..................... 206 Pengeluaran Semula- Membina VP Bam dari VP Lama.... 207 Membentuk Set Latihan untuk Aras berikutnya ........... '" 208

    Ringkasan ............. " .. . . . . .. . .. . . .. . . . . .. . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. 208

    PENGECAMAN AKSARA JA WI TULISAN T ANGAN ....... . Pengenalan ........ , .... ......... , .......................................... . Reka Bentuk Pengkelas Aksara Jawi Tulisan Tangan ............... . Pengkelas Peringkat Pertama: Pengkelas Kumpulan ................. . Pengkelas Peringkat Kedua: PB ........................ " ............... . Pengkelas Peringkat Ketiga: Algoritma Aplikasi PB (Ubah Suai) .. Spesifikasi Uji Kaji. ...................................................... . Skema Rangkaian ......................................................... . Parameter-parameter PB ................................................. . Parameter-parameter AG ................................................ . Skema Bam AG .............................................. . ............ .

    Pengeluaran Semula - Membina VP Baru dari VP Lama .. . Implementasi .............................................................. . Hasil UjikaJi .............................................................. .

    Pengkelas Kumpulan .... " . " ................................ . .. . Pengoptimuman Pemberat AG ................................. . Prestasi Rangkaian PB (Fasa Latihan) ......... . .............. .

    Ringkasan ............................................................... ..

    KESIMPULAN DAN PERBINCANGAN .......................... . Pengenalan ................................................................. . Ringkasan Hasil dan Perbincangan .................................... ..

    Modul Prapemprosesan Teks J awi.. .......................... .. SubModul Penemberengan Teks Jawi ........................ . Modul Penyarian Fitur dan Pemormalan Aksara Jawi ...... .. Modul Pengkelasan ............................................ ... .

    Kekangan dan Limitasi ................................................... . Cadangan dan Pembaikan ... " ............ . ............................. .

    210 210 212 216 219 220 230 230 232 232 235 236 239 247 247 250 254 273

    277 277 278 278 279 280 281 284 285

    BIBLIOGRAFI..................................................................... 287 LAMPlRAN 301 A Contoh-contoh Teks Jawi................................................. 305 B-1 Contoh Data Latihan...................................................... 306 B-2 Contoh Data Ujian ........................................................ 308 C-I Matrik Keliru Kumpulan K l ..................... '" ... ... .. . . .. . .... . .. . 310 C-2 Matrik Keliru Kumpulan K2 .... , . .. . .. . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 C-3 Matrik Keliru Kumpulan K3 .................................. " .. . . . . . . . 313 C-4 Matrik Keliru Kumpulan K4............................................. 316 C-5 Matrlk Keliru Kumpulan K5 .................... '" . ... . . . .. . . . . . . . . . . . . . 317 C-6 Matrik Keliru Kumpulan K6............................................. 318

    xv

  • C-7 Matrik Keliru Kwnpulan K7............................................. 3 19

    BIODATA DIRI....... .................. . ...... ...... ......... ...... .. ..... ..... .... 321

    xvi

  • SENARAI JADUAL

    Jadual Muka Surat

    1 Aksara Jawi dalam semua bentuk (bentuk hujung BH, mula BM, tengah BT, dan tunggal BTG) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    2 Ciri-ciri dan Keupayaan beberapa Sistem PTOA . . . . . . . . . . . . . . , 76

    3 Hasil Penemberengan Algoritma Cadangan . . . . . . . . . . . . . , . " . . . . 124

    4 Saiz Keseluruhan Imej Teks Jawi setelah melalui Proses Prapemprosesan . . . . , . . .. . . . . . . . . . " . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 127

    5 Kumpulan Aksara Jawi: Bilangan Primitif . . . . . . . . . . . . . . . . . . . . . . . 158

    6 Kumpulan Aksara Jawi: Penyusunan Semula . . . . . . . . . . . . . . . . . . . 217

    7 Kumpulan Aksara Jawi: Pengkelasan . . . . . . . .. . . . . . . . . . . . . . . . . . . . . 221

    8 Saiz Sub�pengkelas PB . . . . . . . . . . . . . . . " . . . . . . . . .. .. . . . . . . . . . . . , . " . 231

    9 Nilai Jangkaan Kumpulan M{j). 248

    10 Hasil Pengkelasan Kumpulan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

    11 Generasi Penamat bagi Keseluruhan Kumpulan Primitif. . . . . . 251

    12 Set Pemberat AG Kumpulan 1 (aras input-tersembunyi) . . . . . . 252

    13 Set Pemberat AG Kumpulan 1 (aras tersembunyi-output) . . . . . 253

    14 Hasil PB untuk Kurnpulan 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

    15 Hasil PB untuk Kumpulan 2 ................ , . . . . . . . . . . . . . . . . . . . . . . 257

    16 HasH PB untuk Kumpulan 3 .............................. " . . . . . . . 259

    17 Hasil PB untuk Kumpulan 4 ...................................... . 261

    18 HasH PB untuk Kumpulan 5 ...................................... . 263

    19 Hasil PB untuk Kumpulan 6 ...................................... . 265

    20 Hasil PB untuk Kumpulan 7 ...................................... . 267

    xvii

  • 2 1 Kadar Pengecaman setiap kumpulan untuk setiap Kaedah Pengawalan Pemberat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . " . . . . . . .. 272

    xviii

  • Rajah

    1

    2

    3

    SENARAI RAJAH

    Bentuk Lazim Ciri-ciri Aksara Arab/Jawi (a) Bentuk 1: Tindanan Memugak. (b) Bentuk 2 : Ligatur. ( c) Bentuk 3: Berbaris. (d) Bentuk 4: Bersambung pada satu baris ............. .

    Penulisan Jawi adalah berbentuk sarnbung. Satu perkataan Jawi dengan (a) bersarnbung sepenuhnya; (b) separa; (c) tidak bersambung sepenuhnya ................... " . . . . . . . . . .. . . . . . . . .. .. . .. ,

    Terdapat lebih kurang 2 1 aksara Jawi yang mempunyai titik, atau lengkok ................................................... '" . . .. .. .

    4 Juzuk-juzuk sekunder dalarn penulisan Jawi (a) Dua jenis aksara yang sarna gelung tetapi mempunyai bilangan titik yang berbeza; (b) Dua aksara yang sarna bilangan puncaknya tetapi berbeza bilangan titiknya; ( c) garis memugak yang tidak menyentuh gelung; (d) garis memugak yang menyentuh gelung; (e) aksara "�I menyentuh aks'ara " J"; (f) aksara "\" tidak menyentuh aksara " J"; (g) garis condong tidak menyentuh juzuk utama aksara ..:f'dan (h) gaz:is condong menyentuh

    juzuk utarna dalarn aksara £ ...................................... .

    5 Aksara bertindan. (a) Perkataan 'arnal', dibina dari aksara "�", "-- ", dan 'J-- " untuk membentuk ligatur; (b) perkataan 'dan', dibina dari aksara ";, "," \ ", dan ''c)'' membentuk pertindanan memugak dengan "\" di atas ";,"; (c) pertindanan memugak dengan "\" di tengah-tengah

    Muka Surat

    6

    23

    25

    25

    " " 26 � . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................... .

    6 Sifat Saiz dan Ketebalan aksara Jawi. Berbeza-beza dari segi panjang dan tebalnya. (a) perkataan 'hutang', dibina dari

    7

    8

    aksara "---Jo", "r-", "----,", dan "t'; (b) perkataan 'hutang' membentuk lurah senyap, seperti pada tembereng yang

    h b k ak " " d " " meng u ung an sara -" an >- ..................... ....... ..

    Garis Tapak ............................................................. .

    Satu Contoh Sistem PTOA dengan Lima Peringkat Operasi .....

    xix

    26

    26

    30

  • 9

    10

    11

    12

    13

    14

    15

    16

    Penemberengan Baris Teks menggunakan Pendekatan Khella(1992) ........................................................... .

    Satu contoh pemisahan baris oleh kaedah Khella(1992). (a) Hasil daripada empat langkah pertarna. (b) dan (c) hasil daripada langkah 6 .................................................... .

    Satu Contoh Penemberengan Melalui Pendekatan Khella(1992) yang pertarna ........................................... , ...... . . ....... .

    Penemberengan Baris-baris Teks oleh pendekatan RomeoPekker et al.(1995). (a) Mengesan baris tulisan. (b) Kontur bagi perkataan-perkatan yang bertindan ..... , ............ . . ... . . ' "

    Mengesan Garis Tapak ............................................... .

    Penemberengan Aksara oleh pendekatan Romeo-Pekker et al. (1995). (a) Sebelum fasa pembetulan. (b) Selepas fasa pembetulan ............................................................. .

    Penemberengan Aksara oleh pendekatan Romeo-Pekker et al.(1995) menggunakan kaedah kontur sebelah atas. (a) Kontur sebelah atas perkataan. (b) Kontur bertapis bagi perkataan yang sarna. (c) Penemberengan perkataan ................................ .

    Kejadian sudut pada aksara yang bersarnbung. (a) Empat bentuk bagi aksara

    "c " yang berbeza iaitu tunggal, hujung, tengah, dan mula. (b) Contoh dua perkataan Arab, arah anak panah menunjukkan sudut terbentuk daripada cantuman aksara-aksara ............... " ..................... . ......... ......... .

    17 Syarat-syarat penemberengan oleh pendekatan Bushofa dan Spann(1997). (a) Tetingkap 7 X 7 digunakan untuk diletakkan pada titik di antara dua aksara yang hendak dipisahkan; (b) Tetingkap 3 X 3 digunakan untuk memisahkan aksara "c " (x:

    18

    19

    20

    tidak kira apa nilai sekalipun, y:'l' untuk aksara "t" atau ak " " t "0" I ' ) sara --J

  • Imej sesudah ditapis. (d) Imej sesudah proses ambang. . . . . . ...... 91

    22

    23

    24

    25

    26

    27

    28

    29

    30

    31

    32

    33

    Topeng Penjejak Sisi Sobel. (a) operator q dan (b) operator p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .

    Histogram Orientasi Cerunan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Satu contoh imej teks Jawi (a) Imej terpencong sebanyak 14°. (b) Histogram orientasi cerunan imej Jawi dalam (a) . . . . . . . . . . . . .

    Tranformasi Ricih Imej Jawi .. . . .. .. .. . .. .. .. . .. . . . . ... . .. .. . . .. . . . . . .

    Satu contoh perkataan Jawi (a) Imej dengan keadaan ricih. (b )Histogram orientasi cerunan. (c) Pembetulan ricih perkataan (sudut ricih ialah 15°) ............................................... ' "

    Imej Jawi setelah diperbetulkan sebanyak 14° .................... .

    Penipisan. (a) Satu contoh Jawi asal sebelum dinipiskan. (b) Imej dinipiskan menggunakan algoritma Naccache dan Shinghal (ielaran = 7) ................................................. .

    Imej dinipiskan menggunakan algoritma Naccache dan Shinghal (lelaran = 15) ............................................... .

    Satu contoh imej Jawi. (a) Imej Teks Jawi yang telah dinipiskan. (b) Sesudah baris ditemberengkan. (c) Sesudah perkataan ditemberengkan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Kegagalan Pendekatan Khella. (a) aksara "j " bertindan di

    bawah aksara"� ". (b) aksara "j ", "J ", dan "---" bertindan di

    antara satu sama lain . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Proses pemisahan subtembereng berdasarkan algoritma PKT . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Perkataan Jawi Asal. (a) Perkataan "� " yang bermaksud

    94

    95

    96

    98

    99

    IDa

    103

    104

    108

    109

    111

    syampu. (b) Perkataan "&''' yang bermaksud hutang . . . . . . . . . '" 112

    34 Kegagalan dalam pendekatan Khella. (a) aksara bergelung (aksara '-' dan J) dan bertitik (aksara .;). (b) aksara gelung (aksara --) . . . . . . . . . . . . . . . . . . . . . . . . . . .. ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... .

    35 Satu contoh perkataan bahasa Malaysia yang ditulis dalam tulisan Jawi (disebut "sampu" atau p). Titik tembereng tidak sering berlaku pada garis tapak malah kadang kala boleh

    xxi

    113

  • 36

    37

    38

    39

    40

    41

    42

    43

    44

    45

    46

    47

    48

    49

    berlaku di atas atau di bawah garis tapak yang dikirakan. Garis tapak yang diperoleh daripada kaedah histogram berlaku pada kedudukan piksel ke 31, manakala titik tembereng berlaku pada kedudukan 83, 142, dan 198 yang diperoleh daripada algorithma cadangan yang akan dijelaskan dalam bahagian berikut. . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . .. 115

    Satu imbasan imej Jawi secara mengufuk dibuat di sepanjang garis tapak dan kemudian satu lagi imbasan secara memugak dibuat untuk mencari titik pus at piksel P sarna ada ke atas atau ke bawah sehingga menemui piksel yang paling berpotensi iaitu TTB seperti yang dipaparkan dalarn templet bersaiz 7x7. (a) Titik TTB berlaku pada pusat P. (b) Titik TTB berlaku bukan pada titik P ..................................................... .

    Jenis corak cantuman utarna bagi aksara Jawi tulisan tangan .................................................................... .

    Contoh Konfigurasi Cantuman Piksel. (a) Cantuman dalarn Rajah 37 (a) dan (b). (b) Rajah 37(c). (c) Rajah 37(d). (d) Rajah 37(e) dan (1) ................................................... ..

    Tetingkap Uji. P menunjukkan piksel pusat ....................... .

    Hasil penemberengan imej dalam Rajah 33 menggunakan algoritma cadangan.(a) Tanpa anjakan ke kanan. (b) Dengan anjakan .................................................................. .

    Bentuk Ligatur. (a) Perkataan Jawi Asal. (b) Hasil Algoritma 11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Contoh Aksara Cantuman ........................................ " .. .

    Skema Baru Algoritma Pemonnalan Aksara Jawi ................ .

    Aksara Jawi dengan Juzuk Utarna Asas dan Juzuk Sekunder ....

    Perubahan tanda. (a) Dalam arah mengufuk dan memugak (x, y). (b) Jarak di antara dua titik pada perubahan tanda ........... .

    Ak "A"d .

    k sara u engan tlga ontur ..................................... ..

    Aksara " � "dengan tiga kontur ............................ .

    Aksara "0" selepas penyingkiran juzuk sekundemya ............ .

    Aksara " " selepas penyingkiran juzuk

    116

    117

    118

    118

    121

    123

    126

    130

    132

    136

    137

    138

    139

    sekundemya............................................................. 139

    xxii

  • 50 Aksara "� ". (a) Imej asal. (b) Penskilan 16 x 16 sebelum

    dilicinkan. (c) Sesudah dilicinkan .................................. ..

    51 Aksara "-- " . (a) Imej asal. (b) Penskilan 16 x 16 sebelum

    dilicinkan. (c) Sesudah dilicinkan . ................................. .

    52 Aksara ".l. ". (a) Imej asal. (b) Penskilan 16 x 16 sebelum

    142

    143

    dilicinkan. (c) Sesudah dilicinkan ........... ................. ....... 144

    53 Kod Syarat Negatif. ..................... , . ' " ... ' " .. , .......... ...... .

    54 Kod-kod Syarat Positif ............................................... .

    55 Satu contoh primitif aksara " __ ". Titik hujung ditandakan

    dengan nilai negatif iaitu -4 dan -1. Titik cabang ditandakan dengan nilai -9. Nilai positif menandakan kerangka

    56

    aksara ................................................................... ..

    Penghampiran Poligon bagi aksara "b " menggunakan

    algoritma PP dengan panjang minimum garis disetkan kepada

    148

    149

    151

    dua........................................................................ 153

    57 Pemecahan Aksara ";," dalam bentuk primitif .................... .

    58 Pemecahan Aksara '\, __ " dalam bentuk primitif ...... " ......... .

    59 Pemecahan Aksara "---- " dalam bentuk primitif ............. .

    60 Pemecahan aksara " " dalam bentuk primitif ........... .

    61 Kumpulan Primitif oleh Bushofa dan Spann(1997) .............. .

    62 Pengezonan imej 16x16 kepada 16 segiempat bersaiz 4x4 ...... .

    63 Fitur-fitur Tersarikan bagi Aksara "\ ". (a) Aksara Tunggal. (b)

    Aksara Hujung ........................................................ ..

    64 Fitur-fitur tersarikan bagi aksara "c " .......................... .. ..

    65 Fitur-fitur tersarikan bagi aksara "�" ................................ ..

    66 Fitur-fitur tersarikan bagi aksara "� " ............................. .

    xxiii

    156

    156

    157

    157

    159

    164

    163

    165

    165

    166

  • 67

    68

    69

    70

    71

    72

    73

    74

    75

    76

    77

    78

    79

    80

    81

    82

    83

    84

    85

    86

    . fi arik b 'ak " " Fltur- ltur ters an agl sara 'J- ............. " . " . . . . . ... . . .

    Contoh Satu Pokok Kata Putus ...................................... .

    Seni Bina Rangkaian Kehadapan Multiaras atau RKMA ........ .

    Butiran terperinci satu nod. (a) Nod x12' (b) Fungsi Pengaktifan Sigmoid Perduaan .......................................... ' " . . , . . .. ,.

    Pengkelas multi RKMA dengan skema konsensus. N RN dilatih seCara berasingan untuk mengkelaskan satu eorak input dengan menggunakan kaedah konsensus untuk membuat kata putus pengkelasan secara kolektif ................................... .

    Rangkaian Neural Selari dengan Unit PengawaL ................. .

    Algoritrna Genetik ..................................................... .

    Skema baru Pengkelas Aksara Jawi (PB-l hingga PB-7 menunjukkan Perambat-balik bagi K l hingga K7, masing-masing) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Mengelompok aksara mengikut bilangan primitif. ............... ..

    Pengkelas Utama (aras tertinggi) .................................... .

    Kumpulan 1 - Bilangan Primitifnya adalah satu .................. .

    Kumpulan 2 - Bilangan Primitifnya adalah dua .................. ..

    Kumpulan 3 - Bilangan Primitifnya adalah tiga .................. .

    Kumpulan 4 - Bilangan Primitifnya adalah empat .............. ..

    Kumpulan 5 - Bilangan Primitifnya adalah lima ................. .

    Kumpulan 6 - Bilangan Primitifnya adalah enam ................ .

    Kumpulan 7 - Bilangan Primitifnya adalah tujuh ................ .

    RN PB dengan Satu Aras Tersembunyi ............................ .

    Pengawalan Pemberat ditentukan oleh AG melalui nilai Keupayaannya. Keupayaan pemberat yang dieari itu dapat dianggarkan dengan menguji set pemberat awalan pada RN yang sebenar, kemudian dilatih dengan set data latihan serta d" ik d d

    .. lU] an engan ata uJlan ............................................ .

    Struktur Hibrid AG+PB bagi satu aras RKMA .................... .

    xxiv

    166

    174

    176

    178

    194

    195

    201

    214

    219

    222

    224

    225

    226

    227

    227

    228

    229

    230

    240

    241