25
తలుగు తలుగు భషణ వయవసథలు భషణ వయవసథలు , , ఖత గరహయము ఖత గరహయము పలవల కృపల కశయప 9396533666 [email protected] Telugu Speech - systems OCR

53236671 Telugu Ocr Tts

Embed Size (px)

Citation preview

Page 1: 53236671 Telugu Ocr Tts

తలుగు తలుగు భషణ వయవసథలు భషణ వయవసథలు , , ఖత గరహయము ఖత గరహయము

పలవల కృపల కశయప9396533666

[email protected]

Telugu Speech - systems OCR

Page 2: 53236671 Telugu Ocr Tts

తలుగు వడకం ఈనడ కంపయటర‌, అంతరజలం వడకం గణనయంగపరుగుతంద. ఇదంత వడక భషల లభయం కవల

వయపర సూతరం పరకరం వడకం పరగత ఆ భష సంకతకత మరుగు పడతుంద పరసుతతం అంతరజలంల తలుగు భష వరవగ వడకల వంద. బలగ‌లు, వబ‌సైట‌లు, పతరకలు

(వబ‌జైనస) అచచ తలుగుల లభయమవతుననయ దన ఫలతముగ తలుగు ను కంపయటర‌, అంతరజలం లచదువట, తలుగుల వరయుట గణణయంగ పరగనద

కన తలుగు ల ఖత, మటలను గురతంచుట , మటల దవర సమనుయడ సైతం దనన ఉపయగంచుకగలగ వధంగ తలుగు భష సంకతక కృష జరగల చల

పసతకములల పగు పడన అంశలను యూనకడ ల లపయంతరకరంచల . అంతరజలం సంకతక నపణులు

అయన తలుగు వరు కదద మంద తలుగు సంకతకంగ ముందుక తసుకవళుతుననరు చల తకకవ మంద

తమ కలన యంతరలల తలుగు ను వడతుననరు తలుగు భషక పరచన హదయ కదు సంకతక హద

కడ లభంచలన ' అనకమంద సంకతక నపణులు కృష చసుతననరు , నరకరశుయలు సైతం తలుగు సంకతక ఫలలు

అందుకవల అద వక సంభందత సంకతక ఆభవృదదతనసదయం.

Page 3: 53236671 Telugu Ocr Tts

భష సంకతక పరకరములుText Editors and Word Processors - Text editing tools -

Word Processing tools - DTP tools - Fonts Dictionary Tools (monolingual / billingual /multilingual) -

Word lists/vocabulary - Electronic/Online dictionaries - Electronic/Online thesaurus - Morphological analysers/generators.

Spell Checkers / Grammar Checkers / Style Checkers - linguistic / statistical / hybrid systems.

Parsing Systems - Phonological - morphological - syntactic Machine Translation and Translation Tools - Translation

memories - Technology data books - Post – editing tools - Word Sense Disambiguation (WSD) tools.

Optical Character Recognition (OCR) - single font.multifont/omnifont OCR systems - printed/typed/handwritten/shorthand - online / offline

NLP Telugu - Natural Language Processing –Text to Speech , recognition and synthesizers

Page 4: 53236671 Telugu Ocr Tts

తలుగుల పరసుతతం లభసుతననవTelugu Corpus (Unicode/RTS/ASCII)Telugu dictionaries online/offline Telugu Speech Systems (TTS ) OCR System for TeluguTelugu Spell CheckerElectronic versions of several dictionariesfor PDA,IPAD,TABLET Etc

Page 5: 53236671 Telugu Ocr Tts

తలుగు సహజ భష పకరయ• Translation System• Optical Character Recognition• Text Processing• Speech Technologies• Tools development.• Content Creation• Web Technology

Page 6: 53236671 Telugu Ocr Tts

కంపయటరు దవర తలుగు వనటము వడక[ : ]=Telugu 'n ' 'ంం ; ' [ : ]=Telugu ' ' 'ంః ; '[ ]=Telugu 'a' 'అ ; ' [ ]=Telugu 'aa' 'ఆ ; '[ ]=Telugu 'i' 'ఇ ; ' [ ]=Telugu 'ii' 'ఈ ; '[ ]=Telugu 'u' 'ఉ ; ' [ ]=Telugu 'uu' 'ఊ ; '[ ]=Telugu 'rx' 'ఋ ; ' [ ~ ]=Telugu 'rx ' 'ౠ ; '[ ]=Telugu 'lx' 'ఌ ; ' [ ~ ]=Telugu 'lx ' 'ౡ ; '[ ]=Telugu 'e' 'ఎ ; ' [ ]=Telugu 'ei' 'ఏ ; '[ ]=Telugu 'ai' 'ఐ ; ' [ ]=Telugu 'o' 'ఒ ; '[ ]=Telugu 'oo' 'ఓ ; ' [ ]=Telugu 'au' 'ఔ ; '[ ]=Telugu 'k' 'క ; ' [ ]=Telugu 'kh' 'ఖ ; '[ ]=Telugu 'g' 'గ ; ' [ ]=Telugu 'gh' 'ఘ ; '[ ~ ]=Telugu 'ng ' 'ఙ ; ' [ ]=Telugu 'ch' 'చ ; '[ ]=Telugu 'chh' 'ఛ ; ' [ ]=Telugu 'j' 'జ ; '[ ]=Telugu 'jh' 'ఝ ; ' [ ~ ]=Telugu 'nj ' 'ఞ ; '[ : ]=Telugu 't ' 'ట ; ' [ : ]=Telugu 't h' 'ఠ ; '[ : ]=Telugu 'd ' 'డ ; ' [ : ]=Telugu 'd h' 'ఢ ; '[ ~ ]=Telugu 'nd ' 'ణ ; ' [ ]=Telugu 't' 'త ; '[ ]=Telugu 'th' 'థ ; ' [ ]=Telugu 'd' 'ద ; '[ ]=Telugu 'dh' 'ధ ; ' [ ]=Telugu 'n' 'న ; '[ ]=Telugu 'p' 'ప ; ' [ ]=Telugu 'ph' 'ఫ ; '[ ]=Telugu 'b' 'బ ; ' [ ]=Telugu 'bh' 'భ ; '[ ]=Telugu 'm' 'మ ; ' [ ]=Telugu 'y' 'య ; '[ ]=Telugu 'r' 'ర ; ' [ : ]=Telugu 'r ' 'ఱ ; '[ ]=Telugu 'l' 'ల ; ' [ : ]=Telugu 'l ' 'ళ ; '[ ]=Telugu 'v' 'వ ; ' [ ]=Telugu 'sh' 'శ ; '[ ]=Telugu 'shh' 'ష ; ' [ ]=Telugu 's' 'స ; '[ ]=Telugu 'h' 'హ ; ' [ ]=Telugu 'c' 'క ; '[ ]=Telugu 'f' 'ఫ ; ' [ ]=Telugu 'q' 'క ; '[ ]=Telugu 'w' 'వ ; ' [ ]=Telugu 'x' 'జ ; '[ ]=Telugu 'z' 'జ ; ' [ ]=Telugu 'aa1' 'ాా ; '[ ]=Telugu 'i1' 'ాి ; ' [ ]=Telugu 'ii1' 'ాీ ; '[ ]=Telugu 'u1' 'ాు ; ' [ ]=Telugu 'uu1' 'ాూ ; '[ ]=Telugu 'rx1' 'ాృ ; ' [ ~ ]=Telugu 'rx 1' 'ాౄ ; '[ ]=Telugu 'e1' 'ాె ; ' [ ]=Telugu 'ei1' 'ాే ; '[ ]=Telugu 'ai1' 'ాైె ; ' [ ]=Telugu 'o1' 'ాొ ; '[ ]=Telugu 'oo1' 'ాో ; ' [ ]=Telugu 'au1' 'ాౌ ; '[ ]=Telugu 'ha1' 'ా్ ; ' [ . ]= . ; Telugu ' ' ' '[ , ]= , ; [ ]= ; Telugu ' ' ' ' Telugu '?' '?'[ ]= ; [ ]= ; Telugu '0' '0' Telugu '1' '1'[ ]= ; [ ]= ; Telugu '2' '2' Telugu '3' '3'[ ]= ; [ ]= ; Telugu '4' '4' Telugu '5' '5'[ ]= ; [ ]= ; Telugu '6' '6' Telugu '7' '7'[ ]= ; [ ]= ; Telugu '8' '8' Telugu '9' '9'[ ; ]= ; ; [ - ]= - ; Telugu ' ' ' ' Telugu ' ' ' '

// [ ]= ; [ < ]= < ; Telugu '\' '\' Telugu ' ' ' '[ > ]= > ; [ / ]= / ; Telugu ' ' ' ' Telugu ' ' ' '[ [ ]= [ ; [ ] ]= ] ; Telugu ' ' ' ' Telugu ' ' ' '[ ) ]= ) ; [ ( ]= ( ; Telugu ' ' ' ' Telugu ' ' ' '[ ]= ;Telugu '?' '?'

Page 7: 53236671 Telugu Ocr Tts

Current Systems –Telugu TTS Festival-te is a Free Telugu language text-to-speech system –

Linux ,GPL (http://sourceforge.net/projects/festival-te/) MBROLA: A speech synthesizer program. - win/Linux - IIT M http://acharya.iitm.ac.in/disabilities/mbrola.php Telugu TTS – A screen Reader called NVDA ( open source reader) R&D at IIIT Hyd, University of Hyderabad, CDAC,TILS and private

firms like Brigus,HP,Microsoft (Bhashaindia) http://pune.cdac.in/html/gist/research-areas/speechtech.aspx

Speech Recognition Agriculture information access through speech( MandiInformation

System) – Prototype available - IIIT H

Page 8: 53236671 Telugu Ocr Tts

Telugu TTL Architecture

Page 9: 53236671 Telugu Ocr Tts
Page 10: 53236671 Telugu Ocr Tts

System Function Word: నమసకరము namaskAramu (WX

representation)Consonant-Vowel identification: CVCVCCVCVCVSyllabification: CV- CVC-CV-CV-CVSynthesizer:na-mas-kA-ra-mu

Page 11: 53236671 Telugu Ocr Tts

Segmentation of Recorded Speech using PRAAT

Page 12: 53236671 Telugu Ocr Tts

BhaashikaUI by Dr.K.V.N Sunitha

Page 13: 53236671 Telugu Ocr Tts

Text-to-phoneme conversion మన మంతభరతయులముMa, na, ma, n, ta, blank, bha, ra, tee, yu, la, m204 199 204 162 194 32 203 165 207 194 167

162 168 209 162.

Page 14: 53236671 Telugu Ocr Tts

:// . . . / .http 202 133 48 72 yantra_telugu_tts html

Page 15: 53236671 Telugu Ocr Tts

Morphological Richness of Telugu• Telugu language is morphologically very richbecause of agglutination.• External saMdhi (that is, conflation betweentwo or more complete word forms) andcompounding add to the numbers.

Page 16: 53236671 Telugu Ocr Tts

Text-To-Speech Synthesis (TTS)

Telugu TTS EffortText Normalization Machine learning TechniquesTelugu Speech Segmentation

Page 17: 53236671 Telugu Ocr Tts

Schematic Diagram SpeechRecognition system

Page 18: 53236671 Telugu Ocr Tts

Telugu OCRDRISHTI – TDIL & University of

Hyderabad – Linux(tdil.mit.gov.in/download/rctools/Drishti.htm

)

Page 19: 53236671 Telugu Ocr Tts

OCR Framework

Learning Framework Text

Documents

DocumentImages

-Pre Process

, Skew Noise

Segmentation

. RecoEngine

-PostProcess

Unicode

PageReconstructi

on

Image WordImage

Segm

ents

Unic

ode

ModelManagement

ModelDB

•DocType•Quality

•LoadModel•StoreModel•Train•Retrain

•UpdateModel

UIController

OCR

Page 20: 53236671 Telugu Ocr Tts
Page 21: 53236671 Telugu Ocr Tts

క ాే 29 115 50 154 ా్య 49 94 67

135్్ క రా ్ా ెై 81 79 114 150

క ా్షయ 142 94 181 148్ ప రా ్ా ే 28 25 56 78

జ ఞా ్ 82 14 110 61 ఋ 141 36 204 62

Page 22: 53236671 Telugu Ocr Tts

కంపయటర తలుగు వననర ! అనగనగ ఒక రజగరు. రజ గరక ఏడగురుకడకలు. ఒకరజన ఈ ఏడగురూ అడవ లక వటకవళళరు. వటడ ఏడ చపలన పటుటకన తచచరు. ఈ

ఏడ చపలన ఎండ ల ఎండపటటరు. ఏడ చపలల ఆరు చపలుమతరం ఎండలదు , ఒక చప ఎండంద రజ గరు వచచ చప చప నువవ ఎందుక ఎండవ

అన అడగరు చప తనక తలుగు వచహన మటలడనన అందుక ఎండ అన చపపంద.

Page 23: 53236671 Telugu Ocr Tts

వషయ సంగరణwww.ldcil.orghttp://nlp.hivefire.com/entity/profile/telugu/tdil.mit.gov.in sourceforge.net/projects/festival-te/ acharya.iitm.ac.in/disabilities/tts.phpబమమలుhttp://andam.blogspot.com/search/label/Tesseract%20for%20Telugu www.ijest.info/docs/IJEST10-02-11-099.pdf

Krupal Kasyap Palivela – 16th April 2011

ధనయవదములుధనయవదములు

Page 24: 53236671 Telugu Ocr Tts

“అంతరజలంల telugu” శధన

Page 25: 53236671 Telugu Ocr Tts

“ ” అంతరజలంల తలుగు శధన