56
認知メディア論 2009-12-22 峯松 信明 電気系工学専攻・融合情報学コース

Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

認知メディア論2009-12-22

峯松 信明電気系工学専攻・融合情報学コース

Page 2: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

本講義の概要講義タイトル予定メディア情報と人間マルチメディア情報とインタラクションマルチメディアと感性情報処理感覚世界の不思議 ~共感覚~音声によるコミュニケーション技術調音・音響音声学音声の音響分析技術音声の分析合成系と音声認識技術音声認識と音声合成新しい音声情報処理に向けた試み (1)~(4)音声構造論とその応用言語の進化,言語の発達に根付いた音声情報処理技術の構築その他の話題提供

Page 3: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

本講義の概要本講義を通して感じて欲しいもの・磨いて欲しいセンス計算機上に実装しようとしているメディア情報処理そのお手本ともなるべき人間のメディア情報処理この両者の対応を常に意識できるような感覚を磨いて欲しい計算機の情報処理と脳の情報処理のギャップを味わって欲しい「貴方の感覚の世界」それは全て錯覚かもしれない・・・

Page 4: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

感性と感性情報処理脳の中で感性を扱う部位ってどこにある?

Page 5: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

今まで見てきた感覚の不思議無意識の処理

Page 6: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

脳障害がもたらす真実壊れた脳・生存する知(山田規畝子)脳卒中による高次脳機能障害脳は故障している。でも意識はある。本人=医者による自らの症状の客観的既述見る=網膜に移った二次元画像の三次元解釈この処理が一部故障するとどうなるのか・・・階段=横線が並んでいるだけ。上がるのか下がるのか分からない。茶わんの裏に隠れている箸が分からない。分割されたもの≠一つの物正しい距離感が掴めない。目の前のものが上手く掴めない。遠近感がない。地面の上の黒い●。これが穴なのかどうか分からない陰影がついても,立体感が生まれてこない,,,。

Page 7: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

自閉症者の感覚Kim Peak ~世界一有名な自閉症者~映画「レインマン」のモデル一度読んだ本の内容は忘れない ~歩く図書館~ページ数まで含め覚える記憶力。文字面を全て覚える。初めての比喩表現はNG,既知の比喩でも初めての場面だとNG

Page 8: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

自閉症者の感覚Stephen Wiltshire as Human Cameraサバン症候群(殆どが自閉症者)の天才画家異常な記憶力,ロンドンの風景を記憶のみに頼って描く言語発達の遅れ,常同行動,変化への弱みなど自閉特有の行動

Page 9: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

自閉症者の感覚中枢的統合(Central Coherence)理論(Frith’1999)自閉症=様々なレベルの情報統合の特殊は非平衡状態構成部分から完全に注意をそらして全体を体験することが困難全体的形態を重視せず,局部を次々と加えることで全体を構成する。絵の無いジグソーパズルが得意

自閉症児 健常児言葉の羅列的な記憶 文章の記憶関連のない項目の記憶 関連する項目の記憶無意味な言葉の言い返し 修正しての言い返しパターンの覚え込み パターンを発見する形ではめ込む 絵ではめ込む

アクセサリーで顔を種類分け 感情で顔を種類分け逆さまの顔も識別する 顔を妥当に識別する音声言語=困難なメディア 音声言語=容易なメディア

Page 10: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

とある脳科学者の訴えどこでも情報処理の原理は同じ?視覚野・聴覚野・運動野・言語野=機能局在説視覚と聴覚では「古い脳」の果たす役割・機能が異なる聴覚の方が古い脳との結びつきが遥かに強い大脳皮質の構成原理(V. B. マウントキャッスル)大脳皮質のコラム構造を発見皮質の各領域の生理学的構造を考えた場合,各領域の差違よりも,大脳皮質の均一性・普遍性にこそ着眼すべきである。

視覚生理学=聴覚生理学=味覚生理学?視覚情報を視床から聴覚野に送ると見えたCCDカメラの情報を舌に送ると見えた

Page 11: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

ビデオBBCドキュメンタリー ~共感覚の不思議~言葉を聞くと・・臭う/数字を聞くと・・色が見える

みんな初めは共感覚者?「赤ちゃんには世界がどう見えるか」(ダニフ・マウラ他)赤ちゃんはそもそも共感覚しかない。それがやがて分化するだけ。

Page 12: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音声言語運用が要求する認知的能力と音声言語工学が構築した計算論的能力

峯松 信明東京大学大学院情報理工学系研究科

2Ei:

æ@

O:

Page 13: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音声=音シンボルの並び音声=音シンボルの並び ~音声(工)学の常識~

音声⇆音シンボル列 = 音声認識/音声合成話者/マイク/伝送系/etc ~非言語的音響歪み~

[ a b c d e f g h i j k ]

a b c d e f g h i j k

350,000speakers

Page 14: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音声物理の多様性と音声知覚の不変性身長(喉の長さ)の違いと声の違い分析合成と呼ばれる技術(STRAIGHT)を用いて音声を変形いろんな身長の男声を生成/但しオリジナルは167cmどう聞こえますか?

200 cm = 6.56 feet 167 cm = 5.48 feet

117 cm = 3.84 feet 83 cm = 2.72 feet

え え

1 2

3 4

Page 15: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音声工学(科学)のアプローチ音声認識 = 音声→テキスト変換しかし,個々の音韻の音的実体は様々な音となる性別,年齢,マイク,部屋,伝送系などなどIBM の偉業:35万人の音声を収録

この両者の一体何が「同一」なのか?

HMM of /え/ .......

/え/ /え/ /え/ /え/

1 4?

FROM SUBSTANCE MODELS TO CONTRAST MODELS FOR SPEECH RECOGNITION— As What in Speech Stream is the Linguistic Information Encoded, Substance or Contrast? —

N. Minematsu†, T. Nishimura‡, K. Sakuraba!, S. Asakawa†, Y. Qiao†, D. Saito†

† Graduate School of Frontier Sciences, the University of Tokyo‡ Graduate School of Medicine, the University of Tokyo

! Kiyose-shi Welfare Center for the [email protected]

ABSTRACTSpeech communication between a speaker and a hearer has severalsteps of encoding (production), transmission, and decoding (percep-tion). In each of the steps, some acoustic distortions are inducedinevitably due to the non-linguistic factors such as gender, age, mi-crophone and so forth. In spite of this large variability, humans canperform very robust speech processing. Considering some findingsin speech perception and neuroscience researches, in this paper, anovel theoretical framework is proposed to realize the robust speechprocessing. In this framework, only speech contrasts are modeledwith speech substances such as spectrums discarded. The contrastmodeling is done in a non-Euclidean space so as to guarantee the ro-bust invariance of the contrasts with the above factors. A full set ofcontrasts extracted from an utterance form its dynamic and invariantstructure. This paper explains this framework considering good sim-ilarity between speech and music. Some experimental verificationswith respect to speech recognition and speech perception follow.

Index Terms: relative sense, contrast, invariant structure, disorders

1. INTRODUCTION

Many speech sounds are produced as standing waves in a vocal tractand their acoustic properties mainly depend on the shape of the vocaltube. No two speakers have the same tube and, therefore, speechacoustics vary among them. A process of producing a vowel soundis very similar to that of producing a sound in a wind instrument. Avocal tube is an instrument and, by changing its shape dynamically,/aiueo/ is generated, for example. Different shapes cause differentresonance, which causes different timbre. Acoustic differences inspeakers are due to differences of the shape of the tube. Those invowels of a single speaker are also for the same reason.

Speech sounds produced by a speaker are transmitted to a heareron various channels. Then, differences of their acoustic character-istics change speech acoustics again. Microphones, rooms, lines,and other environmental factors can modify speech easily. Strictlyspeaking, two hearers have different hearing characteristics. Mel andBark scaling is just the average pattern of the hearing characteristics.Due to this difference, in the brain, the internal representation of asingle utterance may be different among hearers.

It is an undeniable fact that there is a large variability in senders,transmitters, and receivers. But we can perform very robust speechcommunication. Why and how? This is one of the classical but un-solved problems of speech science, i.e. variability of speech acous-tics and invariance of speech perception [1]. The aim of speechrecognition is to extract only the linguistic information from speechand the current technology tries to solve this problem based on thefollowing very naı̈ve strategy, called collectionism,

g(linguistic) =P

non-linguistic f(linguistic, non-linguistic).

IBM announced that they collected speech samples from 350 thou-sands of Americans to develop a recognizer for pronunciation train-ing [2]. As far as we know, however, no children acquire the abilityto recognize speech after hearing 350 thousands of speakers. A ma-jor part of the speech an infant hears is from its father and mother.After the infant begins to talk, as the speech chain implies, about ahalf of the speech it hears will be its own speech. It is completely im-possible for a human hearer to experience a speaker-balanced largespeech corpus. But the collectionism needs that for machines.

It is natural that similar problems are also raised in visual psy-chology and computer vision research. This is because many factorscan change easily how an object is seen. Environmental lights, direc-tional relation between an object and an observer, distance betweenthem, etc can easily change the physical aspect of the look of anobject. It is interesting that, like hearing characteristics, the arrange-ment of the three cone cell classes (RGB) in the living human eyevaries among observers [3]. Despite these large variations, we per-ceive that we share the same look of the outer world. Why and how?One of the key concepts for solution in vision research is contrastsenhanced with substances reduced [4]. For example, one of the in-formation sources affecting our depth perception is parallax. It isknown that it is relative parallax, not absolute parallax, that can sup-port our depth perception. Then, the robust and invariant perceptionof depth is possible against many environmental factors causing var-ious changes of substances [4]. It can be said that a large part of thevisual information is encoded as contrastive features in stimuli.

In neurosciences, the concept of contrasts, differences, and mo-tions has a very important meaning. Basically speaking, neuronsrespond only to changes. Frogs and lizards cannot see non-movingobjects. Humans cannot, either. The reason of human ability to seenon-moving objects is the involuntary and fixational eye movements.If outer objects are moving synchronously with the eye movements,the world disappears within 10 seconds [5]. The recent progresses ofstudying the auditory cortex show that the linguistic aspect and thenon-linguistic aspect of speech are separated on the cortex [6]. Someresearchers claim that the former is encoded as speech motions [7].

The current framework of speech recognition is based on tech-niques of identifying an isolated sound as one of the linguistic cat-egories, e.g. phoneme. As the sound substance varies due to manyfactors, many samples of that category have been collected. In thispaper, however, a completely different framework is proposed whereabsolute properties of a sound is completely discarded and onlysound contrasts are extracted. The contrasts are modeled in a dis-torted non-Euclidean space so that the contrasts become robustly in-variant with many kinds of the non-linguistic factors. The followingsections explain the new framework of speech contrast modeling byreferring to very good structural similarity between speech and mu-sic, where many people can identify the individual tones in a melodyindependently of the key by using the embedded scale structure.

Page 16: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

幼児の音声音響的環境 ~Another PoS~大部分は母親と父親の音声(日本の場合は母親ばかり?)話し出せば,人の聞く声は半分は自分の声(Speech Chain)極端に偏った音声コーパスに基づく超頑健な音声情報処理

音声物理の多様性と音声知覚の不変性集めずに知覚できる同一性とは一体何なのか?

音を集めることは本当に必要なのか?

おはよう おはよう

?!

1 4?

Page 17: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

意地悪な思考実験

子育て奮闘中のお母様方 音声認識研究者20/20 0/N

Page 18: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

幼児は親の声の何を真似ているのか?

言お+は+よ+う

Page 19: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

発達心理学の主張 ~全体から入る音声処理~音シンボル(音韻)の意識の定着は小学校入学以降単語音声を要素に分割することが困難でも,音声活動を始める「子供は語全体の音形・ゲシュタルトを獲得してから,語を構成する個々の分節音の獲得へと進む(加藤’03, 早川’06)」語(発話)全体の音形を音にしたものが音声

幼児の音声音響的環境 ~Another PoS~大部分は母親と父親の音声/人の聞く声は半分は自分の声極端に偏った音声コーパスに基づく超頑健な音声情報処理

要素から?全体から?

おはよう おはよう

!

Page 20: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

Int. Conf. on Infant Study’06??? QUESTION ???

We’re faced with a simple but difficult question to answer. We believe that this is one of the most fun-damental questions of language acquisition. If you have any comments, please let us know.

What in a father’s speech is mimicked acoustically by his young children?

Young children often mimic their father’s speech. Acoustically speaking, however, they are not mimick-ing the utterance as it is. They are not trying to produce their father in their voices. Some may say that the children decode the utterance into a sequence of phonemes and then, each phoneme is generated by the mouth. But the young children don’t have good phonemic awareness and it is rather difficult for them to decode speech. In this situation, what is mimicked acoustically? As acoustic characteristics of a speaker are determined by the shape of his articulators, it is certainly impossible to produce their fa-ther. But it is true that, if they mimic the utterance acoustically, they must at least try to produce their father but we’ve never seen such children. We still believe that they are mimicking something in the ut-terance acoustically. What is THAT?

Nobuaki MINEMATSU([email protected]) & Tazuko NISHIMURA([email protected])If you have any answers, please visit our poster (9:00-10:50 on Wed in Colonade of Miyako Southeast).

? ?

/ a i u e o / / a i u e o /

Page 21: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

?二つの問題?音声物理の多様性と音声知覚の不変性→another PoS[え] は年齢・性別・マイクなどの非言語的要因によって変化音声認識(IBM ViaVoice)= 35万人の話者から [え] を集める幼児 = 大半は母親/父親,そして,自分の声

九官鳥の音声模倣と幼児の音声模倣九官鳥は声(音)を真似る良い九官鳥は聞けば飼い主が分かる。「声そのもの」が模倣対象幼児は親の声の何を真似ているのか?声を真似ようとはしていない。電話声になるようになんかしない。個々の音をモーラ同定して,それを一つずつ再生する? それは困難語全体の音形・語ゲシュタルトをまず獲得。分節音はその後。

え え200cm 80cm

発声全体を通して定義できる話者不変な音声の物理表象

Page 22: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音声言語運用が要求する認知的能力と音声言語工学が構築した計算論的能力

峯松 信明東京大学大学院情報理工学系研究科

2Ei:

æ@

O:

Page 23: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

はじめに/ある種の違和感音声言語工学の構築してきた技術波形素片/スペクトル素片に対するDBの構築波形接続型音声合成/HMM音声合成(学習用話者の声の合成)数理統計的手法に基づく音響モデルのパラメータ推定数千~数十万人の音声を用いた音響モデルによる不特定話者音声認識圧倒的な計算速度の向上と大規模クラスターの構成様々な環境別に構築したシステム群によるパラレルデコーディング

ふと,我が子を見てみる・・・母親の声を一番よく聞いて日本語を獲得したはず・・・でも,母親の声の模倣(声帯模写)なんて一度もしていない。この子の聞く声の多くは,母親,自分,そして,父親・・・昨晩,お婆ちゃんに初めて声を聞かせた。電話で。で,会話してた。音声って,非常にモロい物理現象なんだよな・・・でも,何故か,そのメディアを使うのが一番楽なんだよな・・・

Ei:

æ@

O:

? ?

Page 24: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

本発表の流れ刺激の物理的多様性とその認知的不変性見え/色み/音高の多様性と自然・進化が編み出した解決方法

音声の物理的多様性とその認知的不変性音色の多様性と工学者が編み出した解決方法

音声の構造的表象とその工学的・実験的検証常識を覆すことで,違和感の解消を試みてみる。

音声言語運用が要求する認知的能力と音声言語工学が構築した計算論的能力ASR の A とは一体何を意味するのだろうか?

音声の構造的表象の言語学的妥当性何故,こうしてこなかったのか? 観測技術の功罪?

音声の構造的表象を用いた音声アプリケーション

Page 25: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

感覚受容器が受け取る情報は容易に変貌する見えの変化視点を変えて見た犬対象との距離を変えて見た像色みの変化朝日の花と夕焼け空の花異なる色眼鏡を通して見た像音高の変化男性のハミングと女性のハミングカラオケでのキーの上げ下げ音色の変化男性のおはよう!と女性のおはよう!大人のおはよう!と子供のおはよう!

でも,我々は容易に「同一性」を認知できる

刺激の物理的多様性とその認知的不変性

A scale in LilyPond

!" "" "" " #" " #$ % &"" '" "#

Music engraving by LilyPond 2.10.20—www.lilypond.org

A scale in LilyPond

!! !" ! #$ $ %! ! !& !$ ! !! !

Music engraving by LilyPond 2.10.20—www.lilypond.org

静的偏差による刺激変形と刺激変形に不変な認知様式

Page 26: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

黄・青眼鏡を通して眺めるルービックキューブ[1,2]

両者が同一のキューブであることは容易に認知可能異なる色を同一と主張し,同一の色を異なると主張する。各パッチが持つ波長(絶対量)だけではなく,各パッチが他のパッチ群とどのようなコントラストを持つのか,が非常に重要

色みの偏差とその認知的不変性

Page 27: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

黄・青眼鏡を通して眺めるルービックキューブ[1,2]

両者が同一のキューブであることは容易に認知可能異なる色を同一と主張し,同一の色を異なると主張する。各パッチが持つ波長(絶対量)だけではなく,各パッチが他のパッチ群とどのようなコントラストを持つのか,が非常に重要

色みの偏差とその認知的不変性

Page 28: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

黄・青眼鏡を通して眺めるルービックキューブ[1,2]

両者が同一のキューブであることは容易に認知可能異なる色を同一と主張し,同一の色を異なると主張する。各パッチが持つ波長(絶対量)だけではなく,各パッチが他のパッチ群とどのようなコントラストを持つのか,が非常に重要

色みの偏差とその認知的不変性

Page 29: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

黄・青眼鏡を通して眺めるルービックキューブ[1,2]

両者が同一のキューブであることは容易に認知可能異なる色を同一と主張し,同一の色を異なると主張する。各パッチが持つ波長(絶対量)だけではなく,各パッチが他のパッチ群とどのようなコントラストを持つのか,が非常に重要

色みの偏差とその認知的不変性

Page 30: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

黄・青眼鏡を通して眺めるルービックキューブ[1,2]

両者が同一のキューブであることは容易に認知可能異なる色を同一と主張し,同一の色を異なると主張する。各パッチが持つ波長(絶対量)だけではなく,各パッチが他のパッチ群とどのようなコントラストを持つのか,が非常に重要

色みの偏差とその認知的不変性

Page 31: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音高の偏差とその認知的不変性カラオケでキーを上げ下げして曲を聞く[3,4]

絶対音感者(ドレミは音名)1=ソーミソドーラードドソー,2=レーシレソーミーソソレー言語化可能な相対音感者(ドレミは階名)1=ソーミソドーラードドソー,2=ソーミソドーラードドソー言語化困難な相対音感者(ラーラ音感者)1=ラーラララーラーラララー,2=ラーラララーラーラララー異なる音を同一と主張し,同一の音を異なると主張する。各音が持つ基本周波数(絶対量)ではなく,各音が他の音群とどのようなコントラストを持つのか,のみによって決定

12

Page 32: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

カラオケでキーを上げ下げして曲を聞く[3,4]

各音が持つ基本周波数(絶対量)ではなく,各音が他の音群とどのようなコントラストを持つのか,のみによって決定

音高の偏差とその認知的不変性

12

log(F0) log(2F0)

w w w w ws sDo Re Mi Fa So La Ti Do

w=wholetone s =semitone

1 1 1 1 1 1 12 2 2 2 2 2

22

但し,孤立音の同定は不可能そこにはコントラストが無いから

Page 33: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

色の恒常的・不変的認知はどこまで遡れるのか?[5]

生物が獲得した静的バイアス除去術

Page 34: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

生物が獲得した静的バイアス除去術音高の恒常的・不変的認知はどこまで遡れるのか?[6]

12

1 = 2

Page 35: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

本発表の流れ刺激の物理的多様性とその認知的不変性見え/色み/音高の多様性と自然・進化が編み出した解決方法

音声の物理的多様性とその認知的不変性音色の多様性と工学者が編み出した解決方法

音声の構造的表象とその工学的・実験的検証常識を覆すことで,違和感の解消を試みてみる。

音声言語運用が要求する認知的能力と音声言語工学が構築した計算論的能力ASR の A とは一体何を意味するのだろうか?

音声の構造的表象の言語学的妥当性何故,こうしてこなかったのか? 観測技術の功罪?

音声の構造的表象を用いた音声アプリケーション

Page 36: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音高の静的偏差を生み出す要因男女の音高偏差=声帯の長さ・重さの性差

音色の静的偏差を生み出す要因男女の音色偏差=声道の形状(主に長さ)の性差

音色の偏差とその認知的不変性

身長170cmの男性

身長150cmの女性(写真提供ATR)

身長236cm

身長73cm

身長236cm

身長73cm(推測イメージ)

身長236cm

身長73cma i u e o

a i u e o

a i u e o=

=

PPP

==

a i u e o

a i u e o

a i u e o

Page 37: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

色み・音高の恒常・不変的認知コントラスト情報に基づく処理が重要要素同定ではなく,コントラスト群から成る全体的パターン処理

音色の偏差とその認知的不変性

A scale in LilyPond

!" "" "" " #" " #$ % &"" '" "#

Music engraving by LilyPond 2.10.20—www.lilypond.org

A scale in LilyPond

!! !" ! #$ $ %! ! !& !$ ! !! !

Music engraving by LilyPond 2.10.20—www.lilypond.org

Page 38: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音色の偏差とその認知的不変性音色の偏差に対する工学的な常套手段音声ストリームを要素列として表象し,個々の要素の統計モデルを作る。

数千~数十万

あ い う え お

身長236cm

身長73cm

Page 39: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音声模倣=親の発声行為を子が積極的に模倣する行為これを通して幼児は言語を獲得する[7]動物学的には非常に稀な行為。霊長類では人間だけ[8]他の動物では小鳥,クジラ,イルカくらいか[10]

動物の模倣=声帯模写,ヒトの音声模倣=声帯模写九官鳥の音声模倣[9]車,ドア,椅子,犬,猫,音を真似る。人の声も音でしかない。良い九官鳥を聞くと,飼い主が分かる。幼児の音声模倣動物学的には奇妙な模倣行為[10]いくら良い子でも,声から父親を割り出せずにお巡りさんは困る。

幼児の言語獲得と音声模倣

?

Page 40: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

幼児の言語獲得と音声模倣親の発声→音韻同定→音韻列→個々の音韻を発声

音韻意識が希薄/しり取りも出来ない。発達心理学からの回答幼児は語全体の語形・音形・枠組み・ゲシュタルトを獲得し,その後,個々の分節音を獲得する[7,12,13]語ゲシュタルトには話者の情報は含まれない。話者不変量if not,幼児は動物のように音声模倣をすることになる。語ゲシュタルトの物理的・音響的定義は何か?峯松が問いかけた心理学者で答えた者はいない。

/おはよう/P P

??

Page 41: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

色み・音高の恒常・不変的認知コントラスト情報に基づく処理が重要要素同定ではなく,コントラスト群から成る全体的パターン処理

音色の偏差とその認知的不変性

A scale in LilyPond

!" "" "" " #" " #$ % &"" '" "#

Music engraving by LilyPond 2.10.20—www.lilypond.org

A scale in LilyPond

!! !" ! #$ $ %! ! !& !$ ! !! !

Music engraving by LilyPond 2.10.20—www.lilypond.org

音色の恒常・不変的認知コントラスト情報に基づく処理が重要要素同定ではなく,コントラスト群から成る全体的パターン処理

P P

Page 42: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

本発表の流れ刺激の物理的多様性とその認知的不変性見え/色み/音高の多様性と自然・進化が編み出した解決方法

音声の物理的多様性とその認知的不変性音色の多様性と工学者が編み出した解決方法

音声の構造的表象とその工学的・実験的検証常識を覆すことで,違和感の解消を試みてみる。

音声言語運用が要求する認知的能力と音声言語工学が構築した計算論的能力ASR の A とは一体何を意味するのだろうか?

音声の構造的表象の言語学的妥当性何故,こうしてこなかったのか? 観測技術の功罪?

音声の構造的表象を用いた音声アプリケーション

Page 43: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音声の構造的表象/音色の相対音感

0.0 0.1 0.30.6

0.20.4 0.5

0.7time [sec] 300400

500600

700

F1 [Hz]

F2 [Hz]2200200018001600140012001000800

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4time [sec]

dummy

log(F0) [Hz]493.9

261.6

440.0392.0349.2329.6293.7

CDEFG /aiueo/

log(F0) F2

F1調の変化 話者の変化

音高の動的変化パターン 音色の動的変化パターン男声平均

女声平均

Page 44: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音声の構造的表象/音色の相対音感音楽における調不変の音配置とその変種

音声における話者不変の音配置とその変種

長調→短調→

←アラビア音階

西洋音楽=5全音+2半音種々の配置=教会音楽民族音楽には半音以外の配置

Williamsport, PA Chicago, IL Ann Arbor, MI Rochester, NY

=欧米の方言

Í

AQ

E

I

Page 45: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

相対音感者による転調部分のドレミ同定曲の途中で調が変わるとドレミ同定はどうなる?絶対音感者 ~音名としてのドレミを使って書き起こす~何ら問題無く,ドレミ同定する。時には転調したことに気付かないことすらある。相対音感者 ~階名としてのドレミを使って書き起こす~転調すると,とたんに「ドレミ」同定ができなくなる。いわゆるパニクる。その後しばらくして,まだ出来るようになる。アラビア犬のワルツ→ドレミが聞こえる所と聞こえない所がある。

発話の途中で話者が変わるとモーラ同定はどうなる?話者が変わろうが,同定率が落ちない人音色の絶対音感者(音色の絶対的特性に基づいて判断する)?話者が変わると,同定率が落ちる人音色の相対音感者(音色の相対的特性に基づいて判断する)?話者変化による音色の変化を音韻の変化と捉える人がいる?

Page 46: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

話者がコロコロ変わる音声の知覚 

もし全体的表象が使用されていれば,同定率は低下するはず。音声刺激の作成HMM合成(男性アナウンサー7名/ATR503文)メルケプストラム(0~24次元),7状態5分布無意味8モーラ列(F0=LHHHLLLL,4型)促音,撥音,拗音,濁音,半濁音などのモーラは使用せず。全43種類話者性変化のタイミング8/4/2/1モーラ,1音素,1分布(5人/音素)

話者性が時間軸に沿って変化する音声

Page 47: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

話者がコロコロ変わる音声の知覚実験手順話者性変化間隔6種類 × 25音声 = 150音声刺激Web上の音声ファイルをクリックにてヘッドフォン提示聴取回数 = 2回8モーラであること,一部モーラの欠落は事前教示

三種類の被験者音声研究に従事する大学院生(合成音評価実験経験有)5名法学部大学生(合成音評価実験経験無)3名HVite+CSRC不特定話者音響モデル+8モーラ認識文法

Page 48: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

話者がコロコロ変わる音声の知覚実験結果に対する四つの予測前後音との関係に基づく聴取 = 音声をより大きな単位で知覚話者性変化頻度の上昇と共にモーラ同定率は劣化音声をより小さな単位で知覚 = 分析的な聴取話者性変化頻度によらず一定のモーラ同定率音色の相対音感の存在を本当に知らない唯一の実体不特定話者音響モデル = 一定のモーラ同定率話者性頻度が極めて大 = 話者性の差の表出・知覚が困難話者性変化頻度の極端な上昇によってモーラ同定率は向上

不特定話者音声の例1モーラ単位での不特定話者音声話者性の変化を音韻の変化として認知する可能性

■■■■■■■■

Page 49: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

レカルツヌチオキ

話者がコロコロ変わる音声の知覚実験結果に対する四つの予測前後音との関係に基づく聴取 = 音声をより大きな単位で知覚話者性変化頻度の上昇と共にモーラ同定率は劣化音声をより小さな単位で知覚 = 分析的な聴取話者性変化頻度によらず一定のモーラ同定率音響的不変構造の存在を本当に知らない唯一の実体不特定話者音響モデル = 一定のモーラ同定率話者性頻度が極めて大 = 話者性の差の表出・知覚が困難話者性変化頻度の極端な上昇によってモーラ同定率は向上

不特定話者音声の例1モーラ単位での不特定話者音声話者性の変化を音韻の変化として認知する可能性

Page 50: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

話者がコロコロ変わる音声の知覚実験結果(計算機と音声研究者)

4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8 morae4 morae

2 morae1 mora

1 phoneme1 state

Unit interval of speaker change

#m

ora

e c

orr

ectly id

en

tifie

d

machine

sub-4

sub-5

sub-6

sub-7

sub-8

p < 10%

Page 51: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

話者がコロコロ変わる音声の知覚実験結果(計算機と法学部学生)

4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8 morae4 morae

2 morae1 mora

1 phoneme1 state

machine

sub-1

sub-2

sub-3

Unit interval of speaker change

#m

ora

e c

orr

ectly id

en

tifie

d

p < 10%

Page 52: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音声の構造的表象/音色の相対音感言語化できる相対音感者が出来ないこと孤立的に提示された音をドレミ同定することは出来ない。孤立的に提示された音を母音同定できない人などいるのか?

巨人&小人の音声を使った母音同定・単語同定実験孤立母音の同定は困難になる[18]でも,無意味語でよいので単語音声にすると書き起こせる[19]

90 90

90

90

6020

実存男性→

実存女性→実存子供→

身長236cm

身長73cm

孤立提示された音を音韻同定する能力は音声言語運用には不要なのかもしれない

Page 53: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音声の構造的表象/音色の相対音感言語化困難な相対音感者(ラーラ音感者)次に示すメロディーの3番目の音を覚えて下さい。その後,別のメロディーを提示します。同じ音が出て来たら挙手しなさい。メロディーをシンボル列に変換できないので,困難な問いとなる。

言語化困難な音声の相対音感者(幼児的な成人?)次に示す発声の3番目の音を覚えて下さい。その後,別の発声を提示します。同じ音が出て来たら挙手しなさい。発声をシンボル列(音韻列)に変換できなければ,困難な問いとなる

英語圏には十分な教育を受けているが,読み書きに苦労する人が多く存在しなければならない?

Page 54: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

音声の構造的表象/音色の相対音感言語化困難な相対音感者(ラーラ音感者)次に示すメロディーの3番目の音を覚えて下さい。その後,別のメロディーを提示します。同じ音が出て来たら挙手しなさい。メロディーをシンボル列に変換できないので,困難な問いとなる。

言語化困難な音声の相対音感者(幼児的な成人?)次に示す発話の3番目の音を覚えて下さい。その後,別の発話を提示します。同じ音が出て来たら挙手しなさい。発話をシンボル列(音韻列)に変換できなければ,困難な問いとなる

ディスレクシア(読字障害・難読症)

Page 55: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

本発表の流れ刺激の物理的多様性とその認知的不変性見え/色み/音高の多様性と自然・進化が編み出した解決方法

音声の物理的多様性とその認知的不変性音色の多様性と工学者が編み出した解決方法

音声の構造的表象とその工学的・実験的検証常識を覆すことで,違和感の解消を試みてみる。

音声言語運用が要求する認知的能力と音声言語工学が構築した計算論的能力ASR の A とは一体何を意味するのだろうか?

音声の構造的表象の言語学的妥当性何故,こうしてこなかったのか? 観測技術の功罪?

音声の構造的表象を用いた音声アプリケーション

Page 56: Ý Ýà æmine/japanese/media2009/2009-12-22.pdf · è[w A è[» Äç ' ÝÃ Ø Cq Úç½ÝÃ Ø Cq ï»å«³ãï Úç½Ýà qò Q Ø C r g ò® H w Æ¥^y ò® ; `t ¯ÛáÇ ³ãïU

本発表の流れ刺激の物理的多様性とその認知的不変性見え/色み/音高の多様性と自然・進化が編み出した解決方法

音声の物理的多様性とその認知的不変性音色の多様性と工学者が編み出した解決方法

音声の構造的表象とその工学的・実験的検証常識を覆すことで,違和感の解消を試みてみる。

音声言語運用が要求する認知的能力と音声言語工学が構築した計算論的能力ASR の A とは一体何を意味するのだろうか?

音声の構造的表象の言語学的妥当性何故,こうしてこなかったのか? 観測技術の功罪?

音声の構造的表象を用いた音声アプリケーション