30
Voice: The New UI for Mobile Devices Jan Šedivý WORLD USIBILITY DAY 2012 1

Aplikace pro rozpoznávání řeči - Jan Šedivý

Embed Size (px)

DESCRIPTION

Prezentace z World Usabilty Day, 8.11.2012

Citation preview

Page 1: Aplikace pro rozpoznávání řeči - Jan Šedivý

Voice: The New UI for Mobile Devices

Jan Šedivý

WORLD USIBILITY DAY – 2012

1

Page 2: Aplikace pro rozpoznávání řeči - Jan Šedivý

Fred Jelinek (1932-2010)

During 21 years at IBM Research and

nearly two decades at Johns

Hopkins, he has pioneered the

statistical methods that enable modern

computers to understand spoken

language.

2

“He envisioned applying the mathematics of

probability to the problem of processing speech

and language,” said Sanjeev Khudanpur, a Johns

Hopkins associate

Page 3: Aplikace pro rozpoznávání řeči - Jan Šedivý

WHY SPEECH RECOGNITION?

3

Page 4: Aplikace pro rozpoznávání řeči - Jan Šedivý

Speech reco benefits

4

• Speech is much richer then two mouse buttons

• Disambiguation, dialog

• Show me all emails from David about Linux server

• “Call David”, David Smith or Stone? Home or cell?

Speech is rich

• Speech expresses not only text entry but C&C, search, URI entry

• Speech entry is part of the keyboard

• “command box”, general source of information

Text entry

WYSIWYG == What You Say

Is What You Get

Page 5: Aplikace pro rozpoznávání řeči - Jan Šedivý

Elements of success

5

• Access to huge content: Internet, YouTube, maps, music, pictures, SMS, email…

• Train on all available data: contact, location names addresses, email, documents content, history, personalization and other sensors: GPS, accelerometers, camera, compass

• Computationally expensive - huge clusters of computers to speed up training

Best accuracy:

• speech reco must not introduce any friction to the interface

• keyboard, touch screen, multi-touch, keyboard, speaker, microphone

• OS control, part of the OS, noise reduction, AD converter

• Use all sensors available on the phone to inject extra information to app

Great UI design:

Page 6: Aplikace pro rozpoznávání řeči - Jan Šedivý

WHERE IS SPEECH RECOGNITION USEFUL?

6

Page 7: Aplikace pro rozpoznávání řeči - Jan Šedivý

Speech recognition areas

7

Command control, digit

dictation

Creation of texts, dictati

on

Telephony IVR

Automotive Mobile devices

Voice search

Speech is the most natural

way

we communicate

Page 8: Aplikace pro rozpoznávání řeči - Jan Šedivý

The main areas in time perspective

8

PC – C&C, dictation

Telephony

Automotive

Mobile devices

UI

1995 2000 2005

Page 9: Aplikace pro rozpoznávání řeči - Jan Šedivý

Little more history

9

1993 IBM Personal Dictation System IBM PC, audio adapter card

1996 VoiceType (Win 95, dictation, isolated words, email, …)

1996 Nuance deployed its first commercial speech application

1997 Dragon Systems unveiled its Naturally Speaking

1999 VoiceXML

2000 Telephony applications, IVR

2002 Car control (control car equipment, make a phone call, select music, dictate address to navigation)

2003 Microsoft includes speech to Office 2003

2007 Growth of mobile phones/devices

2008 Google launches speech to Search iPhone

2009 Nuance Acquires IBM's patents Speech Technology rights

2011 iOS 5, Siri

Page 10: Aplikace pro rozpoznávání řeči - Jan Šedivý

HOW SPEECH RECOGNITION WORKS

10

Page 11: Aplikace pro rozpoznávání řeči - Jan Šedivý

Speech recognition – high level

Digitize audio

AD convertor

FFT, Non-lin,

DFFT

Labeling

triphones, prototy

pes

Search

LM, HMM, Viter

bi

11

AP

I

Applic

atio

n

Front End

feature extraction

Back End

classification

Text output

Page 12: Aplikace pro rozpoznávání řeči - Jan Šedivý

APPLICATIONS DEVELOPMENTCHRONOLOGICALLY

12

Page 13: Aplikace pro rozpoznávání řeči - Jan Šedivý

IBM speech recognition – the early days

Large vocabulary, dictation (1990…)

Office correspondence task – Tangora

Written in Fortran

IBM RISC System/6000, AIX, Tangora

Albert Tangora (July 2, 1903 – April

7, 1978) set the world speed record for

sustained typing on a manual keyboard for

one hour, 147 words per minute, on

October 22, 1923.13

Page 14: Aplikace pro rozpoznávání řeči - Jan Šedivý

How to get reco running on PC -1994

• Add-on board with ASIC

• Integer version on CPUFront End

• Input - 39 dim cepstrum coeffs feature vector each 10 ms

• Output - 100 most likely prototypes out of 30k, diagonal Gaussians

Hierarchical labeler

• Statistical LM – high compression, log,

• Viterbi search, Hidden Markov ModelsSearch

14

Page 15: Aplikace pro rozpoznávání řeči - Jan Šedivý

How get reco running on Embedded 1999

• Resource efficient speech recognition engine

• Written in C/C++

• Integer implementation, GCC compiler

• Simple API to customize for any platform

Easy Port to Embedded

• Grammar support for command control applications

• Special emphasis on digit recognition

• Robust front end for noisy environments

Basic reco

• Command control

• Digit and name dialing

• Navigation control

• On-board entertainment control

Cars applications:

15

Page 16: Aplikace pro rozpoznávání řeči - Jan Šedivý

MOBILE DEVICES

16

Page 17: Aplikace pro rozpoznávání řeči - Jan Šedivý

17

7 billion people

Over 5.3 billion people or

77% of the world’s

population are now on

mobile.

according to

WIPRO

Page 19: Aplikace pro rozpoznávání řeči - Jan Šedivý

ECSS 2010, 10/122/201019

Page 20: Aplikace pro rozpoznávání řeči - Jan Šedivý

Mobile Internet Access

20

Page 21: Aplikace pro rozpoznávání řeči - Jan Šedivý

Factors accelerating better mobile apps

21

Basic phone

More powerful CPU more memory

Connectivity, Internet

Much better UI, multi-touch screen

Rapid growth of mobile phones/devices is

driving the adoption of speech recognition

Page 22: Aplikace pro rozpoznávání řeči - Jan Šedivý

Why is reco so important for mobile?

22

Small screen

Limited keyboard

Difficult text entry

Difficult to navigate

Slow, not reliable connectivity (latency)

Speech is fundamentally

changing the mobile user

experience

Page 23: Aplikace pro rozpoznávání řeči - Jan Šedivý

LATEST APPLICATIONS

23

Page 24: Aplikace pro rozpoznávání řeči - Jan Šedivý

Google Now, Google search

24

Some Android

phones: two

mics

Page 25: Aplikace pro rozpoznávání řeči - Jan Šedivý

iOS Siri

25

Page 26: Aplikace pro rozpoznávání řeči - Jan Šedivý

Poor performance in the Czech Rep.

26

Page 27: Aplikace pro rozpoznávání řeči - Jan Šedivý

iOS Siri versus Google search

27

Siri are "natural language

processing" apps that use statistical

Siri is deep in iOS, start apps,

make calls, set meetings

Google is deep in the search engine

Can't launch apps with Google, you

can dictate an email or a text message.

Google is faster (much faster)

Future – combination of AI and

different UI

Page 28: Aplikace pro rozpoznávání řeči - Jan Šedivý

FUTURE

28

Page 29: Aplikace pro rozpoznávání řeči - Jan Šedivý

Future challenges

ECSS 2010, 10/12/201029

Better recognition, ROBUSTNES (noisy conditions, dictation)

Better UI integration (speech button)

Multiple languages (how would a German native search for an address in France?)

Switching between multiple languages

UI combining multiple modalities, (voice, text, video, sensors)

Work on dictated text correction

Better integration of speech reco to special applications

Page 30: Aplikace pro rozpoznávání řeči - Jan Šedivý

QUESTIONS & THANK YOU

30