A Sparse Auditory Envelope Representation with Iterative ... A Sparse Auditory Envelope Representation

  • View
    0

  • Download
    0

Embed Size (px)

Text of A Sparse Auditory Envelope Representation with Iterative ... A Sparse Auditory Envelope...

  • A Sparse Auditory Envelope Representation with Iterative

    Reconstruction for Audio Coding

    Joachim Thiemann

    Department of Electrical & Computer Engineering McGill University Montreal, Canada

    April 2011

    A thesis submitted to McGill University in partial fulfillment of the requirements of the degree of Doctor of Philosophy.

    c© 2011 Joachim Thiemann

    2011/04/05

  • i

    In memory of Johannes Mathias Thiemann

    1933–2009

  • ii

  • iii

    Abstract

    Modern audio coding exploits the properties of the human auditory system to effi-

    ciently code speech and music signals. Perceptual domain coding is a branch of audio

    coding in which the signal is stored and transmitted as a set of parameters derived

    directly from the modeling of the human auditory system. Often, the perceptual rep-

    resentation is designed such that reconstruction can be achieved with limited resources

    but this usually means that some perceptually irrelevant information is included. In

    this thesis, we investigate perceptual domain coding by using a representation de-

    signed to contain only the audible information regardless of whether reconstruction

    can be performed efficiently. The perceptual representation we use is based on a mul-

    tichannel Basilar membrane model, where each channel is decomposed into envelope

    and carrier components. We assume that the information in the carrier is also present

    in the envelopes and therefore discard the carrier components. The envelope com-

    ponents are sparsified using a transmultiplexing masking model and form our basic

    sparse auditory envelope representation (SAER).

    An iterative reconstruction algorithm for the SAER is presented that estimates

    carrier components to match the encoded envelopes. The algorithm is split into two

    stages. In the first, two sets of envelopes are generated, one of which expands the

    sparse envelope samples while the other provides limits for the iterative reconstruction.

    In the second stage, the carrier components are estimated using a synthesis-by-analysis

    iterative method adapted from methods designed for reconstruction from magnitude-

    only transform coefficients. The overall system is evaluated using subjective and

    objective testing on speech and audio signals. We find that some types of audio

    signals are reproduced very well using this method whereas others exhibit audible

    distortion. We conclude that, except for in some specific cases where part of the

    carrier information is required, most of the audible information is present in the

    SAER and can be reconstructed using iterative methods.

  • iv

  • v

    Sommaire

    Le codage audio moderne exploite les propriétés du système auditif humain de manière

    à coder efficacement la parole et la musique. Le codage en domaine perceptuel est une

    branche du codage audio dans lequel le signal est enregistré et transmis sous forme

    d’un ensemble de paramètres provenant directement d’un modèle du système auditif

    humain. La représentation perceptuelle est souvent conçue pour que la reconstruc-

    tion puisse être réalisée avec des ressources limitées, mais cela requiert généralement

    l’inclusion de certaines informations perceptuellement non pertinentes. Dans cette

    thèse, nous étudions le codage perceptuel en utilisant une représentation destinée

    à ne contenir que l’information sonore, indépendamment du fait que la reconstruc-

    tion puisse être effectuée de manière efficace. La représentation perceptuelle que

    nous utilisons est basée sur un modèle à canaux multiples de la membrane basilaire

    pour lequel chaque canal est décomposé en éléments de l’enveloppe et du signal por-

    teur. Nous supposons que l’information contenue dans le signal porteur est également

    présente dans les enveloppes et supprimons donc les composantes du signal porteur.

    Les composantes de l’enveloppe sont réduites à l’aide d’un modèle de masquage trans-

    multiplexeur pour former notre représentation parcimonieuse des enveloppes sonores

    (RPES).

    Nous présentons un algorithme de reconstruction itératif pour la RPES qui fait

    une estimation des composantes du signal porteur à partir des enveloppes codées.

    L’algorithme a deux étapes. À la première étape, deux ensembles d’enveloppes sont

    produits: le premier dilate les échantillons des enveloppes clairsemées tandis que le

    deuxieme fournit des limites pour la reconstruction itérative. À la deuxième étape,

    les éléments du signal porteur sont estimés en utilisant une méthode d’analyse par

    synthèse itérative adaptée de méthodes conçues pour la reconstruction de coefficients

    de la transformée de grandeur. Le système est évalué à l’aide de tests subjectifs et

    objectifs sur des signaux de parole et audio. Nous constatons que certains types de sig-

    naux audio sont très bien reproduits par cette méthode alors que d’autres démontrent

    de la distorsion audible. Nous concluons que, sauf dans certains cas spécifiques où une

    partie de l’information du signal porteur est indispensable, la majorité de l’information

    sonore est présente dans la RPES et peut être reconstruite en utilisant des méthodes

    itératives.

  • vi

  • vii

    Acknowledgments

    There are many people who have been critical to the work presented in this thesis. I

    would like to thank first my advisor Prof. Peter Kabal for his commitment, time and

    support throughout my studies. Prof. Fabrice Labeau has also provided invaluable

    advice and support. Many thanks also go to my fellow students (and former fellow

    students) Abdul, Amr, Benôıt, François, Hafsa, Mahmood, Mohamed, Qipeng, Tiago,

    and many others both in the TSP lab at McGill and at other Universities. I thank

    them for being there when I wanted to do just one more test!

    Special thanks go out to my friends and family for being my support outside of the

    lab. Especially I would like to thank Madeline for being my support, my taskmaster,

    motivation, and editor without whom this thesis would not have been possible.

  • viii

  • ix

    Contents

    1 Introduction 1

    1.1 Perceptual audio coding . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.1.1 Block-transform perceptual coding . . . . . . . . . . . . . . . 2

    1.1.2 Perceptual domain coding . . . . . . . . . . . . . . . . . . . . 3

    1.1.3 Auditory envelopes representation . . . . . . . . . . . . . . . . 5

    1.1.4 Reconstruction using synthesis by analysis . . . . . . . . . . . 5

    1.2 Perspective and goal of the thesis . . . . . . . . . . . . . . . . . . . . 6

    1.3 Thesis contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    1.4 Outline of the thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    2 Auditory perception and modeling 11

    2.1 Overview of the auditory system . . . . . . . . . . . . . . . . . . . . . 11

    2.1.1 The outer and middle ear . . . . . . . . . . . . . . . . . . . . 11

    2.1.2 Inner ear anatomy . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.2 Modelling auditory properties . . . . . . . . . . . . . . . . . . . . . . 14

    2.2.1 Modelling the BM movement using auditory filters . . . . . . 15

    2.2.2 Auditory envelopes for modeling neural transduction . . . . . 17

    2.2.3 Higher order modeling . . . . . . . . . . . . . . . . . . . . . . 21

    2.3 Applications of perceptual analysis and synthesis . . . . . . . . . . . 21

    2.3.1 Pulse based methods and matching pursuits . . . . . . . . . . 22

    2.3.2 Envelopes and modulation domain processing . . . . . . . . . 26

    2.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

  • x Contents

    3 Mathematical Background 31

    3.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    3.1.1 Frequency domain . . . . . . . . . . . . . . . . . . . . . . . . 33

    3.1.2 Subband domain . . . . . . . . . . . . . . . . . . . . . . . . . 33

    3.2 Redundant representations and frame theory . . . . . . . . . . . . . . 38

    3.2.1 The frame algorithm . . . . . . . . . . . . . . . . . . . . . . . 41

    3.2.2 Frame theory and filterbanks . . . . . . . . . . . . . . . . . . 42

    3.3 Signal estimation from modified subband signals . . . . . . . . . . . . 44

    3.3.1 Envelopes and carriers . . . . . . . . . . . . . . . . . . . . . . 45

    3.3.2 Estimating a signal from the subband envelopes . . . . . . . . 46

    3.3.3 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    3.3.4 Implementation issues . . . . . . . . . . . . . . . . . . . . . . 53

    3.4 Illustrative example . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    3.4.1 Example estimation from envelopes . . . . . . . . . . . . . . . 56

    3.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    4 Perceptual Representation and Iterative Reconstruction 63

    4.1 Perceptual representations of audio signals: general con