38
GENERALIZED COMPRESSION DICTIONARY DISTANCE AS UNIVERSAL SIMILARITY MEASURE Andrey Bogomolov 1 Bruno Lepri 2 Fabio Pianesi 2 1 University of Trento Via Sommarive, 5, I-38123 Povo - Trento, Italy 2 Fondazione Bruno Kessler Via Sommarive, 18, I-38050 Povo - Trento, Italy 2014 Big Data From Space Conference, BiDS ’14, November 12-14, 2014, Frascati, Rome, Italy. 1 / 38

Generalized Compression Dictionary Distance as Universal Similarity Measure

Embed Size (px)

Citation preview

Page 1: Generalized Compression Dictionary Distance as Universal Similarity Measure

GENERALIZED COMPRESSIONDICTIONARY DISTANCE

AS UNIVERSAL SIMILARITY MEASURE

Andrey Bogomolov 1 Bruno Lepri 2 Fabio Pianesi 2

1University of TrentoVia Sommarive, 5, I-38123 Povo - Trento, Italy

2Fondazione Bruno KesslerVia Sommarive, 18, I-38050 Povo - Trento, Italy

2014 Big Data From Space Conference,BiDS ’14, November 12-14, 2014, Frascati, Rome, Italy.

1 / 38

Page 2: Generalized Compression Dictionary Distance as Universal Similarity Measure

Outline

IntroductionProblem Statement

Methodology: state-of-the-artComplexity based similarityApproximating Kolmogorov complexity?

Methodology: ResultsFindingsContribution - GCDD

Experimental Results and DiscussionDataSimilarity functions - computationally intensiveSimilarity functions - fastVisualizing results

Implications and Summary

2 / 38

Page 3: Generalized Compression Dictionary Distance as Universal Similarity Measure

Problem Statement

Why?

I Time series similarity - solved?I Algorithmic complexityI Is applicable for Big Data?

What we contribute

I New similarity measure - GCDDI Method based on information theoretic measures

(approximating Kolmogorov Complexity?)

3 / 38

Page 4: Generalized Compression Dictionary Distance as Universal Similarity Measure

Kolmogorov complexity based similarity

Normalized Information Distance

NID(x , y) =maxK (x |y),K (y |x)

maxK (x),K (y)

Cilibrasi and Vitanyi, 2005

4 / 38

Page 5: Generalized Compression Dictionary Distance as Universal Similarity Measure

Approximating NID

Normalized Compression Distance

NCD(x , y) =C(xy)−minC(x),C(y)

maxC(x),C(y)

Li et al, 2004-2005

5 / 38

Page 6: Generalized Compression Dictionary Distance as Universal Similarity Measure

Approximating NID

Speeding up?

FCD(x , y) =|D(x)| − ∩(D(x),D(y))

|D(x)|,

Daniele Cerra and Mihai Datcu, 2012

|D(x)| and |D(y)| are the sizes of the relative dictionaries,represented by the number of entries they contain∩(D(x),D(y)) is the number of patterns which are found in bothdictionaries.

6 / 38

Page 7: Generalized Compression Dictionary Distance as Universal Similarity Measure

NCD limitation

Properties

I number of patterns which exist in the both dictionaries is dependent onthe compression algorithm used

I dictionary of x and y set intersection could be coded with differentsymbols/bytes

I frequencies of strings could be different in x , y and ∩(x , y), which leadsto less accurate approximation

I the size of a compression dictionary does not account for the symbolfrequency

I we loose a lot of information about x and y if we compute only the sizeof a compression dictionary

7 / 38

Page 8: Generalized Compression Dictionary Distance as Universal Similarity Measure

GCDD

Contributed Solution

In order to overcome this problem we introduce GeneralizedCompression Dictionary Distance (GCDD) metric, which isdefined as:

GCDD(x , y) =φ(x · y)−minφ(x), φ(y)

maxφ(x), φ(y),

φ(x · y) – functional characteristics of the compressiondictionary extracted from concatination of x and y byte arrays.GCDD returns an n-dimensional vector, which characterizesthe conditional similarity measure between x and y .Each dimension of GCDD - real valued function

8 / 38

Page 9: Generalized Compression Dictionary Distance as Universal Similarity Measure

Algorithmic Complexity

Contributed Solution

The algorithmic complexity of the proposed solution isproportional to:

OGCDD(x ,y) → kmx log my ,

mx and my are the dictionary size of x and y , and k is theconstant dependent on the dimensionality of the resultingvector.

9 / 38

Page 10: Generalized Compression Dictionary Distance as Universal Similarity Measure

Algorithmic Complexity

Competitors’ algorithmic complexity

In comparison, the algorithmic complexity of the othermeasures are:

OFCD(x ,y) → mx log my ,

ONCD(x ,y) → (nx + ny ) log(mx + my ),

10 / 38

Page 11: Generalized Compression Dictionary Distance as Universal Similarity Measure

Experimental Results and Discussion

Data

I “Synthetic Control Chart Time Series”I well known dataset published in UCI Machine Learning Repository,

2007I control charts synthetically generated by Alcock and Manolopoulos,

1999

Six different classes of time series

I normalI cyclicI increasing trendI decreasing trendI upward shiftI downward shift

11 / 38

Page 12: Generalized Compression Dictionary Distance as Universal Similarity Measure

Similarity functions - computationally intensive

State-of-the-art intensive methods

I Autocorrelation based methodI Linear Predictive Coding based, Kalpakis 2001I Adaptive Dissimilarity Index based, Chouakria 2007I ARIMA based, Piccolo 1990

12 / 38

Page 13: Generalized Compression Dictionary Distance as Universal Similarity Measure

Similarity functions - fast

“Fast” methods

I GCDD basedI NCD basedI L2 norm basedI Correlation based

13 / 38

Page 14: Generalized Compression Dictionary Distance as Universal Similarity Measure

Experimental Results

Fast Methods Comparison

−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15

−0.2

−0.1

0.0

0.1

GCDD based dissimilarity matrix projection

N N NNN

N

N

NN N

NN

NN

N

NNN

N N

NN

N

NN

NNN

N N

NNN

NN

N

N

NN

N

N

NN N

NN

NN NN

NNN NN

NNN

NN

NN

N

N N

N

NNN

NNN

N

NN

N

N

N

NN

N N

NN

NN

NNNN

NN

NN

N

NN

N

N

N

CC

CC

C

C

C

C

CC

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

CC

C

C

C

CC

C

C

C

C

C

C C

CCC

C

C

C

CC

C

CC

CC

C

C

C

C

CC

C

C

CC

CC

CCC

CCC

C

C

C CC

CC CC

C

C

CC

C

C CC

C

CC

C

C

C

C CC

CC

ITIT

ITIT

IT

IT

ITITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

ITIT

IT

ITIT

ITITIT

IT

ITIT IT

ITIT

ITITIT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

ITITIT

IT

IT

ITITIT

IT

ITIT

IT

ITIT

ITIT

ITITITITIT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT ITIT

ITITIT

IT

IT

IT

IT

IT

IT

IT

DT

DT

DT

DT

DT DT

DT

DTDT

DTDT

DT

DTDT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DTDT

DTDTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DTDT

DT

DT DTDT

DT

DT

DT

DT

DT

DTDT

DT

DT DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT DTDT

US

US US

US

US

USUS

US

US

US

US US

USUS

US USUS

US

US US

US

US

US

USUS

USUS

US

US US

US

US

USUS

US

US

US

US

US

US

USUS

US

US

US

US

US US

US

US

US

US

US

US

US

US

US

USUS

US

USUSUS

US

USUS

USUSUS

US

USUS

US

US

US

US USUS

US

US

US

US

USUS

US

US

USUS

US

USUS

US

US

US

USUS

US

US

US

US

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS DS

DS

DS

DS

DSDSDS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDSDSDS

DS

DS

DS

DS

DSDSDS

DSDS

DS DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDS

DSDSDS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15

−0.10

−0.05

0.00

0.05

0.10

0.15

NCD based dissimilarity matrix projection

NNNN

NNNN

N

N

NNN

N

NN

N N NNN

N

N

N

NN

N

N

N

N

NN

N

N

N

NN

N

N

N

N N

N

NNN

N

N

N

N

N

NN

N

NN

NN

NN

NN

N

NN

N

NNNN NNNN

NNNN

N

N

N

NN

N N

N

N

NNN

NN

N

N

NNNNNN

CC

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

CC

C

CC

C

C C

C

CC

C

CC

C

CC

C

C

CC

C

C

C

C

CC

C

CC

C

C

C

C

C

CCC

C

C

C

C

C C

C

C

CC

C

C

C

C

CCC

C

CC

C

CCC

C

C

C

C

C

C

C

C

C

C

C

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT

ITITIT

ITIT

IT IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

ITIT

IT

IT

ITITIT

ITIT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

DT

DTDT

DT

DTDT

DT

DT

DT

DTDT DT

DT

DT

DTDT

DT

DT

DT

DT

DT DT

DT

DT

DT

DT

DT DT

DT DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

US

US

US

USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

USUS

USUS

US

US US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUSUS

US

US

US

US

USUS

US

US

US

USUS

US

USUS

US

USUSUS

US

US

US

US

US

US USUS

US

US

US

US

USUS US

USUS

USUS

USUS

US

US

US

US

US

US

US

USUS DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DSDS

DSDS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDS

DS

DS

DS

−100 −50 0 50 100

−80

−60

−40

−20

020

40

L2 norm based dissimilarity matrix projection

NNNN N

NN NN NN N

NNNN

N

N

N N

NNNN NNN

N

NN

N

NNNNNN

N

N

N

NNNNN

NNNN

N

NNNN

NNN

N

N

NNN

NNN

N

N

N

N NNNN

N

NNNNNNN

N

NNNNNN

N

NNNNNNNNN

NN

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

CC

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

ITITIT

ITIT

IT IT

IT ITITIT

IT ITIT

IT ITIT ITIT

IT

IT

ITIT

IT

IT

ITIT

ITIT

ITIT

ITIT

ITITIT IT

ITIT ITITIT

ITIT

ITIT

IT

ITIT

IT ITIT

IT ITIT

ITIT

ITIT

ITITITIT

ITITIT ITITIT

ITIT

ITIT

IT

ITIT ITIT

IT

IT ITIT

ITIT ITIT

ITIT

IT

IT

IT

ITIT

IT

ITITIT IT

ITIT

DT

DT

DT

DT DTDTDTDT

DTDTDT

DT

DTDT

DT

DT DTDT

DTDTDTDT

DT

DT

DTDT

DTDT

DT

DT

DT

DT DTDTDT

DTDTDT DTDT

DTDT

DT DTDT

DTDT

DT

DT

DTDT

DTDT DTDT

DTDT

DT

DT

DTDTDTDT DT

DTDTDT

DT

DT

DT DTDTDTDT DT DT

DT

DT

DTDT

DTDTDT

DTDTDT

DTDTDT DT

DT

DTDT

DT

DT

DT

DTDT DT

DTUS

US

US

USUS

US

USUSUS

USUS

US

US USUS

USUSUS

US

USUS

US

USUS

USUS

USUS US

US USUS US

USUS

USUSUS

USUSUS

US US

US

USUSUS

US

US

USUSUS USUS US

US

US

USUS US

USUS

US

US

US

US

USUS

US USUS

US

US

US

US

US

US

US

USUS

US

US

US

US

USUS USUSUS

USUS

US

US

USUS

USUS

USUSUS

DS

DSDS

DS

DS

DS

DSDS

DSDSDSDS

DS

DS

DSDS

DSDSDSDSDSDS

DS

DS

DSDS

DS DS

DS

DS DSDS

DS

DS

DS

DSDSDS

DSDS

DS

DS

DS

DS

DSDSDS

DSDS

DSDS

DS

DS

DSDSDSDS

DS

DSDS

DSDSDS

DSDS DS

DSDS

DSDSDS

DS DSDS

DSDS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DSDS

DS

DSDS

DSDS

DS

DSDSDSDS

DS

−1.0 −0.5 0.0 0.5

−0.8

−0.6

−0.4

−0.2

0.0

0.2

0.4

Correlation based dissimilarity matrix projection

N

NN

NN

N

N

N

NN

N

N

N

NN

N

N

N

N

N

N N

NN

NN

N

N

N

N

N

N

NN

N

N

N

N

N

N

N

NN

NN

N

N NN

N

N

NNN

N

NN

N

N

N

N

N

NN

N

N

N

N

N

N

N

NN

N

NN

N

N

N

N

N

N

NN

N

N

NN

N

N

N

N

N

N

N

N

N

N

N

N

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC C

C

C

C

C

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

ITIT

ITIT

IT

ITIT

ITITIT

ITITIT

ITIT

IT ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITITIT

ITITITITIT

IT

ITIT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

ITIT

ITIT

IT

IT

ITIT

ITITITIT IT

IT

IT

IT

IT

IT

IT

IT ITIT

IT

IT

ITITITITITIT

IT

ITIT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT DT

DT

DT

DTDT

DTDT

DT

DT DT

DT

DT

DTDT

DT

DTDT DT

DTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT DTDTDTDT

DT DTDT

DTDTDT

DT

DT

DT

DT

DT

DTDT

DTDTDT

DT

DTDT

DT

DT

DT

DT

DTDTDT

DT

DTDTDT

DT

DTDTDT

DTDT

DTDT

DT

DT

DT

DTDTDT

DT

DT DTDT

DT

DTDT

DT

DT

DTDT

DT

DT

DT

DT

DTDT

DT

US

US

USUS

US

US

USUS

US

US

US

US

USUS

US

US

USUS

US

USUS

US

US

US

US

US

US

US

US

US

US USUS

US

US

US

US

US

US

USUS

USUS

US

USUS US

US

US

USUS

USUS

USUSUSUS

US

USUS

US

US

US

US

US

US

USUS

USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUS

USUS

US

US

US

USUS

USUS

US

US

US

DS

DSDS

DS

DS

DS

DS

DS

DSDSDS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DSDSDSDS

DS

DSDS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DSDSDS

DS

DS

DSDS

DS

DSDSDS

DS

DSDSDS

DSDS

DSDS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

14 / 38

Page 15: Generalized Compression Dictionary Distance as Universal Similarity Measure

Experimental Results

Fast Methods Comparison−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15

−0.2

−0.1

0.0

0.1

GCDD based dissimilarity matrix projection

N N NNN

N

N

NN N

NN

NN

N

NNN

N N

NN

N

NN

NNN

N N

NNN

NN

N

N

NN

N

N

NN N

NN

NN NN

NNN NN

NNN

NN

NN

N

N N

N

NNN

NNN

N

NN

N

N

N

NN

N N

NN

NN

NNNN

NN

NN

N

NN

N

N

N

CC

CC

C

C

C

C

CC

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

CC

C

C

C

CC

C

C

C

C

C

C C

CCC

C

C

C

CC

C

CC

CC

C

C

C

C

CC

C

C

CC

CC

CCC

CCC

C

C

C CC

CC CC

C

C

CC

C

C CC

C

CC

C

C

C

C CC

CC

ITIT

ITIT

IT

IT

ITITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

ITIT

IT

ITIT

ITITIT

IT

ITIT IT

ITIT

ITITIT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

ITITIT

IT

IT

ITITIT

IT

ITIT

IT

ITIT

ITIT

ITITITITIT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT ITIT

ITITIT

IT

IT

IT

IT

IT

IT

IT

DT

DT

DT

DT

DT DT

DT

DTDT

DTDT

DT

DTDT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DTDT

DTDTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DTDT

DT

DT DTDT

DT

DT

DT

DT

DT

DTDT

DT

DT DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT DTDT

US

US US

US

US

USUS

US

US

US

US US

USUS

US USUS

US

US US

US

US

US

USUS

USUS

US

US US

US

US

USUS

US

US

US

US

US

US

USUS

US

US

US

US

US US

US

US

US

US

US

US

US

US

US

USUS

US

USUSUS

US

USUS

USUSUS

US

USUS

US

US

US

US USUS

US

US

US

US

USUS

US

US

USUS

US

USUS

US

US

US

USUS

US

US

US

US

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS DS

DS

DS

DS

DSDSDS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDSDSDS

DS

DS

DS

DS

DSDSDS

DSDS

DS DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDS

DSDSDS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15

−0.10

−0.05

0.00

0.05

0.10

0.15

NCD based dissimilarity matrix projection

NNNN

NNNN

N

N

NNN

N

NN

N N NNN

N

N

N

NN

N

N

N

N

NN

N

N

N

NN

N

N

N

N N

N

NNN

N

N

N

N

N

NN

N

NN

NN

NN

NN

N

NN

N

NNNN NNNN

NNNN

N

N

N

NN

N N

N

N

NNN

NN

N

N

NNNNNN

CC

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

CC

C

CC

C

C C

C

CC

C

CC

C

CC

C

C

CC

C

C

C

C

CC

C

CC

C

C

C

C

C

CCC

C

C

C

C

C C

C

C

CC

C

C

C

C

CCC

C

CC

C

CCC

C

C

C

C

C

C

C

C

C

C

C

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT

ITITIT

ITIT

IT IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

ITIT

IT

IT

ITITIT

ITIT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

DT

DTDT

DT

DTDT

DT

DT

DT

DTDT DT

DT

DT

DTDT

DT

DT

DT

DT

DT DT

DT

DT

DT

DT

DT DT

DT DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

US

US

US

USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

USUS

USUS

US

US US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUSUS

US

US

US

US

USUS

US

US

US

USUS

US

USUS

US

USUSUS

US

US

US

US

US

US USUS

US

US

US

US

USUS US

USUS

USUS

USUS

US

US

US

US

US

US

US

USUS DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DSDS

DSDS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDS

DS

DS

DS

−100 −50 0 50 100

−80

−60

−40

−20

020

40

L2 norm based dissimilarity matrix projection

NNNN N

NN NN NN N

NNNN

N

N

N N

NNNN NNN

N

NN

N

NNNNNN

N

N

N

NNNNN

NNNN

N

NNNN

NNN

N

N

NNN

NNN

N

N

N

N NNNN

N

NNNNNNN

N

NNNNNN

N

NNNNNNNNN

NN

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

CC

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

ITITIT

ITIT

IT IT

IT ITITIT

IT ITIT

IT ITIT ITIT

IT

IT

ITIT

IT

IT

ITIT

ITIT

ITIT

ITIT

ITITIT IT

ITIT ITITIT

ITIT

ITIT

IT

ITIT

IT ITIT

IT ITIT

ITIT

ITIT

ITITITIT

ITITIT ITITIT

ITIT

ITIT

IT

ITIT ITIT

IT

IT ITIT

ITIT ITIT

ITIT

IT

IT

IT

ITIT

IT

ITITIT IT

ITIT

DT

DT

DT

DT DTDTDTDT

DTDTDT

DT

DTDT

DT

DT DTDT

DTDTDTDT

DT

DT

DTDT

DTDT

DT

DT

DT

DT DTDTDT

DTDTDT DTDT

DTDT

DT DTDT

DTDT

DT

DT

DTDT

DTDT DTDT

DTDT

DT

DT

DTDTDTDT DT

DTDTDT

DT

DT

DT DTDTDTDT DT DT

DT

DT

DTDT

DTDTDT

DTDTDT

DTDTDT DT

DT

DTDT

DT

DT

DT

DTDT DT

DTUS

US

US

USUS

US

USUSUS

USUS

US

US USUS

USUSUS

US

USUS

US

USUS

USUS

USUS US

US USUS US

USUS

USUSUS

USUSUS

US US

US

USUSUS

US

US

USUSUS USUS US

US

US

USUS US

USUS

US

US

US

US

USUS

US USUS

US

US

US

US

US

US

US

USUS

US

US

US

US

USUS USUSUS

USUS

US

US

USUS

USUS

USUSUS

DS

DSDS

DS

DS

DS

DSDS

DSDSDSDS

DS

DS

DSDS

DSDSDSDSDSDS

DS

DS

DSDS

DS DS

DS

DS DSDS

DS

DS

DS

DSDSDS

DSDS

DS

DS

DS

DS

DSDSDS

DSDS

DSDS

DS

DS

DSDSDSDS

DS

DSDS

DSDSDS

DSDS DS

DSDS

DSDSDS

DS DSDS

DSDS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DSDS

DS

DSDS

DSDS

DS

DSDSDSDS

DS

−1.0 −0.5 0.0 0.5

−0.8

−0.6

−0.4

−0.2

0.0

0.2

0.4

Correlation based dissimilarity matrix projection

N

NN

NN

N

N

N

NN

N

N

N

NN

N

N

N

N

N

N N

NN

NN

N

N

N

N

N

N

NN

N

N

N

N

N

N

N

NN

NN

N

N NN

N

N

NNN

N

NN

N

N

N

N

N

NN

N

N

N

N

N

N

N

NN

N

NN

N

N

N

N

N

N

NN

N

N

NN

N

N

N

N

N

N

N

N

N

N

N

N

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC C

C

C

C

C

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

ITIT

ITIT

IT

ITIT

ITITIT

ITITIT

ITIT

IT ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITITIT

ITITITITIT

IT

ITIT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

ITIT

ITIT

IT

IT

ITIT

ITITITIT IT

IT

IT

IT

IT

IT

IT

IT ITIT

IT

IT

ITITITITITIT

IT

ITIT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT DT

DT

DT

DTDT

DTDT

DT

DT DT

DT

DT

DTDT

DT

DTDT DT

DTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT DTDTDTDT

DT DTDT

DTDTDT

DT

DT

DT

DT

DT

DTDT

DTDTDT

DT

DTDT

DT

DT

DT

DT

DTDTDT

DT

DTDTDT

DT

DTDTDT

DTDT

DTDT

DT

DT

DT

DTDTDT

DT

DT DTDT

DT

DTDT

DT

DT

DTDT

DT

DT

DT

DT

DTDT

DT

US

US

USUS

US

US

USUS

US

US

US

US

USUS

US

US

USUS

US

USUS

US

US

US

US

US

US

US

US

US

US USUS

US

US

US

US

US

US

USUS

USUS

US

USUS US

US

US

USUS

USUS

USUSUSUS

US

USUS

US

US

US

US

US

US

USUS

USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUS

USUS

US

US

US

USUS

USUS

US

US

US

DS

DSDS

DS

DS

DS

DS

DS

DSDSDS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DSDSDSDS

DS

DSDS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DSDSDS

DS

DS

DSDS

DS

DSDSDS

DS

DSDSDS

DSDS

DSDS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

15 / 38

Page 16: Generalized Compression Dictionary Distance as Universal Similarity Measure

Experimental Results

Fast Methods Comparison

−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15

−0.2

−0.1

0.0

0.1

GCDD based dissimilarity matrix projection

N N NNN

N

N

NN N

NN

NN

N

NNN

N N

NN

N

NN

NNN

N N

NNN

NN

N

N

NN

N

N

NN N

NN

NN NN

NNN NN

NNN

NN

NN

N

N N

N

NNN

NNN

N

NN

N

N

N

NN

N N

NN

NN

NNNN

NN

NN

N

NN

N

N

N

CC

CC

C

C

C

C

CC

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

CC

C

C

C

CC

C

C

C

C

C

C C

CCC

C

C

C

CC

C

CC

CC

C

C

C

C

CC

C

C

CC

CC

CCC

CCC

C

C

C CC

CC CC

C

C

CC

C

C CC

C

CC

C

C

C

C CC

CC

ITIT

ITIT

IT

IT

ITITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

ITIT

IT

ITIT

ITITIT

IT

ITIT IT

ITIT

ITITIT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

ITITIT

IT

IT

ITITIT

IT

ITIT

IT

ITIT

ITIT

ITITITITIT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT ITIT

ITITIT

IT

IT

IT

IT

IT

IT

IT

DT

DT

DT

DT

DT DT

DT

DTDT

DTDT

DT

DTDT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DTDT

DTDTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DTDT

DT

DT DTDT

DT

DT

DT

DT

DT

DTDT

DT

DT DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT DTDT

US

US US

US

US

USUS

US

US

US

US US

USUS

US USUS

US

US US

US

US

US

USUS

USUS

US

US US

US

US

USUS

US

US

US

US

US

US

USUS

US

US

US

US

US US

US

US

US

US

US

US

US

US

US

USUS

US

USUSUS

US

USUS

USUSUS

US

USUS

US

US

US

US USUS

US

US

US

US

USUS

US

US

USUS

US

USUS

US

US

US

USUS

US

US

US

US

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS DS

DS

DS

DS

DSDSDS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDSDSDS

DS

DS

DS

DS

DSDSDS

DSDS

DS DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDS

DSDSDS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15

−0.10

−0.05

0.00

0.05

0.10

0.15

NCD based dissimilarity matrix projection

NNNN

NNNN

N

N

NNN

N

NN

N N NNN

N

N

N

NN

N

N

N

N

NN

N

N

N

NN

N

N

N

N N

N

NNN

N

N

N

N

N

NN

N

NN

NN

NN

NN

N

NN

N

NNNN NNNN

NNNN

N

N

N

NN

N N

N

N

NNN

NN

N

N

NNNNNN

CC

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

CC

C

CC

C

C C

C

CC

C

CC

C

CC

C

C

CC

C

C

C

C

CC

C

CC

C

C

C

C

C

CCC

C

C

C

C

C C

C

C

CC

C

C

C

C

CCC

C

CC

C

CCC

C

C

C

C

C

C

C

C

C

C

C

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT

ITITIT

ITIT

IT IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

ITIT

IT

IT

ITITIT

ITIT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

DT

DTDT

DT

DTDT

DT

DT

DT

DTDT DT

DT

DT

DTDT

DT

DT

DT

DT

DT DT

DT

DT

DT

DT

DT DT

DT DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

US

US

US

USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

USUS

USUS

US

US US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUSUS

US

US

US

US

USUS

US

US

US

USUS

US

USUS

US

USUSUS

US

US

US

US

US

US USUS

US

US

US

US

USUS US

USUS

USUS

USUS

US

US

US

US

US

US

US

USUS DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DSDS

DSDS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDS

DS

DS

DS

−100 −50 0 50 100

−80

−60

−40

−20

020

40L2 norm based dissimilarity matrix projection

NNNN N

NN NN NN N

NNNN

N

N

N N

NNNN NNN

N

NN

N

NNNNNN

N

N

N

NNNNN

NNNN

N

NNNN

NNN

N

N

NNN

NNN

N

N

N

N NNNN

N

NNNNNNN

N

NNNNNN

N

NNNNNNNNN

NN

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

CC

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

ITITIT

ITIT

IT IT

IT ITITIT

IT ITIT

IT ITIT ITIT

IT

IT

ITIT

IT

IT

ITIT

ITIT

ITIT

ITIT

ITITIT IT

ITIT ITITIT

ITIT

ITIT

IT

ITIT

IT ITIT

IT ITIT

ITIT

ITIT

ITITITIT

ITITIT ITITIT

ITIT

ITIT

IT

ITIT ITIT

IT

IT ITIT

ITIT ITIT

ITIT

IT

IT

IT

ITIT

IT

ITITIT IT

ITIT

DT

DT

DT

DT DTDTDTDT

DTDTDT

DT

DTDT

DT

DT DTDT

DTDTDTDT

DT

DT

DTDT

DTDT

DT

DT

DT

DT DTDTDT

DTDTDT DTDT

DTDT

DT DTDT

DTDT

DT

DT

DTDT

DTDT DTDT

DTDT

DT

DT

DTDTDTDT DT

DTDTDT

DT

DT

DT DTDTDTDT DT DT

DT

DT

DTDT

DTDTDT

DTDTDT

DTDTDT DT

DT

DTDT

DT

DT

DT

DTDT DT

DTUS

US

US

USUS

US

USUSUS

USUS

US

US USUS

USUSUS

US

USUS

US

USUS

USUS

USUS US

US USUS US

USUS

USUSUS

USUSUS

US US

US

USUSUS

US

US

USUSUS USUS US

US

US

USUS US

USUS

US

US

US

US

USUS

US USUS

US

US

US

US

US

US

US

USUS

US

US

US

US

USUS USUSUS

USUS

US

US

USUS

USUS

USUSUS

DS

DSDS

DS

DS

DS

DSDS

DSDSDSDS

DS

DS

DSDS

DSDSDSDSDSDS

DS

DS

DSDS

DS DS

DS

DS DSDS

DS

DS

DS

DSDSDS

DSDS

DS

DS

DS

DS

DSDSDS

DSDS

DSDS

DS

DS

DSDSDSDS

DS

DSDS

DSDSDS

DSDS DS

DSDS

DSDSDS

DS DSDS

DSDS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DSDS

DS

DSDS

DSDS

DS

DSDSDSDS

DS

−1.0 −0.5 0.0 0.5

−0.8

−0.6

−0.4

−0.2

0.0

0.2

0.4

Correlation based dissimilarity matrix projection

N

NN

NN

N

N

N

NN

N

N

N

NN

N

N

N

N

N

N N

NN

NN

N

N

N

N

N

N

NN

N

N

N

N

N

N

N

NN

NN

N

N NN

N

N

NNN

N

NN

N

N

N

N

N

NN

N

N

N

N

N

N

N

NN

N

NN

N

N

N

N

N

N

NN

N

N

NN

N

N

N

N

N

N

N

N

N

N

N

N

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC C

C

C

C

C

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

ITIT

ITIT

IT

ITIT

ITITIT

ITITIT

ITIT

IT ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITITIT

ITITITITIT

IT

ITIT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

ITIT

ITIT

IT

IT

ITIT

ITITITIT IT

IT

IT

IT

IT

IT

IT

IT ITIT

IT

IT

ITITITITITIT

IT

ITIT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT DT

DT

DT

DTDT

DTDT

DT

DT DT

DT

DT

DTDT

DT

DTDT DT

DTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT DTDTDTDT

DT DTDT

DTDTDT

DT

DT

DT

DT

DT

DTDT

DTDTDT

DT

DTDT

DT

DT

DT

DT

DTDTDT

DT

DTDTDT

DT

DTDTDT

DTDT

DTDT

DT

DT

DT

DTDTDT

DT

DT DTDT

DT

DTDT

DT

DT

DTDT

DT

DT

DT

DT

DTDT

DT

US

US

USUS

US

US

USUS

US

US

US

US

USUS

US

US

USUS

US

USUS

US

US

US

US

US

US

US

US

US

US USUS

US

US

US

US

US

US

USUS

USUS

US

USUS US

US

US

USUS

USUS

USUSUSUS

US

USUS

US

US

US

US

US

US

USUS

USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUS

USUS

US

US

US

USUS

USUS

US

US

US

DS

DSDS

DS

DS

DS

DS

DS

DSDSDS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DSDSDSDS

DS

DSDS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DSDSDS

DS

DS

DSDS

DS

DSDSDS

DS

DSDSDS

DSDS

DSDS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

16 / 38

Page 17: Generalized Compression Dictionary Distance as Universal Similarity Measure

Experimental Results

Fast Methods Comparison

−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15

−0.2

−0.1

0.0

0.1

GCDD based dissimilarity matrix projection

N N NNN

N

N

NN N

NN

NN

N

NNN

N N

NN

N

NN

NNN

N N

NNN

NN

N

N

NN

N

N

NN N

NN

NN NN

NNN NN

NNN

NN

NN

N

N N

N

NNN

NNN

N

NN

N

N

N

NN

N N

NN

NN

NNNN

NN

NN

N

NN

N

N

N

CC

CC

C

C

C

C

CC

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

CC

C

C

C

CC

C

C

C

C

C

C C

CCC

C

C

C

CC

C

CC

CC

C

C

C

C

CC

C

C

CC

CC

CCC

CCC

C

C

C CC

CC CC

C

C

CC

C

C CC

C

CC

C

C

C

C CC

CC

ITIT

ITIT

IT

IT

ITITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

ITIT

IT

ITIT

ITITIT

IT

ITIT IT

ITIT

ITITIT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

ITITIT

IT

IT

ITITIT

IT

ITIT

IT

ITIT

ITIT

ITITITITIT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT ITIT

ITITIT

IT

IT

IT

IT

IT

IT

IT

DT

DT

DT

DT

DT DT

DT

DTDT

DTDT

DT

DTDT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DTDT

DTDTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DTDT

DT

DT DTDT

DT

DT

DT

DT

DT

DTDT

DT

DT DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT DTDT

US

US US

US

US

USUS

US

US

US

US US

USUS

US USUS

US

US US

US

US

US

USUS

USUS

US

US US

US

US

USUS

US

US

US

US

US

US

USUS

US

US

US

US

US US

US

US

US

US

US

US

US

US

US

USUS

US

USUSUS

US

USUS

USUSUS

US

USUS

US

US

US

US USUS

US

US

US

US

USUS

US

US

USUS

US

USUS

US

US

US

USUS

US

US

US

US

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS DS

DS

DS

DS

DSDSDS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDSDSDS

DS

DS

DS

DS

DSDSDS

DSDS

DS DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDS

DSDSDS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15

−0.10

−0.05

0.00

0.05

0.10

0.15

NCD based dissimilarity matrix projection

NNNN

NNNN

N

N

NNN

N

NN

N N NNN

N

N

N

NN

N

N

N

N

NN

N

N

N

NN

N

N

N

N N

N

NNN

N

N

N

N

N

NN

N

NN

NN

NN

NN

N

NN

N

NNNN NNNN

NNNN

N

N

N

NN

N N

N

N

NNN

NN

N

N

NNNNNN

CC

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

CC

C

CC

C

C C

C

CC

C

CC

C

CC

C

C

CC

C

C

C

C

CC

C

CC

C

C

C

C

C

CCC

C

C

C

C

C C

C

C

CC

C

C

C

C

CCC

C

CC

C

CCC

C

C

C

C

C

C

C

C

C

C

C

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT

ITITIT

ITIT

IT IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

ITIT

IT

IT

ITITIT

ITIT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

DT

DTDT

DT

DTDT

DT

DT

DT

DTDT DT

DT

DT

DTDT

DT

DT

DT

DT

DT DT

DT

DT

DT

DT

DT DT

DT DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

US

US

US

USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

USUS

USUS

US

US US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUSUS

US

US

US

US

USUS

US

US

US

USUS

US

USUS

US

USUSUS

US

US

US

US

US

US USUS

US

US

US

US

USUS US

USUS

USUS

USUS

US

US

US

US

US

US

US

USUS DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DSDS

DSDS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDS

DS

DS

DS

−100 −50 0 50 100

−80

−60

−40

−20

020

40

L2 norm based dissimilarity matrix projection

NNNN N

NN NN NN N

NNNN

N

N

N N

NNNN NNN

N

NN

N

NNNNNN

N

N

N

NNNNN

NNNN

N

NNNN

NNN

N

N

NNN

NNN

N

N

N

N NNNN

N

NNNNNNN

N

NNNNNN

N

NNNNNNNNN

NN

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

CC

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

ITITIT

ITIT

IT IT

IT ITITIT

IT ITIT

IT ITIT ITIT

IT

IT

ITIT

IT

IT

ITIT

ITIT

ITIT

ITIT

ITITIT IT

ITIT ITITIT

ITIT

ITIT

IT

ITIT

IT ITIT

IT ITIT

ITIT

ITIT

ITITITIT

ITITIT ITITIT

ITIT

ITIT

IT

ITIT ITIT

IT

IT ITIT

ITIT ITIT

ITIT

IT

IT

IT

ITIT

IT

ITITIT IT

ITIT

DT

DT

DT

DT DTDTDTDT

DTDTDT

DT

DTDT

DT

DT DTDT

DTDTDTDT

DT

DT

DTDT

DTDT

DT

DT

DT

DT DTDTDT

DTDTDT DTDT

DTDT

DT DTDT

DTDT

DT

DT

DTDT

DTDT DTDT

DTDT

DT

DT

DTDTDTDT DT

DTDTDT

DT

DT

DT DTDTDTDT DT DT

DT

DT

DTDT

DTDTDT

DTDTDT

DTDTDT DT

DT

DTDT

DT

DT

DT

DTDT DT

DTUS

US

US

USUS

US

USUSUS

USUS

US

US USUS

USUSUS

US

USUS

US

USUS

USUS

USUS US

US USUS US

USUS

USUSUS

USUSUS

US US

US

USUSUS

US

US

USUSUS USUS US

US

US

USUS US

USUS

US

US

US

US

USUS

US USUS

US

US

US

US

US

US

US

USUS

US

US

US

US

USUS USUSUS

USUS

US

US

USUS

USUS

USUSUS

DS

DSDS

DS

DS

DS

DSDS

DSDSDSDS

DS

DS

DSDS

DSDSDSDSDSDS

DS

DS

DSDS

DS DS

DS

DS DSDS

DS

DS

DS

DSDSDS

DSDS

DS

DS

DS

DS

DSDSDS

DSDS

DSDS

DS

DS

DSDSDSDS

DS

DSDS

DSDSDS

DSDS DS

DSDS

DSDSDS

DS DSDS

DSDS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DSDS

DS

DSDS

DSDS

DS

DSDSDSDS

DS

−1.0 −0.5 0.0 0.5

−0.8

−0.6

−0.4

−0.2

0.0

0.2

0.4

Correlation based dissimilarity matrix projection

N

NN

NN

N

N

N

NN

N

N

N

NN

N

N

N

N

N

N N

NN

NN

N

N

N

N

N

N

NN

N

N

N

N

N

N

N

NN

NN

N

N NN

N

N

NNN

N

NN

N

N

N

N

N

NN

N

N

N

N

N

N

N

NN

N

NN

N

N

N

N

N

N

NN

N

N

NN

N

N

N

N

N

N

N

N

N

N

N

N

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC C

C

C

C

C

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

ITIT

ITIT

IT

ITIT

ITITIT

ITITIT

ITIT

IT ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITITIT

ITITITITIT

IT

ITIT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

ITIT

ITIT

IT

IT

ITIT

ITITITIT IT

IT

IT

IT

IT

IT

IT

IT ITIT

IT

IT

ITITITITITIT

IT

ITIT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT DT

DT

DT

DTDT

DTDT

DT

DT DT

DT

DT

DTDT

DT

DTDT DT

DTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT DTDTDTDT

DT DTDT

DTDTDT

DT

DT

DT

DT

DT

DTDT

DTDTDT

DT

DTDT

DT

DT

DT

DT

DTDTDT

DT

DTDTDT

DT

DTDTDT

DTDT

DTDT

DT

DT

DT

DTDTDT

DT

DT DTDT

DT

DTDT

DT

DT

DTDT

DT

DT

DT

DT

DTDT

DT

US

US

USUS

US

US

USUS

US

US

US

US

USUS

US

US

USUS

US

USUS

US

US

US

US

US

US

US

US

US

US USUS

US

US

US

US

US

US

USUS

USUS

US

USUS US

US

US

USUS

USUS

USUSUSUS

US

USUS

US

US

US

US

US

US

USUS

USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUS

USUS

US

US

US

USUS

USUS

US

US

US

DS

DSDS

DS

DS

DS

DS

DS

DSDSDS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DSDSDSDS

DS

DSDS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DSDSDS

DS

DS

DSDS

DS

DSDSDS

DS

DSDSDS

DSDS

DSDS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

17 / 38

Page 18: Generalized Compression Dictionary Distance as Universal Similarity Measure

Experimental Results

Numerically Intensive Methods Comparison

−10 −5 0 5

−50

5Autocorrelation based dissimilarity matrix projection

NNNNN

N NNN NNNN

N

N

NN

NN

NNN NNNNNN

N NN

N

NN

NN NNN

NN

N

NN

N

NNN NNNNNN

NNNNN

NNN NNN

NNN

NNN

NN

NNNNNN

NNN

NN

NN

NNN

NNN

NNN NNNNN

C

C

C

C

C

C

C

C

C

CC

CC

C

C CC

C

C

CC

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

ITIT ITITITIT IT

IT ITITITITITIT IT IT

IT ITIT IT

IT

IT ITIT ITITIT IT ITITITIT ITITITIT ITITITITITIT

IT ITITIT ITIT ITIT ITIT IT ITITIT

ITIT ITIT

ITITIT ITIT IT ITIT ITITIT

ITIT

ITIT

ITIT IT

ITITIT IT ITIT IT

IT IT ITIT

IT

ITIT

ITIT ITITIT IT IT IT DTDT

DTDT

DTDTDTDT

DTDTDT DTDT

DTDT DT

DT DTDT DT DTDT

DTDTDTDTDTDT

DTDTDT DTDTDT DTDTDT DT

DTDTDT DTDTDT

DT

DT DTDTDT

DTDTDT

DTDT DT DTDTDTDT

DTDTDT

DTDT DTDT DT DTDT

DT

DTDTDT

DTDT

DT DTDT DTDT

DTDTDTDT DTDT

DT DTDTDT DTDT DTDTDT DT

DTDTDTDTUS

US

US

USUS US US

USUS US

US USUSUS

USUSUSUSUS

US US

US

US USUSUSUSUS US

USUSUS US

USUS

US USUS USUS USUS US USUSUSUS USUS

US USUSUS

USUS

USUS

USUS USUSUSUS

US

USUSUSUS

US USUS

US

USUSUS US

USUS

USUS

US

USUS

USUS

USUSUS

US USUS

USUS

USUSUS USUSUS

US

DSDSDS

DS

DS

DSDSDS DS

DSDSDSDSDS DS

DSDS

DSDSDS DS

DS

DS

DSDSDS

DSDSDS

DS

DS

DSDS DSDS

DSDS

DSDSDS

DS DS

DS

DSDS

DSDSDS

DSDSDSDSDS

DSDSDS

DSDSDS

DSDS DS DSDS DSDS DS DSDSDS DS DSDS

DSDS

DSDS

DS

DS

DSDS

DSDSDS

DSDS

DSDSDS

DSDSDS DSDSDS

DS

DS

DSDS

DS

0 500000 1000000 1500000 2000000 2500000 3000000 3500000

0500

1000

1500

2000

Linear Predictive Coding ARIMA based dissimilarity matrix projection

NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCCCCCCCCCCCCCCCCCCCCCC CCCCCCCCCCCCCCCCCCCCCCCC

C

CCCCCCCCCCCCCCCCCCCCCCC

C

CCCCC

C

CCCCCCCCCCCCCCCCCCCCCCCITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITIT

IT

ITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTUS

US

USUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDS

DS

DSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDS

−150 −100 −50 0 50 100

−100

−50

050

100

Adaptive dissimilarity index matrix projection

NN

NN

N

N

N NN

N

N

N

N

N

N

NN

N

N

NN

N

N

N

NNNN

NN

N

NN

N

NNN

N

N

N

N

NNN

N

N

N

NN

N

NNNN

N

N

NN

N

NN

NN

NNN

N

N

N

NN

N

N

NN

N

N

NN

N

N

NN

N

N

N

NN

N N

N

N

NN

N

NNNN

N

CC

CC

CC

CCC

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CCC

C

C

C

C

C

C CC

C

CC

C

CCC

CC

CCC

C

C

CC C

C

C

C

C

C CC

CC

C

CC

C

C

C

C

C

C

CCC

C

C

C

CC

C

C

C

C

CCCC

C

C

C

C

C

C

C

C

C

C IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT IT

IT

IT

IT

IT

IT IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

ITIT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DT

DT

DT

DT

DT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

USUS

US

USUS

US

US

USUS

USUSUS

US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

US

US

US

USUS

US USUS

US

US

US

US

US US

US

USUS US

US

USUS

US

US USUS

US US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

USUS

US

US

US

US

US

USUS

US

DS

DS

DS

DS

DS

DS DS

DS

DS

DSDS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DSDSDS

DS

DS

DS

DS DSDSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DS

DS

DS

DS

DSDS DSDS

DS

DSDS

DS

DS

−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4

−0.4

−0.2

0.0

0.2

0.4

0.6

ARIMA based, Piccolo−1990 dissimilarity matrix projection

N NN

N

N

N

N

N

NNNN

N

N

N

N NNN

NNN NN

N

N

N

N

NN

N

N

N NNN

N

N

NNN

NN

NN

N

NN

N

N

NN

N

NN

N

N

N

NN

NN

NNN

N

N

NN NN

NN

N

N

NN

N NN

N

NN

N

N

NN N

N

NN

N

NNN

N

N

NN

N

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C CC

C C

C

C

C

C

C

CC

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

CC

C

IT IT

IT

ITIT

IT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT IT

IT

IT

ITIT

ITIT

IT

IT

IT

ITITIT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DTDT

DT

DTDT

DTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DTDT

DT

DTDT

DT

DT

DT

US

US

US

US

US

US US

USUS

US

US

US

US

US

US

USUS

USUS

US

US

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US US

US

US

US USUS

US

US

USUS

US

US

US

USUS

US

USUS

US

US

US

US

US

US

US

US

US USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

US

US

US

US

DS

DS

DS DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

18 / 38

Page 19: Generalized Compression Dictionary Distance as Universal Similarity Measure

Experimental Results

Numerically Intensive Methods Comparison−10 −5 0 5

−50

5

Autocorrelation based dissimilarity matrix projection

NNNNN

N NNN NNNN

N

N

NN

NN

NNN NNNNNN

N NN

N

NN

NN NNN

NN

N

NN

N

NNN NNNNNN

NNNNN

NNN NNN

NNN

NNN

NN

NNNNNN

NNN

NN

NN

NNN

NNN

NNN NNNNN

C

C

C

C

C

C

C

C

C

CC

CC

C

C CC

C

C

CC

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

ITIT ITITITIT IT

IT ITITITITITIT IT IT

IT ITIT IT

IT

IT ITIT ITITIT IT ITITITIT ITITITIT ITITITITITIT

IT ITITIT ITIT ITIT ITIT IT ITITIT

ITIT ITIT

ITITIT ITIT IT ITIT ITITIT

ITIT

ITIT

ITIT IT

ITITIT IT ITIT IT

IT IT ITIT

IT

ITIT

ITIT ITITIT IT IT IT DTDT

DTDT

DTDTDTDT

DTDTDT DTDT

DTDT DT

DT DTDT DT DTDT

DTDTDTDTDTDT

DTDTDT DTDTDT DTDTDT DT

DTDTDT DTDTDT

DT

DT DTDTDT

DTDTDT

DTDT DT DTDTDTDT

DTDTDT

DTDT DTDT DT DTDT

DT

DTDTDT

DTDT

DT DTDT DTDT

DTDTDTDT DTDT

DT DTDTDT DTDT DTDTDT DT

DTDTDTDTUS

US

US

USUS US US

USUS US

US USUSUS

USUSUSUSUS

US US

US

US USUSUSUSUS US

USUSUS US

USUS

US USUS USUS USUS US USUSUSUS USUS

US USUSUS

USUS

USUS

USUS USUSUSUS

US

USUSUSUS

US USUS

US

USUSUS US

USUS

USUS

US

USUS

USUS

USUSUS

US USUS

USUS

USUSUS USUSUS

US

DSDSDS

DS

DS

DSDSDS DS

DSDSDSDSDS DS

DSDS

DSDSDS DS

DS

DS

DSDSDS

DSDSDS

DS

DS

DSDS DSDS

DSDS

DSDSDS

DS DS

DS

DSDS

DSDSDS

DSDSDSDSDS

DSDSDS

DSDSDS

DSDS DS DSDS DSDS DS DSDSDS DS DSDS

DSDS

DSDS

DS

DS

DSDS

DSDSDS

DSDS

DSDSDS

DSDSDS DSDSDS

DS

DS

DSDS

DS

0 500000 1000000 1500000 2000000 2500000 3000000 3500000

0500

1000

1500

2000

Linear Predictive Coding ARIMA based dissimilarity matrix projection

NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCCCCCCCCCCCCCCCCCCCCCC CCCCCCCCCCCCCCCCCCCCCCCC

C

CCCCCCCCCCCCCCCCCCCCCCC

C

CCCCC

C

CCCCCCCCCCCCCCCCCCCCCCCITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITIT

IT

ITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTUS

US

USUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDS

DS

DSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDS

−150 −100 −50 0 50 100

−100

−50

050

100

Adaptive dissimilarity index matrix projection

NN

NN

N

N

N NN

N

N

N

N

N

N

NN

N

N

NN

N

N

N

NNNN

NN

N

NN

N

NNN

N

N

N

N

NNN

N

N

N

NN

N

NNNN

N

N

NN

N

NN

NN

NNN

N

N

N

NN

N

N

NN

N

N

NN

N

N

NN

N

N

N

NN

N N

N

N

NN

N

NNNN

N

CC

CC

CC

CCC

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CCC

C

C

C

C

C

C CC

C

CC

C

CCC

CC

CCC

C

C

CC C

C

C

C

C

C CC

CC

C

CC

C

C

C

C

C

C

CCC

C

C

C

CC

C

C

C

C

CCCC

C

C

C

C

C

C

C

C

C

C IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT IT

IT

IT

IT

IT

IT IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

ITIT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DT

DT

DT

DT

DT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

USUS

US

USUS

US

US

USUS

USUSUS

US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

US

US

US

USUS

US USUS

US

US

US

US

US US

US

USUS US

US

USUS

US

US USUS

US US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

USUS

US

US

US

US

US

USUS

US

DS

DS

DS

DS

DS

DS DS

DS

DS

DSDS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DSDSDS

DS

DS

DS

DS DSDSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DS

DS

DS

DS

DSDS DSDS

DS

DSDS

DS

DS

−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4

−0.4

−0.2

0.0

0.2

0.4

0.6

ARIMA based, Piccolo−1990 dissimilarity matrix projection

N NN

N

N

N

N

N

NNNN

N

N

N

N NNN

NNN NN

N

N

N

N

NN

N

N

N NNN

N

N

NNN

NN

NN

N

NN

N

N

NN

N

NN

N

N

N

NN

NN

NNN

N

N

NN NN

NN

N

N

NN

N NN

N

NN

N

N

NN N

N

NN

N

NNN

N

N

NN

N

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C CC

C C

C

C

C

C

C

CC

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

CC

C

IT IT

IT

ITIT

IT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT IT

IT

IT

ITIT

ITIT

IT

IT

IT

ITITIT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DTDT

DT

DTDT

DTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DTDT

DT

DTDT

DT

DT

DT

US

US

US

US

US

US US

USUS

US

US

US

US

US

US

USUS

USUS

US

US

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US US

US

US

US USUS

US

US

USUS

US

US

US

USUS

US

USUS

US

US

US

US

US

US

US

US

US USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

US

US

US

US

DS

DS

DS DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

19 / 38

Page 20: Generalized Compression Dictionary Distance as Universal Similarity Measure

Experimental Results

Numerically Intensive Methods Comparison

−10 −5 0 5

−50

5

Autocorrelation based dissimilarity matrix projection

NNNNN

N NNN NNNN

N

N

NN

NN

NNN NNNNNN

N NN

N

NN

NN NNN

NN

N

NN

N

NNN NNNNNN

NNNNN

NNN NNN

NNN

NNN

NN

NNNNNN

NNN

NN

NN

NNN

NNN

NNN NNNNN

C

C

C

C

C

C

C

C

C

CC

CC

C

C CC

C

C

CC

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

ITIT ITITITIT IT

IT ITITITITITIT IT IT

IT ITIT IT

IT

IT ITIT ITITIT IT ITITITIT ITITITIT ITITITITITIT

IT ITITIT ITIT ITIT ITIT IT ITITIT

ITIT ITIT

ITITIT ITIT IT ITIT ITITIT

ITIT

ITIT

ITIT IT

ITITIT IT ITIT IT

IT IT ITIT

IT

ITIT

ITIT ITITIT IT IT IT DTDT

DTDT

DTDTDTDT

DTDTDT DTDT

DTDT DT

DT DTDT DT DTDT

DTDTDTDTDTDT

DTDTDT DTDTDT DTDTDT DT

DTDTDT DTDTDT

DT

DT DTDTDT

DTDTDT

DTDT DT DTDTDTDT

DTDTDT

DTDT DTDT DT DTDT

DT

DTDTDT

DTDT

DT DTDT DTDT

DTDTDTDT DTDT

DT DTDTDT DTDT DTDTDT DT

DTDTDTDTUS

US

US

USUS US US

USUS US

US USUSUS

USUSUSUSUS

US US

US

US USUSUSUSUS US

USUSUS US

USUS

US USUS USUS USUS US USUSUSUS USUS

US USUSUS

USUS

USUS

USUS USUSUSUS

US

USUSUSUS

US USUS

US

USUSUS US

USUS

USUS

US

USUS

USUS

USUSUS

US USUS

USUS

USUSUS USUSUS

US

DSDSDS

DS

DS

DSDSDS DS

DSDSDSDSDS DS

DSDS

DSDSDS DS

DS

DS

DSDSDS

DSDSDS

DS

DS

DSDS DSDS

DSDS

DSDSDS

DS DS

DS

DSDS

DSDSDS

DSDSDSDSDS

DSDSDS

DSDSDS

DSDS DS DSDS DSDS DS DSDSDS DS DSDS

DSDS

DSDS

DS

DS

DSDS

DSDSDS

DSDS

DSDSDS

DSDSDS DSDSDS

DS

DS

DSDS

DS

0 500000 1000000 1500000 2000000 2500000 3000000 3500000

0500

1000

1500

2000

Linear Predictive Coding ARIMA based dissimilarity matrix projection

NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCCCCCCCCCCCCCCCCCCCCCC CCCCCCCCCCCCCCCCCCCCCCCC

C

CCCCCCCCCCCCCCCCCCCCCCC

C

CCCCC

C

CCCCCCCCCCCCCCCCCCCCCCCITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITIT

IT

ITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTUS

US

USUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDS

DS

DSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDS

−150 −100 −50 0 50 100

−100

−50

050

100

Adaptive dissimilarity index matrix projection

NN

NN

N

N

N NN

N

N

N

N

N

N

NN

N

N

NN

N

N

N

NNNN

NN

N

NN

N

NNN

N

N

N

N

NNN

N

N

N

NN

N

NNNN

N

N

NN

N

NN

NN

NNN

N

N

N

NN

N

N

NN

N

N

NN

N

N

NN

N

N

N

NN

N N

N

N

NN

N

NNNN

N

CC

CC

CC

CCC

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CCC

C

C

C

C

C

C CC

C

CC

C

CCC

CC

CCC

C

C

CC C

C

C

C

C

C CC

CC

C

CC

C

C

C

C

C

C

CCC

C

C

C

CC

C

C

C

C

CCCC

C

C

C

C

C

C

C

C

C

C IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT IT

IT

IT

IT

IT

IT IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

ITIT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DT

DT

DT

DT

DT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

USUS

US

USUS

US

US

USUS

USUSUS

US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

US

US

US

USUS

US USUS

US

US

US

US

US US

US

USUS US

US

USUS

US

US USUS

US US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

USUS

US

US

US

US

US

USUS

US

DS

DS

DS

DS

DS

DS DS

DS

DS

DSDS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DSDSDS

DS

DS

DS

DS DSDSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DS

DS

DS

DS

DSDS DSDS

DS

DSDS

DS

DS

−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4

−0.4

−0.2

0.0

0.2

0.4

0.6

ARIMA based, Piccolo−1990 dissimilarity matrix projection

N NN

N

N

N

N

N

NNNN

N

N

N

N NNN

NNN NN

N

N

N

N

NN

N

N

N NNN

N

N

NNN

NN

NN

N

NN

N

N

NN

N

NN

N

N

N

NN

NN

NNN

N

N

NN NN

NN

N

N

NN

N NN

N

NN

N

N

NN N

N

NN

N

NNN

N

N

NN

N

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C CC

C C

C

C

C

C

C

CC

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

CC

C

IT IT

IT

ITIT

IT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT IT

IT

IT

ITIT

ITIT

IT

IT

IT

ITITIT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DTDT

DT

DTDT

DTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DTDT

DT

DTDT

DT

DT

DT

US

US

US

US

US

US US

USUS

US

US

US

US

US

US

USUS

USUS

US

US

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US US

US

US

US USUS

US

US

USUS

US

US

US

USUS

US

USUS

US

US

US

US

US

US

US

US

US USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

US

US

US

US

DS

DS

DS DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

20 / 38

Page 21: Generalized Compression Dictionary Distance as Universal Similarity Measure

Experimental Results

Numerically Intensive Methods Comparison

−10 −5 0 5

−50

5

Autocorrelation based dissimilarity matrix projection

NNNNN

N NNN NNNN

N

N

NN

NN

NNN NNNNNN

N NN

N

NN

NN NNN

NN

N

NN

N

NNN NNNNNN

NNNNN

NNN NNN

NNN

NNN

NN

NNNNNN

NNN

NN

NN

NNN

NNN

NNN NNNNN

C

C

C

C

C

C

C

C

C

CC

CC

C

C CC

C

C

CC

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

ITIT ITITITIT IT

IT ITITITITITIT IT IT

IT ITIT IT

IT

IT ITIT ITITIT IT ITITITIT ITITITIT ITITITITITIT

IT ITITIT ITIT ITIT ITIT IT ITITIT

ITIT ITIT

ITITIT ITIT IT ITIT ITITIT

ITIT

ITIT

ITIT IT

ITITIT IT ITIT IT

IT IT ITIT

IT

ITIT

ITIT ITITIT IT IT IT DTDT

DTDT

DTDTDTDT

DTDTDT DTDT

DTDT DT

DT DTDT DT DTDT

DTDTDTDTDTDT

DTDTDT DTDTDT DTDTDT DT

DTDTDT DTDTDT

DT

DT DTDTDT

DTDTDT

DTDT DT DTDTDTDT

DTDTDT

DTDT DTDT DT DTDT

DT

DTDTDT

DTDT

DT DTDT DTDT

DTDTDTDT DTDT

DT DTDTDT DTDT DTDTDT DT

DTDTDTDTUS

US

US

USUS US US

USUS US

US USUSUS

USUSUSUSUS

US US

US

US USUSUSUSUS US

USUSUS US

USUS

US USUS USUS USUS US USUSUSUS USUS

US USUSUS

USUS

USUS

USUS USUSUSUS

US

USUSUSUS

US USUS

US

USUSUS US

USUS

USUS

US

USUS

USUS

USUSUS

US USUS

USUS

USUSUS USUSUS

US

DSDSDS

DS

DS

DSDSDS DS

DSDSDSDSDS DS

DSDS

DSDSDS DS

DS

DS

DSDSDS

DSDSDS

DS

DS

DSDS DSDS

DSDS

DSDSDS

DS DS

DS

DSDS

DSDSDS

DSDSDSDSDS

DSDSDS

DSDSDS

DSDS DS DSDS DSDS DS DSDSDS DS DSDS

DSDS

DSDS

DS

DS

DSDS

DSDSDS

DSDS

DSDSDS

DSDSDS DSDSDS

DS

DS

DSDS

DS

0 500000 1000000 1500000 2000000 2500000 3000000 3500000

0500

1000

1500

2000

Linear Predictive Coding ARIMA based dissimilarity matrix projection

NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCCCCCCCCCCCCCCCCCCCCCC CCCCCCCCCCCCCCCCCCCCCCCC

C

CCCCCCCCCCCCCCCCCCCCCCC

C

CCCCC

C

CCCCCCCCCCCCCCCCCCCCCCCITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITIT

IT

ITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITITDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTDTUS

US

USUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSUSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDS

DS

DSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDSDS

−150 −100 −50 0 50 100

−100

−50

050

100

Adaptive dissimilarity index matrix projection

NN

NN

N

N

N NN

N

N

N

N

N

N

NN

N

N

NN

N

N

N

NNNN

NN

N

NN

N

NNN

N

N

N

N

NNN

N

N

N

NN

N

NNNN

N

N

NN

N

NN

NN

NNN

N

N

N

NN

N

N

NN

N

N

NN

N

N

NN

N

N

N

NN

N N

N

N

NN

N

NNNN

N

CC

CC

CC

CCC

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CCC

C

C

C

C

C

C CC

C

CC

C

CCC

CC

CCC

C

C

CC C

C

C

C

C

C CC

CC

C

CC

C

C

C

C

C

C

CCC

C

C

C

CC

C

C

C

C

CCCC

C

C

C

C

C

C

C

C

C

C IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT IT

IT

IT

IT

IT

IT IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

ITIT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DT

DT

DT

DT

DT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

USUS

US

USUS

US

US

USUS

USUSUS

US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

US

US

US

USUS

US USUS

US

US

US

US

US US

US

USUS US

US

USUS

US

US USUS

US US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

USUS

US

US

US

US

US

USUS

US

DS

DS

DS

DS

DS

DS DS

DS

DS

DSDS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DSDSDS

DS

DS

DS

DS DSDSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DS

DS

DS

DS

DSDS DSDS

DS

DSDS

DS

DS

−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4

−0.4

−0.2

0.0

0.2

0.4

0.6

ARIMA based, Piccolo−1990 dissimilarity matrix projection

N NN

N

N

N

N

N

NNNN

N

N

N

N NNN

NNN NN

N

N

N

N

NN

N

N

N NNN

N

N

NNN

NN

NN

N

NN

N

N

NN

N

NN

N

N

N

NN

NN

NNN

N

N

NN NN

NN

N

N

NN

N NN

N

NN

N

N

NN N

N

NN

N

NNN

N

N

NN

N

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C CC

C C

C

C

C

C

C

CC

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

CC

C

IT IT

IT

ITIT

IT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT IT

IT

IT

ITIT

ITIT

IT

IT

IT

ITITIT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DTDT

DT

DTDT

DTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DTDT

DT

DTDT

DT

DT

DT

US

US

US

US

US

US US

USUS

US

US

US

US

US

US

USUS

USUS

US

US

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US US

US

US

US USUS

US

US

USUS

US

US

US

USUS

US

USUS

US

US

US

US

US

US

US

US

US USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US US

US

US

US

US

US

US

USUS

US

US

US

US

US

USUS

US

US

US

US

DS

DS

DS DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

21 / 38

Page 22: Generalized Compression Dictionary Distance as Universal Similarity Measure

Experimental Results

Our approach

−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15

−0.2

−0.1

0.0

0.1

GCDD based dissimilarity matrix projection

N N NNN

N

N

NN N

NN

NN

N

NNN

N N

NN

N

NN

NNN

N N

NNN

NN

N

N

NN

N

N

NN N

NN

NN NN

NNN NN

NNN

NN

NN

N

N N

N

NNN

NNN

N

NN

N

N

N

NN

N N

NN

NN

NNNN

NN

NN

N

NN

N

N

N

CC

CC

C

C

C

C

CC

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

CC

C

C

C

CC

C

C

C

C

C

C C

CCC

C

C

C

CC

C

CC

CC

C

C

C

C

CC

C

C

CC

CC

CCC

CCC

C

C

C CC

CC CC

C

C

CC

C

C CC

C

CC

C

C

C

C CC

CC

ITIT

ITIT

IT

IT

ITITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT

ITIT

IT

ITIT

ITITIT

IT

ITIT IT

ITIT

ITITIT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

ITITIT

IT

IT

ITITIT

IT

ITIT

IT

ITIT

ITIT

ITITITITIT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT ITIT

ITITIT

IT

IT

IT

IT

IT

IT

IT

DT

DT

DT

DT

DT DT

DT

DTDT

DTDT

DT

DTDT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DTDT

DTDTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DTDT

DT

DT DTDT

DT

DT

DT

DT

DT

DTDT

DT

DT DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT DTDT

US

US US

US

US

USUS

US

US

US

US US

USUS

US USUS

US

US US

US

US

US

USUS

USUS

US

US US

US

US

USUS

US

US

US

US

US

US

USUS

US

US

US

US

US US

US

US

US

US

US

US

US

US

US

USUS

US

USUSUS

US

USUS

USUSUS

US

USUS

US

US

US

US USUS

US

US

US

US

USUS

US

US

USUS

US

USUS

US

US

US

USUS

US

US

US

US

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS DS

DS

DS

DS

DSDSDS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDSDSDS

DS

DS

DS

DS

DSDSDS

DSDS

DS DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDS

DSDSDS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15

−0.10

−0.05

0.00

0.05

0.10

0.15

NCD based dissimilarity matrix projection

NNNN

NNNN

N

N

NNN

N

NN

N N NNN

N

N

N

NN

N

N

N

N

NN

N

N

N

NN

N

N

N

N N

N

NNN

N

N

N

N

N

NN

N

NN

NN

NN

NN

N

NN

N

NNNN NNNN

NNNN

N

N

N

NN

N N

N

N

NNN

NN

N

N

NNNNNN

CC

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

CC

C

CC

C

C C

C

CC

C

CC

C

CC

C

C

CC

C

C

C

C

CC

C

CC

C

C

C

C

C

CCC

C

C

C

C

C C

C

C

CC

C

C

C

C

CCC

C

CC

C

CCC

C

C

C

C

C

C

C

C

C

C

C

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT IT

ITITIT

ITIT

IT IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

ITIT

IT

IT

ITITIT

ITIT

IT

IT

IT

IT

ITIT

IT

IT

IT

IT

IT

IT

IT

ITIT

IT

IT

IT IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

DT

DTDT

DT

DTDT

DT

DT

DT

DTDT DT

DT

DT

DTDT

DT

DT

DT

DT

DT DT

DT

DT

DT

DT

DT DT

DT DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DTDTDT

DT

DT

DT

DT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DTDT

DTDT

DTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

US

US

US

USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUS

US

US

US

US

USUS

USUS

US

US US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUSUS

US

US

US

US

USUS

US

US

US

USUS

US

USUS

US

USUSUS

US

US

US

US

US

US USUS

US

US

US

US

USUS US

USUS

USUS

USUS

US

US

US

US

US

US

US

USUS DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDSDS

DSDS

DSDS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DS

DSDS

DSDS

DS

DS

DS

−100 −50 0 50 100

−80

−60

−40

−20

020

40

L2 norm based dissimilarity matrix projection

NNNN N

NN NN NN N

NNNN

N

N

N N

NNNN NNN

N

NN

N

NNNNNN

N

N

N

NNNNN

NNNN

N

NNNN

NNN

N

N

NNN

NNN

N

N

N

N NNNN

N

NNNNNNN

N

NNNNNN

N

NNNNNNNNN

NN

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C CC

C

C

C

C

C

C

C

C

C

C

C

C C

C

C

C

C

CC

C

C

C

C

C

C

C

C C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

ITITIT

ITIT

IT IT

IT ITITIT

IT ITIT

IT ITIT ITIT

IT

IT

ITIT

IT

IT

ITIT

ITIT

ITIT

ITIT

ITITIT IT

ITIT ITITIT

ITIT

ITIT

IT

ITIT

IT ITIT

IT ITIT

ITIT

ITIT

ITITITIT

ITITIT ITITIT

ITIT

ITIT

IT

ITIT ITIT

IT

IT ITIT

ITIT ITIT

ITIT

IT

IT

IT

ITIT

IT

ITITIT IT

ITIT

DT

DT

DT

DT DTDTDTDT

DTDTDT

DT

DTDT

DT

DT DTDT

DTDTDTDT

DT

DT

DTDT

DTDT

DT

DT

DT

DT DTDTDT

DTDTDT DTDT

DTDT

DT DTDT

DTDT

DT

DT

DTDT

DTDT DTDT

DTDT

DT

DT

DTDTDTDT DT

DTDTDT

DT

DT

DT DTDTDTDT DT DT

DT

DT

DTDT

DTDTDT

DTDTDT

DTDTDT DT

DT

DTDT

DT

DT

DT

DTDT DT

DTUS

US

US

USUS

US

USUSUS

USUS

US

US USUS

USUSUS

US

USUS

US

USUS

USUS

USUS US

US USUS US

USUS

USUSUS

USUSUS

US US

US

USUSUS

US

US

USUSUS USUS US

US

US

USUS US

USUS

US

US

US

US

USUS

US USUS

US

US

US

US

US

US

US

USUS

US

US

US

US

USUS USUSUS

USUS

US

US

USUS

USUS

USUSUS

DS

DSDS

DS

DS

DS

DSDS

DSDSDSDS

DS

DS

DSDS

DSDSDSDSDSDS

DS

DS

DSDS

DS DS

DS

DS DSDS

DS

DS

DS

DSDSDS

DSDS

DS

DS

DS

DS

DSDSDS

DSDS

DSDS

DS

DS

DSDSDSDS

DS

DSDS

DSDSDS

DSDS DS

DSDS

DSDSDS

DS DSDS

DSDS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DSDS

DS

DSDS

DSDS

DS

DSDSDSDS

DS

−1.0 −0.5 0.0 0.5

−0.8

−0.6

−0.4

−0.2

0.0

0.2

0.4

Correlation based dissimilarity matrix projection

N

NN

NN

N

N

N

NN

N

N

N

NN

N

N

N

N

N

N N

NN

NN

N

N

N

N

N

N

NN

N

N

N

N

N

N

N

NN

NN

N

N NN

N

N

NNN

N

NN

N

N

N

N

N

NN

N

N

N

N

N

N

N

NN

N

NN

N

N

N

N

N

N

NN

N

N

NN

N

N

N

N

N

N

N

N

N

N

N

N

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

CC C

C

C

C

C

C

C

C

C

C

CC

CC

C

C

C

C

CC

C

C

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

ITIT

ITIT

IT

ITIT

ITITIT

ITITIT

ITIT

IT ITIT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

IT

ITITIT

ITITITITIT

IT

ITIT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

ITIT

ITIT

IT

IT

ITIT

ITITITIT IT

IT

IT

IT

IT

IT

IT

IT ITIT

IT

IT

ITITITITITIT

IT

ITIT

IT

IT

IT

ITIT

IT

IT

ITIT

IT

IT

IT DT

DT

DT

DTDT

DTDT

DT

DT DT

DT

DT

DTDT

DT

DTDT DT

DTDTDT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DT

DTDT

DT DTDTDTDT

DT DTDT

DTDTDT

DT

DT

DT

DT

DT

DTDT

DTDTDT

DT

DTDT

DT

DT

DT

DT

DTDTDT

DT

DTDTDT

DT

DTDTDT

DTDT

DTDT

DT

DT

DT

DTDTDT

DT

DT DTDT

DT

DTDT

DT

DT

DTDT

DT

DT

DT

DT

DTDT

DT

US

US

USUS

US

US

USUS

US

US

US

US

USUS

US

US

USUS

US

USUS

US

US

US

US

US

US

US

US

US

US USUS

US

US

US

US

US

US

USUS

USUS

US

USUS US

US

US

USUS

USUS

USUSUSUS

US

USUS

US

US

US

US

US

US

USUS

USUS

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

US

USUS

USUS

US

US

US

USUS

USUS

US

US

US

DS

DSDS

DS

DS

DS

DS

DS

DSDSDS

DSDS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DSDSDSDS

DS

DSDS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DSDSDS

DS

DS

DSDS

DS

DSDSDS

DS

DSDSDS

DSDS

DSDS

DSDS

DS

DS

DS

DS

DSDS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DS

DSDS

DSDS

DS

DS

DS

DS

22 / 38

Page 23: Generalized Compression Dictionary Distance as Universal Similarity Measure

Implications

Proposed method could be used for

I unsupervised clusteringI supervised classificationI feature representation

Properties

I loses less informationI scales linearly with exponential growth of the input vector sizeI content independentI semantics is coded inside the extracted dictionary itselfI fast ;)

23 / 38

Page 24: Generalized Compression Dictionary Distance as Universal Similarity Measure

Thank [email protected]

24 / 38

Page 25: Generalized Compression Dictionary Distance as Universal Similarity Measure

References I

Bauer, Gerald and Paul Lukowicz (2012). “Can smartphonesdetect stress-related changes in the behaviour ofindividuals?” In: Pervasive Computing and CommunicationsWorkshops (PERCOM Workshops), 2012 IEEE InternationalConference on. IEEE, pp. 423–426.

Bogomolov, Andrey, Bruno Lepri, and Fabio Pianesi (2013).“Happiness Recognition from Mobile Phone Data”. In:Proceedings of the 2013 International Conference on SocialComputing (SocialCom 2013), pp. 790–795.

Bolger, Niall and Elizabeth A. Schilling (1991). “Personality andthe Problems of Everyday Life: The Role of Neuroticism InExposure and Reactivity to Daily Stressors”. In: Journal ofPersonality 59.3, pp. 355–386. ISSN: 1467-6494. DOI:10.1111/j.1467-6494.1991.tb00253.x. URL:http://dx.doi.org/10.1111/j.1467-6494.1991.tb00253.x.

25 / 38

Page 26: Generalized Compression Dictionary Distance as Universal Similarity Measure

References II

Box, G. E. P. and D. R. Cox (1964). “An Analysis ofTransformations”. In: Journal of the Royal Statistical Society.Series B (Methodological) 26.2, pp. 211–252. ISSN:00359246. DOI: 10.2307/2984418. URL:http://dx.doi.org/10.2307/2984418.

Breiman, Leo (2001). “Random Forests”. In: Mach. Learn.45.1, pp. 5–32. ISSN: 0885-6125.

Chittaranjan, Gokul, Jan Blom, and Daniel Gatica-Perez (2013).“Mining large-scale smartphone data for personality studies”.In: Personal Ubiquitous Comput. 17.3, pp. 433–450. ISSN:1617-4909. DOI: 10.1007/s00779-011-0490-1. URL:http://dx.doi.org/10.1007/s00779-011-0490-1.

Cohen, Jacob (1960). “A Coefficient of Agreement for NominalScales”. In: Educational and Psychological Measurement20.1, pp. 37–46. DOI: 10.1177/001316446002000104.URL:http://dx.doi.org/10.1177/001316446002000104.

26 / 38

Page 27: Generalized Compression Dictionary Distance as Universal Similarity Measure

References III

Cohen, S., Kessler R. C., and L. U. Gordon (1997). Measuringstress: A guide for health and social scientists. USA: OxfordUniversity Press.

Denissen, Jaap J. A. et al. (2008). “The effects of weather ondaily mood: A multilevel approach.” In: Emotion Researcher8.5, pp. 662–667.

Dong, Wen, Bruno Lepri, and Alex Pentland (2011). “Modelingthe co-evolution of behaviors and social relationships usingmobile phone data”. In: MUM, pp. 134–143.

Duggan, Conor et al. (1995). “Neuroticism: a vulnerabilitymarker for depression evidence from a family study”. In:Journal of Affective Disorders 35.3, pp. 139 –143. ISSN:0165-0327. DOI: http://dx.doi.org/10.1016/0165-0327(95)00062-3. URL: http://www.sciencedirect.com/science/article/pii/0165032795000623.

27 / 38

Page 28: Generalized Compression Dictionary Distance as Universal Similarity Measure

References IV

Eagle, Nathan and Alex Pentland (2006). “Reality mining:sensing complex social systems”. In: Personal andUbiquitous Computing 10.4, pp. 255–268.

Eagle, Nathan, Alex Sandy Pentland, and David Lazer (2009).“Inferring friendship network structure by using mobile phonedata”. In: Proceedings of the National Academy of Sciences106.36, pp. 15274–15278.

Faust, V, M Weidmann, and W Wehner (1974). “The influenceof meteorological factors on children and youths: A 10%random selection of 16,000 pupils and apprentices of BasleCity (Switzerland).” In: Acta Paedopsychiatrica: InternationalJournal of Child & Adolescent Psychiatry.

28 / 38

Page 29: Generalized Compression Dictionary Distance as Universal Similarity Measure

References V

Freund, Yoav and Robert E Schapire (1997). “ADecision-Theoretic Generalization of On-Line Learning andan Application to Boosting”. In: Journal of Computer andSystem Sciences 55.1, pp. 119 –139. ISSN: 0022-0000. DOI:http://dx.doi.org/10.1006/jcss.1997.1504. URL:http://www.sciencedirect.com/science/article/pii/S002200009791504X.

Garcia, Salvador and Francisco Herrera (2008). “An Extensionon "Statistical Comparisons of Classifiers over Multiple DataSets" for all Pairwise Comparisons”. In: Journal of MachineLearning Research 9, pp. 2677–2694. URL:http://www.jmlr.org/papers/volume9/garcia08a/garcia08a.pdf.

Giakoumis, Dimitris et al. (2012). “Real-time Monitoring ofBehavioural Parameters Related to Psychological Stress.”In: Studies in health technology and informatics 181, p. 287.

29 / 38

Page 30: Generalized Compression Dictionary Distance as Universal Similarity Measure

References VI

Gonzalez, M., C. Hidalgo, and L. Barabasi (2008).“Understanding individual mobility patterns”. In: Nature453.7196, pp. 779–782.

Goode, William J. (1960). “A Theory of Role Strain”. English.In: American Sociological Review 25.4, pp. 483–496. ISSN:00031224. URL:http://www.jstor.org/stable/2092933.

Gunthert Kathleen Cimbolic; Cohen, Lawrence H.;Armeli Stephen (1999). “The role of neuroticism in dailystress and coping.” In: Journal of Personality and SocialPsychology 77, pp. 1087–1100.

Hardt, J and HU Gerbershagen (1999). “No changes in moodwith the seasons: observations in 3000 chronic painpatients”. In: Acta Psychiatrica Scandinavica 100.4,pp. 288–294.

30 / 38

Page 31: Generalized Compression Dictionary Distance as Universal Similarity Measure

References VII

Healey, J.A. and R.W. Picard (2005). “Detecting stress duringreal-world driving tasks using physiological sensors”. In:Intelligent Transportation Systems, IEEE Transactions on 6.2,pp. 156–166. ISSN: 1524-9050. DOI:10.1109/TITS.2005.848368.

Howarth, Edgar and Michael S Hoffman (1984). “Amultidimensional approach to the relationship between moodand weather”. In: British Journal of Psychology 75.1,pp. 15–23.

John, Oliver P. and Sanjay Srivastava (1999). “The Big Five traittaxonomy: History, measurement, and theoreticalperspectives”. In: Handbook of Personality: Theory andResearch. Ed. by Lawrence A. Pervin and Oliver P. John.Second. New York: Guilford Press, pp. 102–138. URL:http://darkwing.uoregon.edu/\~sanjay/pubs/bigfive.pdf.

31 / 38

Page 32: Generalized Compression Dictionary Distance as Universal Similarity Measure

References VIII

Jovanov, E. et al. (2003). “Stress monitoring using a distributedwireless intelligent sensor system”. In: Engineering inMedicine and Biology Magazine, IEEE 22.3, pp. 49–55. ISSN:0739-5175. DOI: 10.1109/MEMB.2003.1213626.

Krackhardt, David (1992). “The strength of strong ties: Theimportance of philos in organizations”. In: pp. 216–239.

Krumme, C. et al. (2013). “The predictability of consumervisitation patterns”. In: Scientific Reports 1645.

Lane, Nicholas D. et al. (2010). “A Survey of Mobile PhoneSensing”. In: IEEE Communications Magazine 48.9,pp. 140–150.

Lathia, Neal et al. (2013). “Contextual Dissonance: Design Biasin Sensor-based Experience Sampling Methods”. In:Proceedings of Ubicomp 2013, pp. 183–192.

32 / 38

Page 33: Generalized Compression Dictionary Distance as Universal Similarity Measure

References IX

LiKamWa, Robert et al. (2013). “MoodScope: building a moodsensor from smartphone usage patterns”. In: Proceeding ofthe 11th annual international conference on Mobile systems,applications, and services. MobiSys ’13. New York, NY, USA:ACM, pp. 389–402. ISBN: 978-1-4503-1672-9. DOI:10.1145/2462456.2464449. URL:http://doi.acm.org/10.1145/2462456.2464449.

Lu, Hong et al. (2012). “StressSense: detecting stress inunconstrained acoustic environments using smartphones”.In: Proceedings of the 2012 ACM Conference on UbiquitousComputing. UbiComp ’12. New York, NY, USA: ACM,pp. 351–360. ISBN: 978-1-4503-1224-0. DOI:10.1145/2370216.2370270. URL:http://doi.acm.org/10.1145/2370216.2370270.

Madan, Anmol et al. (2012). “Sensing the "Health State" of acommunity”. In: IEEE Pervasive Computing 11.4, pp. 36–45.

33 / 38

Page 34: Generalized Compression Dictionary Distance as Universal Similarity Measure

References X

Majoe, D. et al. (2010). “Stress and sleep quality estimationfrom a smart wearable sensor”. In: Pervasive Computing andApplications (ICPCA), 2010 5th International Conference on,pp. 14–19. DOI: 10.1109/ICPCA.2010.5704068.

Miller, G. (1955). “Note on the bias of information estimates”.In: Information theory in psychology: Problems and methods2.95, p. 100. ISSN: 0899-7667.

Miller, Geoffrey (2012). “The Smartphone PsychologyManifesto”. In: Perspectives on Psychological Science 7.3,pp. 221–237. DOI: 10.1177/1745691612441215. URL:http://pps.sagepub.com/content/7/3/221.abstract.

34 / 38

Page 35: Generalized Compression Dictionary Distance as Universal Similarity Measure

References XIMontjoye, Yves-Alexandre et al. (2013). “Predicting Personality

Using Novel Mobile Phone-Based Metrics”. In: SocialComputing, Behavioral-Cultural Modeling and Prediction.Ed. by ArielM. Greenberg, WilliamG. Kennedy, andNathanD. Bos. Vol. 7812. Lecture Notes in ComputerScience. Springer Berlin Heidelberg, pp. 48–55. ISBN:978-3-642-37209-4. DOI:10.1007/978-3-642-37210-0_6. URL: http://dx.doi.org/10.1007/978-3-642-37210-0_6.

Muaremi, Amir, Bert Arnrich, and Gerhard Tröster (2012). “ASurvey on Measuring Happiness with Smart Phones”. In: 6thInternational Workshop on Ubiquitous Health and Wellness(UbiHealth 2012).

Oliveira, Rodrigo de et al. (2011). “Towards a psychographicuser model from mobile phone usage”. In: CHI’11 ExtendedAbstracts on Human Factors in Computing Systems. ACM,pp. 2191–2196.

35 / 38

Page 36: Generalized Compression Dictionary Distance as Universal Similarity Measure

References XII

Plarre, K. et al. (2011). “Continuous inference of psychologicalstress from sensory measurements collected in the naturalenvironment”. In: Information Processing in Sensor Networks(IPSN), 2011 10th International Conference on, pp. 97–108.

Quercia, Daniele et al. (2012). “Tracking "gross communityhappiness" from tweets”. In: CSCW, pp. 965–968.

Sanders, Jeffrey L and Mary S Brizzolara (1982).“Relationships between weather and mood”. In: The Journalof General Psychology 107.1, pp. 155–156.

Sano, Akane and Rosalind W. Picard (2013). “StressRecognition Using Wearable Sensors and Mobile Phones”.In: Proceedings of the 2013 Humaine AssociationConference on Affective Computing and IntelligentInteraction, pp. 671–676.

Scherer, Klaus R et al. (2002). “Acoustic correlates of task loadand stress.” In: INTERSPEECH.

36 / 38

Page 37: Generalized Compression Dictionary Distance as Universal Similarity Measure

References XIIISinatra, Roberta and Michael Szell (2014). “Entropy and the

Predictability of Online Life”. In: Entropy 16, pp. 543–556.Singh, Sanasam Ranbir, Hema A Murthy, and

Timothy A Gonsalves (2010). “Feature Selection for TextClassification Based on Gini Coefficient of Inequality.” In:Journal of Machine Learning Research-Proceedings Track10, pp. 76–85.

Singh, Vivek K et al. (2013). “Predicting Spending Behaviorusing Socio-Mobile Features”. In: Social Computing(SocialCom), 2013 International Conference on. IEEE,pp. 174–179.

Song, C. et al. (2010). “Limits of predictability in humanmobility”. In: Science 327, pp. 1018–1021.

Staiano, Jacopo et al. (2012). “Friends don’t lie: inferringpersonality traits from social network structure”. In:Proceedings of the 2012 ACM Conference on UbiquitousComputing. ACM, pp. 321–330.

37 / 38

Page 38: Generalized Compression Dictionary Distance as Universal Similarity Measure

References XIV

Stopczynski, Arkadiusz et al. (2014). “Measuring Large-ScaleSocial Networks with High Resolution”. In: PLoS ONE 9.

Suls, Jerry, Peter Green, and Stephen Hillis (1998). “EmotionalReactivity to Everyday Problems, Affective Inertia, andNeuroticism”. In: Personality and Social Psychology Bulletin24.2, pp. 127–136. DOI: 10.1177/0146167298242002.URL: http://psp.sagepub.com/content/24/2/127.abstract.

Tuv, Eugene et al. (2009). “Feature selection with ensembles,artificial variables, and redundancy elimination”. In: TheJournal of Machine Learning Research 10, pp. 1341–1366.

Vollrath, M. and S. Torgersen (2000). “Personality types andcoping”. In: Personal. Individ. Differ. 29, pp. 367–378.

38 / 38