44
Universitatea din Bucure¸ sti Facultatea de Matematic˘ si Informatic˘ a S ¸coala Doctoral˘ a de Informatic˘ a TEZ ˘ A DE DOCTORAT Metode nucleu pentru date structurate Rezumat Coordonator ¸ stiint ¸ific: Prof. Dr. Denis En˘ achescu Doctorand: Bianca Roman (Mogo¸ s) Bucure¸ sti, Septembrie 2012

TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

  • Upload
    vannhi

  • View
    258

  • Download
    0

Embed Size (px)

Citation preview

Page 1: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Universitatea din Bucuresti

Facultatea de Matematica si InformaticaScoala Doctorala de Informatica

TEZA DE DOCTORAT

Metode nucleu pentru date

structurate

Rezumat

Coordonator stiintific:Prof. Dr. Denis Enachescu

Doctorand:Bianca Roman (Mogos)

Bucuresti, Septembrie 2012

Page 2: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Cuprins

Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1 Invatarea din date ın spatii nucleu 61.1 O sinteza asupra metodelor nucleu pentru date structurate . . . . . . 6

1.1.1 Paradigma ınvatarii din date . . . . . . . . . . . . . . . . . . . 61.1.2 Notiuni preliminare privind metodele nucleu . . . . . . . . . . 71.1.3 Algoritmi de ınvatare ın spatii nucleu . . . . . . . . . . . . . . 7

1.2 Metode de detectare a valorilor discordante . . . . . . . . . . . . . . . 81.2.1 Definirea notiunii de valoare discordanta . . . . . . . . . . . . 81.2.2 Algoritmi de detectare a valorilor discordante . . . . . . . . . 8

1.3 Metode de clasificare nesupervizata . . . . . . . . . . . . . . . . . . . 81.3.1 Principalele categorii de metode de clasificare nesupervizata . 81.3.2 Clasificare nesupervizata folosind tehnica Particle Swarm Op-

timization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.4 Discutie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Metode de detectare a valorilor discordante bazate pe abordareafunctiilor nucleu 112.1 Utilizarea tehnicilor de analiza exploratorie a datelor ın identificarea

indivizilor suspecti ın site-urile de licitatie . . . . . . . . . . . . . . . 122.1.1 Tehnica de analiza exploratorie a datelor - Curbele Andrews . 122.1.2 Descrierea metodei de detectare a valorilor aberante . . . . . . 132.1.3 Rezultate experimentale . . . . . . . . . . . . . . . . . . . . . 15

2.2 Metoda de detectare a valorilor discordante ın studiile de bioechivalentabazata pe o extindere a curbelor Andrews (Metoda EAC) . . . . . . . 152.2.1 Descrierea modelului . . . . . . . . . . . . . . . . . . . . . . . 162.2.2 Testul statistic distanta estimatiilor . . . . . . . . . . . . . . . 162.2.3 Prezentarea metodei EAC . . . . . . . . . . . . . . . . . . . . 16

2.3 Evaluarea performantelor metodei EAC pe baza unui studiu de simulare 192.3.1 Setarea parametrilor modelului . . . . . . . . . . . . . . . . . 192.3.2 Rezultate experimentale . . . . . . . . . . . . . . . . . . . . . 19

2.4 O generalizare a metodei EAC. Aplicatii ın detectarea valorilor dis-cordante ın domeniul farmaceutic . . . . . . . . . . . . . . . . . . . . 222.4.1 Descrierea metodei . . . . . . . . . . . . . . . . . . . . . . . . 222.4.2 Rezultate experimentale . . . . . . . . . . . . . . . . . . . . . 23

2.5 Formalizarea abordarii bazate pe curbele Andrews ın contextul functiilornucleu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1

Page 3: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

2.6 Discutie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3 Metode nucleu pentru clasificarea nesupervizata a datelor liniarneseparabile 273.1 Functii de decizie ın spatii nucleu . . . . . . . . . . . . . . . . . . . . 27

3.1.1 Invatarea supervizata a datelor folosind functii de decizie . . . 273.2 Algoritmul de clasificare nesupervizata bazat pe functii nucleu . . . . 28

3.2.1 Reprezentarea particulei . . . . . . . . . . . . . . . . . . . . . 283.2.2 O prezentare succinta a algoritmului . . . . . . . . . . . . . . 293.2.3 Detalii tehnice referitoare la algoritm . . . . . . . . . . . . . . 30

3.3 Indici de validare a clasificarii . . . . . . . . . . . . . . . . . . . . . . 313.3.1 Indicele Dunn . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.3.2 Indice de validare a clasificarii bazat pe simetria datelor . . . 323.3.3 Indicele de validare a clasificarii propus de mine - Indicele de

discontinuitate . . . . . . . . . . . . . . . . . . . . . . . . . . 323.4 Rezultate experimentale . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.4.1 O comparatie ıntre reprezentarea particulei prin centre si re-prezentarea particulei prin functii de decizie folosind un set dedate generat artificial . . . . . . . . . . . . . . . . . . . . . . . 33

3.4.2 Evaluarea acuratetei de clasificare a metodei propuse . . . . . 353.5 Discutie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35Concluzii si dezvoltari ulterioare . . . . . . . . . . . . . . . . . . . . . . . . 37Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2

Page 4: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Introducere

Metodele nucleu au ca obiect de studiu ınvatarea din date. Importanta abordariipropuse de acestea poate fi motivata prin urmatoarele particularitati:

• detine un fundament teoretic riguros: definirea functiilor nucleu si a spatiuluinucleu, teoreme de caracterizare a functiilor nucleu, teoreme privind stabilita-tea statistica a metodelor etc.;

• reprezinta un instrument puternic ın diverse domenii practice: datorita capa-citatii de a ınvata atat date reprezentate vectorial, cat si ne-vectorial (cazulstring-urilor, grafurilor sau imaginilor) a furnizat solutii eficiente ın domenii cabioinformatica, clasificarea documentelor, regasirea informatiei si procesareaimaginilor;

• prezinta o caracteristica definitorie: abilitatea de analiza a tiparelor neliniaredin cadrul unui set de date.

Obiectivul tezei consta ın dezvoltarea si analiza unor noi metode de ınvataredin date care, beneficiind de abilitatile abordarii metodelor nucleu, pot conduce lacrearea unor modele eficiente ın domenii cum ar fi detectarea valorilor discordantesi clasificarea nesupervizata.

In Capitolul 1 realizez o sinteza asupra metodelor nucleu pentru date structu-rate avand ca scop identificarea demersurilor bazate pe functii nucleu utilizate ındetectarea valorilor discordante si ın clasificarea nesupervizata a datelor. In acestsens, ilustrez principalele caracteristici si directii ale metodelor nucleu si, mai mult,prezint o clasificare a tehnicilor de detectare a valorilor discordante si respectiv a me-todelor de clasificare nesupervizata. De asemenea, o atentie deosebita acord tehniciiParticle Swarm Optimization - o noua abordare utilizata ın ultimii ani ın rezolvareaunor probleme de clasificare nesupervizata.

Tehnicile exploratorii de analiza a datelor sunt recunoscute ca instrumente utileın detectarea vizuala a valorilor discordante. O limitare a acestei abordari consta ınlipsa studiilor privind coeficientul de ıncredere al interpretarii vizuale. In acest sens,ın Capitolul 2 propun doua metode de detectare automata a valorilor discordante,bazate pe tehnica exploratorie de analiza a datelor, curbele Andrews, pe care le aplicın identificarea subiectilor discordanti ın studiile de bioechivalenta si ın descoperireaindivizilor suspecti ın site-urile de licitatie. In acest scop am introdus o variantamodificata a curbelor Andrews cu proprietati superioare celor initiale.

3

Page 5: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Pe de o parte, detectarea valorilor discordante reprezinta o analiza preliminaranecesara pentru estimarea bioechivalentei medii dintre o formulare de test T si oformulare de referinta R a unui medicament. Acceptarea sau excluderea unui subiectdiscordant din datele de selectie poate sa duca la o concluzie eronata ın studiile debioechivalenta [Chow, Tse (1990)]. Avand ın vedere motivatia indicata, propun ometoda automata de clasificare a datelor care combina metoda curbelelor Andrewsextinse, cu un demers statistic. Folosind o procedura de simulare, arat ca rezultatelefurnizate de abordarea bazata pe curbe Andrews sunt superioare testului distantaestimatiilor (metoda considerata ın literatura ca fiind cea mai buna ın detectareavalorilor discordante) pentru modelul de bioechivalenta crossover. De asemenea,folosind o varianta modificata a abordarii amintite anterior, analizez doua seturi dedate reale din domeniul farmaceutic, obtinand rezultate pozitive privind identificareasubiectilor anormali, ın concordanta cu viziunea farmacocinetica.

Pe de alta parte, tentativele de frauda ale vanzatorilor reprezinta un fenomen carese repeta ın site-urile de licitatie. Tinand cont ca numarul de schimburi comercialecare utilizeaza e-commerce este ın crestere, problema asigurarii onestitatii acestorinteractiuni este de mare actualitate. In acest sens, am realizat o formalizare a uneiprobleme de detectare a profilelor vanzatorilor suspecti considerand un model deınvatare supervizata pentru identificarea acestora. Am aplicat aceasta metoda peun set de date real, extras de pe un site de licitatie din Brazilia, MercadoLivre si amobtinut rezultate pozitive privind detectarea comportamentului suspect de frauda.

In finalul capitolului propun o formalizare a spatiilor de curbe Andrews si curbeAndrews extinse (acestea din urma fiind propuse de mine) ın contextul abordariifunctiilor nucleu. Pornind de la acest model teoretic se pot analiza proprietatilespatiului de curbe Andrews si ale spatiului de curbe Andrews extinse.

Invatarea nesupervizata este unul dintre domeniile majore de cercetare ın ınvata-rea automata, ın timp ce metodele nucleu ofera solutii eficiente pentru o gamalarga de probleme de ınvatare statistica. In Capitolul 3 propun un algoritm declasificare nesupervizata bazat pe metode nucleu, care foloseste tehnica ParticleSwarm Optimization si functii de decizie. Metoda propusa reprezinta un cadrugeneral pentru rezolvarea problemei de clasificare nesupervizata: daca a fost ales unindice de validare a clasificarii adecvat, metoda furnizeaza performante foarte buneın rezolvarea problemei. Mai mult, metoda dezvoltata detecteaza ın mod automatgruparile dintr-un set de date si de asemenea, estimeaza ın mod automat numarulde grupari. Datorita utilizarii functiilor nucleu, abordarea mea poate fi aplicata atatpentru grupari liniar separabile cat si pentru grupari liniar neseparabile. Intrucatalgoritmul se bazeaza pe tehnica Particle Swarm Optimization, daca este necesar,se poate folosi calculul paralel pentru implementarea si rularea lui. Performantelemetodei sunt testate pe mai multe seturi de date artificiale. Totodata sunt discutatecalitatile abordarii propuse.

4

Page 6: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Rezultatele de cercetare prezentate ın aceasta teza de doctorat au fost diseminateın patru lucrari stiintifice:

1. Articol publicat ın IEEE Proceedings SYNASC 2011, Conferinta ISI C[Almendra, Roman (Mogos) (2011b)]

2. Articol acceptat spre publicare ın revista Biocybernetics and Biomedical En-gineering (BBE), Poland, Revista ISI [Mogos (Roman) (2012)]

3. Articol acceptat spre publicare ın revista Farmacia, Revista ISI[Mogos (Roman), Sandulovici (2012)]

4. Articol acceptat spre prezentare la NCA 2012 Workshop - on Natural Com-puting and Applications, SYNASC 2012 [Mogos (Roman), Mogos (2012)]

De asemenea am sustinut doua comunicari la Conferinta Societatii de Probabilitatisi Statistica din Romania (SPSR):

1. Comunicare sustinuta la SPSR 2010, prezentare pe baza de abstract, farapublicare [Roman (Mogos) (2010)]

2. Comunicare sustinuta la SPSR 2011, prezentare pe baza de abstract, farapublicare [Almendra, Roman (Mogos) (2011a)].

5

Page 7: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Capitolul 1

Invatarea din date ın spatii nucleu

Metodele nucleu furnizeaza solutii eficiente pentru diverse probleme de ınvatarepornind de la date reprezentate vectorial, dar si ne-vectorial, cum ar fi string-urilesau grafurile. Particularitatea acestor metode consta ın abilitatea lor de analizaa tiparelor neliniare din cadrul unui set de date [Shawe-Taylor, Cristianini (2004)].Pe de alta parte, detectarea valorilor discordante si clasificarea nesupervizata aunui set de date reprezinta doua dintre domeniile de mare actualitate ın ınvatareanesupervizata.

Capitolul de fata studiaza cele trei subiecte amintite anterior si ısi propune, pebaza rezultatelor din literatura, sa identifice modalitati de a utiliza functiile nucleuın detectarea valorilor discordante si ın clasificarea nesupervizata a datelor.

1.1 O sinteza asupra metodelor nucleu pentru date

structurate

Metodele nucleu sunt foarte cunoscute ca metode de ınvatare din exemple. Maimult, acestea au un fundament teoretic riguros si reprezinta un instrument puternicın diferite aplicatii reale [Sanchez (2003)].

Datele structurate reprezinta acele date obtinute prin combinarea unor elementemai simple ın ansamble mai complexe. De multe ori, necesita o utilizare recursivaa unor obiecte mai simple de acelasi tip [Shawe-Taylor, Cristianini (2004)]. Printreexemplele de date structurate se numara atat structurile mai simple cum ar fi vecto-rii, string-urile si secventele, cat si obiecte mai complexe precum arborii, imaginilesau grafurile.

1.1.1 Paradigma ınvatarii din date

Stiinta ınvatarii are un rol important ın statistica, “data mining” si inteligentaartificiala [Hastie et al. (2009)]. Scenariul general al ınvatarii din date presupuneexistenta unei masuratori (de iesire), de obicei, cantitativa (de exemplu, bursa devalori) sau nominala (cum ar fi, pacient sanatos/pacient bolnav), pe care vrem sa oprezicem pe baza unei multimi de caracteristici (spre exemplu, o serie de masuratoriclinice) [Hastie et al. (2009)].

6

Page 8: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

1.1.2 Notiuni preliminare privind metodele nucleu

Folosind referintele [Shawe-Taylor, Cristianini (2004)] si [Hofmann et al. (2008)] de-finesc metodele nucleu si prezint principalele caracteristici ale abordarii bazate pefunctii nucleu.

Definirea metodelor nucleu

Metodele nucleu sunt definite prin doua componente [Shawe-Taylor, Cristianini (2004)]:

1. O functie φ care scufunda spatiul de intrare X ıntr-un spatiu eventual dedimensiune mai mare (posibil infinit dimensional) cu produs scalar, notat Fsi denumit spatiul caracteristicilor si

2. Un algoritm de detectare a functiilor tipar liniare ın spatiul caracteristicilor F(reprezentate ca produse scalare dintre puncte ale spatiului caracteristicilor);de exemplu, algoritmi de clasificare, de regresie.

Conform [Shawe-Taylor, Cristianini (2004)] introduc urmatoarele definitii.

Definitia 1.1.1. (Functie nucleu)

Un nucleu este o functie k, care pentru orice x, z ∈ X satisface relatia

k(x, z) = 〈φ(x), φ(z)〉

ın care φ este o aplicatie de la spatiul X la spatiul caracteristicilor F (cu produsscalar)

φ : x 7−→ φ(x) ∈ F.

Caracteristici ale metodelor nucleu

Exista doua proprietati de baza pe care o functie nucleu trebuie sa le satisfaca pentrua fi considerata adecvata ın rezolvarea unei aplicatii [Shawe-Taylor, Cristianini (2004)]:

• trebuie sa reprezinte o masura de similaritate adecvata problemei si domeniu-lui;

• evaluarea sa trebuie sa necesite un timp computational semnificativ mai scazutdecat calculul explicit al produselor scalare dintre vectorii de caracteristicidefiniti de φ.

1.1.3 Algoritmi de ınvatare ın spatii nucleu

In aceasta subsectiune prezint o taxonomie a principalelor clase de metode nucleu.O caracteristica comuna a acestor metode este capacitatea de analiza a datelor ıntr-un spatiu (spatiul caracteristicilor definit de o functie nucleu) de complexitate mairidicata comparativ cu spatiul initial al datelor, pornind numai de la informatiilegate de produsele scalare dintre datele initiale (furnizate prin matricea nucleu).

7

Page 9: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Principalele clase de metode nucleu sunt:1. Metode nucleu bazate pe descompunerea ın valori proprii2. Metode nucleu folosind optimizare convexa3. Metode nucleu bazate pe ınvatare“online”4. Metode de clasificare nesupervizata5. Metode de ınvatare bazate pe dezvoltarea unor functii nucleu speciale.

1.2 Metode de detectare a valorilor discordante

1.2.1 Definirea notiunii de valoare discordanta

Detectarea valorilor aberante (ın engleza, ”outliers”) reprezinta o problema de in-teres ın numeroase domenii ca urmare a efectelor cauzate de luarea ın consideratiesau de excluderea acestor observatii. O valoare aberanta (sau o grupare de valoriaberante) este o observatie discordanta (sau o grupare de observatii discordante) ınraport cu restul observatiilor [Barnett, Lewis (1994)], [Grubbs (1969)].

1.2.2 Algoritmi de detectare a valorilor discordante

Principalele abordari privind detectarea valorilor aberante folosesc metode de clasi-ficare supervizata si nesupervizata, algoritmi extinsi avand la baza metoda celor maiapropiati vecini, tehnici statistice si spectrale si de asemenea metode bazate pe reteleneurale [Chandola et al. (2009)], [Hodge, Austin (2004)], [Markou, Singh (2003a)],[Markou, Singh (2003b)].

Un demers propus ın literatura [Andrews (1972)], [Barnett, Lewis (1994)], darmai putin studiat este cel care introduce ca metode de detectare a valorilor discor-dante tehnicile de analiza exploratorie a datelor. Multe dintre aceste tehnici sunt ba-zate pe metode de vizualizare a datelor multidimensionale [Martinez, Martinez (2002)],care permit descoperirea vizuala a structurilor din cadrul seturilor de date multidi-mensionale.

1.3 Metode de clasificare nesupervizata

Aceasta sectiune contine o prezentare a principalelor categorii de metode de cla-sificare nesupervizata, o descriere a tehnicii K-means si o analiza comparativa ametodelor de clasificare nesupervizata bazate pe tehnica PSO.

1.3.1 Principalele categorii de metode de clasificare nesu-pervizata

Clasificarea nesupervizata reprezinta unul dintre cele mai importante si actuale su-biecte din domeniul ınvatarii nesupervizate si consta ın partitionarea datelor ın clase(grupari) nesimilare, formate din tipare similare (observatii, vectori de caracteristici)[Jain et al. (1999)] si [Shawe-Taylor, Cristianini (2004)].

8

Page 10: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Aceasta subsectiune contine categoriile cele mai importante de metode de cla-sificare nesupervizata, asa cum sunt prezentate ın ([Enachescu (2004)], pp. 55-81).Conform autorului, exista cinci categorii principale de metode pentru problema cla-sificarii nesupervizate:

1. Metode de partitionare2. Metode ierarhice3. Metode bazate pe densitate4. Metode bazate pe grid5. Metode bazate pe modele.

1.3.2 Clasificare nesupervizata folosind tehnica Particle SwarmOptimization

In aceasta subsectiune prezint sase abordari din literatura referitoare la clasificareanesupervizata folosind tehnica PSO.

Particle Swarm Optimization este o tehnica euristica de explorare a spatiului decautare al unei probleme, bazata pe o populatie de particule [Eberhart, Kennedy (1995)],[Kennedy, Eberhart (1995)]. Fiecare particula ısi modifica pozitia si viteza prin in-termediul unor reguli predefinite. De asemenea, fiecare particula ısi pastreaza ceamai buna valoare atinsa. La nivelul ıntregii populatii, se retine cea mai buna valoareatinsa de un membru al populatiei. In ultimii ani, datorita flexibilitatii si eficienteisale, aceasta tehnica a fost folosita ın multe domenii, printre care si ın clasificareanesupervizata.

O analiza comparativa

In primul rand, se observa ca toate metodele propuse folosesc ın mod implicit sauexplicit abordarea din metoda K-means referitoare la calcularea distantelor din-tre puncte si centrele claselor si la regula de asignare a punctelor claselor cores-punzatoare. Un alt element comun al tuturor rezultatelor prezentate este utilizareacentrelor claselor pentru reprezentarea particulelor; un singur rezultat este putindiferit, ın aceasta privinta, si anume [Das et al. (2008)], deoarece acesta adauga ınreprezentarea particulelor, alaturi de centrele claselor, si informatii despre stareaunei clase ıntr-un anumit moment (activa sau inactiva).

O prima diferenta ıntre metodele analizate se refera la tipul de PSO utilizat:unele metode folosesc PSO standard, altele, PSO cu pondere a inertiei (variantaliniara sau exponentiala), PSO cu modificarea variabilelor aleatoare din formulavitezei sau PSO cu modificarea modalitatii de actualizare a particulei gbest. O altadiferenta se refera la tipurile de experimente efectuate: ın unele cazuri se comparadoar algoritmi bazati pe tehnica PSO, ın alte cazuri sunt implicate ın comparatii sialte metode; de cele mai multe ori, este luata ın consideratie, ın cadrul comparatiei,metoda K-means, care se afla la baza tuturor rezultatelor analizate.

O diferenta esentiala ıntre [Das et al. (2008)] si celelalte rezultate prezentateeste aceea ca ın [Das et al. (2008)] sunt utilizate metode nucleu. Din acest motiv,aceasta metoda poate sa clasifice si date liniar neseparabile.

9

Page 11: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

1.4 Discutie

Analiza efectuata ın acest capitol reprezinta un prim pas ın constructia metodelorpropuse ın Capitolele 2 si 3. Metodele de detectare a valorilor discordante ımpreunacu abordarea functiilor nucleu stau la baza metodelor dezvoltate ın Capitolul 2,ın timp ce tehnica PSO combinata cu metodele nucleu aplicata pentru clasificareanesupervizata a datelor este specifica Capitolului 3.

Dupa cum se observa din Sectiunile 1.2 si Sectiunile 1.3, detectarea valorilordiscordante si clasificarea nesupervizata reprezinta doua subiecte intens studiate ınultimii ani. Cu toate acestea, abordarile bazate pe metode nucleu sunt relativ putine.In acest context, metodele propuse de mine ın urmatoarele doua capitole se situeazaıntr-o zona mai putin explorata, dar foarte promitatoare a ınvatarii nesupervizate.

10

Page 12: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Capitolul 2

Metode de detectare a valorilordiscordante bazate pe abordareafunctiilor nucleu

Problema detectarii valorilor discordante este de mare actualitate ın numeroase do-menii printre care detectarea fraudei ın site-urile de licitatie si identificarea subiectilordiscordanti ın studiile de bioechivalenta.

Capitolul este organizat ın sase sectiuni. In Sectiunea 2.1 descriu metoda dedetectare a valorilor discordante pe care am propus-o pentru identificarea compor-tamentului de frauda ın site-urile de licitatie. In Sectiunea 2.2 propun o noua me-toda de detectare a valorilor discordante bazata pe o extindere a curbelor Andrews,numita metoda EAC, ın contextul studiilor de bioechivalenta. De asemenea, ınSectiunea 2.3 realizez un studiu de simulare avand ca scop analiza performantelormetodei propuse ın Sectiunea 2.2. In Sectiunea 2.4 propun o generalizare a meto-dei EAC si prezint cateva rezultate experimentale obtinute pe seturi de date realedin domeniul farmaceutic. In Sectiunea 2.5, studiez proprietatile spatiului functiilorAndrews si respectiv ale spatiului functiilor Andrews extinse folosind abordareafunctiilor nucleu. Ultima sectiune contine o discutie referitoare la metodele prezen-tate ın acest capitol.

Rezultatele prezentate ın acest capitol au fost diseminate ın lucrarile

• [Almendra, Roman (Mogos) (2011b)] (Sectiunea 2.1),

• [Mogos (Roman) (2012)] (Sectiunile 2.2 si 2.3) si

• [Mogos (Roman), Sandulovici (2012)] (Sectiunea 2.4).

11

Page 13: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

2.1 Utilizarea tehnicilor de analiza exploratorie a

datelor ın identificarea indivizilor suspecti ın

site-urile de licitatie

Problema studiata poate fi formulata precum urmeaza: pornind de la o multimede ınvatare (formata dintr-o multime de antrenare asociata datelor “normale” si omultime de test continand date discordante ın raport cu datele multimii de antre-nare) ne propunem sa determinam structura datelor de antrenare pe baza careia saclasificam datele din setul de test. Mai exact, vrem sa decidem daca datele din setulde test prezinta aceeasi structura ca datele de antrenare sau nu. Cadrul ilustrat an-terior reprezinta o formalizare a unei probleme de detectare a profilelor vanzatorilorsuspecti, suspendati din site-ul de licitatie MercadoLivre. Din datele publice de peacest site s-a extras un esantion de 20410 de vanzatori care aveau conturile sus-pendate si dintre acestia au fost selectati ın mod aleator 119 pentru o verificare sietichetare manuala pe baza a 22 de caracteristici privind comportamentul fraudulosal vanzatorilor, conform [Almendra, Roman (Mogos) (2011b)].

Metoda pe care o propun, pentru rezolvarea acestei probleme, extinde demer-sul tehnicilor de analiza exploratorie a datelor prin investigarea utilizarii curbelorAndrews ın detectarea automata a valorilor discordante. Abordarea mea poate fisintetizata astfel: se translateaza un model vizual - un tub - ıntr-o reprezentarematematica, care poate fi folosita ın identificarea algoritmica a observatiilor discor-dante. Studiul urmeaza paradigma clasificarii ıntr-o singura clasa ın care indiviziinormali sunt folositi pentru antrenarea clasificatorului, care ulterior va fi testat pedatele discordante. Am tratat aceasta problema ın contextul clasificarii ıntr-o sin-gura clasa, ın detrimentul cadrului clasificarii binare, deoarece identificarea unorexemple de indivizi suspecti reprezentative este dificila. S-a stabilit ca numarul in-divizilor suspecti este foarte mic comparativ cu cel al indivizilor normali (indiviziisuspecti reprezinta mai putin de 2% ın cazul studiat).

2.1.1 Tehnica de analiza exploratorie a datelor - CurbeleAndrews

Pentru a evidentia structurile existente ın date prin reprezantari grafice putemtranslata datele multidimensionale initiale ıntr-un spatiu de functii, numite curbeAndrews [Andrews (1972)]. Astfel, fiecarui punct de forma x = (x1, x1, · · · , xn) i seasociaza o curba definita prin seria Fourier:

fx(t) = x1/√

2 + x2 sin t+ x3 cos t+ x4 sin 2t+ x5 cos 2t+ · · · (2.1.1)

unde t apartine intervalului [−π, π].

12

Page 14: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

2.1.2 Descrierea metodei de detectare a valorilor aberante

Descriere succinta a procedurii

Procedura propusa poate fi descrisa prin urmatorii pasi:

1. Se estimeaza structura curbelor Andrews de antrenare definind “tubul minim”obtinut astfel ıncat majoritatea curbelor de antrenare sa apartina tubului.Pentru o vizualizare grafica poate fi consultata Figura 2.1.

2. Se considera ca o curba este discordanta daca aceasta nu respecta structuraobtinuta la Pasul 1, ın sensul ca o curba este discordanta daca si numai dacacurba contine puncte situate ın exteriorul marginilor care delimiteaza tubul.

−4 −3 −2 −1 0 1 2 3 4−200

−150

−100

−50

0

50

100

150

200

a)

−4 −3 −2 −1 0 1 2 3 4−200

−100

0

100

200

300

b)

Figura 2.1: Reprezentarea tubului: a) culoarea rosie – frontierele tubului si culoareaneagra – curbele normale; b) culoarea rosie – frontierele tubului si culoarea neagra– exemplu de curba discordanta.

Dupa aceea, voi clasifica curbele Andrews de test, ın concordanta cu algoritmulpropus mai sus si ın functie de definitia notiunii de valoare aberanta indicata ınsubsectiunea urmatoare, si voi estima precizia algoritmului de detectare a valoriloraberante prin frecventa relativa a curbelor de testare discordante detectate.

O vizualizare grafica a metodei este furnizata ın Figura 2.2.

Metoda empirica pentru detectarea curbelor Andrews discordante

In cele ce urmeaza voi detalia metoda de identificare a valorilor aberante pe care amdenumit-o metoda empirica pentru detectarea curbelor Andrews discordante.

13

Page 15: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

−4 −3 −2 −1 0 1 2 3 4−200

−150

−100

−50

0

50

100

150

200

250

300

t

And

rew

s cu

rve

Figura 2.2: Reprezentarea datelor folosind curbele Andrews. Notatii: culoareaneagra – indivizii normali, culoarea albastra – indivizii suspecti, culoarea rosie –frontierele tubului.

Fie x o observatie arbitrar fixata din multimea de ınvatare (formata din multimeade antrenare si multimea de testare), notata cu S.

Consider ca multime de antrenare, Strain (respectiv, multime de test, Stest),multimea punctelor curbelor asociate datelor din multimea de antrenare (respec-tiv, multimea de test).

Algoritmul contine doi pasi:

1. Definirea tubului: pentru fiecare t apartinand intervalului curbelor {Cx}x∈Strain,

se calculeaza valoarea minima si respectiv maxima a sirului depinzand de punc-tele x ale multimii de antrenare, {fx(t)}x∈Strain

. Astfel, se vor obtine curbelede frontiera care delimiteaza curbele de antrenare. Cele doua curbe de fron-tiera (curba superioara si curba inferioara) determina tubul definit de setul deantrenare. Curba de frontiera superioara este data prin:

fxj(t) = maxx{fx(t)|x ∈ Strain} (2.1.2)

iar cea inferioara prin

fxi(t) = minx{fx(t)|x ∈ Strain} (2.1.3)

unde prin Strain am notat multimea de antrenare.

2. Se obtine eticheta datelor de test pe baza urmatoarei definitii a notiunii de

14

Page 16: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

valoare aberanta:Spunem ca o curba Cx corespunzatoare datei initiale x este discordanta dacaexista t0 ∈ [−π, π] astfel ıncat punctul fx(t0) al curbei nu apartine tubuluidefinit la Pasul 1.

2.1.3 Rezultate experimentale

Am testat metoda propusa pe un set de date real din domeniul detectarii fraudei ınsite-urile de licitatie. si am obtinut rezultate pozitive privind acuratetea de detectarea vanzatorilor suspecti de frauda. De asemenea, am demonstrat stabilitatea scoruluide detectare a fraudei de 79.37%, ın sensul independentei de dimensiunea tubului,considerand abordarea validarii ıncrucisate pornind de la toate curbele de antrenare.

2.2 Metoda de detectare a valorilor discordante

ın studiile de bioechivalenta bazata pe o ex-

tindere a curbelor Andrews (Metoda EAC)

In contextul studiilor de bioechivalenta, o valoare discordanta este definita ca fiindun subiect (pacient) cu o observatie extrema ( avand o valoare foarte ridicata saufoarte scazuta) pentru o anumita formulare [Chow, Tse (1990)]. Cel mai utilizatmodel statistic pentru compararea bioechivalentei dintre doua formulari ale unuimedicament pare a fi modelul crossover cu g secvente de formulari administrateın p intervale diferite de timp. Acest model este cunoscut sub numele de modelulcrossover g × p.

In studiile de bioechivalenta, procedurile de detectare a valorilor discordantese bazeaza ın general pe teste statistice. Din [Ramsay, Elkum (2005)] deducem catestul statistic numit distanta estimatiilor propus ın [Chow, Tse (1990)], furnizeazacele mai bune rezultate referitoare la detectarea valorilor discordante ın studiilede bioechivalenta ın ipoteza ca efectul perioadei si efectul formularii sunt nule ınmodelul crossover.

O abordare mai putin studiata pentru detectarea valorilor discordante ın studiileclinice este utilizarea tehnicilor de analiza exploratorie a datelor (AED). Pentru re-zolvarea problemei detectarii valorilor discordante, propun folosirea tehnicii curbelorAndrews [Andrews (1972)]. Studii similare privind acest subiect pot fi consultate ın[Enachescu, Enachescu (2009)] si [Rasheed et al. (2011)].

In aceasta sectiune voi extinde abordarea bazata pe curbe Andrews pentru de-tectarea valorilor discordante, propunand, alaturi de posibilitatea de interpretarevizuala a rezultatelor, o justificare matematica (din punct de vedere statistic) a re-gulii de decizie. In plus, aceasta noua abordare poate fi utilizata pentru detectareaautomata a observatiilor discordante.

15

Page 17: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

2.2.1 Descrierea modelului

Fie Yijk variabila raspuns a subiectului i ın perioada k pentru formularea j (de exem-plu, aria de sub curba concentratiei de sange). Consider cazul special al modeluluide bioechivalenta crossover ın care se presupune ca nu exista efectele de perioada side formulare:

Yij = µ+ Si + eij, j = 1, . . . , f ; i = 1, . . . , N (2.2.1)

unde

• µ este media totala;

• Si este efectul aleator al subiectului i, iar

• eijk reprezinta eroarea aleatoare (intra-subiect) a observatiei Yijk.

Modelul prezinta urmatoarele ipoteze:

1. Variabilele aleatoare {Si} sunt independente si distribuite normal cu media 0si dispersia σ2

s .

2. Variabilele aleatoare {eijk} sunt independente si distribuite normal cu media0 si dispersia σ2

e .

3. Variabilele aleatoare {Si} si {eijk} sunt mutual independente.

2.2.2 Testul statistic distanta estimatiilor

Testul distanta estimatiilor (ED) reprezinta o metoda bazata pe un test statisticdezvoltat ın [Chow, Tse (1990)] pentru detectarea valorilor discordante ın seturi dedate care verifica ipotezele modelului crossover.

2.2.3 Prezentarea metodei EAC

Metoda propusa ın aceasta subsectiune combina tehnica curbelor Andrews cu oabordare statistica pentru clasificarea automata a datelor, pornind de la modelul debioechivalenta (2.2.1).

Curbele Andrews extinse

Pornind de la definitia curbelor Andrews, pentru a mai buna ınvatare a ratei deschimbare a curbei, consider functia de scufundare definita astfel:

φ : x = (x1, x2, . . . , xn) ∈ Rn → φ (x) = gx (· ) (2.2.2)

unde functia gx (· ) : [−π, π]→ R data de expresia

gx (t) = x1 cos t− x2 sin t+ 2x3 cos 2t− 2x4 sin 2t+ . . . (2.2.3)

16

Page 18: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

reprezinta o forma modificata a derivatei curbei Andrews.

Descrierea metodei

Presupun ca datele Yi = (Yi1 , Yi2 , . . . , Yif )T , i = 1, . . . , N sunt generate folosind odistributie normala, conform modelului (2.2.1).

Pasii algoritmului de detectare a valorilor discordante sunt descrisi ın cele ceurmeaza:

Pasul 1: Pentru a elimina zgomotul nedorit din date si pentru a obtine o multimede antrenare care sa poata fi folosita pentru estimarea parametrilor modelului (pre-cum media si dispersia), consider o procedura initiala de detectare a valorilor dis-cordante:

1a) Mai ıntai, se elimina corelatia dintre variabile folosind urmatoarea transfor-mare introdusa ın metoda “projection pursuit” [Martinez, Martinez (2002)]. Consi-

der tranformarea definita prin:

φ1 : Yi = (Yi1 , Yi2 , . . . , Yif )T → φ1 (Yi) =Λ−1/2QT (Yi − µ1f ) ,

∀i = 1, . . . , N(2.2.4)

unde coloanele matricei ortonormale Q sunt vectorii proprii ai matricei Σ si Λ estematricea diagonala a valorilor proprii corespunzatoare.

Notez

Zi = Λ−1/2QT (Yi − µ1f ) .

Din [Vaduva (1970)] si faptul ca Σ este pozitiv definita rezulta ca vectorul aleatormultidimensional Zi = (Zi1 , Zi2 , . . . , Zif )T , pentru orice i = 1, . . . , N , este distribuitnormal cu media 0f (vectorul f × 1 - dimensional ce contine doar valoarea 0) si

matricea de covarianta este matricea identitate f × f - dimensionala If . Inlocuiescın formulele anterioare media µ1f si matricea de covarianta Σ cu estimatorii EVM.

1b) Pasul 1a) are scopul de a normaliza observatia Yi = (Yi1 , Yi2 , . . . , Yif )T . Deaceea, se poate introduce urmatoarea definitie a unei date discordante ın functie deacelasi prag. Definitia este corecta pentru f = 2 (cazul pe care ıl voi testa). Daca selucreaza cu date multidimensionale (f > 2), mai ıntai trebuie proiectate datele ıntr-un spatiu 2 - dimensional, folosind, spre exemplu, abordarea metodei “projectionpursuit”[Martinez, Martinez (2002)] si apoi se poate aplica regula prezentata maijos.

Definitia 2.2.1. Spunem ca o data Zi este o observatie discordanta daca si numaidaca ||Zi||2 > (2· log (20))1/2, unde ||· ||2 reprezinta norma euclidiana si pragul R =

(2· log (20))1/2 este ales astfel ıncat, cu o probabilitate de 0.95, un punct dintr-odistributie gaussiana sa apartina bilei centrate ın origine si de raza R.

Am considerat aceasta metoda ca o procedura initiala pentru detectarea valorilordiscordante pentru ca am observat ca nu reuseste sa discrimineze cu exactitate ıntre

17

Page 19: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

datele afectate de zgomot normal distribuite si alte date extreme. De aceea, ınaceasta prima faza, am exclus toate datele discordante (distribuite normal sau nu).

Pasul 2: Normalizez datele initiale prin aplicarea transformarii de la Pasul1a), dar de aceasta data folosind estimatorii pentru medie si matrice de covariantacalculati pe multimea de selectie obtinuta prin eliminarea observatiilor discordanteconform cu regula prezentata la Pasul 1b).

Pasul 3: Fie Xi = (Xi1 , Xi2 , . . . , Xif )T , i = 1, . . . , N datele obtinute dupatransformarea aplicata la Pasul 2). Translatez aceste date folosind scufundarea

φ : Xi = (Xi1 , Xi2 , . . . , Xif )T ∈ Rn → φ (Xi) = gXi(· ) , i = 1, . . . , N (2.2.5)

Pasul 4: Acest pas descrie metoda automata pe care o propun pentru detectareavalorilor discordante, pornind de la reprezentarea datelor prin curbe discretizate.Algoritmul utilizeaza o abordare statistica pentru detectarea valorilor discordantebazata pe urmatoarea presupunere [Chandola et al. (2009)]:

“Datele reprezentate normal apar ın regiunile cele mai probabile ale unui modelstatistic, ın timp ce valorile discordante apar ın regiunile cele mai putin probabileale modelului statistic.”

Mai departe, arat cum se poate aplica tehnica de vizualizare “box plots” pen-tru detectarea curbelor Andrews discordante. Din Pasul 2 rezulta ca datele Xi =(Xi1 , Xi2 , . . . , Xif )T , i = 1, . . . , N sunt distribuite normal cu media 0f si matriceade covarianta If . Aceasta implica faptul ca variabilele {Xij}j=1,...,f sunt identic siindependent distribuite pentru orice i = 1, . . . , N . De aici rezulta ca pentru orice tapartinand intervalului curbei CXi

pentru orice i = 1, . . . , N , multimea de selectie{gXi

(t)}i=1,...,N este formata din date avand aceeasi distributie normala. Rezulta ca,pentru fiecare t se pot estima cuartila inferioara Qlo (t), cuartile superioara Qup (t)si intervalul inter-cuartilic definit prin

IQR (t) = Qup (t)−Qlo (t)

folosind inversa unei functii de distributie normala. Estimez parametrii distributieinormale folosind observatiile de selectie {gXi

(t)}i=1,...,N dintre care au fost eliminatecele corespunzatoare datelor initiale clasificate ca discordante la Pasul 1b).

In continuare, definesc notiunea de valoare discordanta dupa cum urmeaza:

Definitia 2.2.2. Spunem ca o curba CX , care corespunde datelor initiale X, estediscordanta daca exista t0 ∈ [−π, π] astfel ıncat punctul gX (t0) al curbei nu apartineintervalului

I(t0) = [Qlo (t0)− 1.5· IQR (t0) , Qup (t0) + 1.5· IQR (t0)] .

Coeficientul intervalului inter-cuartilic IQR de 1.5 este ales astfel ıncat, o datagenerata conform repartiei normale, cu o probabilitate de 0.993, sa nu apartina

18

Page 20: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

intervalului

I = [Qlo − 1.5· IQR, Qup + 1.5· IQR] ,

unde Qlo, Qup si IQR = Qup −Qlo sunt cuartila inferioara teoretica, cuartila supe-rioara teoretica si respectiv intervalul inter-cuartilic asociat distributiei.

2.3 Evaluarea performantelor metodei EAC pe baza

unui studiu de simulare

Pentru a evalua performanta metodei propuse de mine ın Subsectiunea 2.2.3, princomparatie cu performanta testului statistic distanta estimatiilor, realizez un studiude simulare inspirat din [Ramsay, Elkum (2005)]. In acest sens, pentru fiecare me-toda estimez abilitatea acesteia de detectare a valorilor discordante si eroarea ei demisclasificare pentru mai multe seturi de date generate aleator. In plus, extind stu-diul initial care consta ın analiza unor seturi de date care contin o singura o valoarediscordanta la analiza unor seturi de date continand mai multe valori discordante(am considerat doua valori discordante ıntr-un set de date). In cel de al doilea caz,analizez doua categorii de seturi de date: cu valori discordante avand acelasi gradde discrepanta si cu valori discordante de magnitudini diferite.

2.3.1 Setarea parametrilor modelului

Parametrii modelului folosit pentru generarea multimii de selectie sunt urmatorii:1) Coeficientul de varianta intra-subiect, notat cu CV2) Raportul dintre dispersia inter - subiecti si dispersia intra-subiect.3) Dimensiunea multimii de selectie.4) Coeficientul de discrepanta a valorilor discordante, Q.

Procedura de simulare poate fi descrisa precum urmeaza. Pentru fiecare combinatiea celor patru parametri introdusi anterior, generez 100 de seturi de date indepen-dente. Apoi, aplic metodele (testul distantei estimatiilor si metoda EAC) pe acesteseturi de date si verific daca procedurile clasifica un subiect cu adevarat discordantca fiind un individ discordant, iar un subiect obisnuit ca fiind un individ normal.Dupa aceea, estimez acuratetea detectarii valorilor discordante folosind ca masurifrecventa relativa a subiectilor discordanti detectati ca fiind discordanti si procentulde subiecti misclasificati (subiecti normali, detectati ca fiind discordanti).

2.3.2 Rezultate experimentale

In aceasta sectiune sunt prezentate resultatele experimentale obtinute de metodaEAC (prezentata ın Subsectiunea 2.2.3) si de testul statistic distanta estimatiilor,folosind studiul de simulare descris mai sus. Fiecare dintre aceste metode utili-zeaza o abordare statistica care depinde de un prag care corespunde nivelului desemnificatie a testului sau probabilitatii de a obtine o eroare de Tip I. Scopul nive-lului de semnificatie este de a furniza o masura a ıncrederii ın rezultatele indicate de

19

Page 21: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

testele statistice si indirect controleaza numarul de instante clasificate ca discordante[Chandola et al. (2009)].

Compar aceste metode pentru mai multe nivele de semnificatie α: 0.007, 0.003 sirespectiv 0.0007. Am ales aceste nivele de semnificatie astfel ıncat sa se obtina erorimici de misclasificare empirica. Astfel, ın metoda bazata pe curbele Andrews (EAC)pragurile asociate acestor nivele de semnificatie sunt deduse considerand coeficientulintervalului inter - cuartilic IQR cu valorile 1.5, 1.7 si respectiv 2. Clasificatorulbazat pe distanta estimatiilor (ED) depinde de cuantila nivelului de semnificatie α,χ23 (α). Consider cuantilele corespunzatoare nivelele de semnificatie α indicate mai

sus.

Introduc urmatoarele notatii:

Q: coeficientul de discrepanta a valorilor discordante definit la Pasul 4 ın studiulde simulare (Q = 0 corespunde unor date care nu sunt influentate de zgomot).

PM : Q = 0: estimatorul probabilitatii de misclasificare (definit ca frecventarelativa a datelor normale reale prezise ca date discordante, calculata pe 900 deseturi de date, obtinuta pentru Q = 0).

PD: Q = i (i = 3, 5 si 10): estimatorul probabilitatii de detectare a valorilordiscordante cu coeficientul de discrepanta Q = i (definit ca frecventa relativa adatelor discordante reale prezise ca date discordante pentru fiecare coeficient dediscrepanta Q = 3, 5 si 10).

Analiza rezultatelor obtinute pentru fiecare dintre situatiile studiate (o valoarediscordanta ın setul de date sau doua valori discordante ın setul de date) si pentrufiecare dintre nivelele de semnificatie sunt prezentate ın cele ce urmeaza.

1. Seturi de date care contin o singura data discordanta

Din rezultatele referitoare la detectarea valorilor discordante pentru seturi dedate care contin o singura data discordanta se constata ca ambele metode obtinperformante foarte bune ın detectarea valorilor discordante (chiar si pentru datediscordante cu un coeficient de discrepanta mic, Q = 3) cu o eroare mica de miscla-sificare. Dupa o analiza detaliata a acestor rezultate se poate concluziona ca metodaEAC propusa de mine are performante mai bune decat metoda ED pentru fiecarecoeficient de discrepanta. De asemenea, eroarea de misclasificare pentru metodaEAC este mai mica decat eroarea de misclasificare obtinuta de metoda ED.

O observatie interesanta este aceea ca rezultatele celor doua metode nu suntsemnificativ diferite ın cazul ın care dimensiunea multimii de selectie este mare.De aici putem deduce ca cele doua metode sunt adecvate pentru detectarea valorilordiscordante atat pentru multimi de selectie de dimensiuni mari, cat si pentru multimide selectie de dimensiuni mici.

2. Seturi de date care contin doua valori discordante

Uneori, prezenta unei valori discordante ıntr-un set de date poate ascunde prezentaaltor valori discordante. Acest fapt este numit “efectul de mascare” al metodei.Tinand cont de acest lucru, studiez aceasta situatie, prin introducerea a doua valoridiscordante ın seturile de date. La subpunctele 2.1 si 2.2 sunt analizate doua tipuri

20

Page 22: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

de valori discordante: cu acelasi coeficient de discrepanta, respectiv cu coeficientidiferiti de discrepanta.

2.1. Valori discordante cu acelasi coeficient de discrepanta

Rezultatele obtinute arata ca metoda EAC furnizeaza rezultate foarte bune sisuperioare celor obtinute de metoda ED. De aici, se poate deduce ca metoda propusade mine este adecvata si pentru detectarea a mai mult de o valoare discordanta.

2.2. Valori discordante cu coeficienti diferiti de discrepanta

Analizez toate combinatiile de coeficienti de discrepanta diferiti pentru multimide selectie cu dimensiunile 12, 24 si 36 si nivelul de semnificatie α = 0.007. In Tabelul2.1 se noteaza cu Q1 coeficientul de discrepanta a uneia dintre valorile discordantesi cu Q2 coeficientul de discrepanta a celeilalte valori discordante.

Tabela 2.1: Rezultatele referitoare la detectarea valorilor discordante pentru seturide date care contin doua valori discordante cu coeficienti de discrepanta diferiti

Coeficientul Metoda PM: PD: PD: PD:de discrepanta Q1 = 0 Q1 = 3 Q1 = 5 Q1 = 10

Q2 = 3 ED 0.0498 0.4583 0.4192 0.0481EAC 0.0427 0.5618 0.6329 0.5896

Q2 = 5 ED 0.0498 0.4173 0.8241 0.4453EAC 0.0427 0.6323 0.9172 0.8769

Q2 = 10 ED 0.0498 0.0513 0.4362 0.9929EAC 0.0427 0.5908 0.8740 0.9997

Similar cu studiul prezentat la subpunctul 2.1, Tabelul 2.1 arata ca metodaEAC obtine rezultate bune si pentru detectarea valorilor discordante cu coeficientide discrepanta diferiti. Pe de alta parte, rezultatele arata ca metoda ED nu esteadecvata pentru acest tip de problema.

Am considerat ca valorile discordante apar ın formularea de test. De asemenea,am studiat situatia ın care valoarea de discrepanta este adaugata raspunsului for-mularii de referinta a unui subiect si raspunsului formularii de test a celuilalt subiectdin acelasi set de date. Am obtinut ca rezultatele se mentin si ın acest caz.

In Figura 2.3 prezint abilitatea de detectare vizuala oferita de metoda mea prinintermediul unei imagini grafice. Aceste curbe reprezentate prin linie ıntreruptaarata limitele curbelor normale, calculate ın Pasul 4 al algoritmului meu pe bazaintervalului inter - cuartilic. Se poate observa din figura ca setul de date ilustratcontine doua valori discordante. Una dintre valorile discordante are coeficientul dediscrepanta Q = 10, iar cealalta valoare discordanta are coeficientul de discrepantaQ = 5.

21

Page 23: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

-4 -3 -2 -1 0 1 2 3 4-150

-100

-50

0

50

100

150a)

t

Curbele Andrews extinse

-4 -3 -2 -1 0 1 2 3 4-4

-3

-2

-1

0

1

2

3

4

5

6b)

t

Curbele Andrews extinse

Figura 2.3: Reprezentarea datelor prin curbele Andrews extinse: a) pentru dateleinitiale; b) pentru datele normalizate (folosind Pasul 2 din Subsectiunea 2.2.3)

2.4 O generalizare a metodei EAC. Aplicatii ın

detectarea valorilor discordante ın domeniul

farmaceutic

Principala caracteristica a generalizarii propuse ın aceasta sectiune (metoda Ge-nEAC) este aceea ca nu necesita informatie apriori referitoare la distributia datelor.Ilustrez abilitatea metodei pe doua seturi de date din domeniul farmaceutic.

2.4.1 Descrierea metodei

In general, nu exista informatii privind distributia datelor. De aceea, pornind dela metoda EAC prezentata ın Subsectiunea 2.2.3, propun o generalizare a acesteiaprin eliminarea ipotezei de normalitate a datelor. Utilizand notatiile din Sectiunea2.2, noua metoda are urmatoarea forma:

Pasul 1 - Pasul 3: Acesti pasi sunt identici cu cei ai metodei EAC;

Pasul 4: In acest pas este descrisa abordarea statistica pe care o propun pentrudetectarea automata a subiectilor discordanti, pornind de la reprezentarea datelorprin curbe discretizate:

Definitia 2.4.1. Spunem ca un punct X ce are asociata curba CX este un subiectdiscordant daca exista t0 ∈ [−π, π] astfel ıncat punctul gX (t0) al curbei nu apartineintervalului

I(ε) =[µ (t0)− σ (t0) /

√ε, µ (t0) + σ (t0) /

√ε], (2.4.1)

unde µ (· ) reprezinta curba medie a curbelor corespunzatoare datelor de selectie,σ (· ) curba deviatiei standard a curbelor asociate datelor de selectie (calculata pe

22

Page 24: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

multimea de selectie din Pasul 2) si ε este un prag setat cu o valoare suficient demica.

2.4.2 Rezultate experimentale

Generalizarea propusa ın aceasta sectiune (metoda GenEAC) este aplicata ın dome-niul farmaceutic. FDA (Food and Drug Administration) mentioneaza ca o definitiestatistica pentru notiunea de valoare discordanta este “ıntr-un anumit fel arbitrara”,depinzand de studiul clinic specific [FDA (1999)]. “Identificarea clara a unei valoriparticulare ca valoare discordanta este mai convingatoare atunci cand este justifi-cata atat medical cat si statistic, iar atunci contextul medical va defini ın generalactiunea potrivita” [FDA (1998)].

Metoda GenEAC este aplicata pentru detectarea subiectilor discordanti ın se-turi de date asociate formularilor pentru pentoxifilina si rifampicina. Rezultateleobtinute sunt pozitive ın concordanta cu viziunea farmacocinetica.

Am realizat, de asemenea, un studiu comparativ ıntre rezultatele obtinute pentruseturile de date pentoxifilina si rifampicina folosind reprezentarea datelor bazata pecurbe Andrews si respectiv pe curbele Andrews extinse propuse de mine. Pentrusetul de date rifampicina, algoritmul arata ca, ın cazul utilizarii curbelor Andrewsextinse, coeficientul de ıncredere, de forma 1−ε, este mai mare de 99% si este mai bundecat cel obtinut de curbele Andrews (o valoare mai mica de 99%). Coeficientul deıncredere exprima gradul de ıncredere ın rezultatele referitoare la detectarea valorilordiscordante. De asemenea, pentru setul de date pentoxifilina, ambele modalitati dereprezentare a datelor au acelasi coeficient de ıncredere de 97%.

2.5 Formalizarea abordarii bazate pe curbele An-

drews ın contextul functiilor nucleu

Consider aplicatiile de scufundare, definite prin:

φ : x ∈ Rn 7−→ φ(x) = fx(· ) ∈ Cn, (2.5.1)

unde fx(· ) : [−π, π] 7→ R reprezinta curba Andrews asociata punctului x ∈ Rn,iar prin Cn am notat multimea curbelor Andrews corespunzatoare vectorilor dedimensiune n si

φe : x ∈ Rn 7−→ φe(x) = gx(· ) ∈ Cne , (2.5.2)

unde gx(· ) : [−π, π] 7→ R reprezinta curba Andrews extinsa asociata punctuluix ∈ Rn, propusa ın ecuatia (2.2.3) a Sectiunii 2.2.3, iar Cn

e este multimea curbelorAndrews extinse corespunzatoare vectorilor de dimensiune n.

Consider spatiul vectorial L2([−π, π]) al functiilor de patrat integrabile pe multimea

23

Page 25: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

compacta [−π, π]:

L2([−π, π]) = {f |∫[−π,π]

f(x)2dx <∞}. (2.5.3)

cu definitiile de aditivitate si multiplicativitate induse de spatiul de functii si pro-dusul scalar definit prin

〈f, g〉 =

∫[−π,π]

f(x)g(x)dx,∀f, g ∈ L2([−π, π]). (2.5.4)

Se arata cu usurinta ca Cn si Cne sunt subspatii vectoriale ale spatiului vectorial

L2([−π, π]).

Mai mult, ın spatiul vectorial de functii Andrews cu produsul scalar definit ınecuatia (2.5.4), produsul scalar dintre doua functii Andrews se poate scrie ca pro-dusul scalar uzual al datelor initiale corespunzatoare (modulo constanta π), adica:

〈fx, fz〉 = π 〈x, z〉 ∀x, z ∈ Rn. (2.5.5)

Deducem de aici faptul ca spatiul de functii Andrews poate fi introdus ın abordareafunctiilor nucleu ca fiind un spatiu de caracteristici definit de functia nucleu:

k(x, z) = 〈φ(x), φ(z)〉 = π 〈x, z〉 ∀x, z ∈ Rn. (2.5.6)

Avand ın vedere proprietatile functiilor sinus si cosinus:

1.

∫ π

−πsinαt cos βt = 0, α, β ∈ N

2.

∫ π

−πsinαt sin βt = 0, α, β ∈ N, α 6= β

3.

∫ π

−πcosαt cos βt = 0, α, β ∈ N, α 6= β

4.

∫ π

−π(sinαt)2 = 0, α ∈ N

5.

∫ π

−π(cos βt)2 = 0, β ∈ N

24

Page 26: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

produsul scalar dintre doua functii Andrews extinse devine

〈gx(·), gz(·)〉 =

∫ π

−πgx(t)gz(t)dt =

=

∫ π

−π(x1 cos t− x2 sin t+ 2x3 cos 2t− 2x4 sin 2t+ . . .)·

· (z1 cos t− z2 sin t+ 2z3 cos 2t− 2z4 sin 2t+ . . .) dt =

= π ·(x1z1 + x2z2 + 22x3z3 + 22x4z4 + 32x5z5 + 32x6z6 + . . .

)

(2.5.7)

Mai mult, ecuatia (2.5.7) se poate scrie

〈gx(·), gz(·)〉 = π 〈x, z〉A (2.5.8)

unde 〈x, z〉A = xAzT este un produs scalar pe spatiul initial definit de matriceasimetrica si pozitiv definita, A, data prin

A =

1 0 0 0 . . . 00 1 0 0 . . . 00 0 22 0 . . . 00 0 0 22 . . . 0...

......

......

...

0 0 0 0 . . . dn/2e2

(2.5.9)

unde dn/2e reprezinta partea ıntreaga superioara a valorii n/2. Astfel, am aratatca spatiul de functii Andrews extinse poate fi descris ca un spatiu de caracteristicidefinit de functia nucleu:

ke(x, z) = 〈φe(x), φe(z)〉 = π 〈x, z〉A ∀x, z ∈ Rn (2.5.10)

unde matricea A a fost definita ın ecuatia (2.5.9).

2.6 Discutie

Metodele din acest capitol propun solutii automate pentru detectarea indivizilorsuspecti de frauda ın site-urile de licitatie si respectiv, a subiectilor discordanti dinstudiile de bioechivalenta. Metodele dezvoltate au fost testate pe seturi de datereale si s-au obtinut rezultate pozitive.

Pentru metoda din Sectiunea 2.1, rezultatele indica faptul ca procedura bazatape curbele Andrews este adecvata rezolvarii problemei de identificare a fraudei,furnizand o precizie de aproximativ 80%.

25

Page 27: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Metoda dezvoltata ın Sectiunea 2.2 combina tehnica de analiza exploratorie adatelor - curbele Andrews - cu o abordare statistica, care poate fi aplicata automatpentru clasificarea datelor. Folosind studiul de simulare, introdus ın Sectiunea 2.3,am aratat ca rezultatele furnizate de abordarea bazata pe curbele Andrews suntsemnificativ superioare testului distanta estimatiilor (cea mai buna metoda propusapentru detectarea valorilor discordante, gasita ın urma unei analize a rezultatelordin literatura) pentru modelul de bioechivalenta crossover. Pentru fiecare metodaam explorat abilitatea ei de a detecta valori discordante ın seturi de date cu unsubiect discordant, dar si ın seturi de date ce contin doi subiecti discordanti. Catevaavantaje ale metodei mele, fata de cele mai multe dintre tehnicile de detectare avalorilor discordante ın studii de bioechivalenta, sunt urmatoarele: posibilitateaunei interpretari vizuale a rezultatelor obtinute, abilitatea detectarii simultane asubiectilor discordanti, evitand astfel influenta “efectului de mascare”.

Prin metoda generalizata din Sectiunea 2.4 se asigura independenta fata deinformatia apriori despre distributia datelor. Rezultatele obtinute folosind aceastageneralizare confirma utilitatea practica a acestei abordari.

Din punct de vedere teoretic, un prim pas ın fundamentarea metodelor propuseanterior ıl reprezinta formalizarea abordarii bazate pe curbele Andrews ın contextulfunctiilor nucleu, construita ın Sectiunea 2.5.

26

Page 28: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Capitolul 3

Metode nucleu pentru clasificareanesupervizata a datelor liniarneseparabile

In acest capitol propun un algoritm general de clasificare nesupervizata bazat pefunctii nucleu, care foloseste o tehnica euristica, numita Particle Swarm Optimiza-tion (PSO) si functii de decizie. Cele mai importante caracteristici ale algoritmuluipropus sunt: 1) estimeaza automat numarul de clase; 2) are capacitatea de a detectaclase liniar separabile, dar si liniar neseparabile; 3) extinde abordarea supervizatareferitoare la functii de decizie la demersul nesupervizat; 4) ofera posibilitatea uti-lizarii calculului paralel pentru implementarea si rularea algoritmului.

O parte dintre rezultatele prezentate ın acest capitol au fost diseminate ın lucra-rea [Mogos (Roman), Mogos (2012)].

3.1 Functii de decizie ın spatii nucleu

Aceasta sectiune prezinta cateva notiuni si notatii preliminare necesare prezentariiabordarii mele.

3.1.1 Invatarea supervizata a datelor folosind functii de de-cizie

Pana la momentul curent, demersul de clasificare a datelor bazat pe functii de decizieeste integrat ca parte a unui algoritm de ınvatare supervizata (a se vedea, de exem-plu, [Ardjani, Sadouni (2010)] si [Theodoridis, Koutroumbas (2006)]) si este discu-tat ın contextul metodelor geometrice de analiza discriminanta [Enachescu (2003)].Fie S = {x1, x2, . . . , xl} o multime de selectie de dimensiune l si q numarul de claseexistente, notate cu C1, C2, . . . , Cq. Din punct de vedere geometric, discriminareaconsta ın partitConsider urmatorul caz de separabilitate. Definim q functii de decizie

27

Page 29: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

de forma:

gj(x) : X → R, gj(x) = 〈wj, φ(x)〉 ,∀x ∈ X , j = 1, . . . q (3.1.1)

unde φ : x 7−→ φ(x) = k(x, ·) ∈ F reprezinta functia care proiecteaza punctul x ∈ Xın spatiul caracteristicilor, F si vectorul de ponderi wj este un element al spatiului

F , de forma wj =l∑

i=1

αjik(xi, ·). Astfel, relatiile de definitie ale functiilor de decizie

din ecuatia (3.1.1) pot fi rescrise precum urmeaza:

gj(x) = 〈wj, φ(x)〉 =

⟨l∑

i=1

αjik(xi, ·), k(x, ·)

⟩=

=l∑

i=1

αjik(xi, x),∀x ∈ X , j = 1, . . . , q

(3.1.2)

Regula de apartenenta a unui punct x la o clasa Ci, i = 1, . . . , l poate fi formulataastfel [Enachescu (2003)]:

x ∈ Ci daca si numai daca gi(x) > gj(x),∀j 6= i, j = 1, . . . , l (3.1.3)

3.2 Algoritmul de clasificare nesupervizata bazat

pe functii nucleu

Toate metodele, studiate ın Capitolul 1, care utilizeaza tehnica PSO ın clasificareanesupervizata a datelor, considera reprezentarea particulei prin centre asociate clase-lor setului de date. De asemenea, folosesc ca modalitate de asignare a datelor claselorcorespunzatoare abordarea introdusa ın algoritmul K-means. In [Das et al. (2008)],este dezvoltata o versiune extinsa a tehnicii PSO pentru clasificarea nesupervizataa datelor. Totusi autorii indica o limitare a metodei ın abilitatea de detectare aclaselor ne-sferice dintr-un set de date.

Pornind de la aceasta observatie si de la exemplul propus ın Sectiunea 3.4.1 caresustine afirmatia de mai sus, am propus o noua modalitate de reprezentare a uneiparticule folosind abordarea bazata pe functii de decizie. Mai mult, aceasta sectiuneva contine principalii pasi ai algoritmului propus de mine si cateva detalii tehniceimportante.

3.2.1 Reprezentarea particulei

Pentru a distinge ıntre numarul real de clase ale setului de date si numarul estimatde catre algoritm, notez cu q numarul real de clase si cu NrClase numarul initial declase, setat apriori NrClase = 10. Apoi, definesc NrClase functii de decizie dupa

28

Page 30: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

cum urmeaza:

gj(x) =l∑

i=1

αjik(xi, x), j = 1, . . . , NrClase (3.2.1)

Obiectivul algoritmului este acela de a obtine ecuatiile functiilor de decizie (si impli-cit a parametrilor functiilor de decizie) ”cele mai bune” ın sensul minimizarii functieide fitness. In acest sens, consider urmatoarea reprezentare a unei particule p dinpopulatia PSO:

p =[α11 α

12 . . . α1

l . . . αNrClase1 αNrClase2 . . . αNrClasel

](3.2.2)

Din modalitatea de reprezentare a particulei, se poate observa ca fiecare particulaare asociate NrClase functii de decizie, corespunzatoare coeficientilor αij. De aceea,se poate spune ca, ın timpul executiei algoritmului PSO, fiecare particula propunepropria clasificare a setului de date. In final, datorita abilitatilor tehnicii PSO,algoritmul propus returneaza cea mai buna clasificare (solutie) obtinuta de unadintre particulele din populatie ın raport cu indicele de validare a calitatii clasificariigruparilor.

3.2.2 O prezentare succinta a algoritmului

Algoritmul contine patru pasi pe care ıi voi discutata ın aceasta subsectiune.

Se repeta de Nr ori, secventa de pasi Pasul 1 - Pasul 2 si se memoreaza solutiaobtinuta dupa fiecare iteratie:

Pasul 1: Definirea parametrilor si initializarea particulelor.

1.1: Definirea parametrilor: numarul initial de grupari, numarul de particule,numarul maxim de iteratii (Kmax), factorii de ınvatare (φ1, φ2), inertia maxima(V max).

1.2: Initializarea particulelor: se initializeaza elementele particulelor cu valori ınintervalul [lmin, lmax]

Pasul 2: Aplicarea tehnicii Particle Swarm Optimization:

2.1: Pentru fiecare particula, se initializeaza valoarea personal best. Se initializeazavaloarea global best pentru ıntreaga populatie.

Se repeta de Kmax ori, secventa de pasi 2.2 - 2.3:

2.2: Pentru fiecare particula:

2.2.1: Se actualizeaza viteza si pozitia particulei.

2.2.2: Se actualizeaza, daca este necesar, valoarea personal best a particulei(calitatea unei valori a particulei este indicata de functia de fitness)

2.3: Se actualizeaza valoarea global best (calitatea unei valori a unei particule

29

Page 31: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

este indicata de functia de fitness)

Pasul 3: Dintre cele Nr solutii obtinute anterior, se alege cea mai buna solutie,adica solutia care minimizeaza valoarea functiei de fitness.

Pasul 4: Se identifica gruparile nevide.

Algoritmul pentru calculul valorii functiei de fitness asociate unei par-ticule p =

[α11 α

12 . . . α1

l . . . αNrClase1 αNrClase2 . . . αNrClasel

]Pentru fiecare punct xi ∈ X, i = 1, . . . , dim, unde dim este dimensiunea setului

de date, clasa corespunzatoare poate fi calculata dupa cum urmeaza. Mai ıntai, ınecuatia (3.2.3)

g1(xi)g2(xi)

...gNrClase(xi)

=

α11 α1

2 . . . α1l

α21 α2

2 . . . α2l

......

......

αNrClase1 αNrClase2 . . . αNrClasel

·

k(x1, xi)k(x2, xi)

...k(xl, xi)

(3.2.3)

se arata cum sunt calculate functiile de decizie. Dupa aceea, ın ecuatia (3.2.4)

C(xi) = argmaxj=1,...,lgj(xi) (3.2.4)

este prezentat modul ın care este determinata clasa corespunzatoare punctului xi,notata cu C(xi). In final, fiecare particula va contine o varianta de clasificare nesu-pervizata a setului de date.

Fiind data clasificarea propusa de o particula, functia de fitness este calculataprin aplicarea unui indice de validare a clasificarii (o masura a calitatii clasificarii).

3.2.3 Detalii tehnice referitoare la algoritm

In aceasta subsectiune sunt prezentate cateva detalii tehnice care influenteaza ınmare masura algoritmul propus.

Estimarea automata a numarului de clase

Se ıncepe cu un numar de clase NrClase suficient de mare (am ales NrClase = 10 ınsimularile realizate de mine). Pe parcursul unei simulari, ın fiecare iteratie, fiecareparticula este actualizata si, prin urmare, unele dintre functiile de decizie (asociateacelei particule) ısi diminueaza influenta ın discriminarea claselor. Astfel, numarulde clase este diminuat folosind urmatorul mecanism: cand o functie de decizie gj,asociata valorii global best, are proprietatea

∀x ∈ S ∃i ∈ 1, . . . , NrClase astfel ıncat

gj(x) < gi(x)(3.2.5)

30

Page 32: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

se poate considera ca, la momentul curent, clasa corespunzatoare acelei functii dedecizie este vida. Dupa terminarea simularii, folosind acelasi rationament, pentrutoate functiile de decizie cu aceasta proprietate, asociate valorii global best finale,clasele corespunzatoare vor fi vide.

Mentionez ca numarul de clase se modifica ın timpul executiei algoritmului PSO,ın sensul ca, la fiecare pas, numarul claselor active, notat prinNrClasea ≤ NrClase,este egal cu numarul functiilor de decizie {gi}i=1,...,NrClase care satisfac conditia

pentru orice gi, i = 1, . . . , NrClasea, ∃x astfel ıncat

gi(x) > gj(x),∀j = 1, . . . , NrClase, j 6= i.

(3.2.6)

In plus, dimensiunea particulei ramane neschimbata, si anume l ·NrClase, dupa fie-care iteratie. Metoda propusa estimeaza ca numar corect de clase rezultatul obtinutdupa un numar suficient de mare de iteratii. Am validat acuratetea de clasificare ametodei folosind seturile de date artificiale discutate ın Sectiunea 3.4.2.

Functia nucleu - Nucleul rational

Pe parcursul experimentelor de simulare pe care le-am efectuat, am testat o seriede functii nucleu, cum ar fi nucleul gaussian, nucleul polinomial, nucleul tuturorsubmultimilor si nucleul rational.

In urma acestei analize a rezultat faptul ca nucleul rational este cea mai adecvatafunctie nucleu pentru problema de clasificare nesupervizata pe care o studiez. Odecizie importanta care trebuie luata atunci cand se utilizeaza nucleul rational estealegerea valorii parametrului θ. Mi-am propus sa obtin o functie de similaritate cuun grad mediu de netezime. In consecinta, pentru problema de clasificare studiata,am analizat mai multe reprezentari grafice ale functiei nucleu rational pentru θ =1, 4, 7 si 10 si am ales θ = 7.

3.3 Indici de validare a clasificarii

Problema estimarii numarului real de clase pentru un set de date reprezinta un su-biect de interes pentru cercetatorii domeniului. Motivatia este aceea, ca pana ınprezent, nu exista o solutie generala a acestei probleme, ıntrucat formele si dimen-siunile gruparilor de date pot fi foarte diverse [Chou et al. (2002)]. In subsectiunilede mai jos discut doi indici de validare a clasificarii existenti ın literatura si indicelepropus de mine. De asemenea, descriu categoriile de seturi de date pentru care acestiindici pot reprezenta masuri de validare a clasificarii si avantajele si dezavantajelefiecaruia dintre indicii analizati.

In subsectiunile de mai jos voi nota cu C(q) = {C1, C2, . . . , Cq} o partitie amultimii de selectie S = {x1, x2, . . . , xl}.

31

Page 33: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

3.3.1 Indicele Dunn

Indicele Dunn reprezinta o masura foarte cunoscuta de validare a clasificarii. Con-form [Kovacs et al. (2006)], acest indice a fost introdus ın [Dunn (1974)].

3.3.2 Indice de validare a clasificarii bazat pe simetria da-telor

Datorita acuratetei cu care masoara calitatea clasificarii si a flexibilitatii ridicate,am considerat spre studiu un indice de validare a clasificarii nesupervizate bazat peo masura de simetrie [Chou et al. (2002)].

3.3.3 Indicele de validare a clasificarii propus de mine - In-dicele de discontinuitate

Ideea care a stat la baza constructiei indicelui de validare a clasificarii, pe care ılpropun ın aceasta subsectiune, este de a aplica demersul utilizat pentru a masuradiscrepanta dintre doua clase ın analiza discontinuitatii ın interiorul unei clase. Inacest sens, voi defini un indice avand ca scop minimizarea gradului de discontinuitatedin interiorul claselor si ın acelasi timp maximizarea gradului de discontinuitatedintre oricare doua clase. Masura de maximizare a discontinuitatii ıntre clase esteaceeasi cu cea considerata ın indicele Dunn, prezentat ın Subsectiunea 3.3.1.

Definesc masura de discontinuitate intra-clasa, pe care o notez intra(q), folosindalgoritmul de mai jos:

Pentru fiecare clasa de date Ci, i = 1, . . . , q, definesc masura de dicontinuitateasociata clasei Ci, pe care o notez cu intraCi

precum urmeaza:

Pasul 1: Pentru fiecare punct x ∈ Ci determin cei mai apropiati k vecini (ınsensul distantei euclidiene ıntre puncte) ai punctului x; notez cu V ec(x) multimeavecinilor lui x cu proprietatea indicata anterior. Din motive statistice, aleg k =0.05 · ni, unde ni reprezinta numarul de elemente ale clasei Ci.

Pasul 2: Construiesc graful neorientat G(Ci) = (V (Ci),M(Ci)), unde V (Ci) ={v1, v2, . . . , vni

} este multimea nodurilor grafului asociate punctelor corespunzatoaredin clasa Ci si M(Ci) = {m1,m2, . . . ,mr} reprezinta multimea muchiilor. Relatiade adiacenta dintre doua noduri o voi defini la Pasul 3.

Pasul 3: Consider reprezentarea grafului prin matricea de adiacenta A definitaastfel:

A(vi, vj) =

{1, daca P (vi, vj) este adevarata0, altfel

(3.3.1)

unde P (vi, vj) este proprietatea “vi ∈ V ec(vj) sau vj ∈ V ec(vi)”.

Pasul 4: Determin componentele conexe ale grafului G(Ci). Notez cu t numarulcomponentelor conexe; fie Comp1, Comp2, . . . , Compt componentele conexe obtinute.

32

Page 34: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Pasul 5: Daca numarul componentelor conexe t este strict mai mare ca 1 atuncise calculeaza masura de discontinuitate asociata clasei Ci si notata intraCi

cu for-mula:

intraCi= max

m=1,...,tmin

n=1,...,tDist(Compm, Compn) (3.3.2)

unde distanta Dist dintre componentele Compm si Compn este definita de relatia

Dist(Compm, Compn) = minx∈Compm,y∈Compn

d(x, y) (3.3.3)

cu d(x, y) distanta euclidiana dintre x si y. Altfel, daca t = 1, definesc intraCi= 0.

Pasul 6: Definesc masura de discontinuitate intra-clasa, intra(q), prin

intra(q) = maxi=1,...,q

intraCi. (3.3.4)

Pentru fiecare clasa de date definesc masura de discontinuitate inter - clase,notata inter(q), astfel:

inter(q) = mini=1,...,q

(min

j=i+1,...,qd(Ci, Cj)

)(3.3.5)

unde d(Ci, Cj) reprezinta distanta dintre clasele Ci si Cj si este calculata cu formulad(Ci, Cj) = min

x∈Ci,y∈Cj

d(x, y).

Definesc urmatorul indice, pe care ıl denumesc indice de dicontinuitate a datelorsi ıl notez cu ID(q):

ID(q) = intra(q)− inter(q). (3.3.6)

Se considera ca partitia C(q) a datelor este optima ın raport cu indicele definitın ecuatia (3.3.6) daca minimizeaza indicele de validare a clasificarii, ID(q).

O limitare a indicelui apare ın cazul ın care exista discrepante mari ıntre distanteledintre clasele unui set de date.

3.4 Rezultate experimentale

3.4.1 O comparatie ıntre reprezentarea particulei prin cen-tre si reprezentarea particulei prin functii de deciziefolosind un set de date generat artificial

In aceasta subsectiune testez abordarea bazata pe reprezentarea particulei prin cen-tre asociate claselor dintr-un set de date si modalitatea de asignare a datelor claselor

33

Page 35: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

corespunzatoare folosita ın K-means, comparativ cu cea propusa de mine, si anumebazata pe reprezentarea particulei folosind functii de decizie si respectiv regula deasignare corespunzatoare, pe un set de date generat artificial. Analizand Figurile3.1 si 3.2 observam ca metoda bazata pe reprezentarea particulei prin functii dedecizie (si folosind indicele de discontinuitate) este capabila sa furnizeze o clasificarecorecta a setului de date studiat, spre deosebire de metoda bazata pe reprezentareaprin centre (si folosind acelasi indice de validare).

-1 0 1 2 3 4 5 6 7 8 9

-8

-6

-4

-2

0

2

4

Set de date 7

-1 0 1 2 3 4 5 6 7 8 9

-8

-6

-4

-2

0

2

4

Set de date 7 clasificat

Figura 3.1: Clasificare bazata pe reprezentarea particulei prin centre si folosindindicele de discontinuitate

-1 0 1 2 3 4 5 6 7 8 9

-8

-6

-4

-2

0

2

4

Set de date 7

-1 0 1 2 3 4 5 6 7 8 9

-8

-6

-4

-2

0

2

4

Set de date 7 clasificat

Figura 3.2: Clasificare bazata pe reprezentarea particulei prin functii de decizie sifolosind indicele de discontinuitate

De asemenea, voi furniza o analiza privind timpul de rulare, viteza de convergentasi a capacitatea de explorare a algoritmului PSO pentru cele doua metode discutate.

34

Page 36: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

3.4.2 Evaluarea acuratetei de clasificare a metodei propuse

In aceasta sectiune testez acuratetea de clasificare a metodei propuse ın Sectiunea3.2 folosind urmatorii indici de validare a clasificarii: indicele Dunn, indicele de si-metrie si indicele de discontinuitate. De asemenea, ın acest demers compar indiciienuntati avand ın vedere urmatoarele criterii de comparatie: acuratetea de clasi-ficare (matricea de confuzie), viteza de convergenta si capacitatea de explorare aalgoritmului PSO. In acest sens, am considerat sapte seturi de date bidimensionalegenerate artificial.

Mai mult, arat ın aceasta sectiune ca indicele de discontinuitate este superiorindicelui Dunn si respectiv indicelui de simetrie.

3.5 Discutie

Tehnicile folosite si combinate ın abordarea mea, cum sunt: functiile nucleu rationale,tehnica Particle Swarm Optimization, functiile de decizie si indicii de validare a cla-sificarii conduc la o metoda generala eleganta si flexibila de clasificare nesupervizataatat a gruparilor de date liniar separabile cat si a gruparilor de date liniar nesepa-rabile.

Metoda propune un cadru general pentru rezolvarea problemei de clasificare ne-supervizata. Odata definita o functie de fitness (mai exact, un indice de validarea clasificarii), capabila sa discrimineze tiparele existente ın cadrul seturilor de datestudiate, metoda furnizeaza performante bune. Prin urmare, utilizatorul trebuiesa analizeze setul de date de interes si sa aleaga un indice de validare a clasificariiadecvat, iar apoi algoritmul propus de mine poate fi utilizat pentru clasificarea ne-supervizata a datelor respective. Pentru evidentierea modului ın care functioneazametoda propusa se folosesc si se compara trei indici: indicele Dunn, un indicelebazat pe simetrie si un indice propus de mine. Indicele propus a furnizat rezultatesimilare cu indicele Dunn pe seturile de date considerate.

Pe de alta parte, metoda mea estimeaza automat numarul de grupari (clase).Spre deosebire de cele mai multe metode de clasificare nesupervizata, metoda pro-pusa nu necesita cunoasterea apriori a numarul real de clase. Algoritmul calculeaza,gradual, numarul de clase, pornind de la un numar initial de clase, si apoi, dato-rita calitatilor functiei nucleu combinata cu tehnica Particle Swarm Optimization sifunctiile de decizie, acest numar scade, convergand ın final la numarul real de clase.De asemenea, ın acest proces, abordarea dezvoltata determina si clasele din setul dedate.

Mai mult, metoda propusa obtine performante bune ın clasificarea nesupervizataa gruparilor liniar neseparabile. Ca urmare a utilizarii unei functii nucleu adecvate- propun folosirea nucleului rational - algoritmul poate detecta si grupari de dateliniar neseparabile. Bineınteles, abordarea poate fi utilizata si pentru clasificareagruparilor liniar separabile.

O alta particularitate interesanta a algoritmului este aceea ca extinde ınvatareasupervizata bazata pe functii de decizie la cazul ınvatarii nesupervizate. Prin com-binarea functiilor de decizie, un demers ıntalnit ın ınvatarea supervizata, cu tehnica

35

Page 37: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Particle Swarm Optimization, aceste functii pot fi folosite pentru a rezolva o pro-blema de ınvatare nesupervizata.

Din punct de vedere computational, posibilitatea folosirii calculului paralel pen-tru a mari viteza de executie a algoritmului reprezinta un alt avantaj al metodeipropuse. In ([Kennedy, Eberhart (2001)], pagina 314) este specificat ca, de obicei,este suficient sa se aleaga pentru dimensiunea populatiei utilizata de PSO, o valoaredin intervalul 10 - 50. Prin urmare, numarul necesar de procesoare este de cel mult50, un numar de procesoare accesibil ın ziua de astazi.

36

Page 38: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Concluzii si dezvoltari ulterioare

In aceasta teza dezvolt o serie de metode pentru detectarea valorilor discordante sipentru clasificarea nesupervizata a datelor. Problemele studiate prezinta un interesdeosebit ın domeniul ınvatarii nesupervizate. Metodele sunt testate pe seturi de datereprezentative, iar rezultatele obtinute sunt relevante pentru domeniul cercetat.

Concluzii

Sinteza prezentata ın Capitolul 1 referitoare la metodele nucleu si aplicatiile aces-tora ın detectarea valorilor discordante si clasificarea nesupervizata evidentiazaimportanta utilizarii functiilor nucleu pentru diferite probleme de ınvatare. In plus,analiza algoritmilor de detectare a valorilor discordante si cea a metodelor de clasifi-care nesuprvizata creeaza un fundament teoretic necesar pentru metodele dezvoltateın Capitolele 2 si 3.

Metodele automate propuse ın Capitolul 2 se pot aplica pentru mai multe pro-bleme din lumea reala, cum ar fi: identificarea cazurilor de frauda ın site-urile delicitatie si detectarea subiectilor discordanti ın studiile de bioechivalenta. Datoritafaptului ca aceste metode au un fundament teoretic bine dezvoltat este facilitata po-sibilitatea de analiza si predictie a comportamentului acestora, simplificand sarcinautilizatorului ın adecvarea acestor metode pentru o problema practica specifica.

Metoda generala pentru clasificarea nesupervizata a datelor dezvoltata ın Capi-tolul 3 poate fi aplicata pentru o mare varietate de seturi de date. Caracteristicileprincipale ale acestei metode sunt abilitatea de clasificare a datelor liniar nesepara-bile, estimarea automata a numarului de clase dintr-un set de date si posibilitateade modificare a functiei de fitness prin utilizarea unui indice de validare a clasificariiadecvat setului de date studiat.

Contributii

Principalele contributii ale tezei sunt:

• realizez o sinteza asupra metodelor nucleu, cu accent pe particularitatile, al-goritmii de ınvatare si stabilitatea statistica a acestor metode

• discut abordarile utilizate ın detectarea valorilor discordante si principalelemetode de clasificare nesupervizata

37

Page 39: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

• realizez o analiza si o comparatie a metodelor bazate pe PSO pentru clasificareanesupervizata a datelor

• propun folosirea unui model de ınvatare supervizata pentru analiza profilelorvanzatorilor suspecti de frauda din site-urile de licitatie

• dezvolt o metoda automata, bazata pe curbe Andrews, pentru detectarea indi-vizilor discordanti pe care o testez pe un set de date real ce contine informatiiextrase de pe site-ul brazilian de licitatie, MercadoLivre

• translatez modelul vizual al curbelor Andrews asociate indivizilor normali (un“tub”) ıntr-o reprezentare matematica, care poate fi folosita ın identificareaalgoritmica a observatiilor discordante

• demonstrez stabilitatea scorului de detectare a fraudei, ın sensul independenteide dimensiunea tubului, considerand abordarea validarii ıncrucisate pornindde la toate curbele de antrenare

• propun o varianta extinsa a curbelor Andrews, cu proprietati superioare versiu-nii originale, pentru detectarea subiectilor discordanti ın studiile de bioechiva-lenta

• extind abordarea bazata pe curbe Andrews pentru detectarea automata a va-lorilor discordante, propunand, alaturi de posibilitatea de interpretare vizualaa rezultatelor, o justificare matematica (din punct de vedere statistic) a reguliide decizie

• implementez un studiu de simulare bazat pe parametrii modelului crossoverde bioechivalenta pentru a demonstra acuratetea de detectare a subiectilordiscordanti a metodei propuse

• compar metoda propusa de mine pentru detectarea valorilor discordante cutestul distanta estimatiilor (considerata ın literatura cea mai buna metoda dedetectare a valorilor discordante ın studiile de bioechivalenta) si arat ca amobtinut rezultate superioare pentru cazul seturilor de date continand o singuravaloare discordanta

• introduc ın procedura de simulare studiul referitor la mai multe valori discor-dante ıntr-un set de date, pentru a analiza efectul de mascare al metodelorcercetate. Consider valori aberante cu grade diferite de discordanta si cuacelasi grad de discordanta si arat ca metoda propusa de mine este superioaratestului distanta estimatiilor.

• analizez un caz general al problemei de detectare a valorilor aberante si anumeacela ın care nu se cunosc informatii apriori privind distributia de probabilitatea datelor. Testez metoda propusa pe doua seturi de date reale si obtin rezultatepozitive ın concordanta cu viziunea farmacocinetica.

38

Page 40: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

• compar rezultatele obtinute folosind curbele Andrews extinse cu cele cores-punzatoare curbelor Andrews si arat ca ıntr-unul dintre cazuri (analiza for-mularilor de rifampicina) metoda propusa de mine furnizeaza o precizie maibuna a detectarii

• propun o formalizare a spatiului de curbe Andrews si a spatiului de curbeAndrews extinse ın contextul abordarii bazate pe functii nucleu

• dezvolt o metoda automata de clasificare nesupervizata care combina functiilenucleu rationale, tehnica Particle Swarm Optimization, functiile de decizie siindicii de validare a clasificarii. Testez aceasta metoda pe mai multe seturi dedate artificiale.

• introduc ın cadrul metodei precizate anterior un mecanism de estimare auto-mata a numarului de clase dintr-un set de date

• propun o noua modalitate de reprezentare a unei particule care nu depinde decentrele claselor. In abordarea mea, reprezentarea unei particule se bazeazape functii de decizie.

• construiesc un indice de validare a clasificarii ca masura a discontinuitatii intrasi inter clase

Dezvoltari ulterioare

O prima dezvoltare ulterioara se refera la obtinerea unor rezultate teoretice privindstabilitatea statistica a metodei propuse pentru detectarea fraudei.

O alta dezvoltare ulterioara consta ın generalizarea reprezentarii obtinute pentrucurbele Andrews extinse ın spatiul nucleu pentru a defini si studia noi modalitati dereprezentare a datelor multidimensionale prin curbe asociate.

O a treia dezvoltare ulterioara este legata de construirea unor nuclee sau adec-varea unor nuclee existente pentru clasificarea a diferite categorii de seturi de date.

O noua dezvoltare ulterioara este reprezentata de crearea unei biblioteci de in-dici de validare a clasificarii care, utilizata de algoritmul propus pentru clasificareanesupervizata, sa acopere o gama cat mai larga de structuri de seturi de date.

O analiza a echilibrului dintre explorarea si exploatarea spatiului de cautarerealizate de metoda propusa pentru clasificarea nesupervizata ın functie de indicelede validare a clasificarii utilizat, reprezinta o alta dezvoltare ulterioara.

39

Page 41: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

Bibliografie

[Almendra, Roman (Mogos) (2011a)] V. Almendra, B. Roman (Mogos) (2011),Finding cases of fraud in online auction sites using exploratory data analysis,in The 14th Conference of the Probability and Statistics Society from Roma-nia, The Academy of Economics Studies Bucharest, site http://csm.ro/spsr,prezentare pe baza de abstract, fara publicare

[Almendra, Roman (Mogos) (2011b)] V. Almendra, B. Roman (Mogos) (2011),Using Exploratory Data Analysis for Fraud Elicitation through SupervisedLearning, in IEEE Proceedings of SYNASC 2011, the 13th International Sym-posium on Symbolic and Numeric Algorithms for Scientific Computing, eds.D. Wang, V. Negru, T. Ida, T. Jebelean, D. Petcu, S. Watt, and D. Zaharies,Timisoara, Romania, 26-29 September 2011, pp. 251-254, ISBN 978-0-7695-4630-8

[Andrews (1972)] D. F. Andrews (1972), Plots of high-dimensional data, in Biome-trics, vol. 28, iss. 1, pp. 125-136

[Ardjani, Sadouni (2010)] F. Ardjani, K. Sadouni (2010), Optimization of SVMMulticlass by Particle Swarm (PSO-SVM), in I. J. Modern Education andComputer Science, vol. 2, pp. 32-38

[Barnett, Lewis (1994)] V. Barnett, T. Lewis (1994), Outliers in Statistical Data,3rd edn. John Wiley & Sons.

[Bartlett, Mendelson (2002)] P. L. Bartlett, S. Mendelson (2002), Rademacher andGaussian Complexities: Risk Bounds and Structural Results, in Journal ofMachine Learning Research, vol. 3, pp. 463-482

[Chandola et al. (2009)] V. Chandola, A. Banerjee, V. Kumar (2009), Anomaly De-tection - A Survey, in Journal ACM Computing Surveys (CSUR), vol. 41, iss.3, pp. 1-58

[Chou et al. (2002)] ,C. H. Chou, M. C. Su, E. Lai (2002), Symmetry as A NewMeasure for Cluster Validity, in Proc. 2nd WSEAS Int. Conf. Sci. Comput.Soft Comput., Crete, Greece, pp. 209-213.

[Chow, Tse (1990)] S. C. Chow, S. K. Tse (1990), Outliers detection in bioavailabi-lity/bioequivalence studies, in Statistics in Medicine, vol. 9, iss. 5, pp. 549-558

40

Page 42: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

[Das et al. (2008)] S. Das, A. Abraham, A. Konar (2008), Automatic kernel cluste-ring with a Multi-Elitist Particle Swarm Optimization Algorithm, in PatternRecognition Letters, vol. 29, iss. 5, pp. 688-699

[Devroye et al. (1996)] L. Devroye, L. Gyorfi, G. Lugosi (1996), A Probabilistic The-ory of Pattern Recognition, Springer-Verlag

[Dunn (1974)] J. C. Dunn (1974), Well Separated Clusters and Optimal Fuzzy Par-titions, in Journal of Cybernetica, vol. 4, pp. 95-104

[Eberhart, Kennedy (1995)] R. C. Eberhart, J. Kennedy (1995), A new optimizerusing particle swarm theory, in Proceedings of the Sixth International Sympo-sium on Micro Machine and Human Science, Nagoya, Japan, Piscataway, NJ:IEEE Service Center, pp. 39-43

[Eberhart, Shi (2001)] R. C. Eberhart, Y. Shi (2001), Particle Swarm Optimiza-tion: Developments, Applications and Resources, in Proc. IEEE InternationalConference on Evolutionary Computation, vol. 1, pp. 81-86

[Embrechts, Herzberg (1991)] P. Embrechts, A. M. Herzberg (1991), Variations ofAndrew’s Plots, in International Statistical Review, vol. 59, iss. 2, pp. 175-194

[Enachescu (2004)] D. Enachescu (2004), Unsupervised Statistical Learning andData Mining, Padova University Press

[Enachescu (2003)] D. Enachescu (2003), Tehnici statistice de Data Mining, EdituraUniversitatii din Bucuresti

[Enachescu, Enachescu (2009)] D. Enachescu, C. Enachescu (2009), A new approachfor outlying records in bioequivalence trials, in Selected papers of The XIIIthInternational Conference-Applied Stochastic Models and Data Analysis, eds.L. Sakalauskas, C.Skiadas, E.K.Zavadskas, Vilnius, Lithuania, 30 June - 3 July2009, pp. 250-257, VGTU Press Technika, ISBN 978-9955-28-463-5

[FDA (1998)] Guidance for Industry: E9 Statistical Principles for Clinical Tri-als, U.S. Department of Health and Human Services, Food and DrugAdministration, Center for Drug Evaluation and Research (CDER),Center for Biologics Evaluation and Research (CBER), 1998, ICH,http://www.fda.gov/downloads/Drugs/GuidanceComplianceRegulatoryInfor-mation/Guidances/ucm073137.pdf

[FDA (1999)] Guidance for Industry: Population Pharmacokinetics,U.S. Department of Health and Human Services, Food andDrug Administration, Center for Drug Evaluation and Research(CDER), Center for Biologics Evaluation and Research (CBER),1999,http://www.fda.gov/downloads/ScienceResearch/SpecialTopics/Wo-mensHealthResearch/UCM133184.pdf

[Grubbs (1969)] F. E. Grubbs (1969), Procedures for Detecting Outlying Observa-tions in Samples, in Technometrics, vol. 11, no. 1, pp. 1-21

41

Page 43: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

[Hastie et al. (2009)] T. Hastie, R. Tibshirani, J. Friedman (2009), The Elements ofStatistical Learning. Data mining, Inference and Prediction, Second edition,Springer.

[Herbrich (2002)] R. Herbrich (2002), Learning Linear Classifiers: Theory and Al-gorithms, MIT Press, Cambridge, MA.

[Hodge, Austin (2004)] V. Hodge, J. Austin (2004), A survey of outlier detectionmethodologies, in Artificial Intelligence Review, vol. 22, no. 2, pp. 85-126.

[Hofmann et al. (2008)] T. Hofmann, B. Scholkopf, A. J. Smola (2008), Kernel Me-thods in Machine Learning, in The Annals of Statistics, vol. 36, no. 3, pp.11711220

[Hotelling (1936)] H. Hotelling (1936), Relations between Two Sets of Variates, inBiometrika, vol. 28, no. 3/4, pp. 321-377

[Jain et al. (1999)] A. K. Jain, M. N. Murty, P. J. Flynn (1999), Data Clustering:A Review, in ACM Computing Reviews, pp. 264-323

[Kennedy, Eberhart (1995)] J. Kennedy, R. C. Eberhart (1995), Particle swarm op-timization, in Proceedings of the IEEE International Conference on NeuralNetworks, IV, Piscataway, NJ: IEEE Service Center, pp. 1942-1948

[Kennedy, Eberhart (2001)] J. Kennedy, R. C. Eberhart (2001), Swarm Intelligence,Academic Press

[Kovacs et al. (2006)] F. Kovacs, C. Legany, A. Babos (2006), Cluster Validity Mea-surement Techniques, in Proceeding AIKED’06 Proceedings of the 5th WSEASInternational Conference on Artificial Intelligence, Knowledge Engineering andData Bases, pp. 388-393

[Markou, Singh (2003a)] M. Markou, S. Singh (2003), Novelty detection: a review -part 1: statistical approaches, in Signal Processing, vol. 83, iss. 12, pp. 2481-2497.

[Markou, Singh (2003b)] M. Markou, S. Singh (2003), Novelty detection: a review -part 2: neural network based approaches, in Signal Processing, vol. 83, iss. 12,pp. 2499-2521.

[Martinez, Martinez (2002)] W. L. Martinez, A. R. Martinez (2002), Computatio-nal Statistics Handbook with MATLAB, Chapman & Hall/CRC, Boca RatonLondon New York Washington, D.C.

[Mircioiu et al. (2010)] C. Mircioiu, G. Ionica, A. Danilceac, D. Miron, I. Mircioiu,F. Radulescu (2010), Pharmacokinetic and Mathematical Outliers for Drugswith Active Metabolites. Note I. Model Independent Analysis for Pentoxifylline,in Farmacia, vol. 58, no 3, pp. 264-278

42

Page 44: TEZ˘A DE DOCTORAT Metode nucleu pentru date structurate

[Mogos (Roman) (2012)] B. Mogos (Roman) (2012), Exploratory Data Analysisfor Outlier Detection in Bioequivalence Studies, acceptat spre publicare ın re-vista Biocybernetics and Biomedical Engineering (BBE), Poland

[Mogos (Roman), Mogos (2012)] B. Mogos (Roman), A. H. Mogos (2012), AKernel Based Clustering Algorithm using Particle Swarm Optimization andDiscriminant Functions, acceptat spre prezentare la SYNASC 2012, the 14thInternational Symposium on Symbolic and Numeric Algorithms for ScientificComputing, NCA 2012 - on Natural Computing and Applications, Timisoara,Romania, 26-29 September 2012

[Mogos (Roman), Sandulovici (2012)] B. Mogos (Roman), R. Sandulovici(2012), A New Exploratory Data Analysis Approach for Outlier Detection.Application to Pentoxifylline and Rifampicine Data, acceptat spre publicareın revista Farmacia

[Ramsay, Elkum (2005)] T. Ramsay, N. Elkum (2005), A comparison of four di-fferent methods for outlier detection in bioequivalence studies, in Journal ofBiopharmaceutical Statistics, vol. 15, iss. 1, pp. 43-52

[Rasheed et al. (2011)] A. Rasheed, S. Junaid, T. Ahmad (2011), Detection of Outli-ers in Bioequivalence Studies Data Analysis with Williams Design, in Journalof Pharmacy and Nutrition Sciences, vol. 1, no. 1, pp. 61-67

[Roman (Mogos) (2010)] B. Roman (Mogos) (2010), The ability of ou-tliers detection in bioequivalence studies, in The 13th Conferenceof the Probability and Statistics Society from Romania, TechnicalUniversity of Civil Engineering Bucharest, site http://csm.ro/spsr,prezentare pe baza de abstract, fara publicare

[Sanchez (2003)] V. D. Sanchez A. (2003), Advanced support vector machines andkernel methods, in Neurocomputing, vol. 55, pp. 520

[Scholkopf et al. (1999)] B. Scholkopf, C. J. C. Burges, A. J. Smola (1999), Ad-vances in Kernel Methods. Support Vector Learning, MIT Press Cambridge,Massachusetts, London

[Shawe-Taylor, Cristianini (2004)] J. Shawe-Taylor, N. Cristianini (2004), KernelMethods for Pattern Analysis, Cambridge University Press

[Theodoridis, Koutroumbas (2006)] S. Theodoridis, K. Koutroumbas (2006), Pat-tern Recognition 3rd Edition, Academic Press

[Vaduva (1970)] I. Vaduva (1970), Analiza dispersionala (Variance Analysis), Edi-tura Tehnica, Bucuresti

43