19
Progressi recenti nell’elaborazione del linguaggio naturale per applicazioni biomediche Nigel Collier, Adeline Nazarenko, Robert Baud, Patrick Ruch University Hospital di Ginevra, Informatica medica, Ginevra, Svizzera

Progressi recenti nell’elaborazione del · molecolare e a quello della medicina è una visione ... Coden e Chute, è l'unico nella nostra ... può considerare legittimamente come

Embed Size (px)

Citation preview

Progressi recenti nell’elaborazione del

linguaggio naturale per applicazioni biomediche

Nigel Collier, Adeline Nazarenko, Robert Baud, Patrick Ruch

University Hospital di Ginevra, Informatica medica, Ginevra, Svizzera

INTRODUZIONE

L’idea di applicare il metodo dell’elaborazione del linguaggio naturale (NPL) al campo della biologia molecolare e a quello della medicina è una visione comune che è emersa in diversi ambienti:

NEL 2002 la Commissione Europea ha prodotto un “white paper” sulle potenziali sinergie tra informatica medica e bio-informatica;

Nello stesso anno è stato scelto lo stesso tema dall’Associazione di Informatica Medica Americana (AMIA) per il suo Fall Symposium;

Nell’estate 2003 la Federazione Europea per l’Informatica Medica EFMI ha tenuto un congresso, annunciandolo con il sottotitolo:”La nuova sfida: fusione di informatica medica e bio-informatica”

INTRODUZIONE (2)

Inoltre: NLP e le comunità scientifiche di Reperimento delle Informazioni (IR)

hanno offerto le tribune ed ospitato eventi per mettersi in contatto con le comunità di informatica medica e bio-informatica:

il primo seminario dedicato a NPL nel dominio biomedico è stato organizzato nel 1999, subito seguito da avvenimenti ad esso relazionati come la prima edizione di NLPBA, come seminario satellite della conferenza sui temi specifici di EFMI nel 2002 e di BioNLP, come un seminario di ACL nel 2003.

E’ stata programmata una sessione dedicata all’estrazione ed al recupero di informazioni come parte del TREC ( Text Retrieval Conferences), con una pre-sessione organizzata nel 2002.

La comunità di bio-informatica ha l’abitudine di usare tecniche NLP e sia ISMB (Intelligent Systems for Molecular Biology) sia PSB (Pacific Symposium on Bio-Infrmatics) hanno tenuto regolarmente assemblee relative a NLP negli ultimi 6 o 7 anni.

INTRODUZIONE (3)

Di seguito a questi avvenimenti, le comunità biomediche di estrazione di testi hanno iniziato ad organizzare valutazioni comuni per stabilire un consenso sugli standards ed a condividere esperienze di riuso di risorse.

Gli eventi di seguito citati hanno indubbiamente condotto ad enormi progressi in questo campo:

(a) KDD Cup task 1(2002) (b) JNLPBA shared task (2003) (c) BioCreative challenge (2003)

INTRODUZIONE (4)

(a) È stato focalizzato su un lavoro centrato a determinare il peso dell’evidenza sperimentale che ha un RNA e/o una proteina se si lega ad un gene;

(b) Si completamente concentrata sul riconoscimento di entità (nominate) nella tradizione pura della comunità di estrazioni di informazioni;

(c) Si è tentato di estendere il paradigma tradizionale in due attività che hanno incluso la normalizzazione di entità citate con rispetto per gli identifiers da un database specifico e l’ assegnazione di annotazioni di ontologia del gene. Inoltre, una seconda attività BioCreative, ha condotto a sistemi che adattavano i metodi di categorizzazione del testo come pure il reperimento di passaggio in modo abbastanza sintetico e originale, che mira a facilitare l’utilizzo del database.

INTRODUZIONE (5)

Le riunioni Scientifiche erano state numerose e non se ne poteva aggiungere una ulteriore alla lista solo per appagare gli organizzatori. Ma, si sono messe in primo piano le tendenze emergenti di ricerca e l’attesa impaziente di nuovetecniche, strumenti o metodi applicabili a vari domini , che contemplavano sinergie tra ricercatori provenienti da diversi ambienti e da varie culture scientifiche;

queste sono state le motivazioni che hanno portato ad una chiamata congiunta dei documenti di NLPBA e BioNLP nella primavera 2004.

Si è pensato di organizzare una conferenza in scala ridotta con l’idea dellacondivisione delle attività svolte dai vari gruppi di ricerca, comprendente:

una sede dove si potesse discutere dei metodi ben noti di cultura di riconoscimento di entità nominate e

una sede scientifica più aperta dedicata alla presentazione di alcune delle più promettenti tendenze emergenti di ricerca nell’ estrazione di testo in dominio biomedico.

N.B.!!!:Malgrado i vincoli di tempo, il workshop ha attratto più di 60 partecipanti in 2 giorni di discussione vivace.

SELEZIONE DEI DOCUMENTI

Sono stati presentati 31 documenti in risposta alla chiamata della conferenza per la raccolta di articoli.

Tra questi il comitato internazionale scientifico ne ha selezionati sette per essere accettati per una presentazione orale, ed altri cinque presentati come poster.

Da questa raccolta di articoli , otto documenti sono stati ampliati e riesaminati per la pubblicazione attuale.

SELEZIONE DEI DOCUMENTI(2)

Ad ogni autore è stato richiesto di considerare che cosa nel suo dominio di attività potrebbe interessare altri autori; l'idea era di avviare le opportunità di comunicazioni fra varie aree.

I risultati sono positivi ma non sufficienti: positivi in quanto i documenti presentati e pubblicati in tale sede

aprono una strada per sinergie e sviluppi comuni. non sufficienti, perché la dimestichezza nel loro proprio dominio è

più comoda di un'avventura in un altro dominio.

Infatti, tali spostamenti richiedono ripensamenti su argomenti che si ritengono di base come criteri di valutazione, e che non possono essere eseguiti in un lasso di tempo breve.

“UN GIRO GUIDATO”(1)

“Camminare attraverso” otto documenti scientifici e preparare una sintesi ostinata è un esercizio pericoloso, aperto a critiche future.

La sfida è: 1)scoprire qualche convergenza o tendenza comune tra

autori e, se possibile, 2) vedere oltre il paradigma corrente quello che verrà dopo.

Quanto è lontano qualsiasi contenuto dagli altri ?

Ecco la domanda alla quale si deve rispondere, dopo aver pesato adeguatamente ogni contributo.

“UN GIRO GUIDATO”(2)

Il primo articolo di Pakhomov, Coden e Chute, è l'unico nella nostra selezione, che applica NLP a corpi clinici.

Questo può essere spiegato parzialmente dal grande interesse che si è recentemente focalizzato sulla biologia molecolare e parzialmente dai soliti vincoli di confidenzialità di ricerca applicata a corpi clinici.

L’ obiettivo principale è costruire un corpo di testi clinici manualmente annotati con informazioni su parti del discorso.

Il processo di annotazione deve essere discusso. Gli autori sottolineano l'importanza di sviluppare tools sullo

specifico dominio NLP per elaborare “racconti”clinici. Essi osservano che il linguaggio medico non è omogeneo, cosicché

discriminare fra vari tipi di discorso, rappresentato da varie sezioni di testo clinico, può essere di grande beneficio per migliorare la correttezza delle etichette POS.

“UN GIRO GUIDATO”(3)

Pyysalo, Ginter, Pahikkala, Boberg, J¨arvinen e Salakoski studiano anche la specificità del linguaggio biomedico ma si concentrano più sulle interazioni di proteomics e di proteina piuttosto che su corpi clinici.

Così come Pakhomov et al. , essi verificano anche strumenti sintattici di indirizzo generale, tra cui soluzioni commerciali.

Benché essi siano interessati ad una profonda analisi sintattica piuttosto che ad etichettare parte del discorso, concludono anche che gli adattamenti specifici sono necessari per ottenere prestazioni all'avanguardia con corpi biomedici.

Essi evidenziano molte sfide tra cui la necessità di riutilizzare etichettatori di bio-entità come “tokenizers” , perdendo rilevamenti di parole appartenenti a domini specifici nel dizionario, strutture grammaticali sconosciute e anche un livello alto di frasi sgrammaticate attese.

“UN GIRO GUIDATO”(4)

Huang, Zhu e Li presentano un'applicazione di programmazione dinamica per l’estrazione di strutture per identificare rapporti nella biologia molecolare.

Essi studiano l'impatto di combinare un parser sintattico basso insieme a metodi più semplici di corrispondenza del modello per identificare lunghe dipendenze di distanza, come fenomeni di coordinazione, che sono particolarmente complessi da gestire in articoli biomedici.

Incorporando anche caratteristiche morfosintattiche, Zhou propone un metodo interessante di apprendimento, che combina un classificatore “al massimo-marginale” con un modello lineare di lingua.

La combinazione che risulta, ottiene alte prestazioni nella classificazione dei geni ed il riconoscimento dell’accoppiamento nome-entità della proteina.

“UN GIRO GUIDATO”(5)

Mizuta, Korhonen, Mullen e Collier introducono un nuovo schema di annotazione, basato sul lavoro precedente avviato da Teufel e Moens per il riassunto automatico del testo, descrivendo zone retoriche in testi scientifici.

Essi dimostrano l'attinenza della tipologia di argomentazione da loro proposta per la descrizione delle novità delle caratteristiche dei risultati menzionati in articoli biomedici su un insieme di 20 articoli analizzato con attenzione.

Gli autori forniscono anche un'analisi dettagliata delle caratteristiche salienti collegate a ogni classe retorica.

Direttamente correlato al lavoro sull’analisi del discorso di Mizuta etal., l’articolo di Tbahriti, Chichester, Lisacek e Ruch presenta un'applicazione pratica di un modello argomentativo indotto da quattro classi per eseguire il reperimento delle informazioni in Medline.

“UN GIRO GUIDATO”(6)

Gli autori hanno riferito che l'efficacia di reperimento può essere significativamente migliorata dall'aumento di frasi implicite e di asserzioni conclusive in sommari scientifici. In questo documento, le reti di cocitazione sono utilizzate per costruire automaticamente un insieme di giudizi di attinenza.

Kirsch e Rebholz-Schuhmann presentano ed utilizzano uno sforzo di integrazione per unire diversi database disponibili in via NLP, che può essere visto come un test ipotetico per incorporare diversi servizi NLP.

Nel sistema proposto, la navigazione dell’ utente inizia con un testo, per esempio con un sommario breve, che lo collegata automaticamente con diversi archivi di conoscenza, tra cui il Gene_Ontology o il database Uni-Prot per mezzo di un insieme di filtri NLP in cascata.

Il sistema può rilevare interazioni proteina-proteina e mutazioni e dovrebbe aiutare ad accelerare i processi di elaborazione del database.

Potenziale per la convergenza e limitazioni tra informatica medica e bio-informatica

Questo evento ha portato insieme vari scienziati da domini diversi, differenti ubicazioni e continenti.

Si sono visualizzati due punti:

1) i metodi utilizzati sono in gran parte simili e sono quasi tutti candidati alla migrazione da un gruppo a un altro;

2) la comunità scientifica attende sempre più analisi intelligenti del testo, estrazione di dati e rappresentazione di conoscenza.

La sfida principale per raggiungimenti futuri nell’ NLP biomedico è la condivisione dei contenuti.

Potenziale per la convergenza e limitazioni tra informatica medica e bio-informatica (2)

Oltre ad alcuni gruppi rari situati in grandi istituzioni sanitarie, l'accesso a racconti clinici e dati di pazienti è di solito impossibile per ragioni confidenziali.

NLP nel dominio medico tende a rimanere sia un'area protetta sia un campo dove le tecniche dello stato dell’arte potrebbero penetrare più lentamente che altrove.

Al contrario: NLP per la bioinformatica e per genomics/proteomics in

particolare, è diventato recentemente un'area molto interessante di ricerca anche per non esperti del dominio, cosicché tale campo si può considerare legittimamente come un dominio privilegiato per sviluppare e verificare i metodi più avanzati e le ipotesi più speculative, portando a risultati impressionanti.

Potenziale per la convergenza e limitazioni tra informatica medica e bio-informatica (3)

Guardando al futuro,e provando a disegnare un parallelo con quello che è avvenuto con il World Wide Web, i successivi passi ci richiederanno di indirizzare seriamente l'interoperabilità semantica e lo scambio di dati.

L'interoperabilità diventerà di importanza principale per collegare il contenuto testuale e i database biomedici in linea, come SwissProt/TrEMBL o OMIM, che potrebbero servire anche per trovare sinergie tra interessi clinici e biologici.

Questo vuol dire che lavorare con contenuti eterogenei, come dati strutturati e testi non strutturati, ma anche con immagini annotate o semiannotate , diventerà un argomento di grande priorità per ricercatori.

Potenziale per la convergenza e limitazioni tra informatica medica e bio-informatica (4)

Da un'analisi dei dati, l'intervallo tra informatica medica e bio-informatica potrebbe essere ristretto più facilmente utilizzando strumenti di riconoscimento di particolari terminologie e di entità.

In primis, c'è sicuramente la necessità di costruire un'infrastruttura di base su domini specifici.

l'acquisizione di entità nominate e gli argomenti relativi alla variazione delle terminologie sono prerequisiti di base, ma non dovrebbero assorbire una frazione troppo grande degli sforzi nella comunità. Devono anche esistere alcune attività maggiormente cognitive e semanticamente guidate per soddisfare le necessità di accesso alle informazioni degli utenti, con una priorità evidente che deve essere data al reperimento delle informazioni e all’estrazione di dati da varie prospettive.

È chiaro che questi richiederanno l'emergere di nuove tendenze come l'utilizzo dell’ analisi del discorso per eseguire operazioni di estrazione più approfondite.

Potenziale per la convergenza e limitazioni tra informatica medica e bio-informatica (5)

Si può concludere facendo la seguente considerazione: lo studio di processi medici nel corpo umano dipende

dai documenti pubblicati e dalle registrazioni dei pazienti, che sono le due sorgenti di testi medici.

Solo quando sarà realizzata una copertura conveniente per entrambi gli aspetti, saremo nella posizione di incorporare in una singola registrazione le informazioni biomediche e le osservazioni mediche sui pazienti, la loro prognosi ed i loro risultati.

Questo porterà beneficio sia ai ricercatori che ai pazienti!!!