Il curatore automatico è bravo

30/03/2010

Sfida singolare quanto interessante quella messa in piedi da Kristina Hettne e da altri esperti di raccolta dati dei Paesi Bassi. I ricercatori hanno infatti confrontato due dizionari di chimica che si trovano in Rete, ChemSpider e Chemlist: il primo è curato alla vecchia maniera, ovvero manualmente, l’altro è automatico, basato cioè su un sistema che riconosce la richiesta e pesca i contenuti da più fonti, fruibili gratuitamente. Lo scopo era quello di valutare precisione ed accuratezza di entrambi e individuare le “mancanze” di un dizionario generato in maniera automatica. Come riportano i ricercatori su Journal of Cheminformatics, non c’è un vero e proprio vincitore, ma si finisce in pareggio.

La gestione di terabyte di informazioni è un problema con cui ormai devono fare i conti gli studiosi di qualsiasi disciplina. Finora la comunità scientifica si è concentrata sulla corretta corrispondenza tra nome e struttura di geni e proteine, mentre pochi sforzi sono stati fatti sul fronte della chimica.

I dizionari basati sulla identificazione dei termini sono in grado si riconoscere le diverse rappresentazioni di una specie chimica in letteratura, e di collegare i composti ai loro nomi identificativi all’interno di un database. In questo scenario, i ricercatori del Biosemantics Group (cui partecipa anche la Libera Università di Lingue e Comunicazione, Lulm) hanno deciso di fare la loro parte sviluppando il dizionario automatico Chemlist per l’identificazione di piccole molecole e farmaci. Il sistema combina le informazioni provenienti da 7 fonti: Unified Medical Language System (Umls), U.S. National Library of Medicine (MeSH), Chemical Entities of Biological Interest (ChEBI), DrugBank database, Kyoto Encyclopedia of Genes and Genomes (Kegg), Human Metabolome Database (Hmdb), e ChemIDplus, il database gratuito di 350.000 composti.

Al momento Chemlist conta circa 300.000 voci, mentre ChemSpider ne ha 80.000 (quelli usati dai ricercatori per il confronto). Ed ecco cosa è emerso dalla valutazione (espressa con un numero decimale): per “precisione”, ChemSpider totalizza 0,43 e ha un “indice di richiami” di 0,19 se non vengono escluse le disambiguità, mentre va, rispettivamente, a 0,87 e 0,19 se queste vengono filtrate. Lasciando le disambiguità, Chemlist ha totalizzato 0,20 per “precisione” e 0,47 come “indice di richiami”, mentre applicando un filtro i valori diventano 0,67 e 0,40.

Questo significa che, sebbene ChemSpider sia più preciso, Chemlist ha un indice di richiami più alto ed è più accurato (ha un migliore F-score, funzione che considera insieme la precisione e i richiami). Buoni risultati per entrambi, dunque. I due database, però, continueranno a crescere ad elevatissima velocità e sarà necessario verificare che questo non infici le loro performance.(t.m.)

Riferimento: Automatic vs. manual curation of a multi-source chemical dictionary: the impact on text mining

Tags
chimica

Il curatore automatico è bravo

RESTA IN ORBITA

Articoli recenti

Come monitorare i battiti del cuore? Con lo smartphone

Dormire da svegli: il sonno locale che rigenera il cervello

Luna, Parmitano sarà il pilota della missione Artemis III

Altro che chilometro zero: a Roma il cibo viene da lontano

CHI SIAMO

SEGUICI

Il curatore automatico è bravo

Articoli Correlati

Come monitorare i battiti del cuore? Con lo smartphone

Dormire da svegli: il sonno locale che rigenera il cervello

Luna, Parmitano sarà il pilota della missione Artemis III

RESTA IN ORBITA

Articoli recenti

Come monitorare i battiti del cuore? Con lo smartphone

Dormire da svegli: il sonno locale che rigenera il cervello

Luna, Parmitano sarà il pilota della missione Artemis III

Altro che chilometro zero: a Roma il cibo viene da lontano

CHI SIAMO

SEGUICI