Sfida singolare quanto interessante quella messa in piedi da Kristina Hettne e da altri esperti di raccolta dati dei Paesi Bassi. I ricercatori hanno infatti confrontato due dizionari di chimica che si trovano in Rete, ChemSpider e Chemlist: il primo è curato alla vecchia maniera, ovvero manualmente, l’altro è automatico, basato cioè su un sistema che riconosce la richiesta e pesca i contenuti da più fonti, fruibili gratuitamente. Lo scopo era quello di valutare precisione ed accuratezza di entrambi e individuare le “mancanze” di un dizionario generato in maniera automatica. Come riportano i ricercatori su Journal of Cheminformatics, non c’è un vero e proprio vincitore, ma si finisce in pareggio.
La gestione di terabyte di informazioni è un problema con cui ormai devono fare i conti gli studiosi di qualsiasi disciplina. Finora la comunità scientifica si è concentrata sulla corretta corrispondenza tra nome e struttura di geni e proteine, mentre pochi sforzi sono stati fatti sul fronte della chimica.
I dizionari basati sulla identificazione dei termini sono in grado si riconoscere le diverse rappresentazioni di una specie chimica in letteratura, e di collegare i composti ai loro nomi identificativi all’interno di un database. In questo scenario, i ricercatori del Biosemantics Group (cui partecipa anche la Libera Università di Lingue e Comunicazione, Lulm) hanno deciso di fare la loro parte sviluppando il dizionario automatico Chemlist per l’identificazione di piccole molecole e farmaci. Il sistema combina le informazioni provenienti da 7 fonti: Unified Medical Language System (Umls), U.S. National Library of Medicine (MeSH), Chemical Entities of Biological Interest (ChEBI), DrugBank database, Kyoto Encyclopedia of Genes and Genomes (Kegg), Human Metabolome Database (Hmdb), e ChemIDplus, il database gratuito di 350.000 composti.
Al momento Chemlist conta circa 300.000 voci, mentre ChemSpider ne ha 80.000 (quelli usati dai ricercatori per il confronto). Ed ecco cosa è emerso dalla valutazione (espressa con un numero decimale): per “precisione”, ChemSpider totalizza 0,43 e ha un “indice di richiami” di 0,19 se non vengono escluse le disambiguità, mentre va, rispettivamente, a 0,87 e 0,19 se queste vengono filtrate. Lasciando le disambiguità, Chemlist ha totalizzato 0,20 per “precisione” e 0,47 come “indice di richiami”, mentre applicando un filtro i valori diventano 0,67 e 0,40.
Questo significa che, sebbene ChemSpider sia più preciso, Chemlist ha un indice di richiami più alto ed è più accurato (ha un migliore F-score, funzione che considera insieme la precisione e i richiami). Buoni risultati per entrambi, dunque. I due database, però, continueranno a crescere ad elevatissima velocità e sarà necessario verificare che questo non infici le loro performance.(t.m.)
Riferimento: Automatic vs. manual curation of a multi-source chemical dictionary: the impact on text mining





