Per una volta, hanno abbandonato i temi gravi e talvolta lugubri che hanno caratterizzato la loro produzione scientifica: non più la predizione della diffusione di pandemie o virus letali, stavolta il team di Alessandro Vespignani alla Northeastern University di Boston si è concentrato su Twitter e su un reality show, a dimostrazione che lo studio dei sistemi complessi può essere applicato praticamente a tutto. Nel loro ultimo lavoro, pubblicato su arXiv, i ricercatori del laboratorio MoBS coordinato dal ricercatore italiano hanno deciso di provare a predire l’eliminazione dei partecipanti a uno dei programmi più seguiti negli Stati Uniti, American Idol, analizzando il flusso di parole chiave e citazioni sul social network. Ma lo stesso metodo, spiegano, potrebbe essere una sorta di beta test per elezioni ben più importanti, come quelle del presidente degli Stati Uniti.
Il programma televisivo preso in considerazione funziona come i talent show musicali in onda in Italia: i concorrenti vengono scelti tramite audizioni da tre giudici esperti per poi sfidarsi in prima serata a colpi di canzoni; il passaggio di turno di puntata in puntata verso la finale viene scelto tramite televoto del pubblico da casa. L’assunzione da cui parte il lavoro, che gli stessi ricercatori definiscono ‘quasi naif’, è che il numero di voti che riceverà ogni partecipante alla competizione è proporzionale al numero di tweet in cui questo viene menzionato. Fabio Ciulla, fisico italiano del MoBS Lab e primo autore dell’articolo, spiega cosa hanno scoperto i ricercatori e come è nato e come è stato condotto questo studio.
Il vostro gruppo è diventato famoso per lo studio della diffusione di epidemie, come si passa dall’influenza ad American Idol?
La fisica dei sistemi complessi, per sua natura, trova applicazioni nei campi più disparati, non è quindi sorprendente che un gruppo di ricerca come il MoBS spazi dalle dinamiche di diffusione di epidemie all’analisi di fenomeni sociali come il consenso verso un concorrente di uno show televisivo. In entrambi i casi la chiave dello studio è la capacità di estrarre un’informazione dalla sempre crescente quantità di dati a disposizione. Nel caso dello studio delle epidemie i dati sono quelli della mobilità delle persone su scala globale e locale, che rendono possibile la creazione di modelli di diffusione di un certo agente patogeno. Nel caso di American Idol, invece, ciò che si diffonde è un’idea, e la rete che connette le persone è Twitter. In questo modo possiamo quindi paragonare un concorrente ad un virus e la sua popolarità alla diffusione nel network, e successivamente provare a creare una classifica.
Qual è stato il metodo utilizzato per la predizione?
In questo studio ci siamo limitati a considerare il numero di tweet in cui si parlava di un certo concorrente filtrando i messaggi che contenevano almeno un hashtag con riferimento ad American Idol – come ad esempio #idol e #AI11 – o ad un suo concorrente. Abbiamo anche preso in considerazione i messaggi che menzionavano gli account, ufficiali e non, dei concorrenti, come quelli di Jessica Sanchez, seconda classificata, @JSanchezAI11 e @TeamJSanchez. Basandoci su questi tweet abbiamo scoperto la popolarità di ogni partecipante e stilato la nostra classifica d ogni puntata dello show. Sarebbe stato possibile, su questo campione, compiere indagini ancora più approfondite, come ad esempio lo studio della sentiment analisys per capire si sta parlando positivamente o negativamente di un certo concorrente, ma già l’attendibilità delle previsioni ottenuta con questo livello di analisi ci ha positivamente sopresi.
Quante eliminazioni avete “indovinato” in tutto?
Le nostre previsioni hanno confermato l’eliminazione dei concorrenti che hanno terminato il concorso al quinto, quarto e terzo posto. Per i partecipanti eliminati precedentemente, a causa del maggiore numero totale di partecipanti, non è stato possibile individuare il concorrente che sarebbe stato eliminato, poiché il margine di errore era troppo alto; in questo caso, comunque, i dati si sono rivelati comunque abbastanza attendibili per i concorrenti in pericolo di eliminazione. Invece per quanto riguarda i due finalisti abbiamo tenuto in considerazione anche la provenienza geografica dei tweet: analizzando questi dati abbiamo scoperto che una dei due, Jessica Sanchez, riscuoteva maggiore successo a livello mondiale; mentre Phillip Phillips – il concorrente che poi ha vinto – era il favorito (anche se di poco) negli Stati Uniti.
Dunque c’era una differenza tra i dati provenienti da tutto il mondo e quelli dell’area dei “votanti”?
Ufficialmente il programma ha accettato solo i voti provenienti dagli Stati Uniti: sebbene in rete fosse possibile ottenere informazioni su come provare a votare dall’estero, dalla redazione di American Idol hanno precisato di essere in grado di individuare e non conteggiare tali voti. Nel caso specifico dei due finalisti, Jessica Sanchez, nata in California ma di origini filippine, ha riscosso un enorme successo in questo paese, che è molto attivo nell’uso di Twitter e ciò ha prodotto una particolare incertezza nella nostra classifica finale. Tuttavia, poiché ufficialmente gli unici voti validi erano quelli provenienti gli Stati Uniti, prendendo in esame solo i tweet provenienti dagli States avremmo confermato anche la vittoria finale di Phillip Phillips.
È possibile predire anche altro oltre a chi vincerà un reality, come ad esempio chi sarà eletto presidente degli Stati Uniti alle prossime politiche?
Effetivamente la predizione del vincitore di uno show televisivo come American Idol può essere vista come un test per un metodo che in futuro, adeguatamente ampliato e perfezionato, potrebbe fornire interessanti ed accurate previsioni anche in altri campi.
Riferimento: arXiv:1205.4467v2
Credit immagine a jurvetson/Flickr