analisi tweets e grandi dati

Analisi di grandi dati e raccolte di tweets per indagare fenomeni sociali: case history e tools

Ogni tweet racconta una storia, e talvolta altre storie possono essere rivelate quando si esaminano grandi raccolte di tweet.

Attraverso analisi e ricerche sono state esaminati collezioni di tweets per ricostruire diversi tipi di informazioni: da qui fiorisce una vita nascosta di Twitter che palpita sotto una grande quantità di dati.
Ciò può avere risvolti interessanti per la comprensione dei più vari fenomeni sociali, e può fornire modelli di studio che, declinati negli specifici settori, possono avere anche applicazioni monetizzabili – anche se non è questo il mio focus-.

La mia attenzione è tutta rivolta a quella vita sottesa alle raccolte di tweet e a quali strumenti vengono utilizzati per analizzarli.

Tweet e salute: indagini per una cura

Un caso molto interessante è stato quello nel 2012 legato alla salute pubblica in USA: qui se un tweet può sembrare insignificante, raccogliere ed analizzarne miliardi ha potuto modellare una realtà complessa.

È quello che è stato fatto da Michael J. Paul e Mark Dredze, che hanno incrociato tutti i tweets con le rilevazioni del Centro di Controllo Malattie americano, dimostrando che Twitter può monitorare con precisione la diffusione dell’influenza, il picco di allergie e permette di prevedere come le malattie diffuse cambiano nel tempo.

La loro ricerca ha suggerito nuove prospettive per l’analisi dei grandi dati nel campo della medicina e degli studi sociali.

Tweet e lingue: una memoria espressiva

Un’altra storia incredibile che è possibile raccontare solo grazie ad una grande raccolta di tweets è quella delle lingue in via d’estinzione.

Ogni 14 giorni – secondo una stima dell’UNESCO – una lingua muore, e cira 1000 sono quelle in serio pericolo di estinzione.

Esiste però un modo per tenere in vita le lingue indigene e delle minoranze che è quello di mantenere tali comunità unite.
Per contribuire a ciò è stato creato un progetto chiamato Indigenous Tweets. Il programma scandaglia Twitter alla ricerca di una sequenza di tre caratteri denominata “3-grams” che rappresenta una sorta di impronta digitale per l’identificazione statistica delle lingue. I risultati vengono raggruppati per idiomi e account.

In questo modo il programma è riuscito ad individuare 250 lingue su Twitter, di cui circa 139 indicate come di minoranze o indigene.
L’aspetto interessante è che la raccolta riflette il modo in cui queste vengono parlate attualmente, e non delle traduzioni “accademiche”.

 

Tramite @IndigenousTweet chi parla lingue di minoranze può trovare account da seguire e con cui scambiare tweets per conservare la loro lingua.

La vita nascosta dei tweet

L’analisi delle collezioni di tweet può tracciare storie secondarie anche apparentemente non correlate, come nel caso delle Olimpiadi di Londra e dei tweet twittati in quel periodo.

Due ricercatori della University College di Londra hanno collegato lingue e località geografiche per raccontare su una mappa interattiva la distribuzione sul territorio dei vari idiomi.

3.3 milioni di tweets geolocalizzati e suddivisi per lingua hanno mostrato la mappa delle lingue dei quartieri di Londra, un’analisi spaziale di grandi dati, tramite Twitter, che può aprire nuove strade ad indagini sulla metropoli e sui suoi abitanti.
L’esperimento è stato ripetuto tra gennaio e febbraio 2013 per mappare le lingue della città di New York.

 

La materia ha una complessità tale per cui esistono corsi di studio specifici, dove convergono teorie e conoscenze che vanno dalla Fisica alla Statistica, passando per la Sociologia e l’Informatica.

Nel mio cercare di addentrarmi nell’argomento, quasi per caso, mi sono imbattuta in un’interessante playlist di letture realizzate dal corso di studi “Analyzing Big Data with Twitter” della Berkeley School of Information.

Per chi non dispone degli strumenti e delle conoscenze necessarie per analizzare grandi dati e raccolte di tweets, gli spunti interessanti che si possono tuttavia estrapolare sono quelli legati alle tecniche e agli strumenti che Twitter mette a disposizione per fare ciò.

Alcuni di questi sono accessibili anche a noi e si possono utilizzare per riportare nel campo dei piccoli numeri un approccio scientifico all’analisi dei dati in nostro possesso.

1. Utilizzare le API di Twitter
2. Individuare i Trends
3. Utilizzare la Ricerca Real Time di Twitter
4. Approfondire i meccanismi di Twitter, del suo social graph e dei suoi modelli di diffusione dell’informazione

Tra gli strumenti complessi che vengono più spesso citati ci sono due software: Hadoop e Apache Pig, programmi per l’analisi di una grande quantità di tweets da far arrossire noi che ne maneggiamo magari qualche migliaia nelle occasioni più “impegnative”.

Se però sei nel campo dell’osservazione di grandi fenomeni, e hai la fortuna di maneggiare account non di nicchia, non lasciarti sfuggire l’occasione di approfondire questi tools.

Per me questa materia è davvero affascinante, e credo di essermi solo affacciata sulla tana del bianconiglio…pertanto considera l’argomento una storia a puntate su cui realizzerò interviste e post di approfondimento.

 

Quando scrivi i tuoi 140 caratteri in pochi secondi, sai che potresti rientrare in un disegno più complesso di rappresentazione della realtà? Da oggi lo possiamo intuire un po’ di più e magari un giorno arriveremo anche a simulare qualche esperienza simile!

Se ti incuriosisce l’argomento e vuoi continuare a saperne di più, lasciami un commento! 😉

credits photo: Matthew Cook

valijolie

Scrivo, twitto e studio. Per destituire il marketing e riprendermi le parole.