Un sacco di studi scientifici contiene errori di Excel

È colpa di un problema con la formattazione automatica del programma di Microsoft

di Christopher Ingraham – The Washington Post

(JEWEL SAMAD/AFP/Getty Images)
(JEWEL SAMAD/AFP/Getty Images)

Secondo un’analisi pubblicata recentemente dalla rivista Genome Biology, un numero sorprendentemente alto di studi scientifici nel campo della genetica contiene errori dovuti a Microsoft Excel. Un gruppo di ricercatori australiani ha esaminato quasi 3.600 studi genetici pubblicati su una serie di importanti riviste scientifiche come Nature, Science e PLoS One. Come succede comunemente in questo campo, tutti gli studi erano accompagnati da file complementari che contenevano elenchi di geni usati nelle ricerche. I ricercatori australiani hanno scoperto che in circa un caso su cinque gli elenchi dei geni di questi studi contenevano errori, dovuti al fatto che Excel converte automaticamente i nomi di geni in cose come date di calendario o numeri a caso.

Spesso nella letteratura scientifica i geni sono indicati con dei simboli, che in sostanza sono delle versioni abbreviate dei loro nomi completi. Il gene “Septina 2” viene abbreviato di solito in SEPT2, mentre il gene “Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase” viene indicato come MARCH1. Quando le abbreviazioni dei nomi di questi geni vengono inserite nella versione in inglese di Excel, il programma dà per scontato che siano riferimenti a delle date, rispettivamente il 2 settembre e il primo marzo. Una volta digitato in una cella di Excel, il gene SEPT2 magicamente diventa “2-Sep.”, e il programma lo registra come se fosse il 2 settembre 2016. Quel che è peggio è che non esiste un modo semplice per annullare la formattazione automatica una volta avvenuta: facendo “Modifica” e “Annulla” ci si limita a cancellare tutto il contenuto della cella, mentre provando a convertire la formattazione da “Generale” – l’impostazione predefinita – a “Testo”, invece di tornare ai caratteri inseriti originariamente il contenuto delle cella viene visualizzato come 42615, il codice generico di Excel per la data 2 settembre 2016.

excel

Una cosa ancora più preoccupante notata dai ricercatori è che non c’è modo di disattivare permanentemente la funzione di formattazione automatica delle date dentro Excel. I ricercatori devono ricordarsi di formattare manualmente le colonne come “Testo” prima di inserire qualsiasi dato in un nuovo foglio del programma, ogni volta. Anche i ricercatori che si occupano di genetica, però, sono solo degli esseri umani, e a volte si dimenticano di farlo. Il risultato è che il 20 per cento degli studi genetici esaminati dai ricercatori contengono errori evitabili causati da Excel. I ricercatori australiani hanno sottolineato che il problema è stato individuato per la prima volta in uno studio pubblicato più di dieci anni fa. «Ciononostante, vediamo che questi errori sono ancora molto diffusi nei file complementari nella letteratura scientifica», hanno scritto.

La genetica non è l’unico campo in cui il lavoro di una vita può essere potenzialmente danneggiato da un errore di un foglio di calcolo. Gli economisti di Harvard Carmen Reinhart e Kenneth Rogoff fecero un celebre errore su Excel – omettendo alcune righe di dati da un calcolo – che li portò a gonfiare molto gli effetti negativi degli alti livelli di debito sul PIL, e ogni tanto anche i ricercatori in altri campi devono ritrattare i loro studi dopo essersi accorti di errori su Excel.

I ricercatori australiani sottolineano che Excel non è l’unico software di fogli di calcolo ad aver problemi causati da una formattazione automatica troppo aggressiva – gli stessi errori si verificano infatti anche in programmi open-source come LibreOffice Calc e Apache OpenOffice Calc – ma fanno anche notare che esiste un programma gratuito per la creazione di fogli di calcolo che riesce a registrare i nomi dei geni nel modo in cui vengono inseriti: Google Sheets (in italiano, Fogli Google). Per il momento l’unica soluzione al problema a disposizione di ricercatori e redattori di riviste scientifiche è stare attenti quando si lavora sui file di dati o, meglio ancora, abbandonare del tutto Excel e passare a programmi e linguaggi costruiti per la ricerca statistica, come R e Python.

© 2016 – The Washington Post