Escena 1: es veu la porta d'una cambra cuirassada d'un banc, la porta és d'extrema seguretat i s'obre per reconeixement de l'empremta digital. Davant la porta, un jove hacker enganya el sistema de seguretat només fent una trucada amb el seu mòbil. No, no és una escena de la pròxima temporada de la famosa sèrie La casa de papel, tampoc és l'escena real d'un robatori. L'escena és gravada en un banc israelià l'any 2006, i el protagonista es diu Yaniv Erlich, un hacker blanc, contractat per les mateixes empreses de seguretat per comprovar el nivell real d'inviolabilitat, en aquest cas del banc. Aquest jove que, sense quasi esforç, sabia identificar els punts febles de sistemes d'informació, estava estudiant Biologia. De fet, quan va acabar la carrera, se'n va anar als Estats Units per fer un doctorat en Genètica i és ara un científic especialitzat en Genètica computacional, és a dir, un científic que desenvolupa algorismes per poder manejar i interpretar la ingent quantitat d'informació que s'obté de l'anàlisi dels genomes.
Com diuen els anglosaxons, si ets un hacker, sempre seràs un hacker (once a hacker, always a hacker), així que en lloc dels bancs de diners, va pensar a usar els seus coneixements per comprovar si eren prou bons els mecanismes de seguretat dels biobancs, en concret, dels bancs d'ADN i d'informació genètica que obtenen, analitzen i emmagatzemen mostres de pacients i de donants voluntaris, a qui a canvi del seu ADN se'ls promet privacitat i anonimat. Normalment només es recull la data i lloc on es va recollir la mostra i, de vegades, el sexe biològic. El repte, en aquest cas, era diferent, perquè els biobancs no encripten ni protegeixen especialment les dades genètiques en si mateixes i, de fet, aquestes dades genètiques són usades en moltes publicacions científiques en què s'analitzen gran quantitat de dades de l'ADN de molts individus. La pretesa seguretat rau en la gran quantitat d'informació que conté el nostre genoma, i que si no hi ha el nostre nom enganxat al tub o a la publicació, en teoria hauria de ser molt difícil relacionar aquest ADN amb algú de nosaltres. Així que el que aquest científic es va plantejar era si hi havia manera de fer programes informàtics que analitzessin l'ADN de forma que anessin seleccionant la informació i buscant coincidències amb dades personals que són públiques i accessibles per internet. Una mena de juguesca, similar a si alguna vegada heu jugat al "Quién es quién". Segurament, la idea va acabar de madurar quan va llegir que un noi que havia estat concebut per inseminació artificial, va ser capaç de trobar el seu pare biològic, enviant la seva mostra biològica a una empresa de diagnòstic genètic d'ancestralitat i dipositant les seves dades genètiques a internet en obert.
Així que es va convertir en un hacker del genoma i el primer que va fer amb la gent del seu laboratori va ser una prova empírica. Van agafar una mostra d'un biobanc dels Estats Units, per tant, sabien que la quantitat inicial de gent a analitzar eren les persones dels EUA, uns 320 milions de persones. Però també sabien que la mostra d'ADN s'havia obtingut a l'estat d'Utah, per tant, ja podien restringir la cerca a 3 milions de persones. A més, sabien que l'anàlisi genètica indicava que es tractava d'un home, ja només els quedaven 1,5 milions de persones a analitzar. També sabien que tenia 49 anys l'any de la donació de la mostra, la qual cosa ja va limitar-ho a unes 20.000 persones. Només usant dades enregistrades en la donació de la mostra, ja havien restringit la cerca a només 20.000 persones. Tot i això, els quedava la tasca ingent de cercar de qui d'aquestes 20.000 persones era la mostra. Llavors, van fer una assumpció cultural i genètica alhora. A la població dels EUA, la gent hereta el cognom patern. A més, els homes hereten de pare (i exclusivament del seu pare biològic) el cromosoma Y (com ja vaig explicar en un altre article). Si unim tots dos fets, podem raonar que tots els homes d'una mateixa família, que estan relacionats genèticament per via patrilineal, tots comparteixen el mateix cognom. Per tant, per saber el cognom de la seva mostra d'ADN (que era home) només calia que es fixessin en les variants genètiques del cromosoma Y que tenia aquella mostra, i cerquessin en els bancs de dades publicats en obert a internet de les empreses de genealogia per tal de buscar una coincidència. Aquí és on se la jugaven, perquè potser no hi havia cap familiar que hagués donat el seu ADN per realitzar aquest tipus d'estudis, però la van trobar, i així van inferir el cognom de la persona a qui pertanyia la mostra. Llavors van contrastar la llista de 20.000 persones amb el cognom, i van identificar-ne una, l'individu en qüestió, que ara sense anonimat, té noms i cognoms, pàgina de Facebook, adreça d'e-mail i de casa, i totes les dades nostres que, sense saber, estan penjades a Internet. Aquesta fita implicava que qualsevol persona amb un bon programa d'anàlisi i encreuament de dades i internet podia arribar a relacionar les dades genètiques, en teoria anònimes i privades, a una persona determinada amb nom i cognoms (us recomano veure el seu vídeo TEDxDanubia, si no voleu llegir l'article).
Qualsevol persona amb un bon programa d'anàlisi i encreuament de dades i internet podia arribar a relacionar les dades genètiques, en teoria anònimes i privades, amb una persona determinada amb nom i cognoms
Arribats a aquest punt, és molt probable, perquè va sortir a tots els mitjans de comunicació i perquè també us ho vaig explicar en un article a l'abril d'enguany, que sabeu que aquest tipus d'anàlisi es va emprar també per a identificar un perillós violador i assassí, que havia actuat als anys setanta i vuitanta a Califòrnia, generant un perfil fals amb les dades genètiques obtingudes als llocs dels crims i consultant una base de dades per a genealogia amb més d'un milió de perfils. De fet, des de la resolució d'aquest cas, en menys de cinc mesos s'han resolt d'aquesta manera 13 crims difícils. Doncs bé, en Yaniv Erlich acaba de publicar un article aquesta setmana a Science en el qual millora la seva cerca, ampliant la informació genètica a tots els cromosomes per a fer cerques de parentiu genètic llunyà. Aquest tipus d'algoritmes de cerca genètica es basen en el fet que les persones emparentades biològicament compartim fragments cromosòmics grans. Penseu que amb els nostres pares compartim el 50% del nostre ADN, i amb els nostres avis, de mitjana, un 25%; per tant, amb els nostres cosins germans o, fins i tot, cosins tercers, podem trobar fragments cromosòmics molt llargs que són idèntics. A més, aquesta cerca pot fer-se servir indistintament en homes i dones. Els autors demostren computacionalment, i també empíricament, que poden identificar amb fiabilitat fins a cosins tercers en un 60% de les mostres que hi ha actualment als bancs de dades genètics directes al consumidor per a identificar ancestres comuns i reconstruir genealogies dels EUA (recordeu que són accessibles i lliures a internet!). De fet, els científics calculen que pel que fa als individus d'origen caucàsic, que són els habitants dels EUA que més interessats estan a trobar les seves arrels etnogeogràfiques, que participen més en aquests bancs de dades i que també tenen més poder adquisitiu per pagar l'anàlisi genètica, amb només un 2% de la població que enviï el seu perfil genètic, la probabilitat d'identificar qualsevol mostra genètica amb, com a mínim, un cosí tercer, és del 99%. És a dir, que el podran trobar. Curiosament, les dades genètiques criminalístiques als EUA estan clarament decantades cap als afroamericans, asiàtics, natius americans i altres minories. Qui sap? Potser així compensaran una mica aquest esbiaix als bancs de dades de la policia.
L'article no acaba només amb aquestes dades, sinó que proposa accions positives per convèncer a tots que donar les nostres dades genètiques és en benefici de tota la societat. Parla de retorn a la societat, de confiança i de medicina personalitzada. I pel que em pertoca, jo li dono suport. Un altre dia parlarem de la necessitat de contribuir als bancs de dades genètics, però en resum, ja que els científics no podem proporcionar una absoluta privacitat ni anonimat, llavors cal retornar i donar informació útil per prevenir i tractar malalties, i crear una societat on la informació genètica sigui usada a favor de les persones.