Na Primavera de 1997, um anúncio no jornal norte-americano The Buffalo News pedia voluntários para "um ambicioso projeto de investigação científica internacional". Apareceram 20 no total - 10 homens e 10 mulheres - no campus do Roswell Park Cancer Institute no centro de Buffalo, estado de Nova Iorque.
Era o maior impulso para o Projeto Genoma Humano, uma tentativa ambiciosa de ler e fazer o mapa do código genético humano na sua totalidade.
O Projeto Genoma Humano foi um empreendimento gigantesco que demorou mais de uma década e custou milhares de milhões de dólares a ser concluído. Para isso, os cientistas recolheram amostras de ADN de voluntários anónimos que foram informados de que o projeto final seria um mosaico de ADN.
Mas na realidade, no centro desta empreitada científica, há um mistério: mais de dois terços do ADN provém de uma única pessoa, um homem, identificado apenas como RP11.
Quem é RP11?
Apesar de o genoma de referência ser apresentado como um “mosaico” de ADN, a verdade é que a maior parte dos dados veio deste voluntário anónimo. Sabemos apenas que era um homem de ascendência predominantemente afro-europeia.
A identidade de RP11 é protegida pelo anonimato mas foi esta pessoa que se tornou central num projeto que revolucionou a ciência.
O genoma humano de referência, baseado principalmente no ADN deste homem, foi usado durante mais de duas décadas em milhares de estudos para identificar genes associados a doenças, traçar a evolução humana e explorar as bases genéticas da nossa diversidade.
O impacto das limitações de RP11
Embora o genoma de referência tenha sido uma ferramenta essencial, a sua dependência de um único doador trouxe limitações importantes. Pouco nos pode dizer sobre os 0,2 a 1% da sequência genética que torna cada uma das oito mil milhões de pessoas neste planeta diferente umas das outras
Muitas dessas variantes, especialmente em populações não europeias, estavam ausentes do genoma de referência, criando um preconceito nos dados biomédicos.
Estas lacunas podem ter implicações reais. Por exemplo, variantes genéticas específicas associadas a certas doenças em populações africanas, asiáticas ou indígenas não foram devidamente representadas. Isto contribuiu para desigualdades nos avanços médicos e no acesso a diagnósticos e tratamentos adaptados a estas populações.
"Uma sequência de referência do genoma humano é uma representação aceite da sequência do genoma humano que é utilizada pelos investigadores como padrão para comparação com as sequências de ADN geradas nos seus estudos. (...) A sequência de referência do genoma fornece uma estrutura geral e não é a sequência de ADN de uma única pessoa".
Projeto Genoma Humano
Genoma humano – um complexo puzzle
O genoma humano é composto por pouco mais de seis mil milhões de bases de ADN (moléculas de ácido desoxirribonucleico), ou “letras genéticas”, organizadas em 23 pares de cromossomas (estruturas organizadas de células que contêm genes, responsáveis pela codificação da informação genética). Em cada um desses pares de cromossomas, um cromossoma provém do pai e o outro da mãe.
6 mil milhões de bases ou letras do ADN em 23 pares de cromossomas contêm as instruções genéticas que transmitem as características herdadas dos pais
Para ler (sequenciar) um genoma, os cientistas dividem o ADN em pequenos fragmentos, que são depois lidos por máquinas e reconstituídos como peças de um puzzle.
O problema acontece quando algumas regiões do genoma repetem as mesmas letras continuamente. É como ter peças idênticas de um puzzle – os cientistas não sabiam quais iam para onde, deixando grandes lacunas no quadro genómico.
A criação do genoma de referência enfrentou dois grandes desafios:
- Repetições no ADN – regiões com padrões repetidos dificultavam a montagem correta.
- Mistura de genomas parentais – o ADN do pai e da mãe misturava-se, complicando a identificação de variações únicas.
Primeira sequenciação terminada em 2003
Em 2003, o primeiro rascunho do genoma humano foi concluído por um consórcio internacional de cientistas, mas era relativamente impreciso - só correspondia à sequenciação de partes do genoma que não são altamente repetitivas - aquilo que os cientistas na altura consideraram "lixo".
Ao longo dos anos foi melhorando, graças ao ao avanço da tecnologia de sequenciação que foi corrigindo erros e preenchendo lacunas.
Mas ainda faltava 8% do genomadevido às limitações tecnológicas da época. Durante quase 20 anos, RP11 continuou a ser a base do genoma de referência.
Genoma humano finalmente completo em 2022
A 1 de abril de 2022, um outro consórcio de cientistas anunciou a sequência mais completa e sem lacunas do genoma humano.
Os cientistas do consórcio internacional de investigadores T2T conseguiram decifrar milhões de pedaços perdidos de ADN humano preenchendo as lacunas deixadas quase 20 anos antes, revelaram em seis artigos publicados na revista científica Science e em mais de uma dezena de artigos divulgados noutras publicações.
No entanto, este avanço ainda não resolvia o problema da diversidade genética, um tema central para corrigir preconceitos científicos e biomédicos - os importantes 0,2 a 1% de ADN que representam a diversidade humana.
Projeto Pangenoma Humano 2019-2023
O Consórcio de Referênciado Pangenoma Humano (HPRC), uma colaboração entre mais de uma dúzia de instituições de investigação nos Estados Unidos e na Europa, financiada pelo governo norte-americano, foi lançado em 2019 para resolver este problema.
Em 2023, cientistas do consórcio publicaram na Nature um conjunto de sequências genéticas de 47 pessoas de diferentes partes do mundo, representando uma maior diversidade genética, com mais de 99% de precisão, identificando cerca de 120 milhões de pares de bases nunca antes observados.
Embora ainda seja um trabalho em curso, o pangenoma é público e pode ser utilizado por cientistas de todo o mundo como uma nova referência padrão do genoma humano, diz Erich D. Jarvis, da Universidade Rockefeller, um dos principais investigadores.
“Esta coleção genómica complexa representa uma diversidade genética humana significativamente mais precisa do que alguma vez foi conseguida. Com uma maior amplitude e profundidade de dados genéticos à disposição, e uma maior qualidade de conjuntos de genomas, os investigadores podem melhorar a sua compreensão da ligação entre genes e características de doenças e acelerar a investigação clínica.”