Linkage genético

Esquema de genes não ligados (topo), ligados (centro) e ligados com crossover (baixo), e genótipos possíveis após a meiose.

Linkage genético, ou ligação genética, é a associação de genes localizados no mesmo cromossomo. Diferente do que é proposto pela Segunda Lei de Mendel, na qual as características eram totalmente independentes, existem genes tão próximos no cromossomo que não há separação durante a meiose.

Descreve uma situação em que algumas combinações de alelos ou marcadores genéticos ocorrem mais ou menos frequentemente numa população do que era esperado pela formação aleatória de haplótipos a partir de alelos baseados nas suas frequências

O mapeamento por análise de ligação procura a segregação conjunta entre uma região cromossômica e o fenótipo de interesse em famílias que apresentam no mínimo duas gerações e possuem indivíduos com fenótipos diferentes. Tendo um lócus de interesse e seus marcadores é possível, através do cálculo da frequência de recombinantes, encontrar evidências de ligação entre o fenótipo de interesse e o alelo candidato.

A análise pode ser feita para uma região específica do genoma ou com o genoma inteiro. Pode ser feito primeiramente o estudo do genoma todo para depois realizar a aproximação em uma região mais específica do genoma a fim de localizar o(s) gene(s) responsáveis pelo fenótipo de interesse. Quanto mais marcadores forem utilizados no estudo maior vai ser a resolução desde a primeira análise, mas pode ser feito o aumento do número de marcadores quando é feita a aproximação.

Durante uma análise de ligação é calculado o valor de LOD para cada família analisada, com os cálculos sendo somados no final. O LOD mais alto é o que melhor explica o conjunto de dados e quando se realiza a soma de todas as famílias o número obtido deve ser maior que 3 para afirmar que há evidência de ligação. Caso o resultado seja menor que -2 há evidência contra a ligação, enquanto qualquer valor entre 3 e -2 significa que não há significância obtida nos resultados (PULST, 1999).

Estudo de Morgan

Thomas Hunt Morgan não foi o primeiro a observar o fenômeno, mas foi o primeiro a explicar. No seu trabalho com a mosca da fruta, Drosophila melanogaster, notou que certos características não eram autônomas e que seus genes não estavam em cromossomos distintos, mas sim pertenciam ao mesmo cromossomo estando em linkage.

Em 1910 Morgan percebeu a existência de uma mosca com olhos branco não advinda de seus cruzamentos. Em seguida decidiu realizar um cruzamento com moscas “normais” de olhos vermelhos na expectativa de um resultado na proporção de 1:1:1:1, pensando ser uma característica independente. Porém resultou em:

  • 2.459 fêmeas de olhos vermelhos;
  • 1.011 machos de olhos vermelhos;
  • 782 machos de olhos brancos.

Não havendo fêmeas com olhos brancos pensou ser uma característica limitada ao sexo masculino. Então realizou outro cruzamento que originou:

  • 129 fêmeas de olhos vermelhos;
  • 132 machos de olhos vermelhos;
  • 88 fêmeas de olhos brancos;
  • 86 machos de olhos brancos.

Ao analisar os resultados de seus cruzamentos com Drosophila melanogaster, Morgan observou que a proporção fenotípica obtida não correspondia à esperada para genes situados em cromossomos diferentes, que seria de 1:1:1:1, conforme previsto pelas leis de Mendel para a segregação independente. Essa discrepância levou Morgan a concluir que os genes responsáveis pela cor do corpo (P/p) e pelo tipo de asa (V/v) estavam localizados no mesmo cromossomo, ou seja, eram genes ligados.

Contudo, os resultados também revelaram a presença de fenótipos inesperados — corpo cinza/asas vestigiais e corpo preto/asas longas — que não poderiam ser explicados apenas pela ligação simples entre os genes. Esses fenótipos foram interpretados como resultado de uma recombinação gênica, um processo que gera novas combinações de alelos diferentes das parentais.

A explicação para esse fenômeno veio a partir das observações citológicas de Frans Alfons Janssens (1909), que havia descrito, durante o estudo da meiose, o fenômeno da permutação cromossômica (chiasmatypie), hoje conhecido como crossing-over. Janssens observou que, durante a prófase I da meiose, cromossomos homólogos podiam trocar segmentos equivalentes de material genético nos pontos de quiasma, promovendo variabilidade genética.

Inspirado por essa descoberta, Morgan aplicou o conceito para explicar seus próprios resultados experimentais. Em 1911, ele propôs que o crossing-over entre cromossomos homólogos era responsável pela formação dos indivíduos recombinantes, isto é, aqueles que apresentavam combinações novas de características — como corpo cinza/asas vestigiais e corpo preto/asas longas. Assim, Morgan não apenas confirmou que os genes estão dispostos linearmente nos cromossomos, mas também demonstrou que a frequência de recombinação entre dois genes é proporcional à distância que os separa.

Essa ideia foi posteriormente quantificada por seu aluno Alfred Sturtevant, que, em 1913, construiu o primeiro mapa genético mostrando a disposição linear dos genes no cromossomo X da Drosophila, baseando-se na frequência de recombinação entre eles. O trabalho conjunto de Morgan e sua equipe — incluindo também Calvin Bridges e Hermann Muller — consolidou a Teoria Cromossômica da Herança, publicada em 1915 no livro The Mechanism of Mendelian Heredity.

Desse modo, as observações de Morgan sobre os fenótipos recombinantes e a aplicação do conceito de crossing-over foram fundamentais para estabelecer a ligação entre a herança mendeliana e a estrutura física dos cromossomos, unificando a genética clássica e a citologia (PULST, 1999).

Valor de LOD

O valor de LOD (Logarithm of the Odds) é uma medida estatística que expressa a probabilidade relativa de dois loci genéticos estarem fisicamente próximos (ou “ligados”) em um cromossomo, indicando a probabilidade de que sejam herdados juntos durante a meiose (OTT, 1974; MORTON, 1955).

Trata-se do logaritmo na base 10 da razão de verossimilhança entre duas hipóteses:

  • H₁: os loci estão ligados, com uma determinada frequência de recombinação (θ < 0,5);
  • H₀: os loci segregam independentemente, com frequência de recombinação θ = 0,5.

A fórmula geral é:  

onde L(θ)L(\theta)L(θ) representa a probabilidade de observar os dados sob uma dada fração de recombinação θ, e L(0,5)L(0,5)L(0,5) é a probabilidade sob a hipótese de não ligação. O cálculo é feito multiplicando as probabilidades de cada indivíduo observado ter o genótipo apresentado, considerando o valor de θ testado.

Durante a análise, o valor de θ é variado de 0 a 0,5 para identificar o pico máximo da pontuação LOD, que indica a fração de recombinação que melhor explica os dados observados .Por convenção, uma pontuação LOD ≥ 3 é considerada evidência significativa de ligação genética, correspondendo a uma razão de verossimilhança de 1000:1 em favor da hipótese de ligação. Por outro lado, uma pontuação LOD ≤ -2 é geralmente interpretada como evidência contra a ligação (MORTON, 1955; OTT, 1999).

O método LOD é amplamente utilizado em estudos de mapeamento genético, tanto em análises de ligação clássicas em famílias quanto em mapeamentos de genomas completos (GWAS e QTL), permitindo determinar se determinados genes ou marcadores moleculares são herdados em conjunto com fenótipos de interesse (LYNCH; WALSH, 1998; STRACHAN; READ, 2019).

Exemplo de fração de recombinação

A fração de recombinação (θ) representa a proporção de gametas recombinantes produzidos em um cruzamento entre indivíduos heterozigotos para dois loci. Esse parâmetro é fundamental para avaliar a ligação gênica — ou seja, a probabilidade de que dois genes sejam herdados juntos devido à sua proximidade física em um cromossomo (GRIFFITHS et al., 2020; STRACHAN; READ, 2019).

Considere uma família com seis indivíduos, em que dois deles apresentam genótipos recombinantes entre dois loci analisados (por exemplo, um gene e um marcador genético).

- Caso 1 – Ausência de ligação (θ = 0,5)

Quando não há ligação entre os loci, os genes segregam independentemente, conforme as leis de Mendel. Assim, a probabilidade de ocorrência de cada tipo de gameta é igual a 0,25 (25%), pois há quatro combinações possíveis:

  • Dois tipos parentais (0,25 cada);
  • Dois tipos recombinantes (0,25 cada).

A probabilidade conjunta de obter os genótipos observados em seis indivíduos será:

Esse resultado reflete a expectativa sob segregação independente, na qual a recombinação ocorre com frequência de 50% (θ = 0,5), significando que não há ligação física entre os loci (MORTON, 1955; OTT, 1999).

- Caso 2 – Ligação parcial (θ = 0,2)

Se os loci estiverem fisicamente próximos em um mesmo cromossomo, a frequência de recombinação será menor que 0,5. Nesse caso, 20% dos gametas são recombinantes e 80% são parentais. Assim:

  • Probabilidade de cada gameta recombinante = 0,1 (10%);
  • Probabilidade de cada gameta parental = 0,4 (40%).

A probabilidade conjunta para os seis indivíduos (quatro parentais e dois recombinantes) será:

Esse cálculo exemplifica como diferentes valores de θ afetam a probabilidade de observar um determinado conjunto de dados. A comparação entre esses valores (para θ = 0,5 e θ = 0,2) é usada para calcular o valor de LOD (Logarithm of the Odds), uma medida estatística que estima a força da evidência de ligação gênica (PULST, 1999; CHOTAI, 1984; VAN OOIJEN, 1999).

Tipos de Análise

Two-point

A análise two-point (ou análise de ligação de dois pontos) consiste na estimativa da fração de recombinação (θ) entre um marcador genético e o lócus de interesse (gene ou traço fenotípico). Essa fração representa a probabilidade de ocorrência de um evento de recombinação entre os dois loci durante a meiose e varia de 0 a 0,5, correspondendo a 0% (ligação completa) e 50% (segregação independente), respectivamente (OTTO; DAY, 2011; GRIFFITHS et al., 2015).

Mesmo sem conhecimento prévio da posição exata dos marcadores no genoma, o método permite inferir o grau de ligação entre eles e o gene em estudo, por meio da análise das frequências genotípicas e fenotípicas observadas em descendentes (FALCONER; MACKAY, 1996).

O parâmetro estatístico utilizado para avaliar a evidência de ligação é o valor de LOD (logarithm of odds), proposto por Morton (1955). Esse valor expressa, em escala logarítmica, a razão entre a probabilidade dos dados sob a hipótese de ligação (θ < 0,5) e a probabilidade sob a hipótese de não ligação (θ = 0,5). O cálculo é realizado para diferentes valores de θ, resultando em uma curva de LOD, cujo pico indica o valor mais provável de recombinação (LANDER; BOTSTEIN, 1989).

De modo geral, um valor de LOD ≥ 3,0 é considerado forte evidência de ligação genética (probabilidade 1000:1 a favor da ligação), enquanto valores LOD ≤ –2,0 indicam ausência de ligação significativa. O marcador que apresenta o maior LOD score para determinada fração de recombinação é, portanto, o mais provável de estar fisicamente próximo ao lócus do fenótipo de interesse (LANDER; SCHORK, 1994).

Atualmente, análises two-point são frequentemente utilizadas como etapa inicial em estudos de mapeamento genético antes da aplicação de métodos multiponto e de abordagens baseadas em genomas completos (GWAS), servindo como um importante passo de triagem para identificar regiões cromossômicas potencialmente associadas a características complexas (HALL, 2013; OTT; ELSNER, 2015).

Multiponto

A análise multiponto tem como objetivo estimar a posição mais provável de um lócus genético responsável por um fenótipo de interesse ao longo de um cromossomo, utilizando múltiplos marcadores genéticos com posições conhecidas (LANDER; BOTSTEIN, 1987; OTT; ELSNER, 2015).

Diferentemente da análise two-point, que considera apenas um marcador por vez, a abordagem multiponto integra simultaneamente informações de diversos marcadores, permitindo aumentar a precisão na estimativa da localização gênica e reduzir ambiguidades decorrentes de recombinações isoladas (LANDER; GREEN, 1987). Essa análise baseia-se em modelos probabilísticos que calculam a verossimilhança dos genótipos observados em função de diferentes posições hipotéticas do gene, considerando as frações de recombinação (θ) entre marcadores adjacentes.

O resultado é representado por um gráfico de LOD score, em que o eixo y indica o valor de LOD — medida estatística que expressa a evidência de ligação — e o eixo x representa a distância genética entre os marcadores, geralmente expressa em centimorgans (cM). O pico do gráfico de LOD corresponde à posição mais provável do lócus causal, ou seja, o ponto do genoma em que a associação com o fenótipo é mais forte (LANDER; SCHORK, 1994; TERWILLIGER; OTT, 1994).

Valores de LOD ≥ 3,0 indicam forte evidência de ligação, enquanto valores menores sugerem ausência de correlação estatisticamente significativa. O uso de múltiplos marcadores também permite detectar efeitos de genes próximos ou interações gênicas, além de refinar intervalos de confiança na localização do gene (KRUGLYAK; LANDER, 1995).

Atualmente, métodos multiponto são amplamente aplicados em mapeamento genético de doenças monogênicas e complexas, servindo como base para estratégias modernas de mapeamento de loci de características quantitativas (QTL) e estudos de genômica comparativa (HALL, 2013; VISSCHER et al., 2017).

Intervalo de suporte 1,5 LOD

Durante o mapeamento genético de loci de características quantitativas (QTL), marcadores moleculares são distribuídos ao longo do genoma com o objetivo de identificar regiões associadas a variações fenotípicas contínuas, como peso, altura, produtividade ou resistência a doenças (LANDER; BOTSTEIN, 1989; BROMAN; SEN, 2009). Para cada posição genômica, calcula-se o valor de LOD (logarithm of odds), que expressa a evidência estatística de ligação entre o marcador e o fenótipo de interesse. O gráfico resultante do mapeamento QTL mostra os valores de LOD em função da posição genômica (em centimorgans ou megabases). O pico do LOD indica a posição mais provável do QTL, enquanto o intervalo de suporte 1,5 LOD representa uma estimativa da região de confiança dentro da qual o verdadeiro QTL se encontra com alta probabilidade (MANLY; OLIVER; MACKAY, 2004).

Esse intervalo é definido como a faixa de posições onde o valor de LOD decai até 1,5 unidades abaixo do LOD máximo, aproximadamente correspondente a um intervalo de confiança de 95% sob condições padrão de mapeamento (LANDER; BOTSTEIN, 1989; DUPUIS; SIEGMUND, 1999). Em termos estatísticos, a redução de 1,5 no valor do LOD é análoga ao conceito de intervalo de confiança baseado em log-verossimilhança na inferência estatística clássica.

O intervalo de suporte 1,5 LOD é amplamente utilizado porque fornece uma estimativa prática e conservadora da região genômica onde o QTL está localizado, evitando super interpretações de picos estreitos de LOD que podem surgir por variação amostral ou ruído experimental (BROMAN; SEN, 2009; ZENG et al., 1999). Assim, ele é fundamental para direcionar estudos subsequentes de mapeamento fino, identificação de genes candidatos e validação funcional das variantes genéticas associadas ao fenótipo.

Em síntese, o intervalo de suporte 1,5 LOD é uma ferramenta estatística que traduz a incerteza inerente ao mapeamento de QTL, fornecendo uma estimativa confiável da posição e extensão do efeito genético responsável pela variação fenotípica observada.

Referências

  1. BROMAN, K. W.; SEN, Ś. A Guide to QTL Mapping with R/qtl. New York: Springer, 2009.
  2. CHOTAI, J. On the LOD score method in linkage analysis. Annals of Human Genetics, v. 48, n. 4, p. 359–378, out. 1984. DOI: https://doi.org/10.1111/j.1469-1809.1984.tb00849.x.
  3. DUPUIS, J.; SIEGMUND, D. Statistical methods for mapping quantitative trait loci from a dense set of markers. Genetics, v. 151, n. 1, p. 373–386, 1999.
  4. FALCONER, D. S.; MACKAY, T. F. C. Introduction to Quantitative Genetics. 4. ed. Harlow: Longman, 1996.
  5. GRIFFITHS, A. J. F. et al. An Introduction to Genetic Analysis. 11. ed. New York: W. H. Freeman and Company, 2015.
  6. GRIFFITHS, A. J. F. et al. Introduction to Genetic Analysis. [S.l.: s.n.], [s.d.]. OCLC 1240167084.
  7. HALL, J. G. Linkage Analysis in Human Genetics. Oxford: Oxford University Press, 2013.
  8. KRUGLYAK, L.; LANDER, E. S. Complete multipoint sib-pair analysis of qualitative and quantitative traits. American Journal of Human Genetics, v. 57, n. 2, p. 439–454, 1995.
  9. LANDER, E. S.; BOTSTEIN, D. Mapping Mendelian factors underlying quantitative traits using RFLP linkage maps. Genetics, v. 121, n. 1, p. 185–199, 1989.
  10. LANDER, E. S.; GREEN, P. Construction of multilocus genetic linkage maps in humans. Proceedings of the National Academy of Sciences, v. 84, p. 2363–2367, 1987.
  11. LANDER, E. S.; SCHORK, N. J. Genetic dissection of complex traits. Science, v. 265, p. 2037–2048, 1994.
  12. LYNCH, M.; WALSH, B. Genetics and Analysis of Quantitative Traits. Sunderland: Sinauer Associates, 1998.
  13. MANICHAIKUL, A.; DUPUIS, J.; SEN, Ś.; BROMAN, K. W. Poor performance of bootstrap confidence intervals for the location of a quantitative trait locus. Genetics, v. 174, n. 1, p. 481–489, set. 2006. DOI: https://doi.org/10.1534/genetics.106.061549.
  14. MANLY, K. F.; OLIVER, F. M.; MACKAY, T. F. C. Mapping Quantitative Trait Loci in Experimental Populations. 2. ed. Boca Raton: CRC Press, 2004.
  15. MORGAN, T. H.; STURTEVANT, A. H.; MULLER, H. J.; BRIDGES, C. B. The Mechanism of Mendelian Heredity. New York: Henry Holt and Company, 1915.
  16. MORTON, N. E. Sequential tests for the detection of linkage. American Journal of Human Genetics, v. 7, n. 3, p. 277–318, 1955.
  17. OTTO, S. P.; DAY, T. A Biologist’s Guide to Mathematical Modeling in Ecology and Evolution. Princeton: Princeton University Press, 2011.
  18. OTT, J. Estimation of the recombination fraction in human pedigrees: efficient computation of the likelihood function. American Journal of Human Genetics, v. 26, n. 5, p. 588–597, 1974.
  19. OTT, J. Analysis of Human Genetic Linkage. 3. ed. Baltimore: Johns Hopkins University Press, 1999.
  20. OTT, J.; ELSNER, H. Statistical Human Genetics: Methods and Protocols. 2. ed. New York: Springer, 2015.
  21. PIERCE, B. A. Genética: um Enfoque Conceitual. 5. ed. Rio de Janeiro: Guanabara Koogan, 2017.
  22. PULST, S. M. Genetic linkage analysis. Archives of Neurology, v. 56, n. 6, p. 667–672, 1 jun. 1999. DOI: https://doi.org/10.1001/archneur.56.6.667.
  23. STURTEVANT, A. H. The linear arrangement of six sex-linked factors in Drosophila, as shown by their mode of association. Journal of Experimental Zoology, v. 14, n. 1, p. 43–59, 1913.
  24. STRACHAN, T.; READ, A. Genética Molecular Humana. 5. ed. Porto Alegre: Artmed, 2019.
  25. TERWILLIGER, J. D.; OTT, J. Handbook of Human Genetic Linkage. Baltimore: Johns Hopkins University Press, 1994.
  26. VAN OOIJEN, J. W. LOD significance thresholds for QTL analysis in experimental populations of diploid species. Heredity, v. 83, n. 5, p. 613–624, nov. 1999. DOI: https://doi.org/10.1038/sj.hdy.6886230.
  27. VISSCHER, P. M. et al. 10 Years of GWAS Discovery: Biology, Function, and Translation. American Journal of Human Genetics, v. 101, p. 5–22, 2017. DOI: https://doi.org/10.1016/j.ajhg.2017.06.005.
  28. WISHART, J. Outline of a theory of statistical estimation based on the classical theory of probability. Philosophical Transactions of the Royal Society of London. Series A, Mathematical and Physical Sciences, v. 236, n. 767, p. 333–380, 30 ago. 1937. DOI: https://doi.org/10.1098/rsta.1937.0005.
  29. ZENG, Z.-B.; KAO, C.-H.; BASTEN, C. J. Estimating the genetic architecture of quantitative traits. Genetical Research, v. 74, p. 279–289, 1999.