Método para determinar la ascendencia geográfica de un sujeto CAMPO DE LA INVENCIÓN
La presente invención está relacionada con métodos para determinar el origen geográfico de un sujeto a partir de muestras de ADN, así como con kits para llevar a cabo dicha determinación.
ANTECEDENTES DE LA INVENCIÓN
La utilización de información genética para la distinción de grupos humanos es un objetivo común muy extendido en muchos estudios biomédicos, sean estos dirigidos a la genética médica, forense o a la caracterización de diferencias interindividuales en la respuesta a fármacos. Las categorizaciones raciales y étnicas, comúnmente utilizadas para designar la ascendencia individual, constituyen aproximaciones imperfectas pues implican factores genéticos y no genéticos. Así, a pesar de que dichas categorías son importantes para el estudio, el diagnóstico y el tratamiento de enfermedades, tales indicadores de ascendencia (basado en declaraciones del individuo) están sujetas a error pues no describen con detalle la constitución genética de un individuo tal que evidencie el origen (biogeográfico) de sus ancestros, de quienes ha heredado su genoma. En este escenario, la inferencia de la ascendencia genética (también conocida como ascendencia genética global) ha demostrado ser una alternativa no sesgada extremadamente útil.
Una multitud de estudios han mostrado que, como media, el 87-96% de la variación genética humana existente a nivel mundial es atribuible a las diferencias entre dos individuos cualesquiera, mientras que solo el 4-13% será debido a diferencias genéticas existentes entre las dos poblaciones de las que esos individuos son escogidos. Estos estudios también han evidenciado la existencia de hasta siete grupos de poblaciones mundiales identificables genéticamente utilizando varios cientos de miles de polimorfismos.
Muchos estudios han intentado identificar pequeños conjuntos o paneles de polimorfismos genéticos que se comporten como marcadores informativos de la ascendencia (conocidos como AIM, del inglés Ancestry Informative Markers), para permitir una estimación de los orígenes genéticos recientes de un individuo. Tal y como ocurre en lo concerniente al desarrollo de pruebas forenses basadas en el ADN (por ejemplo el IrisPlex), los polimorfismos genéticos preferidos para construir dichos
paneles de AIM son los llamados polimorfismos nucleotídicos sencillos (conocidos como SNP, del inglés Single Nucleotide Polymophisms). La utilización de SNP ha recibido un trato preferente en distintos ámbitos científicos para desarrollo de tales pruebas de ADN por involucrar ensayos técnicamente fáciles de diseñar, altamente sensibles, rápidos y económicos, así como por ofrecer gran versatilidad por su capacidad de adaptación a un amplio rango de sistemas de detección. A pesar de la disponibilidad de métodos de alto rendimiento para la determinación de cientos de miles de SNP, la utilización de tecnologías de alto rendimiento puede suponer un coste prohibitivo en algunas situaciones. Además de ello, dichas tecnologías requieren de una cantidad sustancial de ADN no fragmentado de partida que no siempre se encuentra disponible en la muestra biológica (por ejemplo en el contexto de la medicina forense). Puesto que los polimorfismos genéticos que se localizan en los cromosomas sexuales o en regiones del genoma donde no existe recombinación pueden dar lugar a interpretaciones conflictivas, particularmente cuando se trata de inferencias en individuos procedentes de poblaciones que han sufrido sesgos en la proporción de sexos que contribuyen en la mezcla, estos estudios se han focalizado exclusivamente en SNP autosómicos.
La asignación de ascendencia a muestras humanas de ADN mediante la utilización de paneles de AIM es, y será, de gran utilidad en el contexto de estudios y procedimiento donde la obtención de datos genómicos mediante tecnologías de alto rendimiento sea impracticable.
En el ámbito de la medicina forense, donde el material biológico existente en la escena de un crimen o en una catástrofe es normalmente escaso y/o se encuentra degradado, un panel de una docena de SNP con características de AIM resulta de gran utilidad para predecir la ascendencia del sospechoso o sujeto, reduciendo el ámbito de su identificación. Por tanto, el panel de AIM que se propone ayudaría en las investigaciones forenses a concentrar los esfuerzos en la identificación de individuos desconocidos en situaciones donde la obtención de los perfiles de ADN de rutina no daría ninguna información de utilidad práctica.
En el ámbito de la biomedicina, donde el número de muestras biológicas disponibles para los estudios es habitualmente enorme, un panel de una docena de SNP con características de AIM resulta muy económico y útil para el control de calidad rutinario de biobancos, y en el diseño y organización del mismo. Además, específicamente en el ámbito de investigación farmacéutica, la identificación y clasificación económica de las muestras o sujetos de ensayo en categorías poblacionales es esencial por la conocida diversidad en las respuestas a fármacos y
su relación con la ascendencia biogeográfica. En el contexto de estudio de enfermedades complejas, donde el número de sujetos estudiados es de miles y los costes de determinación son elevados, el uso de paneles de AIM de coste reducido en etapas tempranas del proyecto supone reducción de gastos, permitiendo la identificación temprana de los estratos poblacionales más apropiados para el estudio.
Los métodos previamente utilizados para identificar o priorizar AIM (de los millones de SNP existentes en nuestro genoma) para permitir inferencias eficientes de la ascendencia individual han estado basados en puntuaciones relacionadas con el contenido informativo de ascendencia de cada SNP individualmente. Aunque intuitivamente fáciles de llevar a cabo, los paneles resultantes de combinar subconjuntos de AIM identificados ofrecen soluciones subóptimas, permitiendo tan solo inferencias poco precisas en poblaciones diversas, en comparación con las que podrían ofrecer estrategias basadas en AIM identificados mediante análisis combinatorios (multi-marcador). Una de las razones que podría explicar que tales análisis combinatorios no hayan sido implementados podría ser el hecho que el derivado de modelos combinatorios que incluyeran más de 3 AIM sin tener ninguna hipótesis previa que favorezca su combinación constituye un problema computacionalmente complejo. En consecuencia, las medidas de información de ascendencia utilizadas hasta hoy día para priorizar los AIM de uso habitual son esencialmente la diferencia neta en la frecuencia alélicas entre las poblaciones, distancias genéticas (tipo FST), y el índice In de información de asignación de ascendencia. Utilizando estas medidas, se han derivado diferentes conjuntos de AIM una vez han sido eliminados aquellos que muestran correlaciones potenciales con algún otro del panel. Dichos análisis han sido dirigidos a poblaciones europeas y americanas, típicamente necesitando de paneles de varios cientos de AIMs para ser capaces de realizar inferencias precisas de la ascendencia. La solicitud de patente internacional WO2006089238A2 propone la utilización de varios cientos de AIM en este contexto.
Además de lo descrito, otros tres estudios han realizado un análisis exhaustivo en un intento de reducir al mínimo el número de AIM necesario para permitir la asignación de ascendencia genética, al tiempo que se mantiene una asignación precisa de individuos al máximo posible de divisiones poblacionales a nivel mundial. Mediante la aplicación de algoritmos avanzados, dos estudios fueron capaces de construir paneles de menos de 15 AIM con capacidad para asignar con precisión individuos de diverso origen a tan solo 3-4 de las siete subdivisiones poblacionales reconocidas. Sin embargo, de los paneles de AIM diseñados hasta hoy día, el más
preciso es el deducido por Paschou et al. (J Med Genet 2010, 47: 835-47) que, con tan solo 50 AIM seleccionados, permite una asignación precisa de individuos a cinco de las siete subdivisiones poblacionales reconocibles a nivel mundial. Para la asignación a las siete subdivisiones poblacionales proponen la necesidad de 350 AIM seleccionados. Es de destacar que incluso en este último caso, el error de asignación de individuos de origen europeo es elevado (donde el panel tan solo mantiene el 65,4% de acierto en la asignación).
Por lo tanto, sigue siendo necesario el disponer de una metodología basada en un panel de AIM que permita la correcta asignación de individuos a una población de procedencia de sus ancestros a partir de muestras de ADN. Idealmente, dicho panel debe consistir en un número mínimo de polimorfismos genéticos tipo SNP que ofrezca la máxima información sobre la ascendencia, y que permita la inferencia de la población de origen de manera ciega y precisa, utilizando para ello exclusivamente datos genotípicos derivados del panel y sin ningún otro conocimiento previo del sujeto bajo estudio.
COMPENDIO DE LA INVENCIÓN
Los autores de la presente invención han identificado, a partir de datos genómicos derivados del ADN de 938 individuos sin relación familiar de 52 poblaciones diversas del mundo, un panel de 7 SNP que permite la asignación genética precisa de individuos a una de las siete divisiones poblacionales humanas identificables en el mundo (Figura 1), mejorando considerablemente el resto de paneles de AIM que han sido propuestos para el mismo objetivo, incluso aquellos que necesitan de la determinación de varios cientos de SNP.
Este panel constituye una herramienta que:
A) Ofrece menos error en la clasificación de ascendencia humana a nivel mundial que el resto de paneles desarrollados con un menor número de SNP.
B) Proporciona una mayor información de ascendencia, por permitir la clasificación en hasta siete subdivisiones mundiales.
C) Ofrece mayor versatilidad, al tratarse de un panel reducido en cuanto al número de SNP, cuya determinación puede fácilmente adaptarse a casi cualquier tecnología actual de determinación de genotipos.
Por tanto, en un primer aspecto, la invención se relaciona con un método para determinar la ascendencia geográfica de un sujeto que comprende
(i) determinar en una muestra que comprende material genético de dicho sujeto el genotipo de los dos alelos de los polimorfismos de un solo
nucleótido (SNP) rs1257016, rs971779, rs238547, rs1482326,
rs4760332, rs2104388, y rs2427622 y, opcionalmente, cualquier otro polimorfismo que se encuentre en desequilibrio de ligamiento con cualquiera de los anteriores, en ambos alelos y
(ii) determinar la ascendencia geográfica de dicho sujeto en base a los genotipos de dichos SNP.
En un segundo aspecto, la invención se relaciona con un kit que comprende reactivos adecuados para la detección de las secuencia de los polimorfismos de un solo nucleótido (SNP) rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388, y rs2427622, en donde dichos reactivos se seleccionan del grupo formado por
(i) un conjunto de parejas de cebadores adecuados para amplificar las regiones genómicas que comprenden dichos SNP o fragmentos de las mismas que contienen dichos SNP o las secuencias complementarias de las mismas y
(ii) un conjunto de sondas que hibridan con las regiones genómicas que comprenden las secuencias de dichos SNP o con las secuencias complementarias de las mismas, en donde dichas sondas hibridan de forma específica con una de las variantes de dichos SNP.
En un tercer aspecto, la invención se relaciona con un uso de un kit según el segundo aspecto para determinar la ascendencia geográfica de un sujeto.
En un cuarto aspecto, la invención se relaciona con un medio leíble por ordenador que contiene instrucciones ejecutables que, al ejecutarse, resultan en
(i) la recepción por al menos un procesador del genotipo de un sujeto en los dos alelos de las posiciones polimórficas rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388, y rs2427622 y
(ii) proporcionar una indicación sobre la probabilidad de que un sujeto tenga una determinada ascendencia geográfica.
BREVE DESCRIPCIÓN DE LAS FIGURAS
Figura 1. Matriz de confusión entre la ascendencia declarada por los sujetos de HGDP-CEPH (Proyecto de Diversidad del Genoma Humano del Centre dEtude du Polymorphisme Humain) (938 sujetos) y la inferida para ellos al utilizar únicamente la información del panel mínimo de 7 AIM desarrollado. La intensidad del entramado es indicativa de la proporción de sujetos que son clasificados correcta (diagonal) e
incorrectamente (resto de sectores) en las siete subdivisiones biogeográficas. En la diagonal también se expresa numéricamente la proporción de aciertos en cada subdivisión. Nótese que la mayoría de las confusiones ocurren en la clasificación de sujetos de origen Eurasiático. Clave: EUR, Europa; AFR, África sub-sahariana; MEA, Oriente Próximo y Norte de África; CSA, Centro y Sur de Asia; EAS, Este de Asia; AME, Américas; OCE, Oceanía.
Figura 2. Matriz de confusión entre la ascendencia declarada por los sujetos de HGDP-CEPH (938 sujetos) y la inferida para ellos al utilizar únicamente la información de uno de los paneles de 12 AIM desarrollado (panel mínimo con suplemento n° 1). La intensidad del entramado es indicativa de la proporción de sujetos que son clasificados correcta (diagonal) e incorrectamente (resto de sectores) en las siete subdivisiones biogeográficas. En la diagonal también se expresa numéricamente la proporción de aciertos en cada subdivisión. Nótese que los aciertos en la clasificación de sujetos de origen Eurasiático y del Este Asiático mejoran considerablemente con respecto a las del uso del panel mínimo de 7 AIM. Clave: EUR, Europa; AFR, África sub-sahariana; MEA, Oriente Próximo y Norte de África; CSA, Centro y Sur de Asia; EAS, Este de Asia; AME, Américas; OCE, Oceanía.
Figura 3. Matriz de confusión entre la ascendencia declarada por los sujetos del Proyecto 1000 Genomas (2000 sujetos) y la inferida para ellos al utilizar únicamente la información de uno de los paneles de 12 AIM desarrollado (panel mínimo con suplemento n° 1). La intensidad del entramado es indicativa de la proporción de sujetos que son clasificados correcta (diagonal) e incorrectamente (resto de sectores) en las siete subdivisiones biogeográficas. En la diagonal también se expresa numéricamente la proporción de aciertos en cada subdivisión. Clave: EUR, Europa; AFR, África sub-sahariana; CSA, Centro y Sur de Asia; EAS, Este de Asia.
DESCRIPCIÓN DETALLADA
Método para determinar la ascendencia geográfica de un sujeto
En un primer aspecto, la invención se relaciona con un método para determinar la ascendencia geográfica de un sujeto, en adelante "método de la invención", que comprende
i) determinar en una muestra que comprende material genético de dicho sujeto el genotipo de los dos alelos de los polimorfismos de un solo nucleótido (SNP) rs1257016, rs971779, rs238547, rs1482326,
rs4760332, rs2104388, y rs2427622 y, opcionalmente, cualquier otro
polimorfismo que se encuentre en desequilibrio de ligamiento con cualquiera de los anteriores, en ambos alelos y ii) determinar la ascendencia geográfica de dicho sujeto en base a los genotipos de dichos SNP.
El término "método para determinar la ascendencia geográfica de un sujeto", tal y como aquí se utiliza, se refiere a un método para inferir, con una determinada probabilidad, la región geográfica de la que son originarios los ancestros de un sujeto. Dicha región geográfica puede ser:
- África sub-sahariana: el término "África sub-sahariana", tal y como aquí se utiliza, se refiere a la región del continente africano ubicada al sur del desierto del Sáhara, e incluye las regiones correspondientes a los países del continente africano que no limitan con el mar Mediterráneo.
- Oriente Próximo y Norte de África: el término "Oriente Próximo", tal y como aquí se utiliza, se refiere a las regiones correspondientes con los países Arabia Saudí, Baréin, Chipre, Emiratos Árabes Unidos, Irak, Irán, Israel, Palestina, Jordania, Kuwait, Líbano, Omán, Catar, Siria, Turquía, Yemen, Georgia, Armenia y Azerbaiyán. El término "Norte de África", tal y como aquí se utiliza, se refiere a la región geográfica más boreal del continente africano, que limita al norte con el mar Mediterráneo, al este con el mar Rojo y el Sinaí, al oeste con el océano Atlántico y al sur con la región del desierto del Sahara, e incluye las regiones correspondientes a los países Argelia, Egipto, Libia, Marruecos y Túnez.
- Centro y Sur de Asia: el término "centro de Asia", tal y como aquí se utiliza, se refiere a una región del continente asiático comprendida entre el mar Caspio, la frontera de China y la de Rusia y el Sur de Asia. Incluye las regiones correspondientes a los países Kazajistán, Kirguistán, Tayikistán, Turkmenistán y Uzbekistán. El término "sur de Asia", tal y como aquí se utiliza, se refiere a la región de Asia que incluye la meseta iraní y el subcontinente de la India incluyendo las regiones correspondientes a los países Afganistán, Bangladés, Bután, India, Maldivas, Nepal, Pakistán y Sri Lanka.
- Este de Asia: el término "este de Asia", tal y como aquí se utiliza, se refiere a las regiones del continente asiático correspondiente a los países China, Corea del Norte, Corea del Sur, Japón, Mongolia, Taiwán y las dependencias de Hong Kong y Macao.
- América: el término "América", tal y como aquí se utiliza, se refiere al continente americano.
- Oceanía: el término "Oceanía", tal y como aquí se utiliza, se refiere al
continente del mismo nombre.
El experto en la materia entenderá que la determinación del método de la invención se hace con una determinada probabilidad y, por lo tanto, no tiene que ser correcta para el 100% de los sujetos evaluados, aunque sí para una parte estadísticamente significativa de los sujetos. Es decir, el método de la invención permite determinar correctamente la ascendencia geográfica en una parte estadísticamente significativa de los sujetos. Si una parte es estadísticamente significativa, se puede determinar sin más trámite por la persona experta en la técnica utilizando varias herramientas estadísticas bien conocidas de evaluación, por ejemplo, la determinación de intervalos de confianza, determinación de valor de p, validación cruzada con índices de clasificación, etc (más detalles en "Estadística para la investigación" Dowdy y Wearden, John Wiley & Sons, New York, 1983). Los intervalos de confianza preferidos son por lo menos 50%, al menos 60%, al menos 70%, al menos 80%, al menos 90% o al menos 95%. Los valores de p son, preferiblemente, 0,01, 0.005 o inferior.
El término "sujeto", como se usa aquí, se refiere a un ser humano de cualquier edad o sexo. En una realización particular, el sujeto no pertenece a las poblaciones de Japón, Kalash o Hazaras, ni a poblaciones procedentes de cruzamientos históricos (tal como, por ejemplo, las del Caribe o afroamericanas).
La primera etapa del método de la invención comprende determinar en una muestra que comprende material genético de dicho sujeto el genotipo de los dos alelos de los polimorfismos de un solo nucleótido (SNP) rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388, y rs2427622 y, opcionalmente, cualquier otro polimorfismo que se encuentre en desequilibrio de ligamiento con cualquiera de los anteriores, en ambos alelos.
El término "polimorfismo de un solo nucleótido" o "SNP" (del inglés "single nucleotide polimorphism") o simplemente "polimorfismo", tal y como se usa aquí, se refiere a una variación en la secuencia de nucleótidos de un ácido nucleico que se produce en un solo nucleótido (A, C, T o G), donde cada posible secuencia está presente en una proporción igual o mayor que un 1% de la población. Los SNP se denominan habitualmente según el número de registro en la base de datos SNP (dbSNP) en el Centro Nacional de Información Biotecnológica (NCBI, accesible en http://www.ncbi.nlm.nih.gov/projects/SNP/ . En general, los SNP representan una de las formas más comunes de variaciones genéticas. Estos polimorfismos aparecen cuando un solo nucleótido en el genoma se altera (por ejemplo, por medio de sustitución,
adición o supresión). Cada versión de la secuencia con respecto al sitio polimórfico se refiere como un alelo del sitio polimórfico. Los SNP tienden a ser estables evolutivamente de generación en generación y, como tal, se puede utilizar para estudiar anomalías genéticas específicas en una población o relaciones entre poblaciones. Si los SNP ocurren en la región codificante de la proteína, puede conducir a la expresión de una variante, a veces defectuosa, de la proteína que puede conducir al desarrollo de una enfermedad genética. Algunos SNP se pueden producir en regiones no codificantes, lo que puede provocar alteraciones en el procesamiento del material genético, o alteraciones en los niveles de expresión de proteínas. Cada versión de la secuencia con respecto al SNP se conoce como un alelo del SNP.
La primera etapa del método de la invención comprende determinar el genotipo de los dos alelos de los siguientes SNP:
- -rs1257016: localizado en el gen FAM178B, corresponde a la secuencia TCAATATATAATCTTTGTCTCTTGT[A/G]CTTTTTGACTTAAAGTTTATTT, con SEQ ID NO: 1
- rs971779: localizado en el gen RPSAP52, corresponde a la secuencia CACTGCCATCACAAAGAAAAACATA[C/T]GTAAATTTCTTCAAGGCTACAA, con SEQ ID NO: 2
- rs238547: localizado en el gen SCNN1B, corresponde a la secuencia TAGGCTTCAAGACCATGGACTTCCC[C/T]GCCGTCACCATCTGCAATGCTA, con SEQ ID NO: 3.
- rs1482326: está localizado en el gen ADGRB3 (también conocido como BAI3),
corresponde a la secuencia
GCTATGTTTCAAAAGGAATTGAAGA[A/G]CAACATCTCCATAGAATACAGT, con SEQ ID NO: 4.
- rs4760332: localizado en el gen CTDSP2, corresponde a la secuencia TACCCACAAAATCCCAAATGCCTTG[A/C]ATGAGTATGGGAGAGAACTGCT, con SEQ ID NO: 5.
- rs2104388: localizado en el gen KLF12, corresponde a la secuencia
ACAGCTGGGAAATATGTGTATGTCT[A/G]TGTGGGGAAGTTTAAACTTTCC, con SEQ ID NO: 6.
- rs2427622: localizado en el gen MYT1, corresponde a la secuencia
ACTTTGGGAGGCCAAGGCGGGCGGA[C/T]CACAAGGTCAGGAGATCGAGA C, con SEQ ID NO: 7.
El término "alelo", tal y como aquí se utiliza, se refiere a uno de dos o más formas de un gen, locus o polimorfismo genético. A veces los diferentes alelos pueden
resultar en diferentes características; sin embargo, otras veces alelos diferentes tendrán el mismo resultado en la expresión de un gen. Los organismos diploides tienen una copia de cada gen (y un alelo) en cada cromosoma del par de cromosomas homólogos.
El término "muestra que comprende material genético", tal y como aquí se utiliza, se refiere a materia biológica aislada de un sujeto que contiene cualquier material biológico adecuado para detectar el SNP deseado. Dicha muestra puede comprender células y/o material no celular del sujeto. En la presente invención, la muestra comprende material genético, por ejemplo, ADN, ADN genómico (ADNg), ADN complementario (ADNc), ARN, ARN nuclear heterogéneo (ARNhn), mARN, etc., del sujeto. La muestra se puede aislar de cualquier tejido o fluido biológico adecuado tal como, por ejemplo sangre, saliva, plasma, suero, orina, líquido cefalorraquídeo (LCR), heces, un hisopo bucal o bucal-faríngeo, una muestra quirúrgica, y un espécimen obtenido a partir de una biopsia. Los métodos para aislar células y muestras de tejidos son bien conocidos para los expertos en la técnica. En una realización particular, la muestra se selecciona del grupo que consiste en sangre, suero, plasma, células de la piel, saliva, folículos pilosos o biopsias de tejidos.
La primera etapa del método de la invención opcionalmente comprende la determinación de cualquier polimorfismo que se encuentre en desequilibrio de ligamiento con cualquiera de los SNP rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388, y rs2427622. Dos o más SNP se encuentran en "desequilibrio de ligamiento" si los genotipos de dichos SNP están estadísticamente asociados. El desequilibrio de ligamiento entre dos o más SNP se puede valorar mediante varias medidas estadísticas, tales como D, r2, etc.) (Véase, por ejemplo, Devlin y Risch 1995 Sep 20; 29(2):311-22). El experto en la materia puede obtener información sobre los SNP que se encuentran en desequilibrio de ligamiento con un SNP determinado utilizando bases de datos apropiadas, por ejemplo, la base de datos International HapMap Project ( www.hapmap.org y http://hapmap.ncbi.nlm.nih.gov/ ) y/o programas apropiados tales como el programa Haploview utilizando el método de intervalos de confianza o algoritmo de Gabriel (Gabriel et al., Science, 2002, 296(5576):225-9) o cualquier otra versión más actualizada (Barrett et al., 2005, Bioinformatics 21(2):263- 265).
En una realización particular, los SNP que se encuentran en desequilibrio de ligamiento con el SNP rs1257016 se localizan en la región comprendida entre el nucleótido 97528365 y el nucleótido 97890168 del cromosoma 2 según las coordenadas de la versión del genoma humano hg19.
En una realización particular, los SNP que se encuentran en desequilibrio de ligamiento con el SNP rs971779 se localizan en la región comprendida entre el nucleótido 66164517 y el nucleótido 66277698 del cromosoma 12 según las
coordenadas de la versión del genoma humano hg19.
En una realización particular, los SNP que se encuentran en desequilibrio de ligamiento con el SNP rs238547 se localizan en la región comprendida entre el nucleótido 23356312 y el nucleótido 23369090 del cromosoma 16 según las
coordenadas de la versión del genoma humano hg19.
En una realización particular, los SNP que se encuentran en desequilibrio de ligamiento con el SNP rs1482326 se localizan en la región comprendida entre el nucleótido 69794071 y el nucleótido 69794071 del cromosoma 6 según las
coordenadas de la versión del genoma humano hg19.
En una realización particular, los SNP que se encuentran en desequilibrio de ligamiento con el SNP rs4760332 se localizan en la región comprendida entre el nucleótido 58219173 y el nucleótido 58337671 del cromosoma 12 según las
coordenadas de la versión del genoma humano hg19.
En una realización particular, los SNP que se encuentran en desequilibrio de ligamiento con el SNP rs2104388 se localizan en la región comprendida entre el nucleótido 74674871 y el nucleótido 74710374 del cromosoma 13 según las
coordenadas de la versión del genoma humano hg19.
En una realización particular, los SNP que se encuentran en desequilibrio de ligamiento con el SNP rs2427622 se localizan en la región comprendida entre el nucleótido 62829408 y el nucleótido 62911117 del cromosoma 20 según las
coordenadas de la versión del genoma humano hg19.
En una realización particular, el método de la invención permite determinar, con una elevada probabilidad, la ascendencia geográfica del sujeto en función del genotipo presente en cada uno de los polimorfismos rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388, y rs2427622. El término "genotipo de los dos alelos" o simplemente "genotipo" aplicado a un polimorfismo o SNP, tal y como aquí se utiliza, se refiere a los alelos concretos presentes en los dos cromosomas homólogos para la posición polimórfica de dicho SNP.
Así, en una realización particular,
- el genotipo GG en el polimorfismo rs1257016,
- el genotipo CC en el polimorfismo rs971779,
- el genotipo TC en el polimorfismo rs238547,
- el genotipo AG en el polimorfismo rs1482326,
- el genotipo CC en el polimorfismo rs4760332,
- el genotipo GG en el polimorfismo rs2104388 y
- el genotipo AG en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica del sujeto es europea.
En otra realización particular,
- el genotipo GG en el polimorfismo rs1257016,
- el genotipo TT en el polimorfismo rs971779,
- el genotipo CC en el polimorfismo rs238547,
- el genotipo GG en el polimorfismo rs1482326,
- el genotipo CC en el polimorfismo rs4760332,
- el genotipo AA en el polimorfismo rs2104388 y
- el genotipo GG en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica es África sub-sahariana,
En otra realización particular,
- el genotipo GG en el polimorfismo rs1257016,
- el genotipo CC en el polimorfismo rs971779,
- el genotipo CC en el polimorfismo rs238547,
- el genotipo GG en el polimorfismo rs1482326,
- el genotipo CC en el polimorfismo rs4760332,
- el genotipo AG en el polimorfismo rs2104388 y
- el genotipo GG en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica es Oriente Próximo y Norte de África.
En otra realización particular,
- el genotipo AG en el polimorfismo rs1257016,
- el genotipo CC en el polimorfismo rs971779,
- el genotipo CC en el polimorfismo rs238547,
- el genotipo AG en el polimorfismo rs1482326,
- el genotipo AC en el polimorfismo rs4760332,
- el genotipo AG en el polimorfismo rs2104388 y
- el genotipo AG en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica es Centro y Sur de Asia.
En otra realización particular,
- el genotipo AG en el polimorfismo rs1257016,
- el genotipo CC en el polimorfismo rs971779,
- el genotipo CC en el polimorfismo rs238547,
- el genotipo AA en el polimorfismo rs1482326,
- el genotipo AC en el polimorfismo rs4760332, la el genotipo GG en el polimorfismo rs2104388 y
- el genotipo AA en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica es el este de Asia.
En otra realización particular,
- el genotipo AA en el polimorfismo rs1257016,
- el genotipo CC en el polimorfismo rs971779,
- el genotipo TT en el polimorfismo rs238547,
- el genotipo AG en el polimorfismo rs1482326,
- el genotipo AA en el polimorfismo rs4760332,
- el genotipo GG en el polimorfismo rs2104388 y
- el genotipo AA en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica es América.
En otra realización particular,
- el genotipo AA en el polimorfismo rs1257016,
- el genotipo TT en el polimorfismo rs971779,
- el genotipo CC en el polimorfismo rs238547,
- el genotipo AA en el polimorfismo rs1482326,
- el genotipo CC en el polimorfismo rs4760332,
- el genotipo AA en el polimorfismo rs2104388 y
- el genotipo AA en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica es Oceanía.
El término "elevada probabilidad", tal y como aquí se utiliza, significa una probabilidad de al menos un 50%, al menos un 60%, al menos un 70%, al menos un
80%, al menos un 90%, al menos un 95%, al menos un 97%, al menos un 99% o un
100. En una realización particular, elevada probabilidad es de al menos un 70%, preferiblemente al menos un 75%.
La proporción de aciertos de la clasificación del método de la invención se puede incrementar añadiendo al panel de los 7 SNP descritos combinaciones de 5 SNP
adicionales, tal y como se muestra en el las Figuras 2 y 3. Así, en una realización particular, el método de la invención comprende adicionalmente la determinación de la secuencia de uno de los siguientes grupos de 5 SNP:
(i) El grupo formado por los polimorfismos:
- rs186471, que corresponde a la secuencia TATTGATTGGGTGGAATATAAATGT[A/G]GGTATGTGTGTGTGTATA AGAC, de SEQ ID NO: 8
- rs7919248, que corresponde a la secuencia GCCAAAGAAGAGGCGATTCACAGCA[G/T]AAATGAATTTGATAAAA ATAAA, de SEQ ID NO: 9
- rs2231997, localizado en el gen DDX49 y que corresponde a la secuencia
ACCACCTGCCCAGCCCTGCCTCTCA[C/T]GCTCTGTCCCCCAGAC ATGGTG, de SEQ ID NO: 10,
- rs581468, localizado en el gen ARHGAP42, y que corresponde a la secuencia
CAGAAGCTAAACCACCATTCTTTCC[A/G]ACACTGTCTCAGAGACT TGGAA, de SEQ ID NO: 11; y
- rs1609997, que corresponde a la secuencia GCCCTCTTTTTAAGTAACTTTCCTG[A/G]AGACACAACCAAACTTCC ACTT, de SEQ ID NO: 12.
En una realización particular, el genotipo GG en el polimorfismo rs186471, el genotipo TT en el polimorfismo rs7919248, el genotipo CC en el polimorfismo rs2231997, el genotipo AG en el polimorfismo rs581468 y el genotipo GG en el polimorfismo rs1609997, indican que existe una elevada probabilidad de que la ascendencia geográfica sea europea.
En una realización particular, el genotipo GG en el polimorfismo rs186471, el genotipo TT en el polimorfismo rs7919248, el genotipo CC en el polimorfismo rs2231997, el genotipo AA en el polimorfismo rs581468 y el genotipo AA en el polimorfismo rs1609997, indican que existe una elevada probabilidad de que la ascendencia geográfica sea África sub-sahariana.
En una realización particular, el genotipo GG en el polimorfismo rs186471, el genotipo TT en el polimorfismo rs7919248, el genotipo CC en el polimorfismo rs2231997, el genotipo AA en el polimorfismo rs581468 y el genotipo AG en el polimorfismo rs1609997, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Oriente Próximo y Norte de África.
En una realización particular, el genotipo GG en el polimorfismo rs186471, el genotipo TT en el polimorfismo rs7919248, el genotipo CC en el polimorfismo rs2231997, el genotipo AG en el polimorfismo rs581468 y el genotipo AG en el polimorfismo rs1609997, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Centro y Sur de Asia.
En una realización particular, el genotipo AA en el polimorfismo rs186471, el genotipo TG en el polimorfismo rs7919248, el genotipo TC en el polimorfismo rs2231997, el genotipo GG en el polimorfismo rs581468 y el genotipo AA en el polimorfismo rs1609997, indican que existe una elevada probabilidad de que la ascendencia geográfica sea este de Asia.
En una realización particular, el genotipo AG en el polimorfismo rs186471, el genotipo GG en el polimorfismo rs7919248, el genotipo CC en el polimorfismo rs2231997, el genotipo GG en el polimorfismo rs581468 y el genotipo AA en el polimorfismo rs1609997, indican que existe una elevada probabilidad de que la ascendencia geográfica sea América.
En una realización particular, el genotipo AA en el polimorfismo rs186471, el genotipo TG en el polimorfismo rs7919248, el genotipo TT en el polimorfismo rs2231997, el genotipo GG en el polimorfismo rs581468 y el genotipo AA en el polimorfismo rs1609997, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Oceanía.
(ii) El grupo formado por los polimorfismos:
- rs1765857, localizado en el gen LOC105370158 y que corresponde a
la secuencia
TCTTATGAAAGATGTGCCAATTAAT[A/G]CGATGCTGCATTTTCTTA CTATTCC, de SEQ ID NO: 13,
- rs10497520, localizado en el gen TTN y que corresponde a la secuencia
AATCCAGGTGCTGTTTCTCCAACTT[C/T]AGGTTCTTGAACAAATGC AGTC, de SEQ ID NO: 14,
- rs9552445, localizado en el gen MICU2 y que corresponde a la secuencia
TACAAATAAACAAGGTAGTTCTACA[A/G]CAGCATTCTAGGCATTTG CCCT, de SEQ ID NO: 15,
- rs12880675, que corresponde a la secuencia GAACTAATTATTTTATTGATTCAAG[C/G/T]AGCAATGGTTCTAAATC AGA, de SEQ ID NO: 16 y
- rs350886, localizado en el gen MAK2K2, y que corresponde a la
secuencia
GAGCCCCCAGGCGATGGCGGCTCTC[A/G]CCAAAAGGAAGGAGA GTGAGGC, de SEQ ID NO: 17.
En una realización particular, el genotipo AA en el polimorfismo rs1765857, el genotipo CC en el polimorfismo rs10497520, el genotipo AA en el polimorfismo
rs9552445, el genotipo CC en el polimorfismo rs12880675 y el genotipo GG en el
polimorfismo rs350886, indican que existe una elevada probabilidad de que la ascendencia geográfica sea europea.
En una realización particular, el genotipo AA en el polimorfismo rs1765857, el genotipo TT en el polimorfismo rs10497520, el genotipo AA en el polimorfismo rs9552445, el genotipo CC en el polimorfismo rs12880675 y el genotipo AA en el polimorfismo rs350886, indican que existe una elevada probabilidad de que la ascendencia geográfica sea África sub-sahariana.
En una realización particular, el genotipo AA en el polimorfismo rs1765857, el genotipo CC en el polimorfismo rs10497520, el genotipo AA en el polimorfismo
rs9552445, el genotipo CC en el polimorfismo rs12880675 y el genotipo AG en el
polimorfismo rs350886, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Oriente Próximo y Norte de África.
En una realización particular, el genotipo AA en el polimorfismo rs1765857, el genotipo CC en el polimorfismo rs10497520, el genotipo AA o AG en el polimorfismo rs9552445, el genotipo CC en el polimorfismo rs12880675 y el genotipo GG en el polimorfismo rs350886, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Centro y Sur de Asia.
En una realización particular, el genotipo GG en el polimorfismo rs1765857, el genotipo TT en el polimorfismo rs10497520, el genotipo GG en el polimorfismo rs9552445, el genotipo TT en el polimorfismo rs12880675 y el genotipo GG en el polimorfismo rs350886, indican que existe una elevada probabilidad de que la ascendencia geográfica sea este de Asia.
En una realización particular, el genotipo GG en el polimorfismo rs1765857, el genotipo TT en el polimorfismo rs10497520, el genotipo AG en el polimorfismo rs9552445, el genotipo CC en el polimorfismo rs12880675 y el genotipo GG en el polimorfismo rs350886, indican que existe una elevada probabilidad de que la ascendencia geográfica sea América.
En una realización particular, el genotipo AG en el polimorfismo rs1765857, el genotipo TT en el polimorfismo rs10497520, el genotipo GG en el polimorfismo
rs9552445, el genotipo TT en el polimorfismo rs12880675 y el genotipo AG en el polimorfismo rs350886, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Oceanía.
(iii) El grupo formado por los polimorfismos:
- rs2384319, localizado en el gen KIF3C y que corresponde a la secuencia
ACCGTGTTTTGTTTCTTTAACTGGC[G/T]TTGCTGTGCAGCATCTTT GTGC, de SEQ ID NO: 18,
- rs7919248, que se ha definido previamente,
- rs2389736, localizado en el gen KCNH7 y que corresponde a la secuencia
AGTGGTTGGTTTCATCTTTCACTGA[A/G]GTTTGTAGATACTGTCAA CCCT, de SEQ ID NO: 19,
- rs2166624, localizado en el gen LOC105370176 y que corresponde a
la secuencia
TGTTTCAGACATCTAATTATAAGAC[A/G]TTACCACCTGTACATTCT ATAG, de SEQ ID NO: SEQ ID NO: 20 y
- rs2268969, localizado en el gen ACTN1 y que corresponde a la secuencia
TGAGGCCAGCCAGGGTCATGGCTCC[C/T]GCCTCCTCCTTCTGTG CCCCTC, de SEQ ID NO: 21.
En una realización particular, el genotipo TT en el polimorfismo rs2384319, el genotipo TT en el polimorfismo rs7919248, el genotipo GG en el polimorfismo rs2389736, el genotipo AG en el polimorfismo rs2166624 y el genotipo TT en el polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea europea.
En una realización particular, el genotipo TT en el polimorfismo rs2384319, el genotipo TT en el polimorfismo rs7919248, el genotipo AA en el polimorfismo rs2389736, el genotipo GG en el polimorfismo rs2166624 y el genotipo TT en el polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea África sub-sahariana.
En una realización particular, el genotipo TT en el polimorfismo rs2384319, el genotipo TT en el polimorfismo rs7919248, el genotipo GG en el polimorfismo rs2389736, el genotipo GG en el polimorfismo rs2166624 y el genotipo TT en el polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Oriente Próximo y Norte de África.
En una realización particular, el genotipo TT en el polimorfismo rs2384319, el genotipo TT en el polimorfismo rs7919248, el genotipo GG en el polimorfismo rs2389736, el genotipo AG en el polimorfismo rs2166624 y el genotipo TC en el polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Centro y Sur de Asia.
En una realización particular, el genotipo GG en el polimorfismo rs2384319, el genotipo TG en el polimorfismo rs7919248, el genotipo AG en el polimorfismo rs2389736, el genotipo AG en el polimorfismo rs2166624 y el genotipo CC en el polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea este de Asia.
En una realización particular, el genotipo GG en el polimorfismo rs2384319, el genotipo GG en el polimorfismo rs7919248, el genotipo AA en el polimorfismo rs2389736, el genotipo AA en el polimorfismo rs2166624 y el genotipo TC en el polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea América.
En una realización particular, el genotipo TT en el polimorfismo rs2384319, el genotipo TG en el polimorfismo rs7919248, el genotipo AA en el polimorfismo rs2389736, el genotipo GG en el polimorfismo rs2166624 y el genotipo CC en el polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Oceanía.
(iv) El grupo formado por los polimorfismos:
- rs6542787, localizado en el gen EDAR y que corresponde a la secuencia
GAGAACAGAAAGTTGGCACCTTAAA[A/G]TATTTGTGGTGTGATGG AGACG de SEQ ID NO: 22,
- rs7919248, que se ha definido previamente,
- rs261532, localizado en el gen UBE2D2 y que corresponde a la secuencia
GTCTGAATTGAGAACCTGGATTTCT[G/T]GACTGTCCAGTGTATTTT CTGG, de SEQ ID NO: 23,
- rs5996039, localizado en el gen PMM1 y que corresponde a la secuencia
GTGCTCAAGTGTTTGTCAAATCAGT[A/G]AGGGAACTATCTGGCTG CTCTC de SEQ ID NO: 24, y
- rs2268969, que se ha definido previamente.
En una realización particular, el genotipo AA en el polimorfismo rs6542787, el genotipo TT en el polimorfismo rs7919248, el genotipo GG en el polimorfismo
rs261532, el genotipo AA en el polimorfismo rs5996039 y el genotipo TT en el
polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea europea.
En una realización particular el genotipo AG en el polimorfismo rs6542787, el genotipo TT en el polimorfismo rs7919248, el genotipo TT en el polimorfismo
rs261532, el genotipo GG en el polimorfismo rs5996039 y el genotipo TT en el
polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea África sub-sahariana.
En una realización particular, el genotipo AA en el polimorfismo rs6542787, el genotipo TT en el polimorfismo rs7919248, el genotipo TG en el polimorfismo
rs261532, el genotipo AA en el polimorfismo rs5996039 y el genotipo TT en el
polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Oriente Próximo y Norte de África.
En una realización particular, el genotipo AA en el polimorfismo rs6542787, el genotipo TT en el polimorfismo rs7919248, el genotipo GG en el polimorfismo
rs261532, el genotipo AG en el polimorfismo rs5996039 y el genotipo TC en el
polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Centro y Sur de Asia.
En una realización particular, el genotipo GG en el polimorfismo rs6542787, el genotipo TG en el polimorfismo rs7919248, el genotipo GG en el polimorfismo rs261532, el genotipo AA en el polimorfismo rs5996039 y el genotipo CC en el polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea este de Asia.
En una realización particular, el genotipo GG en el polimorfismo rs6542787, el genotipo GG en el polimorfismo rs7919248, el genotipo GG en el polimorfismo rs261532, el genotipo GG en el polimorfismo rs5996039 y el genotipo TC en el polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea América.
En una realización particular, el genotipo GG en el polimorfismo rs6542787, el genotipo TG en el polimorfismo rs7919248, el genotipo TT en el polimorfismo rs261532, el genotipo AA en el polimorfismo rs5996039 y el genotipo CC en el polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Oceanía.
(v) El grupo formado por los polimorfismos:
- rs6542787, que se ha definido previamente,
- rs7919248, que se ha definido previamente,
- rs261532, que se ha definido previamente,
- rs8139993, localizado en el gen DESI1 y que corresponde a la secuencia
CCAAAATCTAACTAATGGAGGTTCA[C/T]GTGAAGAGAGGGAATCT GAAAG, de SEQ ID NO: 25, y
- rs2268969, que se ha definido previamente.
En una realización particular, el genotipo AA en el polimorfismo rs6542787, el genotipo TT en el polimorfismo rs7919248, el genotipo GG en el polimorfismo
rs261532, el genotipo TT en el polimorfismo rs8139993 y el genotipo TT en el
polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea europea.
En una realización particular, el genotipo AG en el polimorfismo rs6542787, el genotipo TT en el polimorfismo rs7919248, el genotipo TT en el polimorfismo
rs261532, el genotipo CC en el polimorfismo rs8139993 y el genotipo TT en el
polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea África sub-sahariana.
En una realización particular, el genotipo AA en el polimorfismo rs6542787, el genotipo TT en el polimorfismo rs7919248, el genotipo TG en el polimorfismo
rs261532, el genotipo TT en el polimorfismo rs8139993 y el genotipo TT en el
polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Oriente Próximo y Norte de África.
En una realización particular, el genotipo AA en el polimorfismo rs6542787, el genotipo TT en el polimorfismo rs7919248, el genotipo GG en el polimorfismo
rs261532, el genotipo TT en el polimorfismo rs8139993 y el genotipo CC en el
polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Centro y Sur de Asia.
En una realización particular, el genotipo GG en el polimorfismo rs6542787, el genotipo TG en el polimorfismo rs7919248, el genotipo GG en el polimorfismo
rs261532, el genotipo TC en el polimorfismo rs8139993 y el genotipo TC en el
polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea este de Asia.
En una realización particular, el genotipo GG en el polimorfismo rs6542787, el genotipo GG en el polimorfismo rs7919248, el genotipo GG en el polimorfismo rs261532, el genotipo CC en el polimorfismo rs8139993 y el genotipo TC en el
polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea América.
En una realización particular, el genotipo GG en el polimorfismo rs6542787, el genotipo TG en el polimorfismo rs7919248, el genotipo TT en el polimorfismo rs261532, el genotipo TT en el polimorfismo rs8139993 y el genotipo CC en el polimorfismo rs2268969, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Oceanía.
(vi) El grupo formado por los polimorfismos:
- rs3784651, localizado en el gen MCTP2 y que corresponde con la secuencia
CCCAGGCCTGAAAGGCCAGAACTCA[C/T]AAAGGGAATACTGACTT TGTAG de SEQ ID NO: 26,
- rs10497520, que se ha definido previamente,
- rs261532, que se ha definido previamente,
- rs12880675, que se ha definido previamente y
- rs4742634, localizado en el gen PTPRD y que corresponde a la secuencia
GAATTTGAGTTCACCATATCTACAT[C/T]GCTGGCAGTAAGACATA GAAAA, de SEQ ID NO: 27.
En una realización particular, el genotipo TT en el polimorfismo rs3784651, el genotipo CC en el polimorfismo rs10497520, el genotipo GG en el polimorfismo rs261532, el genotipo CC en el polimorfismo rs12880675 y el genotipo CC en el polimorfismo rs4742634, indican que existe una elevada probabilidad de que la ascendencia geográfica sea europea.
En una realización particular, el genotipo CC en el polimorfismo rs3784651, el genotipo TT en el polimorfismo rs10497520, el genotipo TT en el polimorfismo rs261532, el genotipo CC en el polimorfismo rs12880675 y el genotipo TT en el polimorfismo rs4742634, indican que existe una elevada probabilidad de que la ascendencia geográfica sea África sub-sahariana.
En una realización particular, el genotipo TT en el polimorfismo rs3784651, el genotipo CC en el polimorfismo rs10497520, el genotipo TG en el polimorfismo rs261532, el genotipo CC en el polimorfismo rs12880675 y el genotipo TC en el polimorfismo rs4742634, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Oriente Próximo y Norte de África.
En una realización particular, el genotipo TC en el polimorfismo rs3784651, el genotipo CC en el polimorfismo rs10497520, el genotipo GG en el polimorfismo
rs261532, el genotipo CC en el polimorfismo rs12880675 y el genotipo TC en el polimorfismo rs4742634, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Centro y Sur de Asia.
En una realización particular, el genotipo CC en el polimorfismo rs3784651, el genotipo TT en el polimorfismo rs10497520, el genotipo GG en el polimorfismo
rs261532, el genotipo TT en el polimorfismo rs12880675 y el genotipo TT en el
polimorfismo rs4742634, indican que existe una elevada probabilidad de que la ascendencia geográfica sea este de Asia.
En una realización particular, el genotipo TT en el polimorfismo rs3784651, el genotipo TT en el polimorfismo rs10497520, el genotipo GG en el polimorfismo
rs261532, el genotipo CC en el polimorfismo rs12880675 y el genotipo TT en el
polimorfismo rs4742634, indican que existe una elevada probabilidad de que la ascendencia geográfica sea América.
En una realización particular, el genotipo CC en el polimorfismo rs3784651, el genotipo TT en el polimorfismo rs10497520, el genotipo TT en el polimorfismo rs261532, el genotipo TT en el polimorfismo rs12880675 y el genotipo TT en el polimorfismo rs4742634, indican que existe una elevada probabilidad de que la ascendencia geográfica sea Oceanía.
La determinación del genotipo de los polimorfismos del método de la invención se lleva a cabo en ambos alelos por medio de diversos procesos conocidos por una persona experta en la materia. En algunas realizaciones, por ejemplo, cuando la determinación de la secuencia de los SNP se lleva a cabo en una muestra de sangre completa, dicha muestra puede utilizar directamente para la detección de dicho SNP. En otras realizaciones, se extrae el material genético de las células que están presentes en un fluido biológico (por ejemplo, sangre periférica, saliva, fluido sinovial, etc.) como una etapa inicial, y, en tales casos, el material genético total que se extrae a partir de dichas muestras representa el material de trabajo adecuado para la posterior amplificación. El aislamiento del material genético de la muestra se puede realizar por métodos conocidos por la persona experta en la técnica. Dichos métodos se pueden encontrar, por ejemplo, en Sambrook et al., 2001. "Molecular cloning: a Laboratory Manual", 3rd ed., Cold Spring Harbor Laboratory Press, N.Y., Vol. 1-3. Además, en algunas realizaciones, la generación de ácidos nucleicos para el análisis de muestras requiere amplificación de ácido nucleico. Muchos métodos de amplificación se basan en una reacción en cadena enzimática tal como, por ejemplo, una reacción en cadena de la polimerasa (PCR), una reacción en cadena de la ligasa (LCR), o una replicación de secuencia autosostenida, amplificación circular, etc.; esta
lista es meramente ilustrativa y en modo alguno limitativa. Métodos de amplificación de ácidos nucleicos se describen en Sambrook et al., 2001 (citado en supra).
Después de aislar y amplificar (si es necesario) el ácido nucleico, se detectan las secuencias de los diferentes SNP del método de la invención. La determinación de las secuencias de los SNP según el método de la invención se puede llevar a cabo mediante cualquier método adecuado, los cuales son conocidos por el experto en la materia, como por ejemplo mediante la realización de secuenciación, mini- secuenciación, hibridación, análisis de fragmentos de restricción, ensayo de ligación de oligonucleótidos, PCR específica de alelo, o una combinación de los mismos. Como tal, los sistemas y métodos para la detección de SNP, en general incluyen, pero no se limitan a, secuenciación de ácidos nucleicos, métodos de hibridación y la tecnología de matriz (por ejemplo, la tecnología disponible de Aclara BioSciences, Affymetrix, Agilent Technologies, Illumina Inc., etc); también se pueden utilizar las técnicas basadas en el cambio de movilidad de los fragmentos de ácido nucleico amplificados, como por ejemplo Single Stranded Conformational Polymorphism (SSCP), denaturing gradient gel electrophoresis (DGGE), Chemical Mismatch Cleavage (CMC), Restriction Fragment Polymorphisms (RFLPs), WAVE analysis y similares (Methods Mol. Med. 2004; 108: 173-88). Por supuesto, esta lista es meramente ilustrativa y en modo alguno limitativa. Como es evidente en la técnica, la secuencia de dichos SNP puede ser determinada a partir de cualquiera de las cadenas de ácido nucleico o de ambas cadenas.
En una realización particular, la determinación de la secuencia de los SNP según el método de la invención se lleva a cabo por PCR en tiempo real.
En una realización particular, el método de la invención comprende, para cada uno de los SNP, la puesta en contacto de la muestra que contiene material genético con un ácido nucleico que hibrida de forma selectiva con una región genómica que comprende dicho SNP. En una realización más particular, la muestra que contiene el material genético se somete a un proceso de amplificación de ácidos nucleicos previamente a la puesta en contacto con el ácido nucleico que hibrida de forma selectiva con una región genómica que comprende el polimorfismo, de forma que dicha amplificación se lleve a cabo sobre las regiones genómicas que contienen los polimorfismos a detectar. En una realización aún más particular, el ácido nucleico es un cebador y el método comprende la extensión del cebador usando como la región genómica que comprende el polimorfismo. El término "cebador", tal y como aquí se utiliza, se refiere a un oligonucleótido que actúa para iniciar la síntesis de una hebra de ácido nucleico complementaria. La extensión se puede llevar a cabo mediante una
reacción uniplex, es decir, llevando a cabo la extensión independiente de cada cebador para cada uno de los SNP que se van a detectar, o mediante una reacción multiplex, es decir, llevando a cabo la extensión simultánea de varios cebadores, correspondientes a varios SNP. En una realización preferida, la extensión del cebador es una reacción de extensión multiplex.
En una realización particular, la etapa de determinar la ascendencia geográfica del sujeto comprende calcular para cada división geográfica la suma de los logaritmos de las probabilidades de asignación a cada división geográfica en base al genotipo de los dos alelos determinado en cada SNP, en donde existe una elevada probabilidad de que las ascendencia geográfica de dicho sujeto sea aquella para la cual dicha suma de logaritmos es mayor, en donde las divisiones geográficas son Europa, África subsahariana, Oriente Próximo y Norte de África, Centro-Sur de Asia, Este de Asia, América y Oceanía, y en donde las probabilidades de asignación de una muestra a cada división geográfica para cada genotipo de cada SNP son las frecuencias de dichos genotipos en una población control.
El término "población control", tal y como aquí se utiliza, se refiere a un grupo de sujetos que comparten una ascendencia geográfica conocida. La población control preferiblemente está formada por al menos 25 sujetos. En una realización particular, la población control se obtiene de los individuos que conforman el Human Genome Diversity Panel (HGDP) (Li et al. Science 319, 2008: 1100-4). En una realización más particular, las probabilidades de asignación de una muestra a cada división geográfica para cada genotipo de cada SNP son las que figuran en la Tabla 1.
En una realización particular, la confianza de dicha asignación se calcula de la forma siguiente:
X = BestFact*v1si + (1.0 - BestFact)*(v1st - v2nd)
en donde
BestFact tiene un valor de 0,1
v1st es la mayor suma de los logaritmos de probabilidades de asignación de la muestra del sujeto a cada una de las divisiones geográficas en base al genotipo de cada SNP
v2nd es la segunda mayor suma de los logaritmos de probabilidades de asignación de la muestra del sujeto a cada una de las divisiones geográficas en base al genotipo de cada SNP.
(O CN co CN 00 £ | O O | o io sf o" | C\l sr CD o" | 669`0 | C\l co o" | 00 CN O o" | co CN o" | o o o o" | Ü2 ro i 1 O o .. o |
| O < | co ^r o" | 00 lO o o" | lO C\l o" | o 00 co o" | sr lO CN o" | 00 CN lO o" | o" | | LU ^ LU o ^ o ro ro ro -jz W ,0 R E w < ro c LU D LL.. < ro w ro < CL o 3 <D m 73 é 0 \ +-» |
| < < | 00 00 o o" | o o o o" | lO sr o o" | D~ CD C\l o" | 00 o" | CD lO CN o" | CD 00 00 o" | CN CN l-~ CN CN S2 | o o | 00 co o" | o o o | lO r- o" | CN CD co o" | CD co o o" | lO co o o" | co 00 o o" | |
h~ m 00 co CN S2 | o o | co co o" | co 00 CD o" | co o lO o" | lO o" | r- co CD o" | CD O o" | o o o | | o < | 00 co sr o" | o o o o" | lO o CN o" | co ¡s o" | CD o co o" | lO 00 o" | s co o" | |
| o 1- | CD d' | r- o o" | 00 co o" | CD 00 o" | co co o o" | sr CD o" | o o o o" | | | | | | | | | | |
| | | | | | | | | | < < | 00 o" | o o o o" | o sr o o" | lO CD o o" | CN lO co o" | o lO o" | co lO lO o" | |
| 1- | sr CD o" | o o o o" | CD | lO sr o o" | o o o o" | 00 o" | o o o o" | | | | | | | | | | |
| | | | | | | | | 00 00 co | o o | m CN lO o" | o o o o" | s CN o" | 00 sr co o" | 00 co r- o" | CN CN r- o" | o o o o" | LU LU CL w S ro uj TD ro ü co 0 w T3 < o ~ 0 O T3 c 0 O) - m co ro A TD o ro o c 0 -g O c :2 < ü 7n g Q CD 0 cí 0 o T3 *= TD '<~ ro 2 0 ro o s 0- O z ra >, JO ro 1 o E X `O CL |
o> h~ f-~ f-~ o> S2 | o o | co lO D~ o" | o o o o" | lO lO sr o" | co lO sr o" | co lO sr o" | CN CD o" | 00 CN o o" | | | | | | | | | | |
| | | | | | | | | | o < | co co co o" | r- o o" | co co sr o" | o co sr o" | CN CN o" | CD lO CN o" | 00 r- CN o" | |
| o 1- | co C\l o" | sr o o" | CD o sr o" | co 00 co o" | co sr o" | lO O o" | o lO CN o" | o CV| S2 | | | | | | | | | |
| | | | | | | | | | < < | co o" | co 00 CD o" | co CN o" | CN CN CN o" | o o" | CD o o" | CN CN r- o" | |
| 1- | co o o" | CD lO CD o" | co co o" | 00 lO o" | co o" | CD O O o" | CN CN r- o | | | | | | | | | | |
| | | | | | | | | CN | o o | o lO lO o" | co 00 CD o" | lO co 00 o" | lO 00 CN o" | co co o o" | o o o o" | CN r- sr o" | |
(O o h~ m CN £ | o o | co 0~ | r- sr o" | 00 sr co o" | co C\l co o" | o" | O O O o" | o o o o" | | | | | | | | | | |
| | | | | | | | | | o < | lO co o" | r- o o" | co lO o" | CD | r- CD sr o" | o CN o" | co o co o" | |
| o < | CD | lO lO co o" | o co o" | o co sr o" | r- CD sr o" | r- co o" | 00 CN o o" | co o co l-~ S2 | | | | | | | | | |
| < < | co o o" | sr r- o" | lO sr o o" | sr C\l o" | co CN co o" | co co 00 o" | CN r- CD o" | | < < | lO o o" | o o o o" | o o" | CN CN CN o" | co co sr o" | o 00 00 o" | CN CN CN o" | |
| c `O o ro JO o CL | ai LU | o: u_ < | < LU | < O | co < LU | LU < | LU o o | | c `O o ro JO o CL | 0Ü LU | 0Ü LL < | < LU | < co o | co < LU | LU < | LU o o | |
En una realización particular, la etapa (ii) del método de la invención se lleva a cabo mediante un ordenador programable. Dicho ordenador programable puede comprender, entre otros, un procesador, un sistema de almacenamiento de datos (incluyendo una memoria volátil y no volátil y/o elementos de almacenamiento), al menos un dispositivo de entrada y al menos un dispositivo de salida.
Kit de la invención y uso del kit de la invención
En otro aspecto, la presente invención se refiere a un kit, en adelante "kit de la invención", que comprende reactivos adecuados para la detección de las secuencia de los polimorfismos de un solo nucleótido (SNP) rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388, y rs2427622, en donde dichos reactivos se seleccionan del grupo formado por
(i) un conjunto de parejas de cebadores adecuados para amplificar las regiones genómicas que comprenden dichos SNP o fragmentos de las mismas que contienen dichos SNP o las secuencias complementarias de las mismas y
(ii) un conjunto de sondas que hibridan con las regiones genómicas que comprenden las secuencias de dichos SNP o con las secuencias complementarias de las mismas, en donde dichas sondas hibridan de forma específica con una de las variantes de dichos SNP.
Los términos "polimorfismo de un solo nucleótido", y los SNP rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388 y rs2427622 se han definido previamente en relación con el método de la invención.
En una realización particular, el kit de la invención comprende un conjunto de cebadores adecuados para amplificar
(i) las regiones genómicas que comprenden los SNP que se van a detectar o
(ii) fragmentos de las regiones genómicas que comprenden dichos SNP o
(iii) secuencias complementarias de las mismas.
El término "cebador" se ha definido previamente en relación con el método de la invención.
En otra realización particular, el kit de la invención comprende un conjunto de sondas que hibridan con
(i) las regiones genómicas que comprenden las secuencias de los SNP que se van a detectar o
(ii) secuencias complementarias de las mismas,
en donde dichas sondas hibridan de forma específica con una de las variantes de dichos SNP.
El término "sonda", tal y como aquí se utiliza, se refiere a un oligonucleótido marcado o sin marcar capaz de hibridar selectivamente con un ácido nucleico diana o molde en condiciones adecuadas. Las sondas que pueden formar parte del kit de la invención son sondas capaces de discriminar entro los diferentes alelos o variantes de cada SNP, es decir, sondas que hibridan de forma específica con una de las variantes de los SNP que van a ser detectados.
En una realización particular, los cebadores o sondas adecuados para la detección de las secuencia de los SNP rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388, y rs2427622 representan al menos el 10%, al menos el 20%, al menos el 30%, al menos el 40%, al menos el 50%, al menos el 60%, al menos el 70%, al menos el 80% o al menos el 90%, al menos el 95%, o al menos el 99% de los cebadores y/o sondas incluidos en el kit.
El kit de la invención puede incluir los reactivos en contenedores adecuados y materiales de embalaje, incluyendo tubos, viales, envases de plástico o similares, Además, el kit de la invención puede contener instrucciones para el uso simultáneo, secuencial o separado de los distintos componentes que se encuentran en el kit. Dichas instrucciones pueden estar en forma de material impreso o en forma de un soporte electrónico capaz de almacenar instrucciones de manera que puedan ser leídas por un sujeto, tales como medios de almacenamiento electrónico (discos magnéticos, cintas y similares), medios ópticos (CD-ROM, DVD) y similares. Adicionalmente o alternativamente, los medios pueden contener las direcciones de Internet que proporcionen dichas instrucciones.
En una realización particular, el kit de la invención comprende adicionalmente reactivos adecuados para la detección de las secuencias de un grupo de 5 polimorfismos adicionales, en donde dicho grupo se seleccionado del grupo formado
por: | | |
(i) | el grupo formado por los polimorfismos rs186471, rs581468 y rs1609997, | rs7919248, rs2231997, |
(ii) | el grupo formado por los polimorfismos rs1765857, rs10497520, rs9552445, rs12880675 y rs350886, |
(iii) | el grupo formado por los polimorfismos los rs2384319, rs2166624 y rs2268969, | rs7919248, rs2389736, |
(iv) | el grupo formado por los polimorfismos rs6542787, rs5996039 y rs2268969, | rs7919248, rs261532, |
(v) | el grupo formado por los polimorfismos rs6542787, rs8139993 y rs2268969 y | rs7919248, rs261532, |
(vi) el grupo formado por los polimorfismos rs3784651, rs10497520, rs261532, rs12880675 y rs4742634
en donde dichos reactivos se seleccionan del grupo formado por
(i) un conjunto de parejas de cebadores adecuados para amplificar las regiones genómicas que comprenden dichos SNP o fragmentos de las mismas que contienen dichos SNP o las secuencias complementarias de las mismas y
(ii) un conjunto de sondas que hibridan con las regiones genómicas que comprenden las secuencias de dichos SNP o con las secuencias complementarias de las mismas, en donde dichas sondas hibridan de forma específica con una de las variantes de dichos SNP.
Los polimorfismos rs186471, rs7919248, rs2231997, rs581468, rs1609997, rs1765857, rs10497520, rs9552445, rs12880675, rs350886, rs2384319, rs2389736, rs2166624, rs2268969, rs6542787, rs261532, rs5996039, rs8139993, rs3784651 y rs4742634 se han definido previamente en relación con el método de la invención.
En una realización particular, los cebadores o sondas adecuados para la detección de las secuencia de los SNP rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388 y rs2427622 y las secuencias de uno de los grupos de 5 polimorfismos (i) a (vi) representan al menos el 10%, al menos el 20%, al menos el 30%, al menos el 40%, al menos el 50%, al menos el 60%, al menos el 70%, al menos el 80% o al menos el 90%, al menos el 95%, o al menos el 99% de los cebadores y/o sondas incluidos en el kit.
En otro aspecto, la invención se refiere al uso del kit de la invención para determinar la ascendencia geográfica de un sujeto. Los términos "determinar la ascendencia geográfica" y "sujeto" han sido previamente definidos en relación con el método de la invención.
En una realización particular del uso del kit de la invención permite determinar, con una elevada probabilidad, la ascendencia geográfica del sujeto en función de la el genotipo presente en cada uno de los polimorfismos rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388, y rs2427622. El término "el genotipo" y "elevada probabilidad" han sido previamente definidos en relación con el método de la invención.
Así, en una realización particular,
- el genotipo GG en el polimorfismo rs1257016,
- el genotipo CC en el polimorfismo rs971779,
- el genotipo TC en el polimorfismo rs238547,
- el genotipo AG en el polimorfismo rs1482326,
- el genotipo CC en el polimorfismo rs4760332,
- el genotipo GG en el polimorfismo rs2104388 y
- el genotipo AG en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica del sujeto es europea.
En otra realización particular,
- el genotipo GG en el polimorfismo rs1257016,
- el genotipo TT en el polimorfismo rs971779,
- el genotipo CC en el polimorfismo rs238547,
- el genotipo GG en el polimorfismo rs1482326,
- el genotipo CC en el polimorfismo rs4760332,
- el genotipo AA en el polimorfismo rs2104388 y
- el genotipo GG en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica es África sub-sahariana,
En otra realización particular,
- el genotipo GG en el polimorfismo rs1257016,
- el genotipo CC en el polimorfismo rs971779,
- el genotipo CC en el polimorfismo rs238547,
- el genotipo GG en el polimorfismo rs1482326,
- el genotipo CC en el polimorfismo rs4760332,
- el genotipo AG en el polimorfismo rs2104388 y
- el genotipo GG en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica es Oriente Próximo y Norte de África.
En otra realización particular,
- el genotipo AG en el polimorfismo rs1257016,
- el genotipo CC en el polimorfismo rs971779,
- el genotipo CC en el polimorfismo rs238547,
- el genotipo AG en el polimorfismo rs1482326,
- el genotipo AC en el polimorfismo rs4760332,
- el genotipo AG en el polimorfismo rs2104388 y
- el genotipo AG en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica es Centro y Sur de Asia.
En otra realización particular,
- el genotipo AG en el polimorfismo rs1257016,
- el genotipo CC en el polimorfismo rs971779,
- el genotipo CC en el polimorfismo rs238547,
- el genotipo AA en el polimorfismo rs1482326,
- el genotipo AC en el polimorfismo rs4760332,
- el genotipo GG en el polimorfismo rs2104388 y
- el genotipo AA en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica es el este de Asia.
En otra realización particular,
- el genotipo AA en el polimorfismo rs1257016,
- el genotipo CC en el polimorfismo rs971779,
- el genotipo TT en el polimorfismo rs238547,
- el genotipo AG en el polimorfismo rs1482326,
- el genotipo AA en el polimorfismo rs4760332,
- el genotipo GG en el polimorfismo rs2104388 y
- el genotipo AA en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica es de América.
En otra realización particular,
- el genotipo AA en el polimorfismo rs1257016,
- el genotipo TT en el polimorfismo rs971779,
- el genotipo CC en el polimorfismo rs238547,
- el genotipo AA en el polimorfismo rs1482326,
- el genotipo CC en el polimorfismo rs4760332,
- genotipo AA en el polimorfismo rs2104388 y
- la el genotipo AA en el polimorfismo rs2427622
indican que existe una elevada probabilidad de que la ascendencia geográfica es Oceanía.
En una realización particular, elevada probabilidad es de al menos un 70%, preferiblemente al menos un 75%.
Medio leíble por ordenador de la invención
En otro aspecto la invención se relaciona con un medio leíble por ordenador, en adelante "medio leíble por ordenador de la invención" que contiene instrucciones ejecutables que, al ejecutarse, resultan en
(i) la recepción por al menos un procesador del genotipo de un sujeto en los dos alelos de los polimorfismos rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388, y rs2427622 y
(ii) proporcionar una indicación sobre la probabilidad de que un sujeto tenga una determinada ascendencia geográfica.
El término "medio leíble por ordenador", tal y como aquí se utiliza, se refiere a medios de almacenamiento físicos, incluyendo realización de la invención pueden incluir cualquier medio de almacenamiento leíble por ordenador físico, por ejemplo memoria en estado sólido (tal como memoria flash), medios y dispositivos de almacenamiento leíbles por ordenador magnéticos y ópticos, y memoria que usa otras tecnologías de almacenamiento persistente. En algunas formas de realización, un medio leíble por ordenador puede ser cualquier medio tangible que permita que el ordenador acceda a datos y programas informáticos. Los medios leíbles por ordenador pueden incluir medios tangibles volátiles y no volátiles, eliminables o no eliminables implementados en cualquier método o tecnología capaz de almacenar información tal como instrucciones leíbles por ordenador, módulos de programas, programas, datos, estructuras de datos, e información de bases de datos. En algunas formas de realización de la invención, medio leíble por ordenador incluye, pero no está limitado a, RAM (memoria de acceso aleatorio), ROM (memoria de lectura solo), EPROM (memoria de lectura solo programable borrable), EEPROM (memoria de lectura solo programable borrable eléctricamente), memoria flash u otra tecnología de memoria, CD-ROM (memoria de lectura solo en disco compacto), DVD (discos versátiles digitales) u otro medio de almacenamiento óptico, casetes magnéticos, cinta magnética, almacenamiento de disco magnético u otro medio de almacenamiento magnético, otros tipos de memoria volátil y no volátil, y cualquier otro medio tangible que se pueda usar para almacenar información y que pueda leer un ordenador incluyendo cualquier combinación adecuada de los anteriores.
El término "procesador", tal y como aquí se utiliza, se refiere al dispositivo que interpreta las instrucciones de un programa informático mediante la realización de operaciones aritméticas, lógicas y de entrada/salida del sistema.
Los términos "polimorfismo de un solo nucleótido", "sujeto" y "ascendencia geográfica" y los SNP rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388 y rs2427622 se han definido previamente en relación con el método de la invención.
Ejemplo
Los autores de la presente invención han desarrollado una solución eficiente para la asignación no supervisada y precisa de individuos a su origen poblacional reciente, de entre una de las siete divisiones principales de la población mundial, basado en una prueba de ADN consistente en la determinación de un mínimo de 7 SNP con características de AIM. Para la deducción de este panel y su identificación como conjunto óptimos de AIM se aplicó un método heurístico combinatorio propio a datos genéticos de gran calidad obtenidos de 642.690 SNP autosómicos determinados en ADN de 938 sujetos de diversas poblaciones (Li et al, Science 319, 2008: 1100-4). Las muestras de ADN se coleccionaron de sujetos sin relación de parentesco de 52 poblaciones del mundo como parte de estudios del Proyecto de Diversidad del Genoma Humano del Centre dEtude du Polymorphisme Humain (HGDP-CEPH). El algoritmo empleado sortea automáticamente la posible redundancia existente entre SNP escogidos de regiones relativamente cercanas del genoma, manteniendo aquellos no redundantes para encontrar un panel eficiente sin necesitar análisis o filtros adicionales.
La estimación de la capacidad de asignación de individuos se realizó utilizando los datos de HGDP-CEPH agrupados en siete divisiones biogeográficas, tal y como han revelado diversos estudios (Li et al. Science 319, 2008: 1100-4): África subsahariana, América, Centro-Sur de Asia, Este de Asia, Europa, Cercano Oriente y Norte de África, y Oceanía. Dicho análisis no consideró las poblaciones de Japón, Kalash y Hazaras, dado su conocido comportamiento distintivo con respecto a su localización geográfica.
Conocida la frecuencia de cada uno de los alelos correspondientes a los AIM del panel en cada grupo de población de HGDP-CEPH, es fácil estimar la probabilidad de que una combinación individual cualquiera haya sido producida por azar en cada una de las siete divisiones biogeográficas (Tabla 1). Se utilizó para ello un método basado en máxima verosimilitud de los datos observados (la el genotipo de la muestra a clasificar). Nótese que existe independencia estadística entre las distribuciones de los AIM, debida al algoritmo por el que fueron seleccionados. Bajo independencia en las observaciones, dicha probabilidad resulta del producto de las probabilidades individuales y, por tanto, es posible averiguar qué subdivisión biogeográfica tiene la probabilidad más alta en la asignación sencillamente sumando los logaritmos de las probabilidades individuales para cada AIM del panel. La confianza de cada asignación se obtuvo mediante la función X con:
X = BestFact*v1si + (1.0 - BestFact)*(v1st - v2nd)
Donde v1st y v2nd son, respectivamente, la mayor y la segunda mayor suma de los logaritmos de probabilidades de asignación de la muestra concreta a las siete divisiones biogeográficas. BestFact es una constante, con valor de 0,1 tal sugirieron nuestros ensayos piloto, que permite balancear entre el valor v1st la diferencia entre v1st y v2nd. Cuando v1st y v2nd son casi iguales (lo que llevaría a plantear dudas en la asignación de una muestra sujeto), el peso de la confianza asociada a la probabilidad de asignación recae en v1st, indicando el nivel de confianza de la asignación más probable. Para el cálculo del sumando los logaritmos de las probabilidades individuales para cada AIM del panel, en caso de datos perdidos (si alguno de los genotipos ha fallado en la determinación), se asignó 1/N como probabilidad a todas las subdivisiones, siendo N el tamaño muestral de cada subdivisión. Además, para evitar divisiones por cero, en caso de no haber observaciones, se añadió una corrección de continuidad de una diezmilésima de observación a cada grupo.
Utilizando esta metodología, la validación de la capacidad de asignación del panel fue realizada subdividiendo los datos de HGDP-CEPH en una muestra de aprendizaje (que incluyó el 60% de los individuos) y una muestra de prueba (que incluyó el 40% restante). El acierto de clasificación a uno de las siete divisiones biogeográficas, es decir, la proporción de individuos de la muestra cuya asignación correspondió con la ascendencia real, fue cuantificada en un 76,3% (Figura 1). La capacidad de asignación es superior al 75% en individuos procedentes de África subsahariana, América, Este de Asia, y Oceanía, mientras que la confusión es mayor (máxima confusión de 28,7%) en la asignación de individuos de Centro-Sur de Asia, Europa, Cercano Oriente y Norte de África. Pruebas realizadas con paneles de menor tamaño tuvieron una disminuida capacidad de asignación siendo, en el mejor de los casos del 52,3% de acierto.
Se propone, por tanto, un panel mínimo de 7 AIM minuciosamente seleccionados que mantienen el máximo de información de la ascendencia biogeográfica de un sujeto, permitiendo la clasificación del 76,3% de los sujetos a la población correcta de origen mediante análisis no supervisados.
Los identificadores de referencia (números rs) de los siete SNP adscritos al panel óptimo para la asignación poblacional son: rs1257016, rs971779, rs238547, rs1482326, rs4760332, rs2104388, y rs2427622. Los análisis realizados sugieren que, además de ser determinable en reacciones uniplex, el panel consta de secuencias que facilitan la detección simultánea en reacciones multiplex.
Utilizando la misma metodología, se han seleccionado 6 combinaciones de 5 AIM (Tabla 2) que suplementan la capacidad informativa del panel mínimo de 7 AIM
para la asignación de sujetos a una de las siete subdivisiones biogeográficas. Las probabilidades de asignación de cada el genotipo de los suplementos n° 1 a n° 6 se muestran en las tablas 3 a 8.
Tabla 2. Combinaciones adicionales de AIM que suplementan la capacidad de
asignación del panel óptimo para mejorar la asignación poblacional. |
Suplemento n°1 | Suplemento n°2 | Suplemento n°3 | Suplemento n°4 | Suplemento n°5 | Suplemento n°6 |
rs186471 | rs1765857 | rs2384319 | rs6542787 | rs6542787 | rs3784651 |
rs7919248 | rs10497520 | rs7919248 | rs7919248 | rs7919248 | rs10497520 |
rs2231997 | rs9552445 | rs2389736 | rs261532 | rs261532 | rs261532 |
rs581468 | rs12880675 | rs2166624 | rs5996039 | rs8139993 | rs12880675 |
rs1609997 | rs350886 | rs2268969 | rs2268969 | rs2268969 | rs4742634 |
00 00 m S2 | O O | CD CN o" | sr o o" | lO 00 o o" | o" | lO CD 00 o" | 0,917 | o o o | |
| O < | 00 N o" | sr o" | o CN sr o" | 00 sr o" | lO o o" | lO o o" | o o o o" | |
| < < | o' | CN lO o" | CD o' | o CN o" | o o o o" | CD o o" | o o o o" | |
h~ o> 03 n CN CN S2 | 1- | CD o o" | o o o o" | o o" | CD o" | CD sr o" | lO o o" | 00 00 o" | |
| O 1- | o' | r- o o" | CN 00 o" | 00 o" | o lO sr o" | lO o" | CD | |
| o o | 00 00 ^r o" | 00 CD o" | o 00 o" | d' | o" | o o" | o o o o" | |
00 CN O3 h~ S2 | 1- | 00 00 o" | 00 00 o" | 00 00 o" | LO 0~ | o CN o" | CD o o o" | s o" | |
| o 1- | CD o" | sr CN o" | CN 00 o" | 00 sr o" | r- CD sr o" | sr o o" | CD 00 o" | |
| o o | o o o o" | 00 o o o" | o o o o" | 00 o o" | CD CN o" | CD CD | o lO CN o | |
| | | | | | | | | h~ 03 03 03 o e | o o | 00 lO o" | o o o o" | sr o" | o sr o" | o o o o" | 00 CN o o" | o o o o" |
(O 00 £ | o o | 00 o" | lO CN sr o" | r- o 00 o" | o o lO o" | o CD | CN CN CN o" | 00 CN o o" | | | | | | | | | |
| | | | | | | | | | o < | lO o" | CD CD o o" | CN lO o" | CD | CD | sr CD o" | 00 CN o o" |
| o < | 00 o" | r- o" | 00 00 o" | 00 o" | 00 o" | CD o lO o" | 00 CN o o" | | | | | | | | | |
| < < | o o o o" | 00 lO o" | o o o" | CD | 00 lO o" | CD CN o" | CD CD | | < < | o o" | o CD o" | CD | 00 lO o" | lO 00 o" | 00 o" | CN r- CD o" |
| c `O o ro _Q o CL | QC LU | QC LL < | < LU | < o | < LU | LU < | LU o o | | c `O o ro JO o CL | QC LU | QC LL < | < LU | < o | < LU | LU < | LU o o |
c
o
-*-»
c
0
E
0
CL
W
0
T3
CL
co
ro
T3
0
T3
O
Q.
'-I»
O
c
0
en
ro
0
w
ro
_Q
c
0
ro
c
o
o
ro
_Q
o
CL
c
o
w
>
T3
ro
c
ro
ro í_
w
0
E
ro
c
0
T3
C
O
o
ro
c
w
ro
0
T3
T3
ro
;g
ro
_Q
o *_
CL
ro
_Q
ro
I-
EUR: Europa; AFR: África sub-sahariana; MEA: Oriente Próximo y Norte de África; CSA: Centro-Sur de Asia, EAS: Este de Asia; AME: América; OCE: Oceanía.
m i-~ o 00 00 CN £ | 1- | 03 o o" | lO CN O o" | co o o o" | lO O o" | o co co o" | co lO o o" | CD o' | |
| O 1- | 00 CN o" | CN o" | CN 00 o" | o" | r- co co o" | D~ 00 CN CD | co lO o o" | |
| O o | o o r- o" | h- o' | co 00 o" | CN 00 lO o" | co co o o" | lO co CD | o o o o" | |
m CN m m 03 S2 | o o | co o o" | o o o o" | co co o o" | O CD o" | CD o~ | o 00 co o" | co co 00 o" | |
| o < | CN o' | o o o o" | o CD CN CD | lO O sr CD | CD o sr o" | r- CD | r- co o" | |
| < < | lO CN o" | o o o | 00 sr co CD | lO o sr CD | r- CN o" | sr o CN o" | o o o o" | |
o CN m h~ 03 Tf o £ | 1- | ^r o o' | o r- lO o" | o o" | 00 o o" | 03 lO o" | co CN CD o" | o o lO o" | |
| o 1- | lO r- o" | CN r- co o" | 03 03 CD | CN o~ | sr lO co o" | co lO o o" | co o co o" | |
| o o | 00 r- o" | 00 lO o o" | o CD o" | 00 co sr CD | lO lO o o" | 03 o o" | CD o | |
| | | | | | | | | co | o o | co ¡s o" | o o o o" | lO CN CD | CN lO sr CD | co lO 00 o" | 03 03 CD | o o CN CD |
h~ m 00 m i-~ £ | o o | co o o o" | o sr o" | CN O o" | lO CD o o" | CN lO co CD | o r- 00 o" | co o co o" | | | | | | | | | |
| | | | | | | | | | o < | co lO co o" | co 00 o o" | co 00 sr CD | o CN sr CD | o~ | 03 o o o" | 03 CN sr CD |
| o < | co o o" | lO lO co o" | O r- o" | co co o" | sr o co o" | o CN o" | s co o" | 00 00 o co S2 | | | | | | | | |
| < < | 00 00 00 o" | sr o lO o" | r- o 00 o" | 00 co lO o" | o o' | 03 o o o" | co co co o" | | < < | co o" | r- CD o" | co co CN CD | CN o" | o o o o" | o o o o" | co o" |
| c `O o ro _Q o CL | QC LU | QC LL < | < LU | < co o | co < LU | LU < | LU o o | | c `O o ro _Q o CL | QC LU | QC LL < | < LU | < co o | co < LU | LU < | LU o o |
CN
o
C
O
-t'
c
0
E
0
CL
D
W
0
T3
CL
co
ro
T3
0
T3
O
Q.
-I»
O
c
0
en
ro
0
w
ro
_Q
c
0
ro
c
o
o
ro
_Q
o
CL
c
o
w
>
ro
c
ro
ro í_
w
0
E
ro
c
0
T3
C
O
o
ro
c
w
ro
0
T3
TD
ro
;g
!5
ro
_Q
o í_
CL
ro
_Q
ro
I-
EUR: Europa; AFR: África sub-sahariana; MEA: Oriente Próximo y Norte de África; CSA: Centro-Sur de Asia, EAS: Este de Asia; AME: América; OCE: Oceanía.
CN CN S2 | o O | CD o sr CD | CN CD CD o" | sr CD | CN CD sr CD | CD co o" | o o o o" | o o o | |
| O < | 03 CD | O O O o" | sr CN co o" | CD o' | co sr CD | r- co o o" | o o o o" | |
| < < | lO r- o" | 00 O O o" | co CD o o" | CD 00 O o" | sr o CN o" | co CD CD o" | o o o o" | |
co l-~ o> co co CN S2 | O O | CD o CD o" | O o o" | lO o o" | CN o" | co o sr o" | lO CD o o" | 03 co o" | |
| O < | ^r CD o o" | sr CD CN CD | CD lO CN CD | 00 CN CN CD | CD co sr CD | CD o co o" | CD o co o" | |
| < < | o o o o" | CD 00 CD o" | O sr o o" | O O O o" | o CD o" | o co CD CD | CD lO lO o" | |
co CN 03 O3 l-~ S2 | 1- | co co o" | 00 CD 00 o" | co 00 o" | LO o' | o CN CD | 03 o o o" | s co o" | |
| O 1- | CD o" | sr CN o" | CN co o" | co sr co o" | CD sr CD | CD sr o o" | 03 00 co o" | |
| o o | o o o o" | co o o o" | o o o o" | co o o" | co CD CN o" | CD o' | o lO CN o | |
| | | | | | | | | o> | 1- | N" CD CD CD | o o o | co 00 o" | o N" CD | co co o o" | lO o" | co CN o o" |
03 co co CN S2 | 1- | CD 00 o" | sr CD CD CD | CN r- o" | CD lO o" | CN CN o o" | co CN o o" | sr CD CD CD | | | | | | | | | |
| | | | | | | | | | o 1- | co CD CN CD | o o o o" | CD lO o" | CD N" o" | N" o co o" | r- co co o" | o' |
| o 1- | CD CD o" | co CD CN CD | CD lO CN CD | co co o" | o o" | 03 co CD | sr CD o" | CD 00 CN CN S2 | | | | | | | | |
| o o | o o" | 00 O O o" | O o" | lO o o" | r- CD co o" | co co 00 o" | o" | | o o | o o' | o o o o" | co CN o o" | CD o" | co CD CD CD | CD o co o" | co CN co o" |
| c `O o ro _Q o CL | QC LU | QC LL < | < LU | < co o | co < LU | LU < | LU o o | | c `O o ro _Q o CL | QC LU | QC LL < | < LU | < O | < LU | LU < | LU o o |
co
o
c
o
-t'
c
0
E
0
CL
D
W
0
T3
CL
co
ro
T3
0
T3
O
Q.
O
c
0
en
ro
0
w
ro
_Q
c
0
ro
c
o
o
ro
_Q
o
CL
c
o
w
>
T3
ro
c
ro
ro
í_
w
0
E
ro
c
0
T3
C
O
o
ro
c
w
ro
0
T3
TD
ro
;g
ro
_Q
o í_
CL
lO
ro
_Q
ro
I-
EUR: Europa; AFR: África sub-sahariana; MEA: Oriente Próximo y Norte de África; CSA: Centro-Sur de Asia, EAS: Este de Asia; AME: América; OCE: Oceanía.
o> co o <£> o> o> m S2 | O O | co o o" | 0,471 | o' | co co o o" | r- o o" | sr lO CD o" | 00 CN o o" | |
| O < | 00 00 CN o" | sr co co o" | 00 lO co o" | r- 00 sr o" | co co o" | r- co o o" | 00 CN o o" | |
| < < | 00 co o" | lO co o" | 00 CN lO o" | CD o' | 00 00 o" | CD o o o" | CD o' | |
CN m (O CN S2 | 1- | co o" | co CN CD o" | s CN o" | o" | CN CN o o" | o o o o" | 00 CN lO o" | |
| O 1- | 00 co o" | co co o o" | o co sr o" | o' | co sr CN o" | CD o o" | s co o" | |
| O o | co o lO o" | 00 o o o" | 00 D~ CN o" | 00 o" | lO co o" | 00 CD o" | o" | |
00 CN o> o> h~ S2 | 1- | 00 00 o" | 00 co 00 o" | 00 00 o" | LO o' | o CN o" | CD o o o" | s co o" | |
| o 1- | CD o" | sr CN o" | CN 00 o" | 00 sr co o" | CD sr o" | co sr o o" | CD 00 co o" | |
| o o | o o o o" | 00 o o o" | o o o o" | 00 o o" | co CD CN o" | CD o' | o lO CN o | |
| | | | | | | | | o> | 1- | N" CD co o" | o o o | co 00 o" | lO o N" o" | co co o o" | r- lO o" | 00 CN o o" |
h~ 00 h~ CN m <£> S2 | o o | lO CN o o" | lO CN o" | co co o o" | lO o o" | co CN 00 o" | 00 o" | r- co co o" | | | | | | | | | |
| | | | | | | | | | o 1- | co co CN o" | o o o o" | CD lO o" | o co N" o" | N" o co o" | co lO o" | o' |
| o < | CN o' | r- co lO o" | 00 co o" | CD lO CN o" | o co o" | co o" | co o co o" | CD 00 co CN CN S2 | | | | | | | | |
| < < | co o" | 00 sr CN o" | CD o" | o CD co o" | r- o o" | co sr o o" | 00 CN o o" | | o o | o o' | o o o o" | 00 CN o o" | lO co o" | co co co o" | co o co o" | 00 CN lO o" |
| c `O o ro _Q o CL | QC LU | QC LL < | < LU | < co o | co < LU | LU < | LU o o | | c `O o ro JO o CL | QC LU | QC LL < | < LU | < co o | co < LU | LU < | LU o o |
sj-
c
o
-t'
c
0
E
0
CL
W
0
T3
CL
co
ro
T3
0
T3
O
Q.
O
c
0
en
ro
0
w
ro
_Q
c
0
ro
c
o
o
ro
_Q
o
CL
c
o
w
>
T3
ro
c
ro
ro í_
w
0
E
ro
c
0
T3
C
O
o
ro
c
w
ro
0
T3
T3
ro
;g
ro
_Q
o *_
CL
ro
_Q
ro
I-
EUR: Europa; AFR: África sub-sahariana; MEA: Oriente Próximo y Norte de África; CSA: Centro-Sur de Asia, EAS: Este de Asia; AME: América; OCE: Oceanía.
co 03 03 03 co 00 S2 | | 00 o" | 0,165 | 0,528 | CD o~ | 00 00 o" | 03 o o o" | CD o' | |
| O 1- | 00 00 CN o" | sr co o" | 00 lO co o" | r- 00 sr CD | co co o" | r- co o o" | 00 CN o o" | |
| O O | co o o" | r- sr o" | o' | co co o o" | r- o o" | sr lO CD o" | 00 CN o o" | |
CN co m (O CN S2 | 1- | co o" | co CN CD o" | s CN CD | r- o" | CN CN o o" | o o o o" | 00 CN lO o" | |
| o 1- | 00 co o" | co co o o" | o co sr CD | o' | co sr CN CD | CD o o" | s co o" | |
| o o | co o lO o" | 00 o o o" | 00 r- CN CD | 00 CD | lO co o" | 00 CD o" | o" | |
00 CN 03 03 h~ S2 | 1- | 00 00 o" | 00 co 00 o" | 00 00 o" | LO o' | o CN CD | 03 o o o" | s co o" | |
| o 1- | 03 o" | sr CN o" | CN 00 o" | 00 sr co o" | r- CD sr CD | co sr o o" | 03 00 co o" | |
| o o | o o o o" | 00 o o o" | o o o o" | 00 o o" | co CD CN CD | CD o' | o lO CN o | |
| | | | | | | | | o> | 1- | N" CD co CD | o o o | co 00 o" | lO o N" CD | co co o o" | lO o" | 00 CN o o" |
h~ 00 h~ CN m <£> S2 | o o | lO CN o o" | lO CN CD | co co o o" | lO o o" | co CN 00 o" | r- 00 o" | r- co co CD | | | | | | | | | |
| | | | | | | | | | o 1- | co co CN CD | o o o o" | 03 lO o" | o co N" CD | N" o co o" | co lO o" | o' |
| o < | CN o' | r- co lO o" | 00 co o" | 03 lO CN CD | o co o" | co o" | co o co o" | CD 00 co CN CN S2 | | | | | | | | |
| < < | co r- o" | 00 sr CN CD | 03 CD | o CD co CD | r- o o" | co sr o o" | 00 CN o o" | | o o | o o' | o o o o" | 00 CN o o" | lO co o" | co co co CD | co o co o" | 00 CN lO o" |
| Población | CU LU | CU LL < | < LU | < co o | co < LU | LU < | LU o o | | Población | cu LU | cu LL < | < LU | < co o | co < LU | LU < | LU o o |
io
o
C
O
-t'
c
0
E
0
CL
D
W
0
T3
CL
co
ro
T3
0
T3
O
Q.
O
c
0
en
ro
0
w
ro
_Q
c
0
ro
c
o
o
ro
_Q
o
CL
c
o
w
;>
T3
ro
c
ro
ro í_
w
0
E
ro
c
0
T3
C
O
o
ro
c
w
ro
0
T3
TD
ro
;g
!5
ro
_Q
o í_
CL
ro
_Q
ro
I-
EUR: Europa; AFR: África sub-sahariana; MEA: Oriente Próximo y Norte de África; CSA: Centro-Sur de Asia, EAS: Este de Asia; AME: América; OCE: Oceanía.
l-~ <0 O 00 00 CN e | 1- | CD o o" | CN o o" | co o o o" | o o" | o co co o" | co o o" | CD CD |
| o 1- | 00 CN o" | co CN o" | CN 00 o" | s co o" | r- co co o" | r- 00 CN o" | co o o" |
| | | | | | | | |
| o o | o o r- co | h- o' | co 00 o" | CN 00 o" | co co o o" | r- co o" | o o o o" |
| 1- | co o" | co CN CD o" | s CN o" | r- o" | CN CN o o" | o o o o" | 00 CN o" |
CN (0 CN S2 | o 1- | 00 co o" | co co o o" | o co N" o" | o' | co N" CN o" | CD o o" | s co o" |
| | | | | | | | |
| O O | co o o" | 00 o o o" | 00 r- CN o" | 00 o" | co r- o" | 00 CD o" | o" |
o CN l-~ CD O e | 1- | o o' | o r- o" | o o" | 00 o o" | CD o" | co CN CD o" | o o o" |
| O 1- | o" | CN r- co o" | CD CD o" | CN o' | N" co o" | co o o" | co o co o" |
| | | | | | | | |
| o o | 00 o" | 00 o o" | o CD r- o" | 00 co N" o" | o o" | CD o o" | CD o |
| 1- | CD co r- o" | CN 00 o" | o N" o" | o co N" o" | o 0~ | co o" | o o o o" |
i0 (0 00 l-~ co S2 | o 1- | co CN o" | r- N" co o" | o" | CD d' | CD o N" o" | 00 r- CN o" | o o o o" |
| | | | | | | | |
| o o | CD o o" | r- N" co | N" o o" | o CN o" | N" o" | CD o o o" | o o o |
| c `O o ro JO o 0. | 01 LU | 01 LL < | < LU | < co o | co < LU | LU < | LU o o |
01
LU
o
C
c
0
E
0
CL
W
0
T3
(O
CN
l-~
(/)
O
O
o
oo
co
o
co
co
co
o
o
co
o
00
o"
^r
r-
o
o"
oo
o
co
co
N-
CD
^r
sr
CD
CN
CD
o"
o
CD
O
r-
CN
CN
CN
O
CD
o"
sr
o
CD
O
O
CN
r-
CD
00
CN
o
o
o
o
co
ro
T3
ro
o
o
Q.
'-I»
o
c
0
CD
ro
0
w
ro
JO
c
0
ro
c
o
o
ro
JO
o
o.
c
o
w
>
T3
ro
c
ro
ro
-i'
w
0
ro
c
0
T3
C
O
o
ro
c
w
ro
0
T3
TD
ro
;g
!5
ro
o
c
o
o
ro
JO
o
CL
01
LU
01
LL
<
<
LU
<
C0
O
co
<
LU
LU
<
LU
O
O
00
ro
JO
ro
Europa; AFR: África sub-sahariana; MEA: Oriente Próximo y Nort e de África; CSA: Centro-Sur de Asia, EAS: Este de Asia; AME: América; OCE: Oceanía.
Al suplementar el panel mínimo, los paneles de 12 AIM resultantes mejoraron la proporción de aciertos de clasificación, estando cuantificada en todos los casos en un 87% en los datos de HGDP-CEPH (938 sujetos). Con cualquiera de estos seis suplementos, la capacidad de asignación es superior al 75% en individuos 5 procedentes de cualquiera de las siete regiones geográficas (África sub-sahariana, América, Centro-Sur de Asia, Este de Asia, Europa, Cercano Oriente y Norte de África, y Oceanía), mostrándose en la Figura 2 la asignación resultante de utilizar el panel mínimo con el suplemento n° 1. Por tanto, deben tratarse dichas combinaciones de 5 AIM como suplementos equivalentes en cuanto a su capacidad de clasificación.
10 Con el fin de confirmar si estas propiedades en el panel suplementado se
mantenían en muestras de sujetos independientes, se realizó una validación en datos de 2000 individuos independientes procedentes de la versión 3 del proyecto 1000 Genomas. A pesar de que este proyecto solo dispone de datos genéticos de sujetos procedentes de 4 de las 7 subregiones biogeográficas (África sub-sahariana, Centro-
15 Sur de Asia, Este de Asia, Europa), el panel mostró valores equivalentes de acierto en la asignación (88% en el conjunto de individuos) al obtenido en sujetos de HGDP- CEPH. En la Figura 3 se muestran los resultados de asignación de los 2000 individuos de este proyecto al utilizar el panel mínimo con el suplemento n° 1.