PROCEDIMIENTO Y SISTEMA PARA LA CLASIFICACIÓN Y DETECCIÓN DE LOS
DOMINIOS MÁS INFLUYENTES DENTRO DE LA RED OSCURA TOR
OBJETO DE LA INVENCIÓN
El objeto de la presente invención es un procedimiento y sistema automatizado para clasificar y detectar los dominios más influyentes dentro de la red oscura Tor (The Onion Router) en función de los hipervínculos que contengan. La invención permite identificar qué dominio es el más influyente dentro de la red, es decir, el dominio cuya eliminación provocaría la mayor desestabilización de la red. Dicha desestabilización afectaría a una reducción muy elevada u obstrucción en la transmisión de información a través de los diferentes dominios. Esta invención, también permite identificar las categorías de los diferentes dominios analizados, e identificar el dominio más influyente por categoría.
ANTECEDENTES DE LA INVENCIÓN
En la actualidad, el modo de acceder a la información en Internet es a través del uso de motores de búsqueda, como Google o Bing. A pesar de que son eficientes y muy potentes, no pueden indexar todo el contenido de la Web. El contenido que está indexado pertenece a la Web Superficial, y resto del contenido, que no está indexado, pertenece a la Web Profunda. Dentro de la Web Profunda, hay una parte formada por varias redes y se denomina Red Oscura, siendo Tor (The Onion Router) la red oscura más famosa, debido al nivel de anonimidad que proporciona a sus usuarios.
Debido a la topología de Tor y al hecho de que no es posible registrar el tráfico de los dominios, no es posible establecer una medición de la popularidad o influencia de dichos dominios dentro de la red. Además, dada la anonimidad que proporciona, la red oscura Tor aloja dominios con diferentes contenidos, tanto legales como ilegales. A raíz del contenido ilegal de Tor, surge la necesidad de clasificar dicho contenido en diferentes tipos de actividades ilegales e identificar qué dominios son los más influyentes dentro de la red, tanto a nivel global como para cada categoría. La eliminación de los dominios más influyentes desestabilizaría la red y dificultaría la transmisión de información a través de los diferentes dominios.
La clasificación manual de los dominios presenta una serie de inconvenientes. En primer lugar, debido al elevado número de posibles dominios, del orden de decenas de miles, se equiere de una alta inversión de tiempo y personal para realizar la clasificación. Además, la clasificación depende en gran medida de la persona que la realiza, aportando subjetividad que genera una disparidad de criterio entre expertos. También, la clasificación de dominios no siempre es fiable, ya que frecuentemente se producen errores derivados por el cansancio y la falta de atención del experto. Por último, es un proceso costoso por los elevados costes asociados al tiempo de la persona que realiza la clasificación.
Debido a las anteriores características de la red oscura Tor, solo sería posible utilizar el contenido textual de sus dominios para realizar una medida de la influencia de los mismos, dado que determinados contenidos visuales serían ilegales según la normativa española, como la pornografía infantil. Teniendo en cuenta esta limitación, se recurre al análisis de la relevancia de los dominios basada en teoría de grafos, donde los dominios serán los nodos y los hipervínculos entre ellos los enlaces. Según varios estudios (K. Taha and P. Yoo, "Using the Spanning Tree of a Criminal Network for Identifying Its Leaders", IEEE Transactions on Information Forensics and Security, vol. 12, no. 2, pp. 445-453, 2017) , para poder desestabilizar una red es necesario eliminar los nodos más influyentes del grafo, para así conseguir una reducción significativa del flujo de información a través del grafo.
La medición de la influencia o relevancia de los nodos dentro de un grafo empezó a utilizarse hace más de 60 años. Inicialmente se trabajó con medidas de centralidad (Bavelas, A. (1948) . «A mathematical model for group structures». Human Organization 7: 16-30.) , que con el tiempo fueron evolucionando a algoritmos más complejos, como Katz (Katz, L. (1953) . A New Status Index Derived from Sociometric Analysis. Psychometrika, 39-43.) , HIST (Jon M. Kleinberg. 1999. Hubs, authorities, and communities. ACM Comput. Surv. 31, 4es, Article 5, December 1999) o PageRank (US6285999B1, 1997) .
A pesar de que los anteriores algoritmos de medición de influencia consiguen resultados aceptables a la hora de desestabilizar una red, no se ha descrito específicamente un método y un sistema para la clasificación y posterior detección de los dominios más influyentes en la red oscura Tor.
DESCRIPCIÓN DE LA INVENCIÓN
El objeto de la presente invención es un procedimiento y sistema automatizado para clasificar y detectar los dominios más influyentes dentro de la red oscura Tor (The Onion Router) en unción de los hipervínculos que existan entre ellos. Los hipervínculos son, por tanto, propios de los dominios.
El procedimiento y sistema para la clasificación y detección de los dominios más influyentes dentro de la red oscura Tor (The Onion Router) de la presente invención permite clasificar y ordenar automáticamente grandes repositorios de dominios obtenidos mediante tecnología digital (ordenador) con acceso a internet, y conectado a la red Tor para recopilar información textual.
La clasificación automática, como paso intermedio a la detección de dominios influyentes, frente a la manual por un experto anula la subjetividad, los errores por cansancio y falta de atención, la disparidad de criterio entre expertos, los costes asociados al tiempo del experto, disminuye el tiempo necesario para la clasificación y aumenta la fiabilidad del etiquetado. Por este motivo, este procedimiento puede ser implementado en herramientas utilizadas por empresas y FFCCSSEE (Fuerzas y Cuerpos de Seguridad del Estado) para realizar una clasificación de los dominios de la red oscura Tor en diferentes categorías, y su posterior detección de los dominios más influyentes, tanto dentro de la red Tor como en cada categoría ilegal seleccionada.
La presente invención puede ser también aplicada en el entrenamiento o aprendizaje a distancia de personal especializado en las diferentes categorías consideradas como ilegales. La disposición de grandes conjuntos de dominios ya clasificados y las posibilidades actuales para recolectar nuevos dominios y enviarlos a un sistema de forma remota, permitiría que personal de FFCCSSEE o de empresa mejoren su conocimiento sobre las diferentes categorías ilegales presentes en la red oscura Tor, lo que aumentaría su conocimiento a la hora de diferenciarlas de otras categorías legales presentes en dicha red.
Dentro del proceso previo al procedimiento de la invención, el sistema permitiría realizar la clasificación automática de dominios mediante la codificación de texto a través de la Frecuencia de Términos - Frecuencia Inversa del Documento (TF-IDF, "Term Frequency -Inverse Document Frequency) , métrica que indica la relevancia de una palabra en un documento, y su posterior clasificación con Regresión Logística (LR, "Logistic Regression") . Los dominios clasificados pertenecen a las siguientes categorías: (i) pornografía, (ii) criptomoneda, (iii) contrabando de tarjetas de crédito, (iv) venta de drogas ilegales, (v) actividades violentas, (vi) ataques cibernéticos (hacking) , (vii) falsificación de moneda, (viii) ontrabando de identificación personal y (ix) otros.
A continuación, el procedimiento de la invención permite realizar la medida de la influencia de los dominios ilegales tanto (i) a nivel global como (ii) a nivel de cada una de las categorías anteriores. Para ello se construye un Grafo de Actividades Interesantes, donde cada dominio es representado por un nodo, y los enlaces del grafo provienen de los diferentes hipervínculos entrantes y salientes contenidos en los anteriores dominios. Por tanto, los enlaces son propios de los nodos y existen tantos enlaces entrantes al nodo como hipervínculos le apuntan a él y tantos enlaces salientes del nodo como él apunta a otros hipervínculos. En este proceso se eliminan los enlaces duplicados, es decir, aquellos que tienen el mismo origen y destino, para evitar la creación de multigrafos, y también aquellos enlaces a la Web Superficial. A continuación, se aplica el algoritmo que permite identificar cuales son los dominios más influyentes dentro de toda la red, y también por cada categoría, cuya eliminación afectaría al flujo de información dentro de la red.
En una realización preferente de la invención, este procedimiento se aplica a dominios ilegales de la red Tor, tanto a nivel global como por las diferentes categorías, aunque se puede aplicar sin realizar la categorización de actividades ilegales. También se puede extender a dominios legales de la misma red, a su aplicación en la Web Superficial, a redes de contactos y, en general, a cualquier tipo de red donde haya enlaces entrantes y salientes entre sus diferentes elementos.
En la presente descripción, antes de codificar el texto para su posterior clasificación, este es preprocesado. Tras un rastreo de todos los dominios de Tor, se descargan los recursos de aquellos que están activos y se extrae su fichero HTML. A continuación, se seleccionan aquellos dominios que están en inglés y se eliminan las etiquetas del lenguaje HTML, caracteres especiales y palabras vacías. En la presente invención, el término "texto en bruto" se refiere al que está contenido en el HTML del dominio y donde no se ha aplicado ningún preprocesamiento. Por otro lado, se emplea de manera general el término "texto" para hacer referencia al texto resultante tras el preprocesamiento del "texto en bruto" según la anterior descripción.
El procedimiento preferible para la clasificación y posterior detección de los dominios ilegales más influyentes dentro de la red oscura Tor de la presente invención comprende las siguientes etapas:
1. Rastreo de dominios y descarga de texto en bruto. A partir de una lista pública de dominios de la red Tor, se rastrean dichos dominios y se descarga, para cada dominio que esté activo en el momento del rastreo, su fichero HTML, el cual contiene el texto en bruto. Este rastreo y descarga de dominios se hace a través de un ordenador con conexión a internet y a la red oscura Tor.
2. Preprocesamiento de texto en bruto: dentro del mismo ordenador, para cada fichero HTML obtenido se realiza el preprocesamiento del texto bruto contenido para obtener el texto. A continuación, y de acuerdo con una realización preferente de la invención, a través de una librería de detección de idioma se seleccionan aquellos dominios que están en inglés, con el objeto de mejorar el posterior entrenamiento del sistema de clasificación, al ser el inglés el lenguaje mayoritariamente usado en la red Tor. En una realización preferente se eliminan las etiquetas del lenguaje HTML, caracteres especiales y palabras vacías, dando lugar al texto final.
3. Clasificación del texto: de acuerdo con una realización preferente de la invención, se realiza un proceso de clasificación automática del texto, con el objeto de poder identificar cuáles serán los dominios más influyentes de la red oscura Tor dentro de cada una de las categorías de actividades ilegales que contiene. En una realización preferente, se codifica el texto con la Frecuencia de Términos - Frecuencia Inversa del Documento (TF-IDF, "Term Frequency - Inverse Document Frequency") y se clasifican los dominios con Regresión Logística (LR, "Logistic Regression") en las siguientes categorías: (i) pornografía, (ii) criptomoneda, (iii) contrabando de tarjetas de crédito, (iv) venta de drogas ilegales, (v) actividades violentas, (vi) ataques cibernéticos (hacking) , (vii) falsificación de moneda, (viii) contrabando de identificación personal y (ix) otros. De acuerdo con una realización preferente de la invención, para la Frecuencia de Términos - Frecuencia Inversa del Documento se utiliza una longitud de vector mínima de tres y máxima de 10000 elementos, y para la clasificación con Regresión Logística se activó el balance de pesos entre clases.
4. Construcción del Grafo de Actividades Interesantes: una vez tenemos el texto preparado, se construye el Grafo de Actividades Interesantes para todos los dominios de la red Tor. En una realización preferente de la invención, también se construyen los Grafos de Actividades Interesantes correspondientes a los dominios clasificados en las nueve categorías indicadas previamente. En dicha realización preferente, se asocia cada dominio a los nodos del grafo y los enlaces entre los diferentes nodos se establecen en función de los hipervínculos ntrantes y salientes de cada dominio. En la realización preferente, se eliminan los hipervínculos duplicados, es decir, aquellos que tienen el mismo origen y destino.
5. Cálculo de dominios más influyentes con algoritmo de influencia. Por último, se procede al cálculo de los dominios más influyentes de la red oscura Tor. De acuerdo con una realización preferente de la invención, también se calculan los dominios más influyentes de las diferentes categorías ilegales la red oscura Tor para los que se generaron los anteriores Grafos de Actividades de Interés. Dicho cálculo se lleva a cabo en dos fases. En una primera fase, se aplica el algoritmo de influencia, el algoritmo de medida de la influencia de dominios para calcular el ranking de los diferentes dominios extraídos de la red Tor. El valor de rango de un dominio se obtiene como la combinación ponderada de la suma del número de hipervínculos de los dominios seguidores y seguidos del dominio analizado. Según varios estudios, la desestabilización de una red se consigue eliminando los nodos con un mayor ranking, lo que da lugar a una obstrucción en el flujo de la información a través del grafo. De acuerdo con una realización preferente de la invención, se interpreta la influencia dentro de la red oscura Tor como la cantidad de obstrucción que un nodo puede causar al Grafo de Actividades Interesantes cuando es eliminado. En una segunda fase, se realiza una ordenación descendente de dichos dominios según el valor de rango obtenido, siendo los primeros dominios los de mayor valor y por lo tanto considerados los más influyentes.
Un segundo aspecto de la presente invención se refiere a un sistema para la clasificación y posterior detección de los dominios ilegales más influyentes dentro de la red oscura Tor a partir de dominios recuperados de la red oscura Tor. El sistema comprende medios de procesamiento de datos, tales como un ordenador con conexión a internet, configurado para rastrear y descargar el texto en bruto o HTML de dominios de la red Tor; preprocesar el texto en bruto para obtener texto preparado para ser analizado; realizar una clasificación automática (opcional) de dichos dominios mediante Frecuencia de Términos - Frecuencia Inversa del Documento y Regresión Logística; generar un Grafo de Actividades de Interés, siendo los nodos los dominios y los enlaces los hipervínculos entre los diferentes dominios; aplicar el algoritmo de influencia para obtener los dominios más influyentes dentro de la red Tor, siendo aquellos que obtienen el mayor valor del algoritmo.
En una realización preferente de la invención, el sistema comprende un ordenador conectado a internet y con acceso configurado a la red oscura Tor. El sistema también puede comprender unos medios de almacenamiento de datos donde se almacenan archivos HTML o texto en ruto, archivos conteniendo el texto preprocesado, las categorías de los dominios, los Grafos de Actividades de Interés y la ordenación de los dominios de la red Tor ordenados según el valor de rango.
Por último, la presente invención también se refiere a un producto de programa que comprende medios de instrucciones de programa para llevar a la práctica el procedimiento anteriormente descrito cuando el programa se ejecuta en un procesador. El producto de programa está preferentemente almacenado en un medio de soporte de programas. Los medios de instrucciones de programa pueden tener la forma de código fuente, código objeto, una fuente intermedia de código y código objeto, por ejemplo, como en forma parcialmente compilada, o en cualquier otra forma adecuada para uso en la puesta en práctica de los procesos según la invención.
El medio de soporte de programas puede ser cualquier entidad o dispositivo capaz de soportar el programa. Por ejemplo, el soporte podría incluir un medio de almacenamiento, como una memoria ROM, una memoria CD ROM o una memoria ROM de semiconductor, una memoria flash, un soporte de grabación magnética, por ejemplo, un disco duro o una memoria de estado sólido (SSD, del inglés solid-state drive) . Además, los medios de instrucciones de programa almacenados en el soporte de programa pueden ser, por ejemplo, mediante una señal eléctrica u óptica que podría transportarse a través de cable eléctrico u óptico, por radio o por cualquier otro medio.
Cuando el producto de programa va incorporado en una señal que puede ser transportada directamente por un cable u otro dispositivo o medio, el soporte de programa puede estar constituido por dicho cable u otro dispositivo o medio.
Como variante, el soporte de programa puede ser un circuito integrado en el que va incluido el producto de programa, estando el circuito integrado adaptado para ejecutar, o para ser utilizado en la ejecución de los procesos correspondientes.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
A continuación, se describen de manera muy breve una serie de figuras que ayudan a comprender mejor la invención y que se relacionan expresamente con una realización de dicha invención que se presenta como un ejemplo no limitativo de ésta.
La Fig. 1 muestra un esquema simplificado de un sistema capaz de llevar a cabo el procedimiento de la invención.
La Fig. 2 muestra un ejemplo del contenido HTML o texto bruto de un dominio de la red oscura Tor.
La Fig.3 muestra un ejemplo del texto resultante tras el preprocesado del dominio de la red oscura Tor presentado en la Fig. 2.
La Fig. 4 muestra el Grafo de Actividades de Interés para todos los dominios ilegales de la red Tor.
La Fig. 5 muestra el Grafo de Actividades de Interés para los dominios pertenecientes a alguna de las categorías previamente mencionadas, entre ellas "contrabando de tarjetas de crédito" y "venta de drogas" de la red Tor.
La Fig. 6 muestra la salida del fichero de datos que contendría los dominios de la red oscura Tor ordenados según el valor de rango, indicando la influencia dentro de dicha red oscura.
REALIZACIÓN PREFERENTE DE LA INVENCIÓN
Se describe a continuación un ejemplo de procedimiento de acuerdo con la invención, haciendo referencia a las figuras adjuntas. La Figura 1 muestra un esquema simplificado del sistema de rastreo, clasificación y detección de dominios más influyentes. Todo ello podría ser implementado en un ordenador 2 (que podría ser, cualquier equipo de sobremesa o portátil con un núcleo, 512MB de RAM y 8Gb de disco duro) . El ordenador 2 se conecta a internet y se configura para poder acceder a la red oscura Tor 1. A continuación, se realiza un rastreo de dominios 3 y se descargan aquellos que estén activos su texto en bruto 3, obteniendo un fichero HTML de texto 4. Sobre este fichero se realiza un preprocesamiento del texto en bruto 5 para obtener el texto 6 final sobre el que se trabajará. En el ejemplo de procedimiento según la invención, se realiza también una clasificación automática del texto 6a, de la que resultan una serie de etiquetas que se corresponden con las diferentes categorías de los dominios analizados 6b. A partir del texto preprocesado 6, se realiza una extracción de los hipervínculos ntrantes y salientes de cada dominio y se construye un Grafo de Actividades de Interés 8 para toda la red oscura Tor. Adicionalmente, en este ejemplo de procedimiento según la invención, se construye un Grafo de Actividades de Interés para cada una de las categorías resultantes tras el proceso de clasificación automática. Finalmente, se aplica el algoritmo de influencia 9, dando lugar a un archivo de datos 10 donde aparecen los dominios de Tor ordenados según su valor de rango. Los dominios situados en la primera posición son considerados los más influyentes de la red. Adicionalmente, en este ejemplo de procedimiento según la invención, se genera un archivo de datos por cada una de las categorías resultantes tras el proceso de clasificación automática, donde aparecen los dominios que pertenecen a una misma categoría ordenados por su valor de rango. A continuación, se describe cada paso del procedimiento de la invención.
La conexión del ordenador 2 a internet se puede realizar a través de una conexión inalámbrica o a través de un cable de red Ethernet. La conexión del ordenador 2 a la red oscura Tor 1 comprende un proceso de instalación de un software especial que permita conectarse a dicha red oscura, como por ejemplo la instalación el navegador Tor, "Tor Browser". El objeto de esta conexión y configuración es la obtención del texto en bruto necesario para poder realizar la clasificación automática y posterior cálculo de los dominios más influyentes.
A continuación, se procede al rastreo de dominios y descarga de texto en bruto. En primer lugar, se obtiene una lista pública de dominios de la red oscura Tor, que podría obtenerse de la Web Superficial. Dado el ciclo de vida de los dominios de la red Tor, no se facilita ningún enlace en este documento. Esta lista de dominios es leída por el programa de rastreo y se descarga el texto en bruto 3 de aquellos dominios que estén activos, obteniendo así un fichero HTML por dominio activo analizado.
La Figura 2 muestra un ejemplo del contenido HTML o texto bruto de un dominio de la red oscura Tor. Como se puede observar, hay muchos recursos textuales no pertenecientes al lenguaje natural, como por ejemplo las etiquetas del lenguaje de programación HTML, que hay que eliminar antes de continuar con el procedimiento y así lograr una mayor precisión en la clasificación.
En la siguiente etapa se procede al preprocesamiento del texto en bruto contenido en los ficheros HTML recuperados de la red oscura Tor. Primero se eliminan las etiquetas del lenguaje HTML y, en el caso de las etiquetas que referencian imágenes, se elimina la
1
extensión y se deja el nombre de la imagen. A continuación, se seleccionan aquellos dominios cuyo lenguaje es el inglés, dado que es el idioma dominante de la red Tor, aunque podría realizarse con otros lenguajes. En esta realización preferente de la invención, dicha selección se realiza con la librería Langdetect (https://pypi.pvthon.org/pypi/langdetect) . Por último se eliminan caracteres especiales y palabras vacías a través de la lista de palabras vacías SMART (http://www.ai.mit.edu/proiects/imlr/papers/volume5/lewis04a/a11-smart-stop-list/) . Debido al ámbito de trabajo, es decir, la red oscura Tor, se modifica dicha lista y se añaden 100 nuevas palabras para mejorar la compatibilidad. Finalmente, se unifican todos los emails, direcciones web y monedas en un único recurso textual. La Figura 3 muestra un ejemplo del texto resultante tras el preprocesado del dominio de la red oscura Tor presentado en la Figura 2.
Tras el preprocesado del texto en bruto se procede a la clasificación automática de los dominios, con objeto de poder calcular cuáles son los dominios más relevantes dentro de cada categoría, y no solo identificarlos a nivel de toda la red oscura Tor. El texto ya procesado se codifica preferiblemente mediante TF-IDF (Akiko Aizawa. 2003. An information-theoretic perspective of tfidf measures. Information Processing & Management, 39 (1) :45-65.) , usando una longitud de vector mínima de tres y máxima de 10000 elementos. A continuación, se entrena el sistema con LR (David W. Hosmer Jr. and Stanley Lemeshow. 2004. Applied logistic regression. John Wiley & Sons) , activando el balance de pesos entre clases. Las categorías resultantes son: (i) pornografía, (ii) criptomoneda, (iii) contrabando de tarjetas de crédito, (iv) venta de drogas ilegales, (v) actividades violentas, (vi) ataques cibernéticos (hacking) , (vii) falsificación de moneda, (viii) contrabando de identificación personal y (ix) otros.
Una vez completado el preprocesamiento del texto en bruto y la clasificación de dominios, se construyen los Grafos de Actividades de Interés. Inicialmente se extrae para cada dominio los hipervínculos entrantes y salientes pertenecientes a los protocolos HTTP y HTTPS. Durante este proceso se eliminan los hipervínculos, y por lo tanto enlaces del grafo, duplicados, es decir, aquellos que tienen el mismo origen y destino, para evitar la creación de multigrafos, y también aquellos hipervínculos que apuntan a la Web Superficial. A continuación, se construye el Grafo de Actividades de Interés, donde los nodos se corresponden con dominios, y los enlaces con los diferentes hipervínculos entrantes y salientes contenidos en los anteriores dominios. Se genera un enlace entre dos nodos A y B siempre que el dominio A haga referencia al dominio B, o viceversa, al menos una vez.
La Figura 4 muestra una vista general del Grafo de Actividades de Interés para todos los dominios considerados en la red Tor.
La Figura 5 muestra una vista más detallada del Grafo de Actividades de Interés, donde se pueden ver como los nodos que representan cada dominio están categorizados y los múltiples enlaces que hay entre ellos.
Finalmente, se realiza el cálculo de la influencia de la lista de dominios para todos los dominios analizados de la red oscura Tor como para los dominios dentro de las siguientes categorías (i) pornografía 11, (ii) criptomoneda 12, (iii) contrabando de tarjetas de crédito 13, (iv) venta de drogas ilegales 14, (v) actividades violentas 15, (vi) ataques cibernéticos 16 (hacking) , (vii) falsificación de moneda 17, (viii) contrabando de identificación personal 18. No se incluye la categoría otros dado que engloba actividades de múltiples tipos y ya se está calculando un listado de dominios para toda la red, con lo que se considera que no contribuye a aportar un listado relevante de dominios.
Esta medida de la influencia está basada en el cálculo del valor de rango asociado a cada dominio y la posterior ordenación descendente de dichos dominios según el valor de rango obtenido, siendo los primeros dominios los de mayor valor y, por lo tanto, los considerados como más influyentes. El algoritmo de influencia identifica el nodo más central de un grafo midiendo el número de nodos a los que puede propagar el tráfico y el número de nodos desde los que recibe tráfico. El cálculo del valor de rango consta de dos fases, una fase de inicialización y otra de actualización de pesos. Dado un Grafo de Actividades de Interés que contiene N nodos y E enlaces, el algoritmo se inicializa asignando un peso inicial In a cada nodo n, utilizando la siguiente fórmula:
Wn = Di + D 0 (1)
donde Di es el valor del grado de entrada y D0 es el valor del grado de salida respectivamente. El valor Di se relaciona con el número de enlaces entrantes de un nodo y el valor D0 representa el número de enlaces salientes de dicho nodo.
A continuación, se asigna a cada nodo n el peso acumulado de sus seguidores, que son los nodos que están apuntando al nodo n , y el peso de los nodos a los que el nodo n sigue. El valor de rango (R) se asigna al nodo n teniendo en cuenta el peso inicial Wn asignado (1) egún la siguiente fórmula:
Rn = Wn log (aW F + p w f ) (2)
donde WF es el peso acumulado de los seguidores y Wf es el peso acumulado de los nodos a los que n sigue. Los parámetros a , cont ro lan la contribución de los pesos de los seguidores y de los nodos a los que el nodo sigue.
El algoritmo de influencia permite identificar qué dominio es el más influyente dentro de la red, es decir, el dominio cuya eliminación provocaría la mayor desestabilización de la red. Dicha desestabilización afectaría a una reducción muy elevada u obstrucción en la transmisión de información a través de los diferentes dominios. Para medir cómo se ve afectada la transmisión de información dentro de un grafo tras eliminar un nodo, se utiliza una medida de densidad según la siguiente fórmula
E
Dg N (N -1) (2)
Donde E representa el número de enlaces y N el número de nodos del grafo. Por lo tanto, una ordenación de dominios según su influencia sería aquella que tuviera la densidad más baja posible después de eliminar el menor número de nodos posibles dentro de los que hubieran obtenido una puntuación o valor de rango alta.
Una vez obtenido el valor de rango para todos los nodos, se realiza un procedimiento de evaluación donde se van eliminando del grafo uno a uno los nodos que han obtenido el mayor valor de rango y se va recalculando la densidad después de cada eliminación. Dicho proceso continua hasta que el grafo está completamente desconectado, es decir, con una densidad de 0. A través de experimentación con diferentes valores, se asigna a los parámetros los valores de 1.0 y 0.2 respectivamente como los valores finales para el algoritmo de influencia, dado que son los que permiten obtener el menor valor del área bajo la curva (AUC, "Area Under the Curve") , lo que está asociado a la densidad más baja posible a la hora de eliminar el menor número de nodos con el mayor valor de ranking.
La Figura 6 muestra un ejemplo de la salida del fichero de datos que contendría los dominios de la red oscura Tor ordenados según el algoritmo de influencia, indicando la influencia dentro de dicha red oscura.
1