Sistema de identificación de sonidos mediante clasificación paramétrica de series derivadas
Objeto de la invención
La presente invención tiene por objeto un sistema de identificación de sonidos que se basa en la descripción y selección de unos pocos parámetros caracterizadores de los mismos, la obtención de series derivadas de puntuaciones de clasificación de los mismos, y la asignación definitiva a una clase de sonido mediante la caracterización paramétrica y la clasificación de la serie derivada. La invención se encuadra en el sector de la tecnología electrónica y de las comunicaciones, concretamente de aplicación en sistemas de proceso de información y sistemas de archivo y recuperación, entre otros.
Estado de la técnica
El primer paso en la identificación de sonidos consiste en la extracción de las características del mismo, es decir, en la obtención un conjunto de parámetros que lo representen. Estos parámetros normalmente toman la forma de un vector que evoluciona en el tiempo. Para su obtención se pueden utilizar procesos temporales, espectrales, homomórficos, de codificación predictiva lineal, etc. Un resumen de las técnicas de extracción de características de sonidos puede encontrarse en [1], [2], [3j.
Muchos de los procedimientos de extracción de características de un sonido dividen el mismo en fragmentos temporales (ventanas) de una duración muy reducida (típicamente unas pocas centésimas de segundo) . De cada una de esas ventanas se obtienen unos pocos parámetros que las caracterizan, estando muy extendido el uso de los definidos en la norma MPEG-7 [4] o los derivados de los coeficientes de Mel: MFCCs [5], Es típico que el número de parámetros extraídos esté en torno a 20.
Frecuentemente, a la fase de extracción le sigue un proceso de construcción de características, es decir, de obtención de parámetros derivados que reflejan comportamientos adicionales del sonido (o de la ventana de sonido) . Un conjunto típico de parámetros construidos son aquellos que tratan de representar la evolución temporal del sonido, entre los que destacan, por ejemplo, las diferencias de primer y egundo orden [6], [73; o el uso conjunto de parámetros de ventanas consecutivas mediante la técnica de las ventanas deslizantes [8],
Los procesos anteriores pueden proporcionar vectores de características con un número elevado de parámetros (varios centenares) , lo que incrementa sensiblemente los tiempos de proceso necesarios para la clasificación de sonidos. Además, la relevancia de cada parámetro en la tarea de clasificación puede ser muy dispar. Es pues habitual que el paso siguiente en el proceso de identificación de sonidos sea la selección de características, es decir, la obtención de un subconjunto de parámetros lo más reducido posible sin que afecte sensiblemente a la capacidad de clasificación posterior. Un resumen de las técnicas utilizadas en la selección de características puede encontrarse en [10], [11], Dentro de éstas, las técnicas de filtro [12], [13] suelen ser las que presentan una mejor eficiencia computacional.
Una vez extraídas, construidas y seleccionadas las características, se utilizan los vectores resultantes para identificar los sonidos. Para ello se emplean distintas técnicas de clasificación que comparan las características de los sonidos con las de uno o varios patrones. En [14], [15] pueden encontrarse un buen resumen de las técnicas más habitualmente utilizadas. Entre ellas destacan las basadas en modelos ocultos de Markov [16] que es, además, la técnica recomendada en la norma MPEG-7.
La invención plantea un sistema novedoso y eficiente de identificar un sonido, es decir, de reconocerlo como perteneciente a una clase dentro de un conjunto predeterminado de ellas.
La solución propuesta parte de la extracción de características de ventanas de sonido, basadas en parámetros normalizados MPEG-7 seguida de la construcción de parámetros mediante ventanas deslizantes.
Las características generadas se utilizan para clasificar cada ventana con alguna técnica estándar de minería de datos (árboles de decisión, clasificador bayesiano, ., .) .
Tanto la utilización de parámetros MPEG-7 como su clasificación por minería de datos han sido ya descritos en la literatura técnica y no forman parte las reivindicaciones de la patente.
Referencias
[1] Lu, L, & Hanjaiic, A. (2009) . Audio Representation. In Encydopedia of Database Systems (pp. 160-167) . SpringerUS.
[2] Sharan, R. V., & Moir, T. J. (2016) . An OverView of Applications and Advancements in Automatic Sound Recognition. Neurocomputing.
[3] Cowling, M., & Sitie, R. (2003) . Comparison of techniques for environmental sound recognition. Pattern recognition letters, 24 (15) , 2895-2907.
[4] ISO (2001) . ISO/IEC FDIS 15938-4:2001: Information Technology - Multimedia Content Description Interface Part 4: Audio
[5] Young, S., Evermann, G., & Gales, M. (2012) . The HTK book (ZOL) .
[6] Sharma, S., Shukla, A., & Mishra, P. (2014) . Speech and Language Recognition using MFCC and DELTA-MFCC. International Journal of Engineering Trends and Technology (IJETT) , 12 (9) , 449-452
[7] Hossan, M. A., Memon, S., & Gregor y , M. A. (2010, December) . A novel approach for MFCC feature extraction. In Signa! Processing and Communication Systems (ICSPCS) , 20104th International Conference on (pp. 1-5) . IEEE
[8] Chu, C. S. J. (1995) . Time series segmentation: A sliding window approach.Information Sciences, 85 (1) , 147-173
[9] Beniwal, S., & Arora, J. (2012) . Classification and feature selection techniques in data mining. International Journal of Engineering Research & Technology (IJERT) , 1 (6) .
[10] Guyon, I., & Elisseeff, A. (2003) . An introduction to variable and feature selection. The Journal of Machine Learning Research, 3, 1157-1182.
[11] Liu, H., & Motoda, H. (1998) . Feature extraction, construction and selection: A data mining perspective. Springer Science & Business Media
[12] Guyon, i., Gunn, S., Nikravesh, M., & Zadeh, L. A. (Eds.) . (2008) . Feature extraction: foundations and applications (Vol. 207) . Springer.
[13] Liu, H., Hussain, F., Tan, C. L., & Dash, M. (2002) . Discretization: An enabling technique. Data mining and knowledge discover y , 6 (4) , 393-423.
[14] Aggarwal, C. C. (2007) . Data streams: models and algorithms (Vol. 31) . Springer Science & Business Media.
[15] Fu, T. C. (2011) . A review on time series data mining. Engineering Applications of Artificial Intelligence, 24 (1) , 164-181.
[16] Rabiner, L. R. (1989) . A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings ofthe IEEE, 77 (2) , 257-286.
Descripción de las figuras
Figura 1 - Diagrama del proceso de clasificación de sonidos objeto de la invención.
Descripción de la invención
La presente invención tiene por objeto un sistema de identificación de sonidos mediante clasificación paramétrica de series derivadas que comprende las siguientes etapas:
a. Obtención de series derivadas, p¡, a partir de un clasificador de sonido que asigna una puntuación p¡k que mide la cercanía de cada ventana k a cada clase de i-ésima sonido.
b. Caracterización de cada serie derivada p¡, siendo considerada cada serie derivada, como ventana única de sonido de la que se obtienen un conjunto de parámetros MPEG-7.
c. Selección de características reduciendo el número de parámetros MPEG-7 que representa a cada serie derivada a partir de la distancia de Jensen-Shanon corregida.
d. Identificación del sonido aplicando técnicas estándar de minería de datos a los parámetros MPEG-7 seleccionados.
La novedad de la invención consiste en los dos siguientes aspectos:
• Selección de características mediante Jensen-Shanon
• Las varias decenas de características generadas son reducidas por un método de selección basado en la distancia de Jensen-Shanon corregida
• Clasificación del sonido a partir de series derivadas
• El clasificador de ventanas asigna una puntuación (normalmente una probabilidad) para cada ventana y cada clase de sonido. Esto produce un conjunto de series temporales "derivadas", tantas como clases de sonido se deseen clasificar
• Cada una de las series derivadas es caracterizada también mediante parámetros MPEG-7, considerando el conjunto de la serie como una única ventana
• La clasificación del sonido se realiza aplicando alguna técnica estándar de minería de datos a los parámetros MPEG-7 de la serie derivada Una vez obtenidas y seleccionadas las características de cada ventana de un sonido, el método de clasificación propuesto en la invención es el siguiente:
1. A cada ventana k-ésima, se le aplica una técnica de clasificación que asigna una puntación pik que mide la cercanía (normalmente la probabilidad) de esa ventana a cada clase í-ésima.
2. Analizando la totalidad de las ventanas del sonido, para cada clase í-ésima se obtiene una serie temporal de puntuaciones p¡, o serie derivada.
3. Cada ciase í-ésima de puntuaciones se trata como si fuese una ventana única de sonido (no se segmenta) y de ella se obtienen un conjunto de parámetros MPEG-7
4. Se reduce el número de parámetros que representa a cada serie derivada mediante el mismo método de selección de características basado en la distancia de Jensen-Shanon corregida que se detalla más adelante.
5. Al conjunto del sonido, representado ahora por un pequeño conjunto de parámetros, se le aplica una técnica de clasificación que permite la identificación definitiva con alguna de las clases predeterminadas.
Método de selección basado en la distancia de Jensen-Shanon
El primer paso del método de selección de características propuesto en la invención consiste en determinar la separabilidad de clases de sonido atendiendo a cada uno de los parámetros. Para el cálculo del índice de separabilidad de clases We atendiendo al parámetro 0-ésimo, se procede de la siguiente forma:
1. Para cada clase i-ésima, se obtienen los valores del parámetro 0-ésimo en todas las ventanas de sonido pertenecientes a dicha clase.
2. Para cada clase í-ésima, se calculan las funciones de densidad de probabilidad f g. de los valores del parámetro 0-ésimo en las ventanas de sonido pertenecientes a dicha clase.
3. Para cada posible par de clases y j se calcula la divergencia de Jensen-Shanon que viene dada por
4. Para cada posible par de clases í y j se calcula la distancia de Jensen-Shanon que viene dada por
5. Se calcula el índice de separabilidad 4^ como
expresión en la que n es el número de clases de sonidos que se pretenden identificar; y /V es el número de distancias de Jensen-Shanon calculadas cuyo valor viene dado por
Método de selección basado en la distancia de Jensen-Shanon corregida
El método de selección de características propuesto en la invención utiliza el índice de separabilidad calculado en el apartado anterior, pero lo corrige en función de la correlación entre parámetros. El proceso propuesto es el siguiente:
1. Se calcula la matriz de correlación parámetro-parámetro qp, que está formada por los elementos q; que representan la correlación entre los parámetros i y j.
Estos valores se calculan como
expresión en la que xik representa el valor del parámetro t-ésimo en la ventana /c-ésima; x¡ es el valor medio del parámetro i-ésimo; y m es el número total de ventanas.
2. A partir de la matriz de correlación ep se calcula la matriz de independencia entre parámetros definida como
3. Para cada parámetro se calcula el índice de separabilidad 4^ siguiendo el procedimiento apuntado en el apartado anterior.
4. Se elige como parámetro más relevante aquél con el valor mayor de VÉ. Se incorpora al conjunto (ordenado) de parámetros relevantes 31 y se elimina del conjunto de parámetros pendientes de analizar T.
5. Para cada uno de los y-ésimos parámetros en T , se calcula la independencia Sjk con respecto a cada uno de los fc-ésimos parámetros en 31.
6. Para cada uno de los y'-ésimos parámetros en T, se calcula la independencia mínima con respecto a 31 definida como
7. Para cada uno de los y'-ésimos parámetros en J5, se calcula la separabilidad corregida, definida como
8. Se elige como parámetro más relevante aquél con el valor mayor de k¡. Se incorpora al conjunto (ordenado) de parámetros relevantes 31 y se elimina del conjunto de parámetros pendientes de analizar T
9. Se iteran los pasos 5 al 8 hasta haber analizado todos los parámetros: T = 0
Con respecto al estado de la técnica, la invención propuesta plantea tres ventajas principales:
• La identificación de sonidos mediante clasificación de series derivadas mejora sensiblemente la tasa de éxito en la clasificación de sonidos
• La reducción del número de parámetros en la caracterización de las ventanas de sonido hace sensiblemente más rápido el proceso de clasificación
• El método de selección de características propuesto permite una más rápida determinación de un subconjunto de parámetros que representan al sonido para su posterior clasificación.
Modo de realización de la invención
Una realización posible del sistema propuesto en la invención es la siguiente:
1.' Se registra un conjunto de sonidos, por ejemplo, utilizando una frecuencia de muestreo de 44.1 kHz y 16 bits de resolución
2. Se eligen un subconjunto de sonido {por ejemplo un 10%) que se consideren significativos de cada una de las clases que se desean identificar. Este subconjunto constituirán los sonidos patrón.
3. En cada patrón se determinan los segmentos que son identificativos de la clase que representan.
4. Cada sonido es segmentado en ventanas de corta duración, por ejemplo, de 10 milisegundos.
5. De cada ventana se obtienen diferentes parámetros MPEG-7. El conjunto de ellos puede ser, por ejemplo, el siguiente:
• Potencia total
• Potencia relevante, esto es, la comprendida en una determinada banda de frecuencias, por ejemplo, entre 500 Hz. y 5kHz.
• Centroide de potencia
• Dispersión espectral
• Planitud
• Tono
• Razón de armonicidad
• Frecuencia límite de armonicidad
• Frecuencia de los 3 primeros formantes
• Ancho de banda de los 3 primeros formantes
• Centroide armónico
• Desviación armónica
• Dispersión armónica
• Variación armónica
6. Mediante el método de selección de características propuesto en la invención, se reduce el número de parámetros eligiendo, por ejemplo, los 5 más significativos.
7. Para cada ventana, se construyen otras características mediante la técnica de ventana deslizante. Es decir, la ventana se identifica con los 5 parámetros propios más los 5 correspondientes a las ventanas colindantes. El tamaño de la ventana deslizante puede ser, por ejemplo de 5. Se caracteriza pues cada ventana mediante 25 (5x5) parámetros.
8. Cada ventana es clasificada por comparación entre sus características y las características de las ventanas de los patrones. El método de clasificación puede ser, por ejemplo, el del árbol de decisión. Este clasificador genera una untuación de la cercanía de cada ventana a cada clase (probabilidad de pertenecer a esa clase) .
La aplicación del clasificador a la secuencia de las ventanas de un sonido produce una serie derivada (puntuaciones) para cada una de las clases de sonido.
Cada una de las series derivadas es considerada como si fuese una ventana única de un sonido y de ella se extraen los parámetros MPEG-7 expresados anteriormente.
Mediante el sistema de selección de características propuesto en la invención, se reduce el número de parámetros con los que se caracteriza cada serie derivada eligiendo, por ejemplo, los 5 más significativos. Si tenemos, por ejemplo, 10 clases, las series derivadas de cada sonido se caracterizan mediante 50 (5x10) parámetros.
Cada sonido es clasificado por comparación entre las características de sus series derivadas y las características de las series derivadas de los patrones. El método de clasificación puede ser, por ejemplo, el del árbol de decisión.