• La patente JP2001290113 Gafas
de Kenwood Corp tiene como objeto proporcionar unas gafas con micrófonos direccionales que no introduzcan campos electromagnéticos para evitar interferencias con otros dispositivos electrónicas y pueda capturar sonidos discriminando los de distintas direcciones. Para ello, las gafas están montadas con un conjunto de conversores acústico eléctricos bidirectivas que están formados utilizando los elementos de un micrófono óptico fabricado basándose en LEDs y receptares de luz. Los LEDs son dirigidos hacia los diafragmas y se recibe la luz reflejada desde estos diafragmas en los receptores de luz, detectándose así vibraciones acústicas que producen desplazamientos en el diafragma. Diferencias con la presente invención
La patente US5020216 consiste simplemente de un sistema que trata de indicar de manera muy elemental el origen de las fuentes sanaras, sin aportar ninguna información sobre el tipo de sonido. Se trata prácticamente de una localización analógica partiendo de la comparación de amplitudes de das señales, sin tener en cuenta problemas cama el eco. Sala da información de la fuente sonora de mayor volumen. Otro punto totalmente distinto es la interfaz de visualización, se utilizan cuatro LEDs para indicar los 4 puntos cardinales, y otras para indicar el volumen. Nuestro dispositivo realiza una representación grafica completa del sonido, indicando parámetros adicionales cama el espectro, la posición can una resolución de 150, la variación de amplitud en función del tiempo, siendo capaz de trabajar con múltiples fuentes sonoras simultáneamente.
En la patente DE3919049, el objetivo final del producto es distinto del de la presente invención, aunque se utilicen ideas generales comunes. El producto de esta invención, puede cumplir las funciones del reseñado en la patente alemana pero va más allá, permitiendo la localización y el análisis de las fuentes sonoras externas.
A diferencia de la patente US3831434, el objeto de la presente invención es un sistema portátil para la localización de sonidos, y una vez localizadas permitir su descripción como ayuda a la identificación de sonidos. El descrito en la patente US3831434 esta basado en la descripción de sonidos en entornos médicos o educacionales y no los trata de localizar en ningún momento.
La patente WO02067627 sólo se parece a la presente invención en la integración de electrónica en unas gafas, la utilización de la electrónica es totalmente distinta: en un caso es para la amplificación de sonidos, mientras que en esta invención se trata de la visualización de estos sonidos, representando en las gafas los sonidos indicadas.
Finalmente, la patente JP2001290113 sólo coincide con la presente invención en la montura sobre las gafas.
Descripción detallada
El dispositivo cuenta con tres o más micrófonos instalados en la montura de unas gafas convencionales. Dichos micrófonos se utilizan para captar los diversos canales de audio para ser utilizados durante las etapas posteriores. Se trata de micrófonos omnidireccionales situados, dentro de lo posible, en posiciones equidistantes en una circunferencia imaginaria que rodea la cabeza del usuario en un plano horizontal a la altura de los oídos.
La información capturada por cada uno de estos micrófonos se digitaliza utilizando un conversar analógica digital y se introducen los datos capturados en un sistema embebido que es el encargado de procesar las señales. El sistema embebido es un pequeño ordenador que puede llevarse en un bolsillo o colgado del cinturón, a conveniencia del usuario. Dicha aparato se encarga de utilizar los diversos canales de audio para determinar las fuentes de sonido más significativas y obtener su localización espacial. Para ello se aplican una serie de algoritmos convencionales, en tiempo real, que permiten la localización de varias fuentes sonoras can un errar menor de 15°, aislando, además, los sonidos provenientes de cada fuente y analizarlos para determinar las caracteristicas más significativas de los mismos. Entre dichas características está la intensidad del sonido y sus componentes en frecuencia.
Toda esta información se utiliza por el dispositivo para obtener una representación visual del sonido. El dispositivo cuenta con diferentes formas de representación, cada una de las cuales se ajusta a las diferentes entornas en las que pueda encontrarse el usuario: en la vía pública, en el hogar, etc. En algunos casos dichas representaciones se pueden combinar para ajustarse a las necesidades de los usuarios.
En la forma más sencilla de representación, pero que es la que requiere mayor aprendizaje, la posición de un pixel en la vertical se corresponde con una banda de frecuencias; mientras que la posición horizontal es la localización espacial del sonido en azimut. Los pixeles toman diferentes calores para representar la intensidad del sonido en una determinada frecuencia y posición espacial. La potencia de esta forma de representación está en la cantidad de información útil expuesta, aunque resulta un tanto compleja de asimilar.
Una forma algo más elaborada de representación, parte de la suposición de que la pantalla representa el entorno en que se mueve el usuario, estando éste situado en el centro. Así, las fuentes sonoras se representan como imágenes y el ángulo con que se representan con respecto al centro indica el ángulo de procedencia del sonido (azimut) . La imagen elegida para la representación de una fuente sonora es una gaussiana, La potencia del sonido viene modulada par el tamaño de la gaussiana: cuanta más amplitud tenga el sonido, mayor será el área de la gaussiana y será más llamativa para el usuario. La frecuencia viene representada en bandas, dividiendo el espectro del sonido en varías trazas que se representarán como bandas de colores que dividen la gaussiana. Así, los colores fríos representan las frecuencias bajas (graves) y las cálidos frecuencias más agudas, además, la ordenación de estas bandas es siempre la misma, con lo que se puede ver en tiempo real la localización de una fuente sonora y sus cambios en frecuencia. Esta forma de representar el entorno gráfico permite resolver las das necesidades que se buscan: por un lado la sencillez de entendimiento, ya que la forma de representar los sonidos es bastante intuitiva y fácilmente entendible por cualquiera, y por otra una riqueza de información que puede ser muy útil tras el necesario periodo de aprendizaje del usuario.
Ambas representaciones pueden combinarse con elementos más complejos. El sistema puede detectar la presencia de fuentes de sonido criticas
, coma sirenas o timbres, e informar a través de un sistema de iconos. También puede detectar la presencia de determinados fonemas difíciles de identificar en la lectura de labios habladas. Esto permite desarrolla un sistema automático de palabra complementada
o cued speech
, donde la presencia de dichas fonemas se indica a través de señales visuales. En un último paso, es posible el reconocimiento completo del habla, de forma que el usuario pueda leer
lo que el interlocutor le está diciendo.
El sistema no sólo genera una representación visual del sonido. Es posible también combinarlo con otros sistemas de estimulación táctil. De esta forma parte de la información obtenida será asimilada por el usuario a través del sentido del tacto.
El visor. La imagen generada es transferida a un pequeño visor, no oclusivo, montado sobre las gafas del dispositivo. El visor genera una imagen semitransparente flotante sobre la visión normal de uno de los ojos del usuario. El visor puede estar integrado en el propio cristal de las gafas, o disponer de su propia óptica apoyada sobre una de las patillas de las mismas.