Método de identificación de muestras y sistema utilizado.
Objeto de la invención
La invención que se describe tiene su ámbito de aplicación industrial en los sistemas de identificación y reconocimiento de objetos o seres vivos mediante imágenes de muestras de los mismos, basados en la cooperación de bases de datos distribuidas, dispositivos de visión artificial, medios de recuperación de información multimedia y acceso remoto a los datos mediante técnicas de comunicación móvil. En particular, la presente invención se refiere a un sistema que combina dichos medios y técnicas para ejecutar un método aplicado a la micología, es decir, la ciencia que estudia los hongos en general, que permite identificar las setas en el propio lugar de recogida para discernir si es o no una especie comestible.
Antecedentes de la invención
En las ciencias forestales, el término "fungi" designa un reino biológico que reúne todos los organismos celulares denominados hongos en biología y botánica, también popularmente conocidos como setas. Realmente, las setas son los cuerpos fructíferos de un conjunto de hongos pluricelulares que incluyen muchas especies: unas comestibles, otras venenosas e incluso varias con efectos psicoactivos.
Aunque no se cultivan en huertas, en nutrición las setas comestibles pueden incluirse en el grupo de las hortalizas. Suelen crecer en la humedad que proporciona la sombra de los árboles, pero también en cualquier ambiente húmedo y con poca luz. Son ejemplos de setas muy apreciadas para su consumición: el champiñón, el níscalo, los perrochicos, el gurumelo, el gallipierno o la oronja.
Uno de los problemas más serios que se les plantea a los recolectores aficionados de setas viene derivado de las dudas que le surgen en el momento y lugar de la recogida del hongo, sobre si se trata de una especie peligrosa no apta para su ingestión o si en realidad es la seta que se estaba buscando para poder degustarla con toda tranquilidad.
Las setas poseen diversos rasgos distintivos que pueden ayudar al consumidor a diferenciarlas entre sí: la forma del sombrero, la textura, detalles de la corteza, color y brillo, etc. Estos rasgos se combinan en ciertas reglas de análisis de la morfología de la seta que permiten identificarla y decidir sobre su comestibilidad. Actualmente, la única ayuda que se les ofrece a los recolectores de setas es la consulta de una extensa bibliografía existente al respecto. Por lo tanto, a no ser que el consumidor sea un experto en micología y sea capaz de reconocer los hongos sin necesidad de llevarse los libros de estudio al monte, lo cual obviamente sería inviable por la incomodidad y el coste de tiempo que supone, pocas facilidades tienen hasta la fecha los aficionados a la recogida de setas para su consumo.
No existen en este momento sistemas con capacidades de asistencia inteligente, accesibilidad a regiones salvajes y portabilidad que puedan ser utilizados por los recolectores de setas in situ. Pueden considerarse antecedentes de este sistema los sistemas de reconocimiento de objetos mediante visión artificial, los sistemas de razonamiento automático y sistemas expertos y los sistemas de interacción telemática.
Descripción de la invención
La invención que aquí se describe viene a resolver la problemática anteriormente expuesta, en todos y cada uno de los diferentes aspectos comentados, constituyendo un sistema telemático de información y asistencia inteligente para la identificación de muestras de objetos, preferentemente aplicable en micología para la identificación de especies micológicas, que utiliza métodos de inteligencia artificial y visión por computador implementándose, gracias a las tecnologías de comunicación inalámbrica, de un modo distribuido, entre un dispositivo electrónico móvil y un servidor informático.
Más concretamente, un aspecto de la invención es un sistema de identificación de especies micológicas que comprende al menos un dispositivo electrónico de comunicación portátil (DECP) y un servidor informático, estando ambos dotados de medios para establecer una comunicación inalámbrica entre sí. El DECP puede consistir en un teléfono móvil, una agenda electrónica (PDA) o un dispositivo híbrido entre ambos tal como un comunicador "smartphone", con el que el usuario envía información (multimedia: imágenes y/o texto) sobre una muestra de un objeto, por ejemplo una muestra (seta) de la especie micológica a identificar. El servidor informático también puede ser una PDA o un ordenador, configurado para proporcionar información sobre los objetos en cuestión (las distintas especies micológicas en la realización preferente) , que asiste al usuario en la identificación de la muestra. Este servidor informático puede ser a su vez portátil y ser transportado por el propio usuario junto con el DECP, en cuyo caso la comunicación inalámbrica puede ser local y no necesitar de los servicios de compañías de telefonía o transporte de señal.
Otra opción contempla que el servidor informático es un ordenador propiedad de una empresa prestadora de servicios a teléfonos móviles, que puede ofrecer generalmente un servicio tarificado para identificar los objetos de interés (por ejemplo, especies micológicas para los aficionados y expertos en setas) , al igual que suministra información sobre eventos deportivos, etc. como ya se hace frecuentemente en la actualidad.
En lo sucesivo en este texto, se particulariza al caso preferente de trabajar con especies micológicas, pero la invención se extiende obviamente a la identificación y reconocimiento por imágenes de cualquier muestra clasificable dentro de un grupo, una especie, clase o categoría (por ejemplo, insectos para reconocer automáticamente si son peligrosos o no, ...) .
Al menos uno de los DECP del sistema incorpora medios para la captura de imágenes digitales, por ejemplo, una cámara digital, para captar al menos una imagen (de foto o vídeo) de una muestra de la seta que se desea identificar. A través de ese mismo dispositivo u otro DECP conectado al anterior se transmiten las imágenes captadas al servidor informático, a través de un enlace inalámbrico.
Para la comunicación entre el DECP que se trate y el servidor informático, se puede emplear tecnología de acceso a redes inalámbricas, tal como el estándar Wi-Fi habitualmente usado hoy en día para acceder a Internet o el WiMAX diseñado para ser utilizado en el área metropolitana proporcionando accesos concurrentes en un radio de hasta 48 kilómetros y a velocidades de hasta 70 Mbps con tecnología móvil LMDS.
Otra alternativa de implementación del enlace inalámbrico es usando tecnología digital de telefonía móvil de segunda (GSM) o tercera (UMTS) generación o GPRS (generación 2.5) . Particularmente, si el servidor informático es una PDA del usuario, éste también puede conectarse al móvil a través de un enlace inalámbrico a corta distancia (bluetooth, infrarrojos, etc.) .
El servidor informático posee medios de procesamiento que se configuran para extraer de una imagen de la muestra, recibida desde el DECP del propio usuario, unos datos que definen al menos un rasgo identificativo de tal muestra (seta) , para luego acceder a un clasificador, que previamente ha sido construido mediante algoritmos inducción o aprendizaje a partir de una base de datos con múltiples imágenes de setas identificadas por expertos humanos. Este clasificador proporciona la o las especies más verosímiles en función de la información proporcionada por el usuario.
El clasificador es un sistema experto construido mediante técnicas de inteligencia artificial que forma parte del servidor, el cual a partir de los rasgos extraídos de la imagen de la muestra transmitida por el DECP del usuario, determina cuál es el grado de proximidad o la probabilidad asociada a cada especie micológica cuya imagen pertenece a la base de datos de entrenamiento previo de dicho clasificador. Actualmente existen varios tipos de algoritmos para la construcción de estos clasificadores, entre los cuales pueden citarse el clasificador de Naive Bayes, C4.5, RIPPER y sobre todo K* que es más potente, por lo que el algoritmo denominado k*. es el escogido para la realización preferente del clasificador comprendido en este sistema. En general, dicho clasificador analiza P parámetros de C casos, siendo aquí P los datos correspondientes a rasgos identificativos de las especies micológicas y C las imágenes contenidas en la base de datos de entrenamiento (cuanto mayor sea el número C de imágenes, más se acerca el clasificador a dar un resultado preciso) .
La base de datos de imágenes se usa sólo para entrenar al clasificador, aplicando un procedimiento ya conocido, como puede ser el llamado "10 folds cross validation" con el que se dividen las C imágenes de la base de datos en diez conjuntos. Se toman nueve conjuntos y se crea un primer clasificador; este clasificador a su vez se utiliza con el conjunto que se dejado sin usar y se guardan los resultados, repitiendo el experimento diez veces, de modo que se prueba con toda la combinación de conjuntos posibles. Finalmente se elige el clasificador que mejores resultados ha dado.
La selección de al menos una de las especies más parecidas a la de la muestra cuya imagen ha capturado el usuario y quiere identificar se puede llevar a cabo mediante una pluralidad de clasificadores del mismo tipo (por ejemplo, creando C2}_{C + C + 1 clasificadores tipo K*) , de distinto tipo (combinando resultados de clasificadores Naive Bayes, C4.5, RIPPER y K*) o por un único clasificador.
Adicionalmente, el sistema de la invención comprende una base de datos con diversa información que corresponde las múltiples muestras de especies recogidas en la base de datos de imágenes. El servidor informático, una vez seleccionada la (o las) especie (s) más verosímiles según la muestra proporcionada, puede acceder a esta base de datos que tiene almacenada información acerca consejos de conservación de la especie, instrucciones para la preparación culinaria de la seta si es comestible, ..., e incluso otras imágenes de dicha especie micológica. Por consiguiente, tras seleccionar las especies más parecidas a la muestra, el servidor informático puede dar más datos típicos de las setas como los que se encuentran en la literatura clásica de micología.
Las bases de datos implicadas en el sistema pueden ser locales al servidor o remotas, estando configurado el servidor informático para comunicarse con las mismas mediante un gestor de bases de datos.
Con el sistema propuesto, al usuario le basta con captar una imagen de la seta en cuestión y obtiene como respuesta las identificaciones de las (tres) especies de setas que se corresponden con mayor probabilidad a la imagen captada, ordenadas de mayor a menor probabilidad por el clasificador. La inclusión de otras setas, además de la más probable, en la respuesta del servidor, sirve para confirmar la identificación efectuada dando confianza al usuario.
Aparte de una o más imágenes de la muestra, el usuario puede suministrar al servidor más datos sobre sus características (texturas, etc., en especial aquellas no apreciables visualmente) y acerca de las circunstancias de su recogida (entorno ambiental, hora y fecha, etc.) . Esta información adicional es introducida por el usuario a través del DECP y enviada de igual manera, vía el enlace inalámbrico, al servidor informático para aplicarla en la determinación de la especie más probable.
Asimismo, otro aspecto de la invención se refiere a un método de identificación de especies micológicas, que esencialmente comprende las siguientes fases:
- capturar una imagen de una muestra mediante el DECP - convertir la imagen a un conjunto de información digital y almacenarlo en al menos un fichero, - transmitir el fichero por el enlace inalámbrico al servidor informático configurado para aplicar al menos un clasificador previamente entrenado a partir de la base de datos con imágenes de múltiples especies clasificadas por un experto humano, - extraer del fichero los datos que definen al menos un rasgo identificativo de la muestra, - introducir en el clasificador dichos datos (de los rasgos de la imagen) y, opcionalmente, los datos adicionales (de texto) a través del DECP, y seleccionar al menos una especie, - generar un fichero de respuesta conteniendo información sobre la especie más verosímil para la muestra, - transmitir el fichero de respuesta por el enlace inalámbrico y - visualizar el contenido del fichero de respuesta en el DECP (o en el servidor si también es portátil y está en manos del usuario, como ocurre en caso de implementarse en una PDA) . El método que se propone se ejecuta pues de un modo distribuido, porque una parte de las fases se realizan en el DECP y la otra parte se encuentra en el servidor informático donde están centralizados todos los procesos de análisis de la imagen, que permiten la clasificación y reconocimiento de la seta cuya imagen ha sido captada por dicho DECP, así como el acceso a la información micológica. El servidor, que normalmente se encuentra en una ubicación remota respecto del lugar de recolección de las muestras, envía al DECP la información seleccionada, como respuesta a la imagen transmitida como pregunta desde dicho DECP en el mismo lugar de la recolección.
Las principales ventajas de la invención son:
1) En el orden de escasos segundos, el usuario es informado sobre la seta en cuestión. 2) El método es sencillo y el sistema cómodo de manejar, por lo cual es apto para cualquier usuario inexperto. 3) Evita intoxicaciones mediante la alerta inmediata al usuario. 4) Fomenta la educación en micología La invención aquí descrita es en esencia aplicable evidentemente a la identificación de otras especies de flora o fauna, con multitud de fines para los que las circunstancias de identificación in situ y en tiempo real resultan críticas (por ejemplo, identificar insectos u otros animales potencialmente peligrosos en lugares de exploración remotos) .
Descripción de los dibujos
Para complementar la descripción que se está realizando y con objeto de ayudar a una mejor comprensión de las características del invento, de acuerdo con un ejemplo preferente de realización práctica del mismo, se acompaña como parte integrante de dicha descripción, un juego de dibujos en donde con carácter ilustrativo y no limitativo, se ha representado lo siguiente:
Figura 1. Muestra un esquema del sistema objeto de la invención, según una realización preferida, representando con las flechas las etapas básicas del método de identificación de especies micológicas.
Figura 2. Muestra un detalle de una imagen de una muestra micológica conforme a una captura idónea a realizar por el usuario mediante el DECP del sistema.
Realización preferente de la invención
A la vista de la Figura 1, puede describirse como una realización práctica de la invención un sistema de identificación de setas compuesto por al menos un dispositivo electrónico de comunicación portátil (2) que puede llevar cómodamente el usuario hasta el lugar de crecimiento de las setas y un servidor informático (3) que puede estar dispuesto en otro lugar. El dispositivo electrónico de comunicación portátil (2) y servidor informático (3) se comunican vía enlace inalámbrico. El dispositivo electrónico de comunicación portátil (2) cuenta con medios para capturar imágenes de una muestra (1) de la seta a identificar. El servidor informático (3) dispone de medios de procesamiento configurados para extraer de la imagen capturada los datos que definen al menos un rasgo identificativo de la muestra (1) y aplicar al menos un clasificador previamente entrenado mediante una base de datos con imágenes de múltiples muestras de especies. Además, dicho servidor informático (3) puede acceder a una base de datos de la que puede obtener información general sobre setas de interés para el aficionado al consumo de setas.
En el sistema que se propone se desarrollan las siguientes fases:
- capturar una imagen (4) por medio del dispositivo electrónico de comunicación portátil (2) , - convertir la imagen a un conjunto de información digital y almacenarlo en al menos un fichero, - transmitir el fichero (5) por un enlace inalámbrico al servidor informático (3) , - extraer del fichero los datos que corresponden a rasgos identificativos de la muestra (1) , - introducir los datos extraídos en el clasificador, pudiendo también el usuario introducir datos auxiliares correspondientes a otros rasgos identificativos de la muestra (1) y del lugar y/o momento de la recogida de dicha muestra (1) , - seleccionar la especie más verosímil determinada por el clasificador a partir de los datos de la muestra (1) , es decir, la que tiene mayor probabilidad asociada, y esta información se completa indicando las dos siguientes clases en orden de verosimilitud - generar un fichero de respuesta conteniendo información sobre tales especies recuperada de la base de datos, - transmitir el fichero de respuesta (6) por el enlace inalámbrico y - visualizar el contenido (7) del fichero de respuesta. En la Figura 2 se ilustra un ejemplo de imagen de una muestra (1) capturada de una forma ideal: dividiendo la seta en una primera mitad (1A) y una segunda mitad (1B) , colocándolas sobre una superficie negra para mejorar el contraste e incluyendo en el encuadre de la imagen un elemento de referencia (8) que da idea del tamaño de la muestra (1) , por ejemplo, una etiqueta graduada, una regla, una moneda, ...
Una vez captada y transmitida la imagen desde el DCEP (2) , el servidor informático (3) analiza dicha imagen y extrae algunos de sus rasgos identificativos: Altura, anchura, área, color de la cutícula, color del himenio, color del pie, etc. También se hace un estudio morfológico, analizándose la forma del sombrero, del pie, existencia de mamelón, anillo, volba, y demás características morfológicas. La extracción del contorno de la seta se realiza combinando la binarización de la imagen y las técnicas de contornos activos. La determinación de la estructura y partes de la seta se hace en base a información especializada sobre las estructuras de los contornos de las setas y sus correspondencias morfológicas. Con estos datos, el clasificador puede determinar cuál es la probabilidad asociada a cada especie de seta en respuesta a la imagen que plantea la cuestión y selecciona las tres especies de setas con mayor probabilidad. Esta probabilidad se calcula en función de la distancia entre las características de las imágenes de las setas que han servido para construir la base de datos de entrenamiento del clasificador y las extraídas de la imagen-pregunta.
En la extracción de los rasgos identificativos a partir de la imagen de la seta se siguen los pasos que aquí se especifican según un posible ejemplo de implementación del método:
1. Se capta una imagen en color [img1]. 2. Se hace una copia de la imagen en escala de grises [img2]. 3. Se calcula un umbral de gris y se hace otra copia de la imagen en blanco y negro -solo blanco puro y negro puro- [img3]. 4. Se numeran todas las regiones conectadas de puntos blancos en img3. 5. De todas las regiones halladas, se calculan sus tamaños expresados en número de píxeles conectados. 6. Se buscan las tres regiones más grandes y el resto se ponen en negro en img3. 7. Se dilata y erosiona la imagen img3 para obtener regiones más suaves. 8. De las tres regiones que han quedado en img3, la situada más abajo es la marca, de la que se mide su longitud en pixels y se halla la relación pixels / centímetro. 9. De las dos regiones superiores en img3, se hallan igualmente tamaños y posiciones y con estos datos se extraen unos recortes de la imagen original a color img1: El recorte de la seta correspondiente a la primera mitad (1A) y el recorte de la segunda mitad (1B) . 10. De los dos recortes de ambas mitades (1A, 1B) se extrae la altura, anchura y área en centímetros se calcula la media y se guardad estos datos como definitivos. 11. En las dos mitades (1A, 1B) se separan en los respectivos recortes de imagen el pie del sombrero para hallar la altura, anchura y área de ambos pies y sombreros, calcular las medias y guardar como valores definitivos. 12. De ambos pies se elabora un histograma de anchuras, analizando máximos y mínimos de éstos, determinando la existencia de anillo y volva. 13. De ambos pies, se elaboran también sendos histogramas de las distancias al marco derecho de la imagen para hallar la forma de pie y su curvatura. 14. De los sombreros se hacen los histogramas de alturas y de las distancias de la parte superior del sombrero al marco superior de la imagen para determinar la existencia del mamelón. 15. De la primera mitad (1A) se extrae además el color de la carne del pie y el color de la carne del sombrero. 16. De la segunda mitad (1B) se extrae además el color de la cutícula y el color de la piel del pie en su zona superior e inferior. En resumen, en una implementación preferente de la invención los rasgos identificativos extraídos de la imagen son: altura total, anchura total y área total de la muestra (1) , altura, anchura y área del sombrero de la muestra (1) , existencia o no del mamelón en el sombrero, color de la cutícula, color de la carne del sombrero, altura, anchura y área del pie, color del la carne del pie, color de la parte superior del pie, color de la parte inferior del pie, existencia o no del anillo, existencia o no de la volba, anchura del margen izquierdo del sombrero, anchura del margen derecho del sombrero.
También se hace un estudio del himenio. Se mira si tiene láminas o tubos si procede. En el caso de tener láminas se estudia su separación, longitud, ramificación, anchura, inserción (separadas, libres, adherentes, escotadas, decurrentes o uncinadas) , color, exudación y collarium. En el caso de tener tubos hallamos su longitud (cortos, medianos o largos) , inserción (libres adherentes o decurrentes) y su color. De los poros, se obtiene su diámetro (pequeños o grandes) , simplicidad (simples o compuestos) , forma (redondeados, angulosos, alargados, denticulados, regulares, irregulares o laberínticos) y color.
Aparte, el usuario añade más datos al fichero que contiene la imagen-pregunta referentes al hábitat de la seta, olor de la seta, mucosidad, latescencia y fragilidad de la seta, texturas en sombrero, pie y anillo, forma del pie, forma y color del himenio, así como fecha y zona de la recogida de la seta, tiempo meteorológico que ha hecho las dos últimas semanas en esa zona.
En total se introducen al menos cuarenta datos clave a uno o varios clasificadores para llegar a seleccionar tres especies de setas más probables correspondientes a la de la imagen capturada. Al usuario se le devuelve información sobre estas tres especies de seta, incluyendo datos técnicos e imágenes de ellas. Por tanto, el sistema no sólo informa sobre si la muestra es o no comestible, sino que además sirve de librería remota al usuario, quien a la vista de la respuesta presentada toma las decisiones oportunas.