Método y cámara para la adquisición en tiempo real de la información visual de escenas tridimensionales.
Objeto de la invención
El sistema aquí propuesto consiste en una cámara para la adquisición en tiempo real de la información visual de escenas tridimensionales en un amplio rango de volúmenes, caracterizada por la utilización de una lente objetivo y una matriz de microlentes situada en el espacio imagen de la lente objetivo, un sensor colocado en la focal de las microlentes (que recoge la imagen formada por éstas) , por el hardware de cómputo masivamente paralelo (GPU, FPGA o ambos) mediante el que se calcula el “focal stack” (conjunto de imágenes fotográficas bidimensionales diferentemente enfocadas) asociado al volumen objeto medido por la cámara, y sobre éste, se calcula la amplitud compleja del campo electromagnético (módulo y fase) y la posición tridimensional de las superficies irradiantes en cualquier punto del espacio objeto medido.
Esta invención puede ser útil en cualquier área o aplicación en que se requiera conocer el frente de onda: observación astronómica terrestre, oftalmología, holografía, etc., así como en las que se precise metrología: escenas reales, 3D televisión, pulido de CCDs, mecánica de automóvil, etc.
Sector de la técnica
Óptica. Procesamiento de imágenes.
Antecedentes de la invención
La presente invención está relacionada tanto con la necesidad de lograr una medida tridimensional de la amplitud compleja del frente de onda asociado a todo problema óptico en que la calidad de imagen sea fundamental (p. ej. para diagnosticar) , así como con la necesidad de obtener un mapa de profundidades suficientemente fiable y preciso en un amplio rango de volúmenes, desde pocas micras hasta varios kilómetros, y también con la generación en tiempo real de información tridimensional para televisión 3D, cine 3D, medicina, etc.
Estado de la técnica
La Óptica Adaptativa, para los presentes telescopios de gran diámetro (GRANTECAN, Keck, ...) y futuros telescopios gigantes (50 ó 100 metros de diámetro) , ha tomado el rumbo de medir la distribución tridimensional de la fase atmosférica utilizando una forma de tomografía llamada óptica multiconjugada. La ausencia en el cielo de suficiente número de fuentes puntuales naturales, tal que haya siempre alguna presente dentro del campo de visión del objeto observado por el telescopio, obliga a utilizar fuentes puntuales artificiales: estrellas de Na (90 km. de altura) .
Para poder corregir, evitando el anisoplamiento de foco, toda la atmósfera que afecta al haz de luz proveniente del objeto en el cielo es necesario utilizar varias de estas estrellas artificiales (al menos 5) . Cada una de ellas, para ser generada, necesita un láser de muy alta resolución, pulsado, y de gran potencia, lo que se traduce en una tecnología enormemente cara. Por otra parte, después de tanto coste, la óptica multiconjugada sólo es capaz de medir la fase atmosférica asociada a, como mucho, tres capas horizontales de turbulencia (con tres sensores de fase midiendo simultáneamente) , es decir, barre una proporción diminuta del cilindro tridimensional que afecta a la imagen, además recuperan una estimación de la fase con cálculos tan complicados que comprometen seriamente la corrección adaptativa del haz óptico dentro del tiempo de estabilidad de la atmósfera en el visible (10 ms) .
La técnica que aquí se propone permite:
-Ceñirse a una sola medida y a un sólo sensor, dentro de cada tiempo de estabilidad atmosférico.
-Una recuperación del módulo y fase asociados a cada capa horizontal turbulenta, es decir, tomografía de toda la atmósfera mediante una técnica original que hemos denominado “transformada SCPH” (“Summation of Constrained Planes in an Hypercube”, Suma de Planos Confinados en un Hipercubo) , ya de por sí rápida en atención al número y tipo de operaciones (sumas) que utiliza, pero que puede ser acelerada con una adaptación inteligente de la misma a Unidades de Procesamiento Gráfico (GPU) o a unidades de hardware reconfigurable como son las FPGA (“Field Programable Gate Arrays”, matriz de puertas programables de campo) .
-Evitar la necesidad de utilizar estrellas láser artificiales, pues puede recuperar en tiempo real la imagen del objeto a su llegada a la atmósfera terrestre, ya que esta nueva técnica no necesita de calibración con señal puntual para luego deconvolucionar.
Sin embargo, los antecedentes de la invención no se centran exclusivamente en el campo de la Astrofísica. En el sector de la óptica, o la oftalmología, el interés principal en realizar tomografía de ojo humano estriba esencialmente en obtener y disponer, por parte de los especialistas médicos, de una imagen nítida del fondo de retina del paciente, para poder realizar los diagnósticos con mayor fiabilidad. El humor acuoso, el humor vítreo y el cristalino, se comportan en el ojo como medios que aberran la imagen que se puede obtener del fondo de retina.
Aunque para este caso no es necesario realizar medidas tan frecuentemente como en la atmósfera terrestre (una cada 10 ms) , pues se trata de una deformación estable, sí que se exige suficiente resolución tridimensional para no sólo obtener una buena imagen de fondo de retina, sino también detectar la situación espacial de posibles lesiones oculares.
Por último, y en otro sector como es el de la imagen televisiva o cinematográfica, se tienen los retos relativos a la televisión tridimensional, donde uno de los problemas fundamentales es la generación de contenidos en tiempo real, dado que las técnicas son tan complejas y laboriosas que necesitan intervención humana durante el proceso de generación de contenidos 3D que puedan ser mostrados por los “displays 3D” ya existentes. En este sentido, la implementación optimizada sobre hardware de cómputo paralelo (GPUs y FPGAs) de las técnicas que aquí se proponen permite generar contenidos tridimensionales en tiempo real.
Se conocen aproximaciones en el estado de la técnica dentro los campos citados, donde se han colocado microlentes en el plano imagen de una lente convergente dando lugar a dispositivos y métodos para la medida de parámetros de imágenes, no obstante, los mismos no utilizan dicho montaje ni para realizar la medida tomográfica de la aberración óptica, ni para obtener las distancias en la escena.
Por ejemplo, Adelson y Wang (“Single lens stereo with a plenoptic camera”) utilizan el dispositivo para obtener distancias con una técnica totalmente diferente a la presentada en este documento.
Los autores Ren Ng et al. (“Light field photography with a hand-held plenoptic camera”) utilizan la técnica de “Slice” de Fourier asociada a microlentes en el plano imagen sólo para obtener fotografías enfocadas de escenas reales en rangos de unos pocos metros cúbicos de volumen, con calidad aparentemente superior a la habitual técnica de profundidad de campo. En este caso, la técnica propuesta permite calcular el “focal stack” si se aplica repetidamente para las distancias que cubran el volumen requerido, incurriendo en unos requisitos computacionales que imposibilitarían el procesado en tiempo real. Sin embargo, el “focal stack” es sólo un paso intermedio en nuestra técnica, ya que con el procedimiento aquí propuesto es posible su cómputo para todo un volumen y con menor número de operaciones de las que Ren Ng emplea para el cómputo de un solo plano. Lo que en definitiva proporciona nuestro procedimiento es conocer la distancia y la amplitud compleja del campo electromagnético en las posiciones de las superficies de la escena.
En cuanto a los procedimientos de extracción de información, se conoce que obtener imagen fotográfica a partir del “light-field” (función plenóptica cuatridimensional) , f (u, v, x, y) , es posible integrando todos los rayos que alcanzan cada punto (x, y) del sensor, provenientes de cada punto del plano de la lente (u, v) .
La imagen obtenida por el operador
reimagina la imagen fotográfica
que se hubiera obtenido con un sensor convencional enfocado en el plano a distancia F, conjugado respecto de la lente objetivo del conjunto microlentes-sensor. Si se deseara reimaginar en un plano a distancia F’ = α · x, anterior o posterior a F, Ren Ng demuestra, por semejanza de triángulos que hay que evaluar:
La evaluación de ese operador para cada posible distancia α · F requiere O (N4) operaciones, y, por lo tanto, para N planos requeriría O (N5) operaciones.
Ren Ng demuestra también que si se calcula la transformada de Fourier 4D de la función plenóptica cuatridimensional, lo que conlleva O (N4 log2 N) operaciones de suma y multiplicación compleja, los distintos planos de reenfoque se pueden obtener realizando una rotación, truncado a 2D y antitransformada de Fourier en 2D de la función transformada 4D de la función plenóptica cuatridimensional, cada uno de ellos con una complejidad computacional de O (N2) + O (N2 log2 N) a añadir al coste inicial de la transformada de Fourier de la función 4D medida.
Con el objeto de reducir el coste computacional del cálculo del “focal stack”, en nuestro caso se propone el uso de una transformada de suma a lo largo de planos restringidos en hipercubos discretizados. Se ha de notar que la integral de formación fotográfica equivale geométricamente a evaluar la integral a lo largo de planos en una función cuyo dominio es un hipercubo de dimensión 4. Así entendida, la integral de formación fotográfica, es un caso particular de
añadiendo la restricción de que las pendientes r1y
r2 que definen los planos de integración son iguales para el caso que nos ocupa, lo cual permite reducir el número de operaciones a realizar.
El antecedente más cercano al método propuesto para realizar este cómputo es la transformada rápida (o aproximada, según el autor) discreta de Radon, propuesta por Götz y Druckmüller, y Brady independientemente, que evalúa simultáneamente el sumatorio de los valores a lo largo de una serie de líneas discretas, caracterizadas cada una por una pendiente y un desplazamiento respecto del origen, dispuestas sobre una rejilla bidimensional de datos, por medio de O (N2 log2 N) sumas donde la evaluación directa del sumatorio sobre cada línea requería O (N) operaciones, y por lo tanto, la evaluación para N pendientes y N desplazamientos requería O (N3) sumas. Nosotros extendemos ese procedimiento para computar la suma a lo largo de planos en una hipercubo 4D, y aplicamos la misma premisa de minimizar el número de sumas a realizar mediante la reutilización de las sumas parciales de valores contenidos por más de un plano discreto, lo cual permite reducir el número de sumas a O (N4) . La descripción formal del método se expondrá más adelante.
Finalmente, dejando a un lado los procedimientos para la obtención de la información y continuando con el montaje del dispositivo, autores como Richard M. Clare and Richard G. Lañe (“Wave-front sensing from subdivision of the focal plane with the lenslet array”) colocan una matriz de microlentes justo en el foco de la lente convergente, no en cualquier posición del plano imagen, y obtienen la fase del frente de onda sólo en la pupila de la lente, no topográficamente como es nuestro caso, pues con nuestro procedimiento se puede determinar la fase del frente de onda a cualquier distancia dentro del volumen tridimensional del espacio objeto. Además, como se ha dicho anteriormente, nuestros resultados permiten caracterizar el campo electromagnético no sólo por la fase del frente de onda en un plano, sino por la amplitud compleja del campo electromagnético asociado al frente de onda en todo el volumen.
En definitiva, los procedimientos y resultados descritos en este documento suponen una mejora apreciable de lo establecido en el estado de la técnica.
Descripción de la invención
La invención define un método para la adquisición en tiempo real de información visual de escenas tridimensionales según la reivindicación 1 y un sistema según la reivindicación 4.
Nuestra técnica consiste esencialmente en la colocación de microlentes en el plano imagen de una lente convergente para, a partir de la imagen registrada en la superficie detectora, obtener las distancias de la escena mediante el siguiente procedimiento: en primer lugar, cálculo del “focal stack” por medio de una técnica nueva que se ha denominado SCPH (“Summation of Constrained Planes in an Hypercube”, descrita más abajo) ; en segundo lugar, aplicación de un operador de medida de calidad de enfoque en el “focal stack” (varianza, laplaciano, gradiente) y en tercer lugar, la aplicación del algoritmo de cálculo del estado óptimo sobre un campo aleatorio de Markov (por ejemplo: propagación de la creencia basada en el re-ponderado de árboles V. Kolmogorov) .
Asimismo, nuestra técnica consiste también en la colocación de microlentes en el plano imagen de una lente convergente para que a partir de la imagen registrada en la superficie detectora obtener la amplitud compleja del campo electromagnético asociado al frente de onda de la escena mediante el siguiente procedimiento: en primer lugar, cálculo del “focal stack” por medio de la transformada SCPH, que proporciona la tomografía del módulo cuadrado de la amplitud compleja del frente de onda, en segundo lugar, la aplicación del operador de generación de los gradientes de la fase de frente de onda en cualquier punto del volumen de la escena (Clarke and Lañe, etc.) , y por último la recuperación de la fase del frente de onda del campo electromagnético asociado (Hudgin, etc.) .
El montaje estaría constituido por una única matriz de microlentes, formando imagen sobre una superficie detectora de suficiente resolución (por ejemplo un dispositivo CCD) , estando situada la matriz de microlentes en una posición del espacio imagen de una lente convergente, lo que permite realizar medidas tomográficas del espacio tridimensional objeto.
El tratamiento de la imagen se realiza con un procesador de cómputo paralelo, tal como una tarjeta de procesamiento gráfico GPU, o una placa dotada de un chip FPGA, etc., que implementan las técnicas descritas anteriormente según la siguiente secuencia:
Para la medida de distancias se realizan los siguientes pasos:
1) Cálculo del “focal stack” por medio de la transformada SCPH desarrollada para la implementación óptima sobre hardware de cómputo paralelo: GPUs y FPGAs.
2) Aplicación del operador de medida de calidad de enfoque en el “focal stack”, adaptado de manera óptima al mismo hardware de cómputo paralelo: GPUs y FPGAs.
3) Cálculo del estado óptimo sobre un campo aleatorio de Markov, implementado de manera optimizada sobre hardware de cómputo paralelo: GPUs y FPGAs.
Para la medida tomográfica de la amplitud compleja del campo electromagnético asociado al frente de onda se realizan los siguientes pasos:
1) Cálculo del “focal stack” por medio de la transformada SCPH, cuya raíz cuadrada suministra directamente el módulo de la amplitud compleja del campo electromagnético en cualquier punto del volumen de la escena, desarrollado para la implementación óptima sobre hardware de cómputo paralelo: GPUs y FPGAs.
2) Aplicación del operador de generación de los gradientes de la fase de frente de onda en cualquier punto del volumen de la escena, optimizado para hardware de cómputo paralelo: GPUs y FPGAs.
3) Recuperación de la fase del frente de onda del campo electromagnético asociado, optimizado para hardware de cómputo paralelo: GPUs y FPGAs.
Las medidas se realizan una sola vez, es decir, una única imagen contiene la información suficiente para recuperar el entorno tridimensional. Tal imagen puede ser entendida como compuesta de 4 dimensiones: dos coordenadas sobre el detector asociadas al interior de cada micro lente y otras dos coordenadas asociadas a la matriz de microlentes.
La transformada SCPH que proponemos consiste en computar simultáneamente la suma de los valores posicionados en la función 4D discreta, f (u, v, x, y) , sobre planos tales que las coordinadas de los puntos ubicados en ellos cumplen simultáneamente que x=u · r+j e y=v · r+k, bajo ciertas condiciones de discretización, reutilizando las sumas parciales de puntos contenidos por más de un plano discreto, siendo u y v las dimensiones horizontal y vertical sobre el plano de la lente y x e y las dimensiones horizontal y vertical sobre el plano sensor, y j, k y r, las dimensiones en horizontal, vertical y profundidad del “focal stack” que se desea obtener.
Se define la transformación parcial de los datos, hasta la etapa m, como:
donde se considera que la función tiene dimensiones NxNxNxN, con n = log2 N, la función
describe la forma discreta en que la sucesión de puntos (u, lns (u) + d) , con u ∈ (0, N) , une los puntos (0, d) y
(N -1, s + d) formando una línea discreta de pendiente s/ (N -1) , y la función
devuelve el valor
correspondiente a la nupla binaria
Si
entonces
que aproxima a la integral de formación fotográfica
pa
ra un volumen de N planos de profundidad.
La fórmula recurrente que mapea dos etapas parciales m y m + 1, describe completamente el método, y requiere ser aplicada n veces:
Nótese que el dominio para el que está descrita la transformación parcial ˜f m+1 es la mitad que el que requiere ˜f m, transformándose progresivamente de un dominio 4D a un dominio 3D, en un proceso que requiere O (N4) sumas, lo que se traduce en un ahorro de tiempo de cómputo superior al ochenta por ciento respecto a los procesos actuales.
Siguiendo este procedimiento, y con las técnicas aquí propuestas, es posible recuperar tanto profundidades como módulos y fases de la amplitud compleja del frente de onda en cada posición de las superficies de la escena, lo que permite escanear tridimensionalmente al completo y en tiempo real la escena, resultando por lo tanto, de gran aplicación en los campos citados anteriormente.
Descripción de las figuras
Figura 1: Esquema de la disposición de la lente de apertura (1) , de las lentillas (2) , y de superficie detectora (3) que forman nuestra cámara de fase. (5) es la distancia desde la lente convergente a la que enfoca un determinado objeto del espacio objeto. (6) es la focal de cada microlente de la matriz de lentillas. (7) es el ángulo de inclinación local del frente de onda. (4) es el desplazamiento en camino óptico que sufre el frente de onda turbulento respecto a otro sin aberrar.
Figura 2: Esquema conceptual de la invención aplicada a un telescopio con un gran espejo principal (1) . Realización de tomografía de atmósfera en observación astrofísica de una estrella (8) con óptica adaptativa. Las capas de turbulencia individuales dentro de la atmósfera corresponden a (9) y (10) . La cámara de fase permite barrer el cilindro completo de turbulencia atmosférica (13) que afecta a la imagen final del telescopio.
Figura 3: Esquema conceptual de una clásica observación astrofísica de una estrella (8) que utilice óptica adaptativa multiconjugada a dos capas de turbulencia en la atmósfera (9) y (10) . Sólo es capaz de recuperar un número muy pequeño de capas de turbulencia individuales (tres capas a lo sumo) . (11) y (12) indican los sensores de frente de onda asociados conjugadamente a cada capa turbulenta. (1) se corresponde con el telescopio.
Ejemplo de un modo de realización de la invención
Ejemplo 1
Medida de distancias a la que se encuentran objetos de una escena
Se considera el caso particular de la observación desde nuestra invención de una escena consistente en el interior de una habitación amueblada, donde se distinguen, como componentes, varios objetos situados en un rango de profundidades desde los 0, 5 hasta los 4 metros respecto de la posición de la cámara.
Para conformar nuestra cámara para la adquisición en tiempo real de la información visual de escenas tridimensionales se utiliza un sensor CCD de resolución máxima 4000x2672 modelo IPX-11M5 de Imperx. Siguiendo el montaje de la Figura 1, previo al CCD se coloca una lente objetivo de igual relación focal que la posterior matriz de microlentes (16x16 y en montura F-Nikon) que enfocan sobre el CCD abarcando 1024x1024 píxeles. La cámara presenta en esta dispoción una apertura angular de 30º en horizontal, y se enfoca en la región central de la escena, a aproximadamente 2 metros.
La imagen detectada es tratada con una tarjeta gráfica GPU nVidia 8800 GTX programada con los siguientes procedimientos:
1. Cálculo del “focal stack” mediante la transformada SCPH.
2. Aplicación del operador “Varianza” para estimación de la calidad del enfoque.
3. Recuperación de las distancias mediante el método de “propagación de la creencia basada en el re-ponderado de árboles V. Kolmogorov”.
Con esta cámara y este procedimiento el mapa de profundidades de la escena es obtenido.
Ejemplo 2
Medida de la amplitud compleja del campo electromagnético
Se considera el caso particular de una observación astrofísica con un telescopio de diámetro superior al diámetro de coherencia r0 de la atmósfera (aproximadamente 20 cm. en el visible) . La turbulencia de la atmósfera provoca pérdida de resolución en la imagen obtenida con el telescopio, es decir, pérdida de la información de altas frecuencias espaciales. Para evitarlo, debe conocerse la forma en que la turbulencia atmosférica degrada el frente de onda de la luz proveniente de la estrella en estudio. Para ello, puede usarse como referencia estrellas puntuales naturales o artificiales que permitan caracterizar la deformación que la atmósfera introduce en el frente de onda.
Con óptica adaptativa multiconjugada clásica (Figura 3) , un sensor de fase de frente de onda debe ser usado por cada espejo deformable conjugado a una capa de turbulencia individual, es decir dos sensores de fase (WFS) diferentes que deben ser alineados y puestos en funcionamiento paralelamente y en diferentes posiciones del eje óptico. La complejidad de los cálculos y la necesidad de velocidad, pues la atmósfera cambia cada 10 milisegundos en el visible, hace actualmente imposible superar la corrección a sólo tres capas de turbulencia atmosférica.
Con nuestra invención, siguiendo el diseño mostrado en la Figura 1, y cuyo funcionamiento en este supuesto se muestra en la Figura 2, sólo un sensor es utilizado, colocado en una única posición del eje óptico.
En este caso, como lente objetivo actúa el propio telescopio descrito anteriormente. En su espacio imagen se coloca una matriz de microlentes (32x32, montura C) que enfoca sobre una cámara ANDOR modelo IXON 512x512 píxeles y luego los datos son recogidos y tratados mediante una FPGA modelo ML501 de Virtex previamente programada mediante el siguiente procedimiento:
1. Cálculo del “focal stack” mediante la transformada SCPH.
2. Aplicación del operador para la obtención de gradientes de la fase (Clarke and Lañe) .
3. Recuperación de la fase del frente de onda mediante el método con desarrollo en exponenciales complejas.
Una sola medida, procesada posteriormente como se ha descrito, permite obtener el mapa tridimensional de turbulencias (amplitud compleja del frente de onda) asociado a toda la columna de atmósfera que afecta a la observación con nuestro telescopio y la altura a la que estas capas de turbulencia se encuentran, así como la distancia y perfil tridimensional si una estrella láser artificial fuese utilizada.