Formación de imágenes

MT3006 - Robótica 2

¿Por qué?

Imágenes y pixeles

u
v
\mathbf{I}
I[u,v]
I(u,v)
I(u,v,t)
u
v
\mathbf{I}
I[u,v]
I(u,v)
I(u,v,t)

pixel

picture element

dos tipos de información

  • Información espacial:
    • ¿Qué implica la posición 2D del pixel con respecto de la situación real en 3D?
    • ¿Qué información se conserva y cuál se pierde?
  • Información sensorial:
    • ¿Qué valores puede tomar un pixel?
    • ¿Cuál es la relación de este valor con respecto del color?

La geometría detrás de la formación de imágenes

Una primera idea

Una primera idea

plano de imagen

pinhole

Pinhole camera o camera obscura

Formalizando esta situación

z=0
z=-1
y_O
z_O
x_O
(u,v)

(arbitrario)

\overrightarrow{OP}: \ Q(\lambda)=O+\lambda(P-O), \ \lambda \in [0,1]
O
P
Q(\lambda)=\lambda P=\lambda (x,y,z) = (\lambda x, \lambda y, \lambda z)
Q(\lambda)= (-x/z, -y/z, -1)
Q(\lambda)=\lambda P=\lambda (x,y,z) = (\lambda x, \lambda y, \lambda z)

plano de imagen en \(\lambda z = -1\)

\(\Rightarrow \lambda = -1/z\)

Q(\lambda)= (-x/z, -y/z, -1)

coordenadas en el plano de imagen, pero invertidas

z=0
z=1
z=-1
\{

imagen no invertida

y/z
\{
-y/z

imagen invertida

(u,v)=\left(x/z, y/z\right)

proyección de perspectiva

Mejorando el modelo

pinhole

distancia focal \(f\)

para lentes delgados

\dfrac{1}{z}+\dfrac{1}{z'}=\dfrac{1}{f}

distancia hacia el objeto

distancia hacia el plano de imagen

si el objeto se encuentra lejos del lente

\dfrac{1}{z}+\dfrac{1}{z'}\approx \dfrac{1}{f}
(u,v) = \left(fx/z, fy/z\right) \qquad (\mathrm{pixeles})
\mathbf{s}=\begin{bmatrix} u \\ v \end{bmatrix}=\begin{bmatrix} \tilde{u}/\tilde{w} \\ \tilde{v}/\tilde{w} \end{bmatrix}, \qquad \tilde{\mathbf{s}}=\begin{bmatrix} \tilde{u} \\ \tilde{v} \\ \tilde{w} \end{bmatrix}=\begin{bmatrix} f\lambda x \\ f\lambda y \\ \lambda z \end{bmatrix}, \qquad \mathbf{p}=\begin{bmatrix} x \\ y \\ z \end{bmatrix}
\tilde{\mathbf{s}}=\begin{bmatrix} f & 0 & 0 \\ 0 & f & 0 \\ 0 & 0 & 1 \end{bmatrix} \mathbf{p}
{^C}\tilde{\mathbf{p}}={^C}\mathbf{T}_I {^I}\tilde{\mathbf{p}}
y_C
x_C
z_C
P
{^C}\mathbf{p}
\{C\}
\{I\}
x_I
y_I
z_I
{^I}\mathbf{p}
{^I}\mathbf{T}_C
\tilde{\mathbf{s}}=\begin{bmatrix} f & 0 & 0 & 0 \\ 0 & f & 0 & 0 \\ 0 & 0 & 1 & 0 \end{bmatrix} \begin{bmatrix} {^C}\mathbf{R}_I & {^C}\mathbf{o}_I \\ \mathbf{0} & 1 \end{bmatrix} {^I}\tilde{\mathbf{p}}

Cámara de lente delgado

{^C}\tilde{\mathbf{p}}={^C}\mathbf{T}_I {^I}\tilde{\mathbf{p}}
\tilde{\mathbf{s}}=\begin{bmatrix} f & 0 & 0 & 0 \\ 0 & f & 0 & 0 \\ 0 & 0 & 1 & 0 \end{bmatrix} \begin{bmatrix} {^C}\mathbf{R}_I & {^C}\mathbf{o}_I \\ \mathbf{0} & 1 \end{bmatrix} {^I}\tilde{\mathbf{p}}

pixeles

metros

Cámara de lente delgado

y_C
x_C
z_C
P
{^C}\mathbf{p}
\{C\}
\{I\}
x_I
y_I
z_I
{^I}\mathbf{p}
{^I}\mathbf{T}_C

Detalles adicionales

\rho_w
\rho_h

pixeles a metros

[m/px]

(0,0)
u
v
(u_0,v_0)
u
v

cambio de centro

u=\dfrac{f {^C}x}{\rho_w {^C}z}+u_0, \qquad v=\dfrac{f {^C}y}{\rho_h {^C}z}+v_0
\tilde{\mathbf{s}}= \begin{bmatrix} f/\rho_w & 0 & u_0 & 0 \\ 0 & f/\rho_h & v_0 & 0 \\ 0 & 0 & 1 & 0 \end{bmatrix} {^C}\mathbf{T}_I {^I}\tilde{\mathbf{p}}= \mathbf{C}{^I}\tilde{\mathbf{p}}

\(\mathbf{C}\) - matriz de cámara

\(\begin{bmatrix} f/\rho_w & 0 & u_0 & 0 \\ 0 & f/\rho_h & v_0 & 0 \\ 0 & 0 & 1 & 0 \end{bmatrix} \) - matriz de parámetros intrínsecos

\({^C}\mathbf{T}_I \) - matriz de parámetros extrínsecos

>> mt3006_clase1_modelo_camara.m

¿Aún más detalles?

barrel radial distortion

pincushion radial distortion

Calibración de cámara

\mathbf{C}

Calibración de cámara

\mathbf{C}

Perspective-\(n\)-Point

(en general)

Consecuencias del mapeo

Consecuencias del mapeo

  • 3D a 2D (pérdida de información).
  • Rectas a rectas.
  • Paralelas se intersecan en el horizonte.
  • No se conserva el tamaño.
  • Cónicas a cónicas.
  • Mapeo NO es 1 a 1, \(\mathbf{C}\in\mathbb{R}^{3 \times 4}\).
  • No preserva la forma.

¿Qué ocurre con el color?

Sensores de imagen

filtro (mosaico) de Bayer

Escala de grises

resolución de 8 bits

(uint8)

Escala de grises

resolución de 8 bits

(uint8)

imágenes binarias

mapas de color

Imágenes a color y espacios de color

resolución de 24 bits

espacio de color RGB

Otros espacios de color

HSV

HSL

Entre otros como:

  • CMYK
  • YCbCr
  • CIELAB (L*a*b*)

Referencias

  1. A. Torralba et al., Foundations of Computer Vision, bloques I y II.
  2. R. Klette, Concise Computer Vision, capítulo 6.

MT3006 - Lecture 1 (2024)

By Miguel Enrique Zea Arenales

MT3006 - Lecture 1 (2024)

  • 122