Relación de aspecto de pixel

En este artículo se pretende explicar cuál es el origen de un problema muy común que surge cuando se mezcla la tecnología y el procesado informático con la tecnología y el procesado de las señales de televisión: la relación de aspecto de pixel y su relación con la relación de aspecto de la imagen.

Introducción

La señal analógica de televisión no tiene nada que ver con los píxeles. No, no tiene. No tiene porque la señal analógica no está dividida en muestras. Es una señal contínua porque inicialmente la televisión utilizaba los tubos de rayos catódicos para presentar la imagen. La pantalla de los tubos estaba recubierta continuamente de fósforo así que no había divisiones físicas entre los puntos de luz. La única información de resolución que estaba disponible era el número de líneas horizontales con las que se formaba la imagen (575 líneas de imagen en PAL, y 486 en NTSC).

Con la entrada de la televisión en color la señal de televisión cambió, añadiendo la información correspondiente, y también cambiaron los receptores de televisión, que incorporaron triadas de píxeles, uno de cada color (R,G,B) que son bombardeados con tres haces diferentes de electrones. Cada triada de pixeles (picture element) se combina para formar un punto de color. Pero este sistema de puntos de diferentes colores sólo existía en el receptor de televisión, de forma que cuantos más puntos poseía, más definición podía alcanzar.

¿Cuándo aparece entonces el concepto de pixel en la señal de televisión? Aparece cuando la señal se digitaliza. En ese momento la señal analógica de televisión se muestrea, y a cada muestra hay que asígnarle un periodo de tiempo. Ese periodo de tiempo llevado a la pantalla corresponde a una distancia tanto en vertical (el número de líneas) como en horizontal, y ese área de imagen es, por fin, UN PIXEL. Ese pixel tendrá unas dimensiones determinadas, y la relación entre la anchura y la altura de ese area será la relación de aspecto del pixel, o en inglés, pixel aspect ratio (PAR). 

Entramos en harina

La norma ITU-R 601 (es del año 1982) establece la forma en la que hay que digitalizar la señal de televisión analógica, ya sea PAL o NTSC. Esta norma incluye las frecuencias de muestreo a las que hay que tomar la información de la señal, la posición relativa de las muestras de luminancia y crominancia, el número de bits con los que medir cada muestra, etc. La norma establece todos estos parámetros para el mundo de la televisión, pero no establece la forma de trabajar con esas imágenes en otros mundos, como el de los ordenadores, de ahí que no haya ninguna referencia a la relación de aspecto de los píxeles que forman la imagen. Es un problema que existe con viejos formatos, la alta definición trabaja con los píxeles cuadrados.

Por compatibilidad y para ahorrar costes al fabricar equipos que funcionasen en los dos sistemas, se estableció entre otras cosas que la frecuencia de muestreo sería la misma para PAL que para NTSC. Se eligieron los 13.5 MHz (trece millones y medio de muestras por segundo) para la luminancia (la croma se muestrea en función de la luminancia, según diferentes patrones 4:2:2, 4:1:1, 4:4:4, etc). Este muestreo en horizontal no coincide con el muestreo en vertical (las líneas por segundo). La norma define que la señal PAL tiene 576 líneas activas (en analógico son 575, pero la media línea que hay al final del primer campo y la media del principio del segundo campo cuentan como líneas enteras, no como medias líneas), así que si calculásemos cual es la frecuencia de muestreo en vertical tendríamos: 

  • 25 frames/sg -> 40 msg por frame
  • 576 muestras (lineas dibujadas) en 40msg -> 40/576=0.0694 msg por muestra
  • 0.0694 msg por muestra corresponden a 14.4 MHz de frecuencia de muestreo

Es decir, el muestreo de 13.5MHz en horizontal se realiza más lento que el muestreo vertical (14.4MHz). Esto implica que para conservar la relación de aspecto, y para que no se deformen las imágenes, los píxeles en los que se muestra la información deben ser rectangulares (si usamos píxeles) o que al convertir la señal de digital a analógico dediquemos más tiempo para cada muestra en el sentido horizontal respecto al vertical.

La elección de los 13´5 MHz en vez de 14´4 responde a lo comentado antes sobre la compatibilidad PAL y NTSC (para los curiosos: 13´5 MHz y 6´25 MHz son múltiplos enteros de 2´25, que a su vez es el mínimo común múltiplo entre las 625 líneas del PAL y las 525 líneas del NTSC, de forma que se pueda usar el mismo reloj base para generar varias cosas en los dos formatos).

De cara a la norma las proporciones de píxeles de los televisores no tienen importancia, ya que son los fabricantes de televisores se tienen que encargar de que todo funcione, eso es su problema. El problema es cuando queremos utilizar los ordenadores, que tienen píxeles cuadrados y están pensados para hacer más cosas que para ver la televisión. Si queremos procesar imágenes con ordenadores debemos tener en cuenta que, por ejemplo, una rotación de 90º necesita unos cálculos más complicados de lo que parece… Esto se tuvo en cuenta a la hora de elaborar las normas para alta definición.

Volvamos a hacer cuentas:

Una línea tiene 64msg, así que con 13.5MHz de frecuencia de muestreo tenemos 864 muestras. Pero de esos 64msg sólo 52msg tienen información real de imagen (el resto son sincronismos), así que en la norma se establecieron 720 muestras por línea activa. Pero 720 muestras tomadas a 13.5MHz NO son 52msg, son 53.33. En la norma tuvieron en cuenta que las señales analógicas no son como ahora, casi ideales respecto al estándar, sino que los equipos podían tener derivas importantes, así que se toman más muestras antes y después de esos 52msg para evitar perder información que llegue adelantada o retrasada respecto al inicio de línea que marca el sincronismo correspondiente. Así que ya sabemos porqué los archivos de imágenes PAL tienen 720 píxeles.

Los televisores muestran 52msg de información en cada línea, es decir, 702 muestras, que quedarían centradas en las 720 que marca la norma. Pero claro, una imagen de 702×576 NO ES una imagen con relación de aspecto 4:3. Al alargar los píxeles en el sentido horizontal conseguiremos la relación de aspecto correcta, de forma que 702 píxeles ocupen cuatro partes en horizontal y 576 ocupen tres partes en vertical.

Si 576 lineas son tres partes de la imagen entonces cada parte tiene 192. Si necesitamos cuatro partes entonces necesitamos 768 píxeles. Con píxeles cuadrados tendremos una imagen 4:3 de 768×576. Así que ya está, ya lo tenemos: 702 píxeles rectangulares deben cubrir 768 píxeles cuadrados, es decir, que cada píxel rectangular debe ser como 1´094 píxeles cuadrados, o lo que es lo mismo: 

LA RELACIÓN DE ASPECTO DE LOS PÍXELES EN EL SISTEMA PAL 4:3 ES DE 1:1.094

 
¿Que implica esto exactamente? Pues que cuando un programa de fotografía o de edición de vídeo necesite saber que relación de aspecto tiene que usar para trabajar con las imágenes en PAL 4:3 debemos marcar la opción de 1:1.094. De esta forma el equipo trabajará sabiendo que cada uno de sus píxeles son rectangulares, y que si, por ejemplo, tiene que girar 90º una imagen, tiene que realizar una serie de cálculos adicionales para no deformar la imagen.

Pero siguen quedando flecos. Hemos hecho las cuentas con 702 píxeles para que la imagen quede con relación de aspecto 4:3, pero la norma establece 720, todos iguales, todos de relación de aspecto 1:1´094. La imagen de 702 píxeles de ancho queda en el centro de los 720 píxeles, así que nos sobran 9 por cada lado (esos píxeles de más que pusieron por si acaso). Esos nueve píxeles por cada lado se pueden dejar en negro, pero corremos el riesgo de que aparezcan dos columnas negras en la imagen en algún momento (una doble ventana en realización, por ejemplo), así que deben incluir parte de la imagen. Cuando esa imagen digital pase a ser analógica tendrá 53.3msg de parte activa, y se recortará por los bordes al mostrarse en un televisor convencional. Si está bien calibrado (pensad en 1982, con televisores del año 1975) tomara sólo los 52msg centrales para mostrarlos en pantalla. Si no está bien calibrado tendremos un margen de error del 2.5% para que la imagen quede colocada en su sitio.

Y otra cosa ¿Cuántos píxeles cuadrados debe tener una imagen creada en el ordenador, como una infografía, para poder exportarla sin deformaciones a un sistema de píxeles rectangulares?

Necesitaremos generar 720 píxeles no cuadrados, que son 720 x 1´094 = 787´69 cuadrados, así que tenemos que usar un tamaño de imagen de 788 píxeles de ancho por 576 píxeles de alto. Puede ser, pero es difícil que alguien note ese 0.31 píxel de más.

Y ahora, el 16:9

Tenemos que hacer las mismas cuentas, pero hay un detalle importante. La imagen resultante TAMBIÉN tiene 720 píxeles de ancho por 576 píxeles de alto. La norma establece que los valores empleados con estas imágenes sean los mismos que los de las imágenes 4:3 cuando sea necesario mantener el ancho de banda de la señal analógica resultante al convertir la señal desde el dominio digital, que es como nosotros lo utilizamos (hasta que llega el momento de la alta definición, claro).

Tenemos por tanto que actualizar los números que hemos echado antes:

Si tenemos 576 líneas y la imagen tiene una relación de aspecto de 16:9 entonces debería tener 576/9*16=1024 píxeles de ancho.

La parte activa de las líneas sigue teniendo 52msg, así que mantenemos los 702 píxeles muestreados a 13´5 MHz de la parte activa. Por lo tanto, esos píxeles tendrán 1024/702=1´4587 más de ancho que de alto, así que:

LA RELACIÓN DE ASPECTO DE LOS PÍXELES PAL DE 16:9 ES DE 1:1´4587.

Para generar imágenes en el ordenador tendremos 720 x 1´458 = 1050 píxeles cuadrados, así que deberíamos hacer imágenes de 1050 píxeles de ancho por 576 de alto.