Od fotonu do montażu filmów na PC.

Choć niedawno Lucas sparafrazował reklamę „Godzilli” („Liczy się wielkość”) hasłem „Liczy się fabuła”, nie przeszkadza mu to być właścicielem jednej z największych firm zajmujących się efektami specjalnymi. Firma ta nazywa się Industrial Light&Magic, co na język polski można by przetłumaczyć jako „Fabryka światła i magii”. Rzeczywiście – efekty specjalne to dzisiaj prawdziwy przemysł. Współczesne filmy, telewizyjne programy, czy reklamy nie mogą obejść się bez efektów specjalnych. Za pomocą komputera można teraz zrobić zarówno prosty montaż filmu, jak i wygenerować wirtualne, czyli nie istniejące w rzeczywistości światy. Paradoksalnie – technologia współtworząca te audiowizualne atrakcje wykorzystuje wzrokowe i słuchowe ograniczenia człowieka. Z dźwiękiem którego nośnikiem jest kulista fala składająca się z regularnych zagęszczeń cząstek powietrza (lub innego medium), sprawa jest jeszcze względnie prosta – słyszalne przez człowieka częstotliwości obejmują przedział zaledwie od ok. 20 Hz do ok. 20 kHz, a urządzenia niezbędne do jego rejestracji i odtwarzania stosowane są już od dawna. Jednak aby zarejestrować i przekazać na odległość obraz światła i to takiego, jakim go widzimy „na żywo”, czyli mieniącego się milionami barw i do tego jeszcze ruchomego, należało pokonać wiele wyzwań technicznych i technologicznych.

Mieszanie barw

Mówienie o barwach fal elektromagnetycznych, postrzeganych przez człowieka, jest całkowicie umowne. Fala nie ma przecież barwy – dopiero dokonywana przez oko skomplikowana percepcja fotonów o określonej częstotliwości, której wynikiem są powstające na skutek reakcji fotochemicznych impulsy elektryczne, jest „kolorowo” interpretowana przez mózg.
Najbardziej intuicyjnym przyjętym zresztą już w latach 20 naszego wieku przez Międzynarodową Komisję Oświetleniową (w skrócie CIE), system opisu barw jest model HSB. Każdą barwę można jednoznacznie opisać za pomocą trzech składowych koloru (Hue), nasycenia (Saturation) i jasności (Brightness). W modelu HSB kolor określa tylko tylko tzw. barwy czyste – wszystkie występujące w widmie światła białego oraz nie występujące w nim odcienie purpury. Nasycenie wyraża odstępstwo od barwy białej – dodając bowiem światło białe do barwy nasyconej (np. obecnej w widmie czerwieni) otrzymujemy barwę nienasyconą (róż) a w skrajnym przypadku (zupełny brak nasycenia) czystą biel. Jasność mówi z kolei o tym, jak wiele dana barwa zawiera czerni. Na przykład zmniejszając jasność koloru czerwonego, będziemy otrzymywali odcienie brązu aż do całkowitej czerni (przy zerowej jasności). Pełną przestrzeń barw opisuje model CIE xy, bowiem do wyrażenia każdej barwy wystarczą zaledwie dwie współrzędne oraz jasność (luminacja).
Jedno z praw kolorymetrii (dziedziny fizyki zajmującej się analizą i opisem barw) mówi, że każdą barwę można utworzyć z trzech innych, z których żadna nie jest kombinacją dwóch pozostałych. Z całego widzialnego spektrum wyróżniono zatem barwy podstawowe – czerwoną, zieloną i niebieską – za pomocą których można utworzyć miliony innych, w tym także, nie występującą w widmie, biel. Mieszanie trzech barwnych świateł w celu uzyskania nowych kolorów nosi nazwę metody addytywnej. Jej przeciwieństwem jest tzw. subtraktywne mieszanie farb (cyjanowej, purpurowej i żółtej) stosowane do taniego uzyskiwania szerokiego wachlarza barw w poligrafii. Gdyby nie mieszanie barw, ekran kineskopu czyli pojemniki farbowe w maszynie drukarskiej musiały by zawierać tyle barwników, ile kolorów chcielibyśmy wyświetlić lub wydrukować. Przestrzenie barwne RGB i CMY są jednak tylko podzbiorami (RGB większym) przestrzeni CIE xy.
Zgodnie z metodą addytywną wyświetlane są barwy na ekranie telewizora, a także odbywa się postrzeganie barw przez człowieka.
Widzenia barw umożliwiają bowiem trzy rodzaje zlokalizowanych w siatkówce oko komórek fotoreceptorowych (tzw. czopków), z których każdy uczulony jest na światło czerwone, zielone lub niebieskie (najnowsze, jeszcze nie potwierdzone badania, wskazują, że oko może być wyposażone w tylko dwa rodzaje fotoreceptorów). Jednakowe pobudzenie wszystkich rodzajów czopków daje wrażenie barwy białej. Przy czym ludzkie oko wcale nie jest jednakowo uczulone na każdą barwę. Najgorzej postrzegamy odcienie ( i zawarte w nich detale) niebieskiego i czerwonego, najlepiej – żółtego i zielonego.

Foton w elektron

Potoczna nazwa „kamera” jest w odniesieniu do dwu różnych urządzeń: tzw. kamery wizyjnej, która przesyła obraz w czasie rzeczywistym do studia telewizyjnego (samodzielnie go nie rejestrując) oraz kamwidu (zwanego też kamkorderem) umożliwiającego oprócz przekazu sygnałów audiowizualnych, także ich rejestrację. Kamera oprócz układów soczewek tworzących obiektyw, musi zawierać przetwornik optyczno-elektroniczny, zamieniający strumień fotonów na impulsy elektryczne. Przetwornikiem tym może być lampa analizująca lub układ ze sprzężeniem ładunkowym (ang. CargeCoupled Device).
W lampie analizującej do stworzenia kopii obrazu na światłoczułym elemencie wykorzystywane jest zjawisko fotoelektryczne – obraz jest na wstępie mapą ładunków elektrycznych, których koncentracja jest proporcjonalna do natężenia padającego światła. Za pomocą „analizującej” wiązki elektronów, przemiatającej powierzchnie światłoczułego elementu (który pełni rolę katody) obraz „ładunkowy” jest zamieniany już na „właściwe” impulsy elektryczne, zwane sygnałem wizyjnym. W ten sposób oczywiście powstaje obraz monochromatyczny; zarejestrowanie kolorów wymaga współdziałania trzech lamp, do których doprowadzone jest światło rozbite na barwy podstawowe RGB.
Układ ze sprzężeniem ładunkowym (CCD) jest matrycą złożoną z setek tysięcy lub nawet milionów światłoczułych elementów (fotodiod), w których gromadzi się ładunek elektryczny, proporcjonalny do liczby padających na nie fotonów. Specjalny układ odczytujący, którego zadaniem jest powiązanie wartości tego ładunku z miejscem jego występowania na matrycy, jest odpowiedzialny za formatowanie wyjściowego sygnału wizyjnego. Impulsy elektryczne są dalej wzmacniane w układzie elektronicznym kamery. Matryca CCD, podobnie jak lampa analizująca, nie odróżnia jednak kolorów. Aby to było możliwe, trzeba zastosować specjalne filtry, (dostarczające w krótkich odstępach czasu składowe RGB na jeden element CCD) lub w układzie optycznym kamery rozszczepiać światło na składowe RGB, kierując go na trzy elementy CCD. To drugie rozwiązanie stosowane jest w urządzeniach wyższej klasy.
Kamery CCD mają wiele zalet. Są dużo mniejsze od tradycyjnych kamer, pobierają mniej mocy, mają znacznie większą odporność na wstrząsy, nie powodują zniekształceń geometrycznych, nie charakteryzują się bezwładnością przetwarzania oraz rejestrują obraz bez intensywnego oświetlenia. Czułość kamer CCD jest doskonała – wynosi kilka luksów, dla przykładu światło świecy w odległości 20 cm ma wartość 10-15 luksów, przeciętne oświetlenie pokoju – 100 luksów; a natężenie światła w zachmurzonym dniu wynosi 5000 luksów. Używane obecnie amatorskie kamery, a raczej kamwidy, dzielą się na dwa podstawowe rodzaje: analogowe i cyfrowe. Przy czym rozróżnienie to jest czysto umowne bowiem nawet „analogowe” są także w przeważającej części cyfrowe. Oba typy kamer
rejestrują obraz za pomocą elementu CCD, a jako nośnik stosują taśmę magnetyczną . Różnią się natomiast sposobem obróbki sygnału wychodzącego z CCD i – w efekcie – odmiennym formatem zapisu; w kamerze analogowej jest to nieskompresowany sygnał analogowy, w cyfrowej: skompresowany sygnał cyfrowy, czyli po prostu bity danych.
Często kamera analogowa (np. Panasonic VX33) ma wbudowane „cyfrowe” efekty specjalne nakładane na analogowy obraz w czasie rzeczywistym. Często też uzyskany za pomocą kamer analogowych obraz może mieć lepszą jakość od zarejestrowanego przez kamerę cyfrową, szczególnie gdy uzbroimy ją w dobrą optykę i trzy elementy CCD.

Standardy sygnałów

Sygnał elektryczny generowany przez optyczno-elektroniczną część kamery wideo, aby mógł być zapamiętany na taśmie magnetycznej i z powodzeniem wykorzystany w innych urządzeniach, musi mieć określoną postać. Historycznie, pierwszą propozycją takiego sygnału był NTSC. Jego nazwa pochodzi od amerykańskiego National Television System Commitee, który w 1941 roku opracował specyfikację dla czarno-białej telewizji. Jednak za początek narodzin telewizji uznaje się rok 1927. Wtedy to młody wynalazca Philip T. Farnsworth uwieńczył sukcesem kolejną próbę z przekazem obrazu na odległość. Transmitowany widok był co prawda skromny – składał się z jednaj linii, ale dał istotny impuls w wyścigu o nowy rodzaj masowego medium. Pierwsza oficjalna transmisja telewizyjna miała miejsce dwanaście lat później, na światowej wystawie EXPO ’39 odbywającej się w Nowym Jorku. W tamtym czasie brakowało jeszcze uzgodnionego standardu dla sygnału telewizyjnego, a wykorzystywane w trakcie prezentacji kamery firmy RCA przekazywały 30 obrazów na sekundę z rozdzielczością 441 linii.
Dopiero dwa lata później NTSC opracował formalne zalecenia. Sygnał wizyjny pierwszej wersji standardu opisywał wyłącznie luminację (czyli poziom jasności) każdego z elementów obrazu. Szerokość tego sygnału wynosiła 4,2 MHz. W jego ramach obraz był odświeżany 30 razy na sekundę. W przypadku sygnału wizyjnego zespolonego ze ścieżką dźwiękową odświeżanie obrazu wyniosło 29,97 razy na sekundę. Aby zminimalizować negatywny wpływ skokowego przechodzenia pomiędzy kolejnymi obrazami, a przy okazji ułatwić konstrukcję urządzeń telewizyjnych, rzeczywiste odświeżanie wynosi 60 (59,94) razy na sekundę, czyli prawie dokładnie tyle, ile standardowa częstotliwość prądu elektrycznego dostarczanego do gniazdek w amerykańskich domach. Po prostu każdy obraz został podzielony na dwa półobrazy, czyli pola. Pierwsze pole zawierało linie nieparzyste obrazu wejściowego, drugie – parzyste. Właśnie dzięki temu, pomimo zachowania liczby pełnych obrazów w ciągu sekundy, osiągnięto większą częstość odświeżania.
Rozdzielczość pionowa NTSC to teoretycznie 525 linii rozdzielone na dwa pola. Jednak część tych linii jest przeznaczona na impulsy wygaszania i synchronizacji (tzn. linie te niosą informacje o zakończeniu przesyłania pola i rozpoczęciu przesyłania następnego). Rozdzielczość pozioma nie jest ściśle określona. Zależy jednak od rozdzielczości pasma wizyjnego, parametrów nadajnika, parametrów odbiornika oraz jasności sygnału, jaki do niego dociera. Przy założeniu, że częstotliwość linii wynosi 15,743 kHz (525 linii * 29,97 obrazów), na analizę każdej linii przypada ok. 63 mikrosekund. Idąc dalej możemy stwierdzić, że im szersze pasmo wizyjne (tzn. im więcej impulsów przypada na 63 mikrosekundy), tym sygnał może mieć większą rozdzielczość poziomą.
W skład każdej linii wchodzi: informacja o jej początku (impuls synchronizacji), informacja o danym fragmencie obrazu (charakterystyka tonalna) oraz informacja o jej końcu (wygaszanie). Wartości poszczególnych impulsów zostały określone przez IRE opisującą położenie impulsu w zakresie od -1V (-140 IRE) do 1 V (140 IRE). Na przykład w NTSC białemu kolorowi (maksymalny poziom świecenia punktu) odpowiada 100 IRE, czyli ok. 0,714286 V. Poziom czerni wynosi 0 IRE. Taką samą wartość ma sygnał wygaszenia, co jest jedną z wad klasycznego systemu NTSC. Dlatego w 1989 roku organizacje standaryzacyjne ANSI, EIA oraz TIA we wspólnym dokumencie zaleciły stosowanie innej, dolnej wartości luminacji. Ustalono, że poziomem czerni dla bardziej profesjonalnego sprzętu NTSC powinno być 7,5 IRE. Osoby, które korzystają z takiego sprzętu, powinny przy zakupie systemu edycji wideo zwrócić uwagę, czy umożliwia on regulację poziomu czerni. Niezależnie od urządzenia czy też systemu telewizyjnego regulacja jasności i kontrastu polega właśnie na regulacji wartościami i zakresem luminacji.
Niezaprzeczalnie telewizja, nawet w swej pierwszej, czarnobiałej wersji odniosła niezaprzeczalny sukces. Rozwiązania opracowane w USA zostały przeniesione na grunt europejski. Najważniejsze modyfikacje związane były z zasilaniem (w Europie o częstotliwości 50 Hz, czyli 50 pól na sekundę) oraz rozdzielczością (625 linii zamiast 525 linii). Łatwo zauważyć, że zmniejszenie liczby pól przetwarzanych w ciągu sekundy powiększyło w stosunku proporcjonalnym liczbę linii w tych polach.

Kolor na dokładkę, proszę …

Wraz z pojawieniem się telewizji kolorowej pojawił się problem jej zgodności z czarno-białą telewizją. Rozwiązaniem okazało się poszerzenie pasma sygnału wizyjnego oraz taka jego modulacja, aby dodanie informacji o kolorze nie wpłynęło na charakter luminacji. Kolejną kwestią było przekształcenie trzech sygnałów RGB na dwa: „czarno-biały” oraz „kolorowy”.
Biel tworzona na ekranie kineskopu telewizyjnego zawiera w sobie 30 % czerwieni, 59 % zieleni oraz 11% niebieskiej składowej. Dzięki temu, że proporcja jest stała, można było „zamrozić” ją w jeden sygnał luminacji:
Y=0.299*R+0.587*G+0.11*B
Stopnie szarości uzyskuje się poprzez zmianę natężenia tego sygnału . Oczywiście sygnał telewizyjny ma charakter liniowy, a jego poziom może być różnie interpretowany przez różne elementy odbiornika (np. lampę kineskopową). Dlatego w praktyce za równo po stronie urządzeń generujących sygnał, jak i urządzeń go odbierających mamy do czynienia ze specjalną transformacją pomiędzy skokowymi (dyskretnymi) zmianami wartości iluminacji a ich liniowymi odpowiednikami. Transformację taką nazywa się korekcją gamma, a jej parametry – współczynniki gamma – zależą od rodzaju sygnałów (np. przyjętych zakresów dopuszczalnych wartości dla sygnału) i charakterystyki konkretnych urządzeń.
Ponieważ w luminacji zawiera się suma wszystkich trzech składowych RGB, wystarczy aby sygnał „kolorowy” opisywał tylko dwie z nich. Przyjęto zatem, że będzie w nim zakodowana informacja o składowej niebieskiej (B) i czerwonej (R), a ściśle, że będą to różnice: B-Y oraz R-Y. Wybór takich a nie innych składowych sygnału kształtującego kolorystykę obrazu, był spowodowany ich najmniejszą procentową zawartością w sygnale luminacji. Stąd wartości różnic B-Y i R-Y są względnie największe, a co za tym idzie, najbardziej odległe od poziomu szumów, mogących zniekształcać odtwarzanie niektórych barw.
Cały ten pomysł oficjalnie po raz pierwszy ujrzał światło dzienne w 1953 roku w formie standardu NTSC-II. Sygnał chrominancji zdefiniowano jako sumę dwóch sygnałów zmodulowanych na poziomie tej samej podnośnej (3,58 MHz), z których pierwszy zgodny z fazą podnośnej (ang. In-phase) odpowiadał wartości koloru na skali „pomarańczowy-cyan”, drugi przesunięty w fazie o kąt 90 stopni (ang. Quadrature), określał wartość koloru na skali „zielony – purpurowy”. Zapis matematyczny transformacji koloru z palety RGB na składowe chrominancji przedstawiał się następująco:
I=0.74*(R-Y)-0.27*(B-Y)
Q=0.48*(R-Y)+0.41*(B-Y)
Dla sygnału I wygospodarowano pasmo 1,5 MHz, a dla Q 0,5 MHz. Po połączeniu w jeden sygnał chrominancji sygnały I i Q – tak jak na wejściu – są przesunięte w fazie względem siebie. Jednak dla obu punktem odniesienia stał się specjalny impuls początkowy, tzw. color burst, pojawiający się tuż po impulsie synchronizacji poziomej. Konkretne wartości składowych I i Q są określane poprzez przesunięcia w fazie względem kolejnych dwóch punktów odniesienia. Początek skali I jest oddalony od impulsu początkowego o 57 stopni. Skala Q rozpoczyna się 90 stopni dalej.
Zmiany poziomu sygnału względem jego fazy umożliwiają jego transformację ( w odbiorniku ) na sygnał RGB. Można bowiem w nich znaleźć to, co najbardziej nas interesuje – różnice R-Y i B-Y. Początek skali R-Y znajdziemy 90 stopni od impulsu początkowego koloru, początek skali B-Y – następne 90 stopni dalej. Poziom sygnału w tych miejscach przekazuje informacje o ich nasyceniu. W końcowym efekcie na lampie kineskopowej powinniśmy otrzymać punkt o odpowiednio „wyliczonym” kolorze. Jedną z wad koncepcyjnych standardu NTSC jest rozbieżność pomiędzy tym co jest nadawane (I i Q), a tym, co ma się pojawić w odbiorniku (R-Y, B-Y, G-Y). Wymaga to układów odbiornika zachowania doskonałej precyzji. Poza tym NTSC nie został wyposażony w mechanizmy korekcji błędów (np. powstałych w wyniku szumów czy też w wyniku różnego typu zakłóceń, których to nie brakuje w telewizji naziemnej).

Artykuł z czasopisma PCkurier – „Gwiezdne wojny w PC”; nr 25/98; Tomasz Władyczański, Cezary Czerwiński.