UTF-8 (obok UTF-16 i UTF-32) jest jednym z najważniejszych systemów kodowania znaków w Unikodzie (Unicode). Stanowi on tablicę kodową znaków, która ma z założenia obejmować wszystkie znaki pisma jakie używane są na świecie. W skrajnie idealistycznym znaczeniu: jedno kodowanie dla wszystkich, bez względu na to w jakim języku piszą.
UTF-8 jest tym z systemów kodowania w Unikodzie, które jest najbardziej popularne z racji na zastosowanie i efektywność działania. Nie wnikając w detale techniczne: UTF-8 pozwala na stosowanie uniwersalnego kodowania znaków przy jednocześnie optymalnym (zadawalającym pod względem objętości) rozmiarze danych i wystarczająco szybkich działaniach, operacjach wykonywanych na ciągach (np. w przypadku baz danych). Jednak UTF-32, mimo że jest najbardziej dopracowanym i lepszym kodowaniem jeśli chodzi o założenia uniwersalności, w aspekcie efektywności wypada najsłabiej (objętość danych w UTF-32 będzie około 4 razy większa od danych zapisanych z kodowaniem narodowym).
W porównaniu do narodowych tablic kodowych (jak np. ISO-8859-2), UTF-8 daje w rezultacie dane (tj. ciągi tekstowe) o rozmiarze nieco większym: od (najczęściej) kilku do (rzadko) kilkudziesięciu procent. Mimo tego, w świetle jego zalet jest to w praktyce wada o małym znaczeniu.
Pisanie, łatwe i przyjemne
Najistotniejsze w tym całym zamieszaniu z kodowaniem znaków, jest to jak przekłada się ono na użyteczność. Nie ważne, czy to dla programistów, czy to publicystów, czy również zwykłych użytkowników. Uniwersalność kodowania znaków pozwala nie tylko tworzyć elastyczne aplikacje, ale również zapewnia spójność i kompatybilność urządzeń (nawet wpisy teleadresowe w książce Twojego telefonu komórkowego zapisane są z użyciem kodowania UTF-8).
Na Macu wszystko (system i aplikacje) korzysta z UTF-8. Przekłada się to na wygodną pracę z tekstem w obszarze jednej lub kilku aplikacji (np. kopiowanie do schowka, wklejanie). Co ciekawe, wiele znaków specjalnych i specyficznych można wprowadzać z klawiatury, często w oparciu o logiczny, intuicyjny skrót. Świetna sprawa, zwłaszcza przy pisaniu tekstów na stronach WWW. Oto kilka z nich:
- lewy OPTION (lub ALT) + \ daje: «
- lewy OPTION + SHIFT + \ daje: »
- lewy OPTION + ; daje: … (trój-kropek)
- lewy OPTION + = daje: ≠ (znak nierówności)
- lewy OPTION + G daje: © (copyright)
- lewy OPTION + R daje: ® (registered)
- lewy OPTION + 2 daje: ™ (trademark)
- lewy OPTION + , daje: ≤ (mniejszy lub równy)
- lewy OPTION + . daje: ≥ (większy lub równy)
- lewy OPTION + 8 daje: • (odpowiednik encji:
•)
- lewy OPTION + spacja to twarda spacja (encja:
)