Unicode (zwany czasem po polsku Unikod) - komputerowy zestaw znaków mający w zamierzeniu obejmować wszystkie pisma używane na świecie. Definiują go dwa standardy - Unicode oraz ISO 10646. Znaki obu standardów są identyczne. Standardy te różnią się w drobnych kwestiach, m.in. Unicode określa sposób składu.

Rozwijany jest przez konsorcjum, w którego skład wchodzą ważne firmy komputerowe, producenci oprogramowania, instytuty naukowe, agencje międzynarodowe oraz grupy zainteresowanych użytkowników. Konsorcjum współpracuje z organizacją ISO.

Spis treści

[edytuj] Kodowanie Unikodu

Standard Unicode obejmuje przydział przestrzeni numeracyjnej poszczególnym grupom znaków, nie obejmuje zaś sposobów bajtowego kodowania znaków. Jest kilka metod kodowania, oznaczanych skrótami UCS (Universal Character Set) lub UTF (Unicode Transformation Format), a do najważniejszych należą:

innymi kodowaniami Unikodu są także:

inne, stanowiące margines lub pozostające na etapie propozycji, na przykład:

  • UTF-9 i UTF-18
  • UTF-EBCDIC
  • UTF-6
  • UTF-5

Kody pierwszych 256 znaków Unicode pokrywają się z kodami ISO Latin 1 (czyli ISO-8859-1). Należy jednak pamiętać, że jest to zbieżność wyłącznie numerów przyporządkowanych konkretnym znakom, wartości bajtów użytych do ich zapisania mogą (i w większości kodowań będą) się różnić od tych, które uzyska się stosując Latin 1.

[edytuj] Historia standardu

[edytuj] Relacje do UCS

  • Unicode 1.1 ISO/IEC ≈ 10646-1:1993
  • Unicode 3.0 ISO/IEC ≈ 10646-1:2000
  • Unicode 3.2 ISO/IEC ≈ 10646-2:2001
  • Unicode 4.0 ISO/IEC ≈ 10646-3:2003

[edytuj] Wprowadzanie znaków Unikodu

Typowe układy klawiatur udostępniają tylko niewielki zbiór znaków, na przykład standardowe polskie układy klawiatury zawierają wyłącznie polskie litery i znak euro, nie zawierają natomiast znaków cudzysłowu. Do wprowadzania znaków nieobecnych na klawiaturze można użyć jednej z poniższych metod:

  • W systemie Windows, Mac OS X (od wersji 10.2) oraz w licznych dystrybucjach Linuksa (ze Å›rodowiskiem graficznym) dostÄ™pna jest tablica znaków, w której można wyszukać potrzebny znak, skopiować go do schowka, a nastÄ™pnie wkleić w program. W Systemach Windows 95, 98 i ME tablica znaków nie daje dostÄ™pu do wszystkich znaków Unikodu.
  • ZnajÄ…c numer pozycji znaku (czy to dziesiÄ™tny, czy to szesnastkowy) można wprowadzić ten znak na kilka sposobów, nie wszystkie programy obsÅ‚ugujÄ… wszystkie opisane tu sposoby:
    • TrzymajÄ…c naciÅ›niÄ™ty (lewy) Alt i wpisujÄ…c z klawiatury numerycznej numer dziesiÄ™tny tego znaku, po czym zwolnić klawisz Alt,
    • Wpisać numer szesnastkowy tego znaku, a nastÄ™pnie wcisnąć kombinacjÄ™ (lewy) Alt+x. Przed numerem szesnastkowym nie może być cyfra ani litera z zakresu a÷f (gdyż zostanÄ… uznane jako część kodu, ewentualnie należy poprzedzić kod np. spacjÄ… lub uzupeÅ‚nić kod wiodÄ…cymi zerami tak, by liczyÅ‚ dokÅ‚adnie sześć pozycji),
    • TrzymajÄ…c naciÅ›niÄ™ty (lewy) Alt nacisnąć klawisz plus, wpisać szesnastkowy znaku, po czym zwolnić klawisz Alt. Metoda ta dziaÅ‚a w systemie Windows XP i nowszych,
    • TrzymajÄ…c naciÅ›niÄ™te klawisze Ctrl+Shift wpisać numer szesnastkowy znaku, a nastÄ™pnie puÅ›cić klawisze. Metoda ta dziaÅ‚a w Å›rodowisku GNOME.

Istnieją też programy do tworzenia własnych układów klawiatur, dzięki nim można podpiąć dowolny znak Unikodu pod dowolną kombinację klawiszy (najczęściej wykorzystywana jest kombinacja AltGr+klawisz, gdzie AltGr to prawy klawisz Alt). Niektóre programy dla Windows pozwalają jedynie na wprowadzanie z klawiatury znaków istniejących jedynie w stronie kodowej właściwej dla języka klawiatury, np. w przypadku polskiego systemu Windows próba wpisania kombinacją AltGr+klawisz znaku nie istniejącego w stronie kodowej Windows-1250 nie da oczekiwanego efektu. Inne ograniczenie systemu Windows dotyka znaków o numerach z zakresu 160-255. Przytrzymanie wciśniętego klawisza Alt i wpisanie trzycyfrowego numeru z tego zakresu powoduje wstawienie znaku o tym numerze ze strony kodowej DOS właściwej dla języka klawiatury (w przypadku polskiej klawiatury będzie to znak ze strony kodowej CP852), zaś wpisanie numeru poprzedzonego zerem – znaku ze strony kodowej Windows (w przypadku polskiej klawiatury będzie to znak ze strony kodowej Windows-1250).

Przypisy

[edytuj] Linki zewnętrzne