Znakové sady

Znaková sada určuje uspořádanou množinu znaků.

Znakové sady

128 znaků (27)

Ve dvojkové soustavě je možné 128 znaků vyjádřit pomocí 7 bitů.

ASCII kódování

ASCII

  • znaky anglické abecedy
  • znaky používané v informatice
    Vybrané znaky ASCII tabulky
    Znak Pořadové číslo
    " 34
    & 38
    ' 39
    < 60
    > 62
    @ 64
    \ 92

256 znaků (28)

Ve dvojkové soustavě je možné 256 znaků vyjádřit pomocí 8 bitů (bajt).

ISO kódování

Prvních 128 znaků je shodných s ASCII.

ISO 8859-1

  • Západoevropská znaková sada (ISO Latin 1)

ISO 8859-2 Operační systém Linux

  • Východoevropská (středoevropská) znaková sada (ISO Latin 2)
    • bosenština
    • chorvatština
    • čeština
    • maďarština
    • polština
    • rumunština
    • srbština (psaná v latinské transkripci)
    • srbochorvatština
    • slovenština
    • slovinština
    • hornolužičtina
    • dolnolužičtina
    • atd.

ISO 8859-...

  • ISO 8859-3: Jihoevropská znaková sada (ISO Latin 3)
  • ISO 8859-4: Baltská (ISO Latin 4)
  • ISO 8859-5: Cyrilice (ruština/cyrilika/ukrajinština)
  • ISO 8859-6: Arabská
  • ISO 8859-7: Řecká
  • ISO 8859-8: Hebrejská
  • ISO 8859-9: Turecká (Latin-5)
  • ISO 8859-10: Latin-6, Nordická
  • ISO 8859-11: Thaiská
  • ISO 8859-13 : Baltská (Latin-7)
  • ISO 8859-14: Keltská (Latin-8)
  • ISO 8859-15 : Západoevropská (Latin-9)
  • ISO 8859-16 : Jihovýchodoevropská (Latin-10)

CP852 Operační systém Microsoft DOS

  • středoevropské jazyky (PC Latin 2)
    • polština
    • rumunština
    • čeština
    • slovenština
    • atd.

Kód Kamenických Operační systém Microsoft DOS

  • upravená sada CP437, kde jsou znaky 128 až 171 nahrazeny znaky české a slovenské abecedy
    • čeština
    • slovenština

Windows 1250 (CP 1250) Operační systém Microsoft Windows

  • středoevropské jazyky (PC Latin 2)
    • bosenština
    • chorvatština
    • čeština
    • maďarština
    • polština
    • rumunština
    • srbština (psaná v latinské transkripci)
    • srbochorvatština
    • slovenština
    • slovinština
    • hornolužičtina
    • dolnolužičtina
    • atd.
  • vlastní sada Microsoftu, která nedodržuje ISO standard (liší se zejména ve znacích š, Š, ž, Ž, ť, Ť a ľ)

Miliardy znaků

Unicode (ISO 10646)

Na rozdíl od osmibitových tabulek znaků jako je bratří Kamenických, Latin 2, Windows-1250 či ISO-8859-2 lze všechny znaky zobrazit současně bez použití znakových entit. Tj. v jednom textu lze tedy kombinovat např. češtinu, ruštinu a řečtinu.

  • 231 ~ 2 miliardy znaků
    • všechny známé znakové sady jazyků na Zemi, včetně japonského nebo čínského písma
    • fonetické abecedy (zápis výslovnosti)
    • speciální vědecké a matematické symboly
    • kombinované znaky
  • 4 bajty, každý po 8 bitech (max. však 31 bitů)
    • může obsahovat nuly na začátku bajtů, což je nevýhodné např. při programování v jazyce "C" (kódování ISO 8859 nuly na začátku neobsahuje)
  • výchozí znaková sada XML
UTF-8 Operační systém Mac OS Operační systém Linux
  • 8bitové slovo – 1 znak zabírá nejméně 8 bitů (1 bajt)
    Kódování UTF-8
UTF-16
  • 16bitové slovo – 1 znak zabírá nejméně 16 bitů (2 bajty)
    Kódování UTF-16
  • není kompatibilní s ASCII
UTF-32
  • 32bitové slovo – každý znak zabírá 32 bitů (4 bajty)
    Kódování UTF-32