Mateusz matipl Kamiński: blog o programowaniu, IT, finansach i własnym życiu

Unicode zdobyło prawie 50% Sieci

Unicode 5.0Półtora roku temu wg wyliczeń Google użycie kodowania Unicode było porównywalne z innymi systemami kodowania (ASCII oraz ISO/CP).

Obecnie wykorzystanie Unicode w Sieci dochodzi powoli do 50%, gdy ASCII oraz ISO/CP mają po około 20 % udział. Jest to dość śmieszne, ponieważ nie ma nic bardziej oczywistego dla Internetu jak Unicode, którego historia sięga aż 1991 roku (1.0).

Pamiętam, gdy nie lada problemem stron internetowych było właśnie kodowanie. Microsoft trzymał się dla Polaków z CP-1250 (np. Front Page, Word), a druga część społeczeństwa używało ISO-8859-2.
Z tego powodu w polskim Internecie było sporo krzaczków, nie mówiąc o problemie tworzenia takich stron. Od kilku lat dość popularnym kodowaniem stało się UTF-8 i problemy jakby ręką odjął – przynajmniej ja go nie odczuwam.

Dodam, że Google już od wielu lat przechowuje swoje zasoby właśnie z wykorzystaniem Unicode. Obecnie Google planuje przejść na Unicode 5.2 (ogłoszone w październiku 2009), który oferuje dodatkowe 6600 znaków.

Podobne wpisy:

Podziel się tym:

  • Print
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • LinkedIn
  • Twitter
  • Wykop

SUBSKRYBUJ RSS

  • no tak, utf czyli unicode, to bardzo wygodna sprawa zwlaszcza w projektach wielojezykowtch. maly problem z obsluga utf mamy w php (na razie, bo poczawszy od wersji 6. bedzie juz pelne wsparcie dla unicode). czesto widzi sie w sieci strony gdzie tekst zostal skrocony lub dzielony i ktos nie wzial pod uwage ze znaki utf8 maja 2 bity – stad czesto widzimy krzaczek :D no ale tym wlasnie odroznia sie dobry od przecietnego phpowca ;)

  • @webit: no nie każdy zna inne funkcje lub biblioteki ;) Jeśli się pamięta m.in. o mb_ to UTF nie stanowi problem w PHP, ale oczywiście przydałoby się natywne wsparcie

  • Wiesz co to jest unicode?

  • unicode a utf-8 to są dwie różne bajki.

    @webit – znaki w utf-8 nie mają 2bajtów, mogą tyle mieć. w utf-16 mają 2 bajty

  • @test: zastosowałem uogólnienie zakładając, że rozumiem różnicę między standardem a kodowaniem ;) po to też linki w tekście…
    unicode, a utf8 to nie są 2 różne bajki ;) bo jedno wynika z drugiego

Możesz śledzić odpowiedzi za pomocą kanału RSS 2.0

Mateusz matipl Kaminski on Facebook