5G未来已来:英特尔助无人驾驶“梦想走进现实”
Unicode er et tegnsett som har som form?l ? skape et standard tegnsett for alle datamaskiner som st?tter alle spr?k som er i praktisk bruk. Unicode blir utviklet av en privat organisasjon kalt Unicode Consortium. Organisasjonen ble stiftet i 1991 og utga i oktober dette ?ret Unicode-standardversjon 1.0.0 med 7161 tegnkoder. Standarden er senere blitt utvidet, i mai 2019 utkom versjon 12.1 som omfatter 137 994 tegnkoder.
Unicode bruker forskjellige metoder for ? representere tegnene i filer. I UTF-32 brukes 32 bit per tegn for ? representere hele dagens Unicode-tegnsett, mens i UTF-16, som brukes i nyere versjoner av Windows, deles tegnene opp i porsjoner p? 16 bit. UTF-8 bruker sekvenser p? 8 bit, og er gjort bakoverkompatibelt med 7-biters ASCII tegnsettet som brukes i en stor andel av verdens datasystemer, slik at det enkelt kan benyttes i en rekke operativsystemer og kommunikasjon over Internett.
Fordelen med Unicode er at det tillater flerspr?klig kommunikasjon. Mens ASCII-baserte tegnsett hindrer brukeren i ? skrive p? flere spr?k innenfor ett og samme dokument, st?tter Unicode de fleste spr?k man innenfor rimelighetens grenser kan tenkes ? bruke i et datasystem. Dermed gj?r Unicode det mulig ? enkelt representere flerspr?klig data elektronisk. For mange spr?k er det uten Unicode vanskelig eller umulig ? finne applikasjoner som st?tter det.
Historie
[rediger | rediger kilde]Opprinnelsen til Unicode dateres til 1987. Det er p? denne tiden Joe Becker fra Xerox sammen med Lee Collins og Mark Davis fra Apple, begynte ? utforske mulighetene for etablering av et universelt tegnsett.
Etter innspill fra Peter Fenwick og Dave Opstad, publiserte Joe Becker et utkast til et internasjonalt tegnsettsystem i august 1988 ved navn Unicode. Han mente at navnet “Unicode” betyr et unikt, enhetlig og universelt tegnsett koding.
I dokumentet Unicode 88, presenterte Becker en 16-bit tegnsettmodell. Unicode ble skapt for ? im?tekomme behovet for en brukervennlig og p?litelig koding av verdenstekst. Unicode kan omtrent beskrives som "wide body ASCII" som har blitt strukket til 16 bit for ? omfatte tegn fra alle verdens spr?k (16 bit per tegn var mer enn tilstrekkelig for dette form?let). Den originale versjonen med 16 bit per tegn ble basert p? antagelsen at kun tegn som er i bruk p? verdensbasis b?r kunne kodes. Historiske spr?k ble ikke tatt med i vurderingen.
I begynnelsen av 1989 ble teamet som jobbet med Unicode utvidet med nye medlemmer som Ken Whistler og Mike Kernaghan fra Metaphor, Karen Smith-Yoshimura og Joan Aliprand fra RLG, og Glenn Wright fra Sun Microsystems. Senere I 1990 ble ogs? Michel Suignard og Asmus Freytag fra Microsoft og Rick McGowan fra NeXT en del av arbeidsgruppen. Mot slutten av 1990 var mesteparten av arbeidet med ? kartlegge eksisterende tegnsett fullf?rt, og et endelig utkast av Unicode var klart.
Unicode Consortium ble etablert i California, 3. januar 1991, og i oktober 1991 ble den f?rste versjonen av Unicode som standard publisert. Den andre versjonen, som dekker ogs? Han-ideografier, ble utgitt i juni 1992.
I 1996 ble en ny tegnteknikk implementert i Unicode 2.0, slik at Unicode ikke lenger var begrenset til 16 bit per tegn. Dette ?kte Unicode-kodearealet til over en million kodepunkter, noe som tillot koding av mange historiske tegn (f.eks. egyptiske hieroglyfer) og tusenvis av sjeldent brukte eller foreldede kinesiske tegn som opprinnelig ble utelukket fra Unicode.
Microsoft TrueType-spesifikasjonen versjon 1.0 fra 1992 brukte navnet Apple Unicode i stedet for Unicode som plattform-ID.
Kritikk
[rediger | rediger kilde]Unicode har mottatt en del kritikk for sin implementasjon av kinesiske tegn. Tegnene har varierende utseende i forskjellige asiatiske skriftspr?k, mens Unicode har gitt samme kode til flere av disse variantene. Samtidig inkluderer Unicode flere tegn som ser relativt like ut p? flere plasser, for ? bevare kompatibilitet med eldre tegnsett. Eldre versjoner av Unicode manglet ogs? en del kinesiske tegn, men dette har blitt korrigert i senere revisjoner. Kina har s?gar brukt Unicode som basis for sitt nye nasjonale tegnsett GB18030, som kombinerer det eldre kinesiske tegnsettet GB2312 med Unicode. GB18030 kan anses ? v?re en kinesisk ekvivalent av UTF-8.
Tastatur
[rediger | rediger kilde]Ulike operativsystemer gir p? ulike m?ter adgang til ? finne de ulike tegnsettene og deres assosierte koder. Operativsystemet Mac OS X gir enkel adgang til dette med tastekombinasjonen ??T, mens Microsoft Windows har ?Tegnkart? under tilbeh?rsmenyen. I Ubuntu trykker man CTRL+SHIFT+u og deretter koden. Flere linuxdistribusjoner er basert p? UTF-8 fra filsystemet og oppover, mens mulighetene for ? skrive det varierer.
Se ogs?
[rediger | rediger kilde]Eksterne lenker
[rediger | rediger kilde]- (en) Offisielt nettsted
- (en) Offisiell blogg
- (en) Unicode – kategori av bilder, video eller lyd p? Commons
- (en) Unicode – galleri av bilder, video eller lyd p? Commons
- A Programmer’s Introduction to Unicode
- DecodeUnicode – Unicode WIKI, 50 000 gifs