Å Ä Ö
14.07.1996

Å, Ä, Ö JA MUUT ERIKOISMERKIT

Kun tietokoneen välittämässä tekstissä esiintyy erikoismerkkejä, tekstin laatija ei voi varmasti tietää, minä merkkinä tekstin lukija hänen kirjoittamansa merkin näkee. Tuo ongelma koskee myös tätä kirjoitusta. Esimerkiksi tässä (§) on pykälänmerkki suluissa, mutta en voi olla varma siitä, näkyykö se kaikissa koneissa kaikilla ohjelmilla katsottuna samanlaisena kuin omassa koneessani.

Suomenkielen aakkosissa on kolme ongelmallista kirjainta (å, ä ja ö), joita kutsutaan myös skandeiksi tai ääkkösiksi. Ongelmia on puolestaan kaksi: Miltä kirjain näyttää ruudulla tai paperilla ja miten se sijoittuu, kun nimet lajitellaan aakkosjärjestykseen?

Vielä viisitoista vuotta sitten IBM-suurkoneympäristön ulkopuolella käytettiin yleensä joko 7 tai 8 bitin ASCII-koodia. Jos ääkköset eivät olleet oikein, ne näkyivät haka- ja kaarisulkuina. IBM-suurkoneista peräisin olevan tekstin taas tunnisti usein siitä, että muuten isoin kirjaimin kirjoitetussa tekstissä ä ja ö olivatkin pienin kirjaimin. Menin aikanaan naimisiin virkatodistuksella, jonka oli antanut "VäESTöREKISTERI". Tietokone käytti siis EBCDIC-merkistöä, mutta tulostin ASCII-merkistöä. (Ei ihme, että päädyimme eroon).

IBM-PC:ssä otettiin käyttöön uusi merkistö (ns. IBM-PC-merkistö), jonka 128 ensimmäistä merkkiä ovat samat kuin ASCII-merkistössä, mutta esimerkiksi skandit ovat eri kohdissa. Sitäpaitsi eri PC-ohjelmat toimivat IBM-PC:ssäkin eri tavoin. Esimerkiksi HP:n laserista piti WordPerfectiä käytettäessä valita "Symbol set = Roman-8", mutta Paradoxia tai TimeLineä käytettäessä "Symbol set = US-ASCII", jotta skandit tulostuivat oikein.

Jossakin vaiheessa DOS:in merkkivalikoimaa laajennettiin siten, että siihen tuli monta erilaista merkistöä, joita kutsutaan koodisivuiksi. DOS varaa käyttäjälle kaksi erilaista koodisivua, joista ensimmäinen eli primäärinen on asennuksen jälkeen käytössä. Toinen eli sekundäärinen on käyttäjän valittavissa, jos hän osaa ottaa sen käyttöön. Primäärinen koodisivu on USA:ssa, Ruotsissa, Saksassa, Ranskassa, Italiassa, Hollannissa, Espanjassa, Englannissa ja useimmissa muissa maissa numero 437. Se on myös suomalaiselle paras, mutta valitettavasti joku onneton IBM:llä tai Microsoftilla keksi valita Suomen oletuskoodisivuksi 850:n. Siitä aiheutui aikanaan suomalaisille PC-käyttäjille paljon täysin tarpeetonta harmia. Nyt DOS-ohjelmien käyttö on kuitenkin jo vähäistä ja samalla DOS-koodisivuongelmien tilalle on tullut joukko uusia ongelmia.

Windowsin myötä on yleistynyt uusi merkistö, joka tunnetaan myös nimillä ANSI-merkistö, Latin-1 ja ISO-8859-1. Sitä käytetään Windowsin lisäksi mm. Internetin Web-sivuilla. Siihen ei sinänsä liity muuta ongelmaa kuin muunnokset DOS- ja Windows-tekstien välillä. Internetin sähköpostissa käytetään kuitenkin ns. MIME-koodausta, jota monet muut sähköpostijärjestelmät (kuten X.400 tai MS Mail) eivät vielä tunne. Kun Internetistä lähetetään sähköpostia sellaiseen järjestelmään, esimerkiksi sana "tämä" näkyy vastaanottajan saamassa sanomassa muodossa "t=E4m=E4". Macintoshissa on sitäpaitsi vielä oma merkistönsä, joka aiheuttaa toisinaan toisenlaisia ihmeellisyyksiä sähköpostisanomiin.

Monissa kielissä ä ja ö sijoittuvat aakkosissa eri kohtiin kuin suomen kielessä. Luullakseni saamme kiittää lähinnä Tietoväylä Oy:n 1980-luvun aktiivisuutta siitä, että tärkeimpiin amerikkalaisiin PC-ohjelmiin tuli jo hyvin varhaisessa vaiheessa myös suomalainen lajittelujärjestys.

Tämän sivun alkuun
Sisällysluettelo ja ohjeet