文字コードとは
更新日 : 2018年12月09日
コンピューターに表示されている文字も元をたどれば0と1の数字でしかありません。ですが桁数を増やした1バイトの状態にすることで256通りのデータを表すことができます。
文字コードは、1バイト〜4バイト程度のデータを利用してそれぞれの01の組み合わせに対して人間が使用する文字に当てはめたコードとなります。
例えば当ブログBeCrazyで表示される「あ」は「111000111000000110000010」としてデータ上は決まっています。文字に対してどの数値が当てはまるかは今回説明する文字コードによって異なるため注意が必要です。
文字コードとは
コンピュータに表示されている文字や記号も0と1のデータのみでできています。
上記で説明したように、それぞれの文字を1〜4バイト程度の0と1のデータに対してそれぞれ記号と文字を組み合わせごとに対応させていかなければコンピュータは認識できません。
さらに、どんなコンピュータでも同じ文字として表示できないと、コンピュータごとに違う文字として表示されてしまいます。
そのため、どんなコンピュータでも「あ」は「111000111000000110000010」というデータであるという決まりを作らなければ、すべてのコンピュータで同じように表示することができません。その決まりが文字コードです。
文字コードにも種類がある
文字コードという規則に従って、0と1のデータを、それぞれの文字に対応させて表示をしています。
普段表計算ソフトなどを利用している場合、文字化けを経験したことがあるかと思います。
「 æ–‡å—化㑠」や「譁�ュ怜喧縺�」のように表示されて、みたいデータが見れないことを文字化けと言いますが、これは主に文字コードが原因です。
実は、文字コードにもいくつかの種類があります。
代表的な文字コードの紹介
基本的には以下の2つを知っておけば、プログラミング開発では困らないかと思います。場合によっては追記します。
- Shift-JIS
基本的にWindowsで利用される日本語用文字コード。
「あ」は「1000001010100000」となる。 - UTF-8
世界の文字をたくさん表現できる文字コード、もちろん日本語も含まれるため、日本語サイト等ではUTF-8が主流となっている。
「あ」は「111000111000000110000010」というデータとなる。
まとめ
どんなコンピュータでも同じデータに対して同じ文字で表示されるためには、01のデータを文字として表現するためのルールが必要です。
その対応表を取り決めたものが文字コードとなり、文字コードによって、同じ01データでも、対応する文字が異なる場合があります。これが文字化けの原因となる場合があるので注意が必要です。
タグ
-
前の記事
データの単位
-
次の記事
マルチバイト文字とは