マルチバイト文字とは
3年以上前に更新されました。情報が古い可能性があります。
更新日 : 2018年12月09日
更新日 : 2018年12月09日
「マルチ」は「複数の」という意味、バイトに関しては解説しました。
つまり1バイトで文字を表現するのではなく、2バイト以上で対応している文字をマルチバイト文字といいます。
日本語や中国語等、文字の種類が多い言葉に対して漢字や平仮名を表現するためにマルチバイトで表現します。
なぜマルチバイト文字を使うのか
英語、日本語、中国語などの違い
英語は26のアルファベットと数字、各種記号ですべての言葉を表現することができます。そのため英語は、1文字に対して256種類までデータを表現できる1バイトで、すべての言葉を表現することができます。
ところが、日本語や中国語などはどうでしょうか。日本語、中国語には漢字があります。小学校で習う時点で漢字も256種類以上あるかと思います。
その他ひらがな・カタカナ等、扱うべき文字が英語のアルファベットよりも遥かに多くなります。そのため1バイトだけでは1文字を表現しきれません。
そのため、そのようなたくさんの種類の文字を表現する言葉には、マルチバイトという方法で文字を表現します。マルチは「複数の」という意味で複数のバイトで文字を表現する方法です。
このマルチバイトを利用して、2バイトや3バイトで1文字を表現します。場合によっては6バイト文字なども存在しますが、あまり意識して使うこともないため、当記事では省きます。
まとめ
マルチバイト文字を利用することにより、1バイトの256通りに縛られず、さらに多くの種類の文字を表現することができます。
近年のインターネットではUTF-8が文字コードとしてよく利用されます。マルチバイト文字も対応していて、漢字も問題なく表示でき、使いやすいためUTF-8が普及しました。
タグ
-
前の記事
文字コードとは