UTF-8
UTF-8(ユーティーエフエイト)は、Unicode(符号文字集合体)という標準規格に基づいて、文字をデジタルで表現するためのエンコーディング(符号化)方式の一つ。文字コードの種類が多く汎用性が高いため、世界で最も利用されている。また、Googleなどの検索エンジンで採用され、Webサイト制作に推奨されている。
文字コードとは、文字や記号をコンピュータで扱えるように、それぞれに割り当てられた固有の番号(0と1を組み合わせた数値に変換)のこと。代表的な文字コードは主に「Unicode」「ASCII」「JIS」「Shift_JIS」「EUC」の5つ。
- Unicode
世界中の主な言語の文字や記号に、重複しない固有の番号を付与した文字コード規格。Java、XMLなどで使用されている。UTF-8はUnicodeの種類の一つ。1つめの項目 - ASCII
アメリカ規格協会(ANSI)が1963年に制定した「情報交換用米国標準コード」。アルファベットや数字、コンピュータ用制御記号など、128種の文字を表す。 - JIS
JIS(日本工業規格)が定めた情報交換用の文字コード。ASCIIコード、ひらがな、漢字、カタカナなど、電子メールを日本語で送受信する際の標準規格。 - Shift_JIS
Microsoft社が開発した文字コード。ASCIIコードに日本語を追加し、MS-DOSやWindows、MacやUNIXなど幅広く利用されている。 - EUC
マルチバイト(全角)文字に対応し、日本語UNIXが使用している文字コード。WindowsやMacなどのウェブブラウザ上でも表示できる。
UTF-8は、各文字を1~4バイトの可変長で表し、「可変長エンコーディング」と呼ばれている。英数字(ASCII文字)は1バイト、漢字や絵文字などは2バイト以上で表現。多言語の文字も適切にエンコードされ、文字化けのリスクが低く、柔軟性と効率性に優れている。Googleなど検索エンジンの評価が高く、SEOに強いこともメリットの一つ。他に、UTF-8とは方式の異なるUTF-16(16ビットで表現)やUTF-32(32ビットで表現)もある。