1分でわかるIT用語集

LINEで送る

Post

UTF-8

UTF-8（ユーティーエフエイト）は、Unicode（符号文字集合体）という標準規格に基づいて、文字をデジタルで表現するためのエンコーディング（符号化）方式の一つ。文字コードの種類が多く汎用性が高いため、世界で最も利用されている。また、Googleなどの検索エンジンで採用され、Webサイト制作に推奨されている。

文字コードとは、文字や記号をコンピュータで扱えるように、それぞれに割り当てられた固有の番号（0と1を組み合わせた数値に変換）のこと。代表的な文字コードは主に「Unicode」「ASCII」「JIS」「Shift_JIS」「EUC」の5つ。

Unicode
世界中の主な言語の文字や記号に、重複しない固有の番号を付与した文字コード規格。Java、XMLなどで使用されている。UTF-8はUnicodeの種類の一つ。1つめの項目
ASCII
アメリカ規格協会（ANSI）が1963年に制定した「情報交換用米国標準コード」。アルファベットや数字、コンピュータ用制御記号など、128種の文字を表す。
JIS
JIS（日本工業規格）が定めた情報交換用の文字コード。ASCIIコード、ひらがな、漢字、カタカナなど、電子メールを日本語で送受信する際の標準規格。
Shift_JIS
Microsoft社が開発した文字コード。ASCIIコードに日本語を追加し、MS-DOSやWindows、MacやUNIXなど幅広く利用されている。
EUC
マルチバイト（全角）文字に対応し、日本語UNIXが使用している文字コード。WindowsやMacなどのウェブブラウザ上でも表示できる。

UTF-8は、各文字を1～4バイトの可変長で表し、「可変長エンコーディング」と呼ばれている。英数字（ASCII文字）は1バイト、漢字や絵文字などは2バイト以上で表現。多言語の文字も適切にエンコードされ、文字化けのリスクが低く、柔軟性と効率性に優れている。Googleなど検索エンジンの評価が高く、SEOに強いこともメリットの一つ。他に、UTF-8とは方式の異なるUTF-16（16ビットで表現）やUTF-32（32ビットで表現）もある。

（青木逸美）

関連ワード

Webフォントエンコード GUI SEO

ICTサプライヤーのためのビジネスチャンス発見マガジン