2014-08-06 Wed
昔は閲覧機器による文字コード対応は問題点として当たり前に言われてたことだが、最近は耳にしなくなったのが機種依存文字で文字コード(JIS、シフトJIS、EUC、unicode)やフォントによる表示可否。一般に丸数字やローマ数字が平然と使われるようになった。古い言い方をすればNEC PC-9801漢字(外字)。unicodeで実装されたのがあるものの、たったの1つ、2つで文字コード依存、もしくは機種依存文字なページにしてしまうのはもったいない。定義はされているものの表示できるかは書体にも関わってくる...「?」と「~」は同じ意味なのにコード上は別の文字だから変換されることがない。前者を使用するとANSI文字コードでは保存できずunicodeとなり、HTMLだとすると変換されるのは 〜 (「&#」実際は半角)というコード体形になる。これをウェブブラウザでは「~」となって表示されるが、それはHTML形式であって文書とは言えない。
私はネット利用者として古い人なので変な表示に出くわしても機種依存文字なんだろうと思うことができるが一般にはそうはいかないでしょう。 ほかにも見た目があまり変わらない「―」と「-」があり、前者はunicodeでJIS、EUC体系でそのままは扱えない。似てて見た目では区別がつきにくい横棒は何種類もある。
印刷紙面上は全く関係のないことだが、新聞(紙)とネットニュースを見比べてると記者の機種依存よって統一されてないようだ。某新聞で言うならばA地区がunicode範囲の文字だから文字入力に使ってるのはアップル社製だろうか、他の地域記者はマイクロソフト系なのかと読めてきたりもする。ローカル新聞では社内規定がないのかもしれないが、全国紙では統一されているようだ。
統一すべき理由はこうした点にもある。Googleなど検索エンジンは柔軟なのだが、この柔軟性は正確な検索ができないことを意味している。一般的な検索では例えば「一番」と「1番」は全くの別物とされてしまう。「正規表現」なる検索は搭載されてないし一般人には使えない。
当方は多数の環境が対応したであろう時期から unicode(UTF-8) を使ってるが、使用文字は UTF-8 にしなくても保存できる文字コードを使うように心がけている。だが、Mac OS(またはiPhoneなど)で「~」を入力しようとしても「?」になってしまうのであった。UTF-8で保存するとデータ量が増すが、UTF-8 なら両方とも表示されるわけで、本当の機種依存な文字を使うのに比べたら問題なさそうだ。
私も取扱説明書として印刷物に関わったが、書体(フォント)が変わると表示できない文字や表現として不適切となった文字の形もあり印刷物となる前から気になるところがあった。PDFはフォントを埋め込むことができるのだが、権利が絡むため安易に使えず、誰でも同じように読めるよう考えて作らないといけない。このようにコンピューター上で書体が固定されない環境での危険性はあり、もはや紙媒体だけでは通用しなくなったマスコミは当然考える部分でしょう。
何らか記事を検索する上でも、人間が見れば意味は同じだが、文字コードが異なれば見つけられないことだってあるでしょう。もっと多くの事例を考えてゆくと何らか方針が決まってくるのではないかと思う。誰にでも対応は難しいと思うので、多数に合わせることになるかと思う。
* 読んでも見た目が変わらず意味不明かもしれないが、比較した「」内の文字は違う文字コードなのです。
この記事に対するコメントの受付は終了しています。
コメント
先頭へ △