2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

ついにコンピュータで日本語の漢字すべてを使用可能に 15年かけてコード化、国際規格に登録

1 :名無しさん@涙目です。:NG NG ?PLT(13121).net
http://img.5ch.net/ico/anime_kuma01.gif
コンピューターで全漢字使用可に 6万字コード化

日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか
扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、
コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、
日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、
戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を
充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったり
するなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、
コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを
正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが
追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

■漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は
「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は
15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは
昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、
およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな
漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに
作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、
対応が急がれていました。

■企業や自治体も一苦労

(略)

■IT企業でも…

(略)

https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

327 :名無しさん@涙目です。:2017/12/26(火) 09:14:25.52 ID:eDBdqHQ20.net

このサイトウさんホントやめてほしい
戸籍の変えるか本人が斉で納得することにして

328 :名無しさん@涙目です。:2017/12/26(火) 09:14:52.01 ID:vGCMF/+P0.net
戸籍作る時の書き間違いでできた漢字とかもあるよね(´・ω・`)
異体字の検索とかめんどくさいことになりそうな(´・ω・`)

329 :名無しさん@涙目です。:2017/12/26(火) 09:22:07.99 ID:vGCMF/+P0.net
>>322
IPA 文字コードとかでぐぐるとISO/IEC 10646 第5版のことだとわかる
Unicode10.0

330 :名無しさん@涙目です。:2017/12/26(火) 09:39:04.78 ID:GvWJEf1r0.net
日本語って色々と無駄が多いよね
英語のスマートさを見習ってほしい

331 :名無しさん@涙目です。:2017/12/26(火) 09:41:55.46 ID:O6QJoCrX0.net
諸橋先生の大漢和辞典には10万字が載ってるが?

332 :名無しさん@涙目です。:2017/12/26(火) 09:44:59.96 ID:hW0nxBz+0.net
これ日本語だけじゃないんだろ
よくコード枯渇しないね

333 :名無しさん@涙目です。:2017/12/26(火) 09:56:36.85 ID:KH1VNg530.net
>>40
それじゃ、ナシアリのニューハーフじゃねーか

334 :名無しさん@涙目です。:2017/12/26(火) 10:02:55.80 ID:BMBvDbvE0.net
前文字パレットを色々といじってて思ったことだけど
Unicodeって何かと何かの文字をくっつけたりできて面白いよな
想定外の動作になることも多いけど

335 :名無しさん@涙目です。:2017/12/26(火) 10:06:09.21 ID:47VsSgpA0.net
>>5
他人がこまるわ
漢字なければあるものでごまかせたが
有るなら確認が必要 うざいわー

336 :名無しさん@涙目です。:2017/12/26(火) 10:15:19.15 ID:HCVXfRwH0.net
>>323
今それをひとまとめにしちゃうと
電子化するときにその辺の事情を
記録することが不可能になる
「『高』には『高』のほかに『高』という字体があって…」
なんて事になる

337 :名無しさん@涙目です。:2017/12/26(火) 10:40:33.34 ID:p0cibeAH0.net
超漢字というのがあってだな…

338 :名無しさん@涙目です。:2017/12/26(火) 11:29:05.60 ID:VW+4MZ0N0.net
>>40
圡とか��とか玊とか䂖とかあるよな
(4つ目はチンクルでは文字化けする

339 :名無しさん@涙目です。:2017/12/26(火) 11:49:06.79 ID:vGCMF/+P0.net
>>332
中国の漢字とかハングルとか日本語の漢字とかの割り当てでいつも揉めてたようなイメージがあるな

340 :名無しさん@涙目です。:2017/12/26(火) 11:49:56.25 ID:gWghxVzY0.net
いらないよ

341 :名無しさん@涙目です。:2017/12/26(火) 12:58:22.78 ID:hwKvbQoX0.net
䂖は実用例見たことないが、玊は中華調味料で見たことがある
たしかウェイユー(味玉)やったかな

342 :名無しさん@涙目です。:2017/12/26(火) 13:36:42.59 ID:hMRXiTEY0.net
>>233
吉野家が喜ぶ

343 :名無しさん@涙目です。:2017/12/26(火) 14:10:44.67 ID:hwKvbQoX0.net
>>342
料亭吉兆も喜ぶ

344 :名無しさん@涙目です。:2017/12/26(火) 15:11:04.07 ID:fd8oGSnw0.net
>>337
ダメリカに潰されたTRONベースのOSか

345 :名無しさん@涙目です。:2017/12/26(火) 17:24:19.57 ID:IeqNzYKJ0.net
漢字でパスワード設定はできるようになるのか?

346 :名無しさん@涙目です。:2017/12/26(火) 17:36:21.11 ID:6bymOexd0.net
>>329
ありがと
なぜそれを最初に書いて報道しないのかねえ
規格の話に当の規格名がないとか

347 :名無しさん@涙目です。:2017/12/26(火) 17:38:04.72 ID:vGCMF/+P0.net
>>346
NHKですしね

348 :名無しさん@涙目です。:2017/12/26(火) 17:38:52.77 ID:Kv/NEer50.net
>>16
お前に何か説教してやりたいが上手い言葉が見つからないからさっきした説教を書く

近すぎて、知りがたきは己のみ

349 :名無しさん@涙目です。:2017/12/26(火) 17:40:09.70 ID:Kv/NEer50.net
>>345
淋病父参開陳列罪善!

350 :名無しさん@涙目です。:2017/12/26(火) 18:51:44.26 ID:fd8oGSnw0.net
>>346
文系ばっかなマスゴミが理解できるかよ

351 :名無しさん@涙目です。:2017/12/26(火) 19:11:20.73 ID:PTJWV4I00.net
>>348
俺な最近よく思うんだよ。
選択できる事が幸せとは限らないんだよ。選択ってわずらわしいじゃない。
この先、人類が望む未来は 選択肢の細分化より、選択せずともピタッとくる事なんじゃね。ってな


レストラン入って電子メニュー開いて 飲み物のタグからアルコールを選択しビールを選び サイズを選び、グラスの個数とかポチポチしてる時に、「ビール生中1個持ってこいゴルァ!」ってキレそうになる。

352 :名無しさん@涙目です。:2017/12/26(火) 19:23:36.00 ID:rzimcXm70.net
>>346
あなたのような突っ込んだ情報を得たい人向けのニュースサイトではないからです
そういう人の読み物に、ISOだのUnicodeなどの文字列を並べても意味がありません
頭にこんな文字列が並んだ瞬間に、読まなくなる人の方が多いのです
それを理解する事こそが教養を持つということです
つまりあなたは、記事を書いた記者よりも教養がないということになります

353 :名無しさん@涙目です。:2017/12/26(火) 19:40:28.49 ID:AsvsMpDA0.net
辺とか斎の異字体ってほとんどが書き間違いの結果生まれた文字なんだってね

354 :名無しさん@涙目です。:2017/12/26(火) 19:43:52.77 ID:fXVrUrO60.net
その大半が明治期に戸籍に書かれた誤字だがなw

簡体にしろとは言わないけど整理は必要

355 :名無しさん@涙目です。:2017/12/26(火) 21:14:15.55 ID:1JwrnZ/G0.net
世の中には誤字をありがたがる間抜けも多いって事なんだよな。
先祖の恥は末代まで引き受けるって言う、苦行

356 :名無しさん@涙目です。:2017/12/26(火) 21:19:40.39 ID:FhdEBKrz0.net
>>355
間抜けではなく生活の知恵
誤字を理由に請求書や督促状、強いては逮捕状まで無効化出来るからな
あの籠池夫妻も、数年早く6万字超使えるようになってれば逮捕状無効化出来てたかも
その籠は本来は右下の点は縦書きやから

357 :名無しさん@涙目です。:2017/12/26(火) 21:38:17.46 ID:6z9zE8eO0.net
>>350
マスコミこそ文字は職業だろ

358 :名無しさん@涙目です。:2017/12/26(火) 21:44:56.54 ID:fd8oGSnw0.net
>>357
上手いこと言ったつもりだろうが、ユーザーにとっては文字コードなんて知ったこっちゃないぜ。

359 :名無しさん@涙目です。:2017/12/26(火) 21:53:04.45 ID:1JwrnZ/G0.net
>>356
え?
なら、誤字を理由に社会保障も受けられ無いって事にならないか?

360 :名無しさん@涙目です。:2017/12/26(火) 22:03:11.49 ID:gnjMuf7U0.net
誤字は役所で自動修正してくれるかもしれない

361 :名無しさん@涙目です。:2017/12/26(火) 22:43:04.51 ID:ErrZDlS80.net
検索しにくくなる

362 :名無しさん@涙目です。:2017/12/26(火) 22:51:11.53 ID:lmOan3GN0.net
>>3
左手で書ける

363 :名無しさん@涙目です。:2017/12/26(火) 22:52:06.22 ID:lmOan3GN0.net
>>359
補助金もダメだな

364 :名無しさん@涙目です。:2017/12/26(火) 22:54:01.47 ID:yydv+lu40.net
>>117
横棒が右の縦棒から離れてるやつ
漢和辞典に載ってる

365 :名無しさん@涙目です。:2017/12/26(火) 22:56:13.66 ID:Gps4GIES0.net
「はしご高」や「立ざき」は機種依存文字で登録できないことがある
”たかさき”で両方とも機種依存文字だったりする人もw

366 :名無しさん@涙目です。:2017/12/26(火) 22:58:56.54 ID:iNFUHSIN0.net
>>5
ワタナベの自分の名字に対する適当さは異常。
あいつら、正式な氏名登録でも辺かいてくるからな。

367 :名無しさん@涙目です。:2017/12/26(火) 23:02:43.00 ID:CZgT0cBr0.net
>>364
これかの
https://i.imgur.com/j1TSsRr.png

368 :名無しさん@涙目です。:2017/12/26(火) 23:19:20.71 ID:pRS4nFOc0.net
わたな べだったのか
いそ べだしそうか

369 :名無しさん@涙目です。:2017/12/27(水) 00:00:09.25 ID:YWIRp+760.net
学術的な意味で内字が増えるのは良い事だけど
正字も俗字も訛字もごちゃ混ぜなんでしょ…
経産省、法務省、総務省、文科省で好き勝手に文字の基準作って足並み揃って無いのにコンピュータが使える内字を増やせば、行政事務の効率化に繋がるなんて頭にウジ湧いてるだろ
最終的にディスプレイなり紙なり人が目で見て認識するものなのに、同じ意味なのに闇雲に使える文字増やしてどうするのよ
行政だけに言えることじゃないけど、情報を正しく伝達したり保存することが文字を使う目的と思うんだけど
ぼくの考えた最強の文字フォントじゃ無いんだから
文字増やすだけなら各省庁を横断して調整とか政治とか関わらずに文字オタクの集まりの内向きな仕事で済むからだろうけどさ

370 :名無しさん@涙目です。:2017/12/27(水) 01:15:31.29 ID:7wk9fzkp0.net
>>352
そうかね?NHKの記者も解説委員もアホばかりだがな
俺はそうは思わないが、ユトリ向けにあれこれと御託並べて不完全なものをニュースだと言うのが今のマスゴミだというのなら、やはりマスゴミ離れは加速するんだろうな

371 :名無しさん@涙目です。:2017/12/27(水) 01:28:03.03 ID:7wk9fzkp0.net
>>369
結局、JIS第2水準とかの数千から1万くらいのレベルまでで納めないと、判読する人間の問題になるよな

手で書き、読み、文字入力、印刷して、判読判別が出来ないとな
細かな点、跳ね、くっつき、長さ、角度なんかの間違い探しで日がくれるw
今の電子化された戸籍謄本や土地や家屋の登記なども、今後6万字を判別しなきゃいけないのか?変体仮名文字も扱う?

間違った公文書の扱いはどうなる?個人の運転免許やパスポートから、本当ならこっちなんだけど、戸籍はこれ、免許はこっちなんてことをずっとやるのか?

372 :名無しさん@涙目です。:2017/12/27(水) 05:27:03.52 ID:dS7m0L9O0.net
そんなことよりファイル名でソートしたときに




って、ちゃんと並ぶようにしとけよ無能が

373 :名無しさん@涙目です。:2017/12/27(水) 07:38:37.26 ID:maMJVL0B0.net
>>361
ある程度は推測変換でカバーしてくれる
日玉 とか 木尓(称ではない!)を入力してもちゃんと正字で認識してくれる

374 :名無しさん@涙目です。:2017/12/27(水) 07:51:31.33 ID:5GVarlA50.net
グラフィックデザイナーには朗報。
これで作字の手間から解放される。

375 :名無しさん@涙目です。:2017/12/27(水) 08:38:38.08 ID:5+DhbC3Z0.net
>>366
契約書類を見る事がある部署にいるけど、辺や斎は同じ人なのに契約ごとに漢字が違う事が多いわ
本人もあまり気にして無いんだろう

376 :名無しさん@涙目です。:2017/12/27(水) 19:05:40.45 ID:unTbXXaq0.net
むしろいらねえ斉の字とか渡辺の辺の字とかを削除した方がいいだろう

どうせデータ分析するときはゴミデータ扱いなんだし

総レス数 376
74 KB
掲示板に戻る 全部 前100 次100 最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★