【IT】コンピューターで戸籍用の全漢字使用可に 6万字コード化(反応まとめ)

1: みつを ★ 2017/12/24(日) 22:36:10.23 ID:CAP_USER9

https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html?utm_int=news_contents_news-main_001

12月24日 18時04分IT・ネット
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
(リンク先に続きあり)

以下、反応

via:2ch.net(+)

44: 名無しさん@1周年 2017/12/24(日) 22:50:37.91 ID:/kAZUT6R0
>>1
戸籍で使用できる漢字を常用漢字に統一するのが正道だと俺は思うのだが

 

71: 名無しさん@1周年 2017/12/24(日) 22:55:34.88 ID:5n4k/+uy0
>>44
本人の同意を得られればだろ
戦前は漢字の表記が統一されてなかったからばらばらになってるだけ
公務員が嫌がらせで変な字を当ててることもあるけど

 

77: 名無しさん@1周年 2017/12/24(日) 22:56:39.43 ID:/kAZUT6R0
>>71
法律を改正して常用漢字に強制的に切り替えればいいんだよ。

 

103: 名無しさん@1周年 2017/12/24(日) 23:01:46.10 ID:r9SN2PXG0

>>71
本人の同意とか言っていたら絶対に無理。

だって、外すメリットはその人には見えにくいから。
その人は実際のあちこちの登録は通常使用される漢字で行なっているので、不便はない。

で、その自分でしか使わない漢字を登録外すことには積極的なメリットがない。

 

134: 名無しさん@1周年 2017/12/24(日) 23:08:45.82 ID:5n4k/+uy0
>>103
何言ってんだよ
違う字で書いたら役所が認めないだろ
今やってんだけどさ

 

142: 名無しさん@1周年 2017/12/24(日) 23:10:10.59 ID:r9SN2PXG0

>>134
だから、あるタイミングで法律でやらないといけない。

実際、前後に普通に使う漢字の方はそれやって大幅に漢字を少なくしている。

 

109: 名無しさん@1周年 2017/12/24(日) 23:02:50.22 ID:AO0Os0at0
>>1
もう遅せーよ
俺のナベって字こそ、
邊のしんにょうの点がなくてしかも 「 自 」 自と 「 ワ冠 ( ウ冠でない ) 」 がくっついた字体だったけど、
15年だか20年位前に本籍地の墨田区役所から通知が来て、
戸籍台帳のシステム化に伴いコンピューター字の 「 邊 」 に変更させられた。

 

496: 名無しさん@1周年 2017/12/25(月) 01:02:55.23 ID:FqzaIbHQ0
>>109
http://glyphwiki.org/wiki/u908a-itaiji-019
それはそれは災難でしたな

 

154: 名無しさん@1周年 2017/12/24(日) 23:12:36.28 ID:r9SN2PXG0
>>137
32ビットのトロンではむしろページはあまりまくりで、古代エジプトのヒエログリフやアニメの星界の~シリーズのアーブ語とかも入れられていた。

 

754: 名無しさん@1周年 2017/12/25(月) 09:31:20.58 ID:C8BeiPoV0

>>137
>
>
> 英語なんて決まった言い回しの集大成だからね
> それをいかにかっこよく組み合わせるかという
> テトリス的なパズル言語なんだよね

ほんとこれ
英語は元々語彙も多くない
部分的には類似語の頻度が高いのもあるが、
基本的に決まった単語を使いまわす言語
そのため、ロジックを重視し、表現は慣用句、
更には「慣用表現」を多用するという特徴がある

要するに「比喩的な表現」を重視する言語
いかにかっこ良い言い回しをして、相手を説得するかという感じ
元々構造的には簡潔だから、現象の描写には向いているが、
特定の前提をいくつも作らないと良さが発揮できない

要するに文化が前提となっている
英語ばかり普及させても、知的水準は上がらない
それどころか、下がってしまう

今、欧州がそれに悩んでいると思う
割とマジで

 

590: 名無しさん@1周年 2017/12/25(月) 04:24:22.65 ID:J9L6lo/WO
>>574
会議という名のお遊びを

 

36: 名無しさん@1周年 2017/12/24(日) 22:49:36.62 ID:7XkKoQGw0
亡父の名前も出るのかな「秋」の下に「手」と書くんだが。

 

178: 名無しさん@1周年 2017/12/24(日) 23:17:23.71 ID:cPcwjT4u0
>>36
揫?

 

179: 名無しさん@1周年 2017/12/24(日) 23:18:00.84 ID:LnQZk1cd0
>>178
始めてみた、すごい

 

234: 名無しさん@1周年 2017/12/24(日) 23:30:48.42 ID:fVbV4usV0
>>36
MJ012570
戸籍統一文字番号 139820
住基ネット統一コード J+63EB

 

50: 名無しさん@1周年 2017/12/24(日) 22:51:40.94 ID:H72NIw660
檸檬も薔薇もOKか

 

63: 名無しさん@1周年 2017/12/24(日) 22:53:33.62 ID:r9SN2PXG0

>>50
そんなのはUnicodeで大丈夫だった。

バリエーションは字体でカバーすべきだった。

 

413: 名無しさん@1周年 2017/12/25(月) 00:30:34.32 ID:nMVvioSb0
>>50
それらは昔から問題ないよ。また、それらって異字体もないし。
厩舎の「厩」のような漢字は異字体がたくさんある。

 

58: 名無しさん@1周年 2017/12/24(日) 22:52:35.05 ID:pDQ5gCMB0

なんでわざわざ旧字を使う?
突然旧字使いだした友人が居てびっくりしたわ
まあ、本来の戸籍なんだろうけど。

わざわざ字画がっつり増やして、アホやん

 

66: 名無しさん@1周年 2017/12/24(日) 22:54:36.48 ID:r9SN2PXG0

>>58
旧字じゃない。

その人または数人から数十人の名前でのみ使われる漢字。

 

160: 名無しさん@1周年 2017/12/24(日) 23:13:40.09 ID:N1tqcZr+0
うちの家系も存在しない漢字だわ
色々とめんどいけどこれはこれでレアいからこのままにしてる

 

209: 名無しさん@1周年 2017/12/24(日) 23:24:15.02 ID:FXb1vHMP0
>>160
ワイは結婚の時に常用漢字に変更したわ

 

203: 名無しさん@1周年 2017/12/24(日) 23:22:49.84 ID:yG9XjqtY0
グーグルがフォントを作ってくれるのを願う
国がやるとあと50年くらい掛かりそう

 

521: 名無しさん@1周年 2017/12/25(月) 01:40:52.95 ID:U2KJYLcv0
>>203
漢字辞典をスキャンして取り込めば1日かからんだろ

 

246: 名無しさん@1周年 2017/12/24(日) 23:35:05.23 ID:pOqPtNL20
変体かなはunicodeに入りますか?

 

347: 名無しさん@1周年 2017/12/25(月) 00:04:22.92 ID:kUHOQQDD0
>>246
変体かなはunicode10.0で入ってるよ。これも戸籍統一文字にはいってたから同じような扱い。

 

258: 名無しさん@1周年 2017/12/24(日) 23:38:04.76 ID:JdiP2DtQ0

ありがとう
中年だけど、実際の漢字が違ってたからもやもやさせられてた

がつく名前なんだけど、
これ上の間のチョンチョンが、
本当は逆ハの字なんだよ
昔の文献ではあるんだけど、
コンピューターではこれしかなかった
これだと弱々しい字に見えてイヤだった

 

287: 名無しさん@1周年 2017/12/24(日) 23:45:42.40 ID:OxBOEBfL0
>>258
それは字形は違うけど字体は一緒
手書きの揺れの範囲内だ
そんなんまで区別していたらどうしようもない
戦前はその点ちゃんと印刷用の字体・字形と手書き字体・字形が異なることを当然視していたが
戦後の国語教育の中途半端さが変な誤解と運用上の不便を生んでいる

 

373: 名無しさん@1周年 2017/12/25(月) 00:13:18.18 ID:2gLDIVOh0
>>287
でも本人にとっては重要なんだよ
死んだ父が命名した字とずっと違うので生きてきた
父の命名した紙もあるし
生まれた時は戸籍も本当のだった
そういえば昭和53年てのも一致するわ
いつしか違う字にされてた
本当の字で生きたいよ

 

264: 名無しさん@1周年 2017/12/24(日) 23:40:04.85 ID:oiizuKBc0
いよいよBTRONに時代が追いついたのか

 

290: 名無しさん@1周年 2017/12/24(日) 23:46:53.15 ID:r9SN2PXG0

>>264
考えてみればすごいよね。

マッキントッシュが出たての頃でマウスとアイコンがどうしたと言ってるやつが偉そうで、98とかAT互換機とかそれすらなかったときに、ハイパーリンクと分散環境と、IoTと多言語多文化対応を想定していた。

今でも実装次第では通用するだろう。

90年代からの日本の教育に使われていたら、ガラパゴス化なんて少しは防げたのではないかと思うよ。

 

308: 名無しさん@1周年 2017/12/24(日) 23:54:04.78 ID:IzozFJD80
昔の漢字タイプライターは
使える漢字が少なかったから使えたもので、
6万の漢字が使える漢字タイプライターなんてあったら
打つ漢字を探すだけで大変。

 

309: 名無しさん@1周年 2017/12/24(日) 23:54:13.71 ID:BqAX+ObF0
市町村の戸籍係もたいしたもんだぞ
コンピュータで印字された母親の戸籍謄本を見たのだが
母方の祖母の名前がひらがなで印字されていて読めなかった
日本のひらがなって、いったい幾つ有るんだよ

 

318: 名無しさん@1周年 2017/12/24(日) 23:56:10.89 ID:HEfjDMoC0
>>309
登記簿謄本見るけど、変体仮名はときどきいるね

 

329: 名無しさん@1周年 2017/12/24(日) 23:58:08.31 ID:xpYLBbWi0
>>309
変体仮名というやつだな
昔は同じ音でも複数かな文字を使ってたから

 

312: 名無しさん@1周年 2017/12/24(日) 23:54:21.85 ID:HEfjDMoC0
金鹿
を一文字にしたやつ、中学のときヤンキーがミナゴロシっていってよく書いてたなあ
今アイフォンでは変換できなかった

 

320: 名無しさん@1周年 2017/12/24(日) 23:56:23.68 ID:yABIESMG0
>>312
これ?鏖
iPhoneもUTF-8じゃないの?

 

335: 名無しさん@1周年 2017/12/24(日) 23:58:43.30 ID:HEfjDMoC0
>>320
当時見たのはヘンとツクリで金鹿

 

583: 名無しさん@1周年 2017/12/25(月) 04:13:31.64 ID:8p+OdQh/0
>>335

 

314: 名無しさん@1周年 2017/12/24(日) 23:54:50.61 ID:hHaEx+lu0

 

319: 名無しさん@1周年 2017/12/24(日) 23:56:14.83 ID:vjE9fSX60

そもそもUnicodeつかってたら
なんの問題もおきない

Unicode以外のキャラクタセット使うOSでは
まずマッピングできないから表示できない

 

344: 名無しさん@1周年 2017/12/25(月) 00:01:30.88 ID:MCubcICM0
>>319
Unicodeは、中国、日本、韓国を混ぜ混ぜしたから扱いにくい。チルダ問題にはいまだに苦しめられる。

 

340: 名無しさん@1周年 2017/12/25(月) 00:00:25.66 ID:7Y0derim0
名は体を現すって言うだろ
名は眞名仮名のな、つまり文字のことだから
略字体使うとどういう事になるか考えたほうがいいぞ

 

350: 名無しさん@1周年 2017/12/25(月) 00:06:17.16 ID:zVjgioQD0
>>340
言ってて恥ずかしくないか
しょせん漢字なんて中国語を表すための文字だろ

 

341: 名無しさん@1周年 2017/12/25(月) 00:00:41.07 ID:Q+bFo0bn0

 

353: 名無しさん@1周年 2017/12/25(月) 00:07:10.65 ID:yJh9gT4L0
>>341
居ないようで結構居る

 

345: 名無しさん@1周年 2017/12/25(月) 00:01:42.88 ID:LjTqZZGp0
いまだにシフトJIS使ってる俺は勝ち組だな(´・ω・`)

 

358: 名無しさん@1周年 2017/12/25(月) 00:08:11.70 ID:cF0MEJGz0
日本で今使われてる漢字もどっかのタイミングで整理簡略化したんだっけ
やってなかったら繁体字だったのかな

 

381: 名無しさん@1周年 2017/12/25(月) 00:16:56.66 ID:NgdFdCAg0

規格として通ったって話か……

ちなみにコレは無料。
欲しかったらIPAからダウンロードすりゃおk。

 

383: 名無しさん@1周年 2017/12/25(月) 00:17:29.53 ID:tF/+lHmV0
うにコードかな
あれ3バイトだったり4バイトだったりで扱いにくいねん

 

384: 名無しさん@1周年 2017/12/25(月) 00:17:39.78 ID:h9p+S1Zp0
15年は仕事遅すぎだろ・・・

 

389: 名無しさん@1周年 2017/12/25(月) 00:19:27.55 ID:NgdFdCAg0

>>384
ずいぶん前からあったけど、今回は国際規格として通ったって事じゃないかな……

それでも遅いけど……

 

435: 名無しさん@1周年 2017/12/25(月) 00:40:08.77 ID:VxMxmdwl0

ああこの板でもいけるみたいだな

すでにUnicodeに漢字7万あるんで
そのほとんどが日本が戸籍対応中心でやったガラパゴスコードと重複してる
重複してないのは例の邉の異体字23パターンとか区別する意味のないようなのばっかなんで
いってみれば日本の漢字文化を守るとか理屈こねて予算取りたい連中に利用されて作られただけの文字集合ですわ

諸橋轍次の大漢和辞典には補巻も含めると6万字ぐらいの漢字あるけど
その半分ぐらいが他の字の異体字だったり実際に文字として使用された実態のない字だったりで
存在しなくてもまったく困らないような文字ばかり

異体字を包摂して意味もなく作られた漢字を除外していけば2万もあれば十分なんじゃないか
たとえば土って字はもともと犬みたいに`がついてる字だったんだがいつからか`が省かれて土だけになったわけだが
その`って出土文献によっては2つとか3つとかついてることもあるわけだよ
当時はこれが正しい漢字だって規範なんかなかったからその時々で表現がゆらいでる
そんな手書きゆえの、規範がないゆえの文字にいちいちコード振ってフォントつくって区別する意味あんのかという

坂村を筆頭とする東大明朝作ってた連中は当初異体字も含めてすべての漢字を収録するとか豪語してたけど
こいつらまるで漢字の歴史とか文化と理解せずに思考停止して少しでも字形の違う字は収録みたいなことやってったから
実際見たらこんなもんにまでコード振ったのかっていうアホみたいな文字集合になってるよ

 

440: 名無しさん@1周年 2017/12/25(月) 00:41:42.76 ID:ksDv7vYJ0
>>435
諸橋のは本当に51000字程度だぞ。6万だなんて調べてない奴の言うこと。

 

497: 名無しさん@1周年 2017/12/25(月) 01:03:55.23 ID:VxMxmdwl0
>>440
指摘の通り6万は多すぎたけどべつに51,000も60,000も大差ないよ
中華字海が85000字あっても大漢和より34,000字分すぐれているかといったらまったくそんなことはない
意味も音もわからない無駄な字や文献での使用実績のない文字が増えただけ

 

446: 名無しさん@1周年 2017/12/25(月) 00:46:06.56 ID:ksDv7vYJ0

>>435
GTコードは本当に何も考えずに放り込むだけで体系化も何も無いからな。
で、致命的な抜けがある。

門構えの略字が無い。

 

476: 名無しさん@1周年 2017/12/25(月) 00:55:23.87 ID:4qVsqhrb0
国がやるべきことはむしろ字体の統一だろ
6万文字などというふざけた数の漢字を認めるなど愚か極まりない

 

479: 名無しさん@1周年 2017/12/25(月) 00:57:12.87 ID:ksDv7vYJ0
>>476
正当な文字ならまだしも明治の創氏改名の出鱈目で相当の偽文字が発生したからな。

 

499: 名無しさん@1周年 2017/12/25(月) 01:08:10.44 ID:JGg6jGKp0

>>476
政府は統合に積極的だが、むしろ国民の反対で出来ないんだな。
特に人名用漢字は「雫」や「苺」なども使えるようにって要望が出て追加された。
※「耳をすませば」のヒロイン「月島雫」公開当時は「雫」の字は使えなかったのは有名。

日常で使う常用漢字を決めて、人名でよく使う漢字を例外的に認めた。
それで漢字使用の統合も進めた。
結果として、障碍者→障害者→障がい者みたいに意味が変わってしまった事を批判する漢字学者もいる。

中国は簡体字で平易化をやったが、日本は漢字を統合して平易化をやった。

 

515: 名無しさん@1周年 2017/12/25(月) 01:30:50.87 ID:VxMxmdwl0

>>499
敗戦後、学者の間で漢字廃止論ってのが力をもった時期があったんだよ
漢字なんて学習難度の高い時代遅れの文字を使ってたらいつまでも合理的な文明に追いつけないとかいって
日本語をすべてローマ字表記にしろみたいな極論まであった
(これは日本だけでなくて魯迅まで「漢字が亡ばなければ国が亡ぶ」とまでいった)

それで日本では当用漢字表ってのをつくってとりあえず当用漢字の範囲内の漢字だけは公的な使用が可能ってなって
正式な方針が決定するまでの当座間に合わせるだけの漢字表がうっかり定着しちゃって
常用漢字と改名されて「拉致」みたいな簡単な字でも公的には「ら致」と書かねばならない状況が永続することになった

だけど結局正字(繁体字)を使い続けた台湾の識字率って中国よりも高いんよね
老人以外は文盲率1%未満で日本とほぼ変わらんという
べつに常用漢字も簡体字も要らなかったんじゃねっていう

 

524: 名無しさん@1周年 2017/12/25(月) 01:45:14.65 ID:ksDv7vYJ0
>>515
漢字廃止論は戦前からあって、その理由がぶっちゃけて言うと
「欧米にボコられてる支那由来の劣悪な文字を捨てて文明的な文字を採用すべきである」って奴だった。

 

541: 名無しさん@1周年 2017/12/25(月) 02:29:43.76 ID:P2WTrHyE0
>>515
日本語のローマ字表記はジャップがやってたけど
まるで読めなかった
読ます気はない雑誌だったからそれでよかったんだろうけど

 

545: 名無しさん@1周年 2017/12/25(月) 02:47:04.76 ID:TnEDLHED0
>>515
もしこれをやったら朝鮮半島の
ハングルの民族運動と似たようなことを
やったことになるよね

 

504: 名無しさん@1周年 2017/12/25(月) 01:13:13.28 ID:VxMxmdwl0

>>476
康煕帝は偉かったって話ですわ
日本も戦中までは康煕字典ベースの正字使ってたんだけどな
康煕字典も細かに見れば字形の矛盾とかあるけど
大事なのは国家の権威によって文字統一するってところなんだよね
起源をたどれば始皇帝まで行き着く話だけど

邉の邉を20種以上も区別して戸籍に受け入れるとか
当時の官僚がいかに馬鹿だったかよくわかる

 

512: 名無しさん@1周年 2017/12/25(月) 01:23:19.98 ID:ksDv7vYJ0
>>504
区別して受け入れたんじゃなく、手書きの字体の揺れがそのまま記録されとるだけ

 

519: 名無しさん@1周年 2017/12/25(月) 01:39:29.98 ID:VxMxmdwl0

>>512
たとえば書聖王羲之の蘭亭序(残っているのは模刻だが)に何度も出てくる「之」はわざと字体を変えて書かれてるんだが
「之」のゆらぎ全部記録すんのかって話だよ
そのゆらぎをフォント化することで何の意味があんのかって話だよ

そもそも手書きと印刷書体を区別されるべきだって発想ねえの?
もしかして明朝の知識人は明朝体で手書きしてたとか思ってる人?

 

525: 名無しさん@1周年 2017/12/25(月) 01:47:46.92 ID:ksDv7vYJ0
>>519
ならそう言えばいい、手書きの揺らぎのデータはコード化するもんじゃなく、OCRで識別するときに使えばいい。

 

529: 名無しさん@1周年 2017/12/25(月) 02:04:08.98 ID:zRhVaexk0
>>519
名字は多くても国民一人につき一件しか届け出ることはできないだろ
自分で戸籍の話を持ち出したんだから戸籍の話の範囲で話してくれ。

 

483: 名無しさん@1周年 2017/12/25(月) 00:58:28.73 ID:yIp6guT70
遅すぎるわ
森元総理がイット国家宣言してから何年経ってるんじゃ

 

566: 名無しさん@1周年 2017/12/25(月) 03:27:28.45 ID:FKLRvjUz0
なんでこんな余計なことするの?

 

587: 名無しさん@1周年 2017/12/25(月) 04:18:28.86 ID:J9L6lo/WO
>>566
だよな
Unicode移行の時もめんどくさかった

 

567: 名無しさん@1周年 2017/12/25(月) 03:29:39.88 ID:2NdLFMT80

日本は明治期に
英語に切り替えるべきだったと思うよ

そりゃアルファベットと違って漢字は膨大な数があるわけだから
文字ひとつひとつに意味があるの当然だが
6万字にせよ、30万字にせよ、あまりにも非効率で
この先、やがて消え去るであろう漢字に固執するのはどうか

まぁいちばんの愚の骨頂は漢字を捨てて
さらに何の役にも立たないハングルというゴミ文字を作った朝鮮族だが・・・

 

572: 名無しさん@1周年 2017/12/25(月) 03:36:25.73 ID:ha2NDdRk0
>>567
良い悪いは別として
文字と言葉を捨てることは国を捨てることなんだが、
これも良い悪いは別として
明治維新は政治体制の変化レベルで、国が変わったわけではないので
そこまでする必要は全く無かった。

 

612: 名無しさん@1周年 2017/12/25(月) 05:33:11.80 ID:jvv5Gscs0

変体仮名も全部いけるの?
https://i.imgur.com/z970WCz.jpg

no title

 

613: 名無しさん@1周年 2017/12/25(月) 05:39:18.32 ID:EUVHAPb/0

Unicodeのことだろ? 次期バージョンの。
漢字文字数は6万よりももっと多いらしい。世界標準にするのはこの位が限界か。
中国語と一緒だったり、あまりに似すぎてるやつは同一扱いとかか?

Unicode – Wikipedia
Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格である。
文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。
Unicode は世界で使われる全ての文字を共通の文字集合にて利用できるようにしようという考えで作られ、Unix、Windows、macOS、Plan 9、Javaなどで利用されている。
Unicodeでは、文字集合中の文字をあらわす符号位置(コードポイント、符号点を参照)に、「Unicodeスカラ値」という非負整数値が割り振られている。

大規模文字セット – Wikipedia
主な大規模文字セット
以下に、主な大規模文字セットを挙げる。
字数は2007年5月時点。
(諸)とあるものは、諸橋大漢和相当の部分集合、約5万4000字を持つ。
(住)とあるものは、住基ネット統一文字相当の部分集合、約1万9000字を持つ。
(戸)とあるものは、戸籍統一文字相当の部分集合、5万6044字(2012年時点)を持つ。
Unicode – 現在約11万字 (うち漢字約8万字、ほか異体字約1万字)。
今昔文字鏡 – 現在約18万字 (うち漢字16万字)。(諸)
e漢字 – 現在約24万字。中華字海の約8万6000字を含む。(諸)
GT – 現在約7万9000字。(諸)(住)

 

621: 名無しさん@1周年 2017/12/25(月) 06:27:16.09 ID:10vFem3F0
個別に外字を作って対応している現状を辞めさせるために
一応存在する、存在した字を全て取り込もうということだ
ろう。アナログで文字を書いてコミュニケーションしてい
た時代は別に必要では無かっただろうが。
字形だけを表現するためなら、文字を文字コードでは
なくて、次の文字は字形を示すよというエスケープ
シーケンスを入れて、何かける何の字形かを示す数を
続けてそれからピクセルで表したデーターを並べて
そうして終了のエスケープシーケンスを入れれば、
どんな外字でも表せるはずだが、それだと二箇所で
独立に登録した文字が字形は相似なのに同じ文字として
はデジタル処理的には識別されないから困るだけのこと。
日本のどこかに漢字サーバーのルートを置いて、
分散サーバーにして、それまでに無い外字を登録
して常にオンデマンドで更新し続けることにしたらという
考えもあるが、それをやると、同じ文字だと思わずに
どんどんと「新しい文字発見」として文字が無闇に
増えてしまうから、どこかで線を引いて判断する
ことが必要なんだよね。払いとか、線の長さの比率とか、
筆順とか線の重なり具合だけが違うものを同じとみるか
どうかとか、とか。。

 

924: 名無しさん@1周年 2017/12/26(火) 09:55:59.08 ID:+Etb8gQx0
>>621
ブロックチェーンでやるか

 

650: 名無しさん@1周年 2017/12/25(月) 07:31:00.31 ID:RdIERpsWO
サイトウさんとワタナベさんの漢字間違えた時にキチガイみたいに怒るのどうにかならんか
文字を統廃合しろ

 

656: 名無しさん@1周年 2017/12/25(月) 07:34:13.25 ID:B0kCOKnx0
>>650
後ハシゴ高さんも

 

658: 名無しさん@1周年 2017/12/25(月) 07:37:28.00 ID:RdIERpsWO
>>656
高島屋がでないよね(´・ω・)

 

682: 名無しさん@1周年 2017/12/25(月) 08:07:11.76 ID:pvrc5UP20
>>650
ヤマザキ姓の「崎」の字も何種類かあって間違えると発狂する

 

745: 名無しさん@1周年 2017/12/25(月) 09:22:30.84 ID:C8BeiPoV0

ABC予想 望月先生のブログより

https://plaza.rakuten.co.jp/shinichi0329/diary/201711210000/
英語を通して記述される世界には、「色眼鏡」のように、英語圏の文化や世界観を反映した、
著しく濁っていて有害な「歪み(ゆがみ)」が常に掛かっていて、
子供の頃も今も、その歪みから解放される=その歪みと自分との間に分厚い壁
(=この場合、「国境」)を確保することに対する
強い意欲・「飢え」を抱えて生きてきました。

子供の頃から認識していた、無数の具体例から一つ分かりやすいのを挙げてみますと、
例えば、日本人の日常生活では当たり前な風景である
「海苔ご飯を箸で食べる」ということを英語で表現するとなると、
「海苔」を「シーウィード=つまり、海の雑草」、
「箸」を「チョップスティック=ものをつついたり刺したりするための木の棒
のようなイメージ」というふうに表現するしかなくて、
全体としては「未開人どもが、木の棒を使って、そこいらへんの海に浮かんでいた
雑草のようなゴミをライスとともに、
未開人っぽい原始的な仕草でもくもく食べている」
といったようなイメージに必然的になってしまいます。
これは単なる一例に過ぎませんが、全体的な傾向としては、
日本・日本語では大変な品格があったり、
溢れる愛情や親しみの対象だったりする事物が、英語で表現した途端に、
「どうしようもない原始的な未開人どもが、
やはり原始的な未開人どもらしく、世にも頓珍漢で荒唐無稽なことをやっているぜ」
というような印象を与える表現に化けてしまいます。
過敏と言われるかもしれませんが、
私は子供のときから英語のこのような空気に対しては
非常に強烈なアレルギー体質で、
自分たちがどれだけ根源的にコケにされているか全く自覚できずに
英語や英語的な空気を浴びせられることに対して
憧れのような感情を抱くタイプの日本人の精神構造が全く理解できません。

 

766: 名無しさん@1周年 2017/12/25(月) 09:38:17.44 ID:xyg9vFae0
>>745
原文読んだけど、すごく面白いなあ

 

799: 名無しさん@1周年 2017/12/25(月) 11:00:13.50 ID:xyg9vFae0

>>768
個人的に、望月さんの主張にかなり共感する

Noということの大切さ

環境を楽しむことを主眼とするのではなく、
自ら価値を創出する

これらは望月さんの心情なのだが、
これはまさに漢字6万字追加について俺が持つ心象に近い
何でもかんでも無批判に迎合し、追加するのではなく、
NoというべきことにはNoといい、日本語の価値を創出する方向に進んでほしい

おそらく、英語導入に批判的な日本語論者と
俺は、根本的なところは同じなのだが(言語が大切、日本語を大切にしたいという)、
その実現方法において差異があるようだ
俺は、過去の形式にのみいたずらにこだわるのではなく、
望月さんが言うように、NoというべきにはNoといい、日本語の価値を(新たに)創出していくことが日本語の取るべき道だと思っている
英語圏では、アップルがiponoe, ipadを創出したが、それらは英語の価値を貶めてはいない
日本語において、アップルのような、負の遺産(今回のような過剰な異字体の追加)の切り捨てと新たな価値の創出は、
日本語の価値を高めることにつながり、その反対は日本の製造業のように、
凋落に繋がりうる
英語教育において自らが批判していること(無批判での導入)と同じことを
日本語に対しても行っていないか、省みる必要がある

 

760: 名無しさん@1周年 2017/12/25(月) 09:35:22.87 ID:nNmr1oHy0
娘にこの話をしたら
マジまんじ
といわれたわ 意味が分からん 万字?

 

814: 名無しさん@1周年 2017/12/25(月) 12:38:03.02 ID:4ozvOocD0

フォントデザイナーの講演聞いたことあるけど
複数でやると書体が変わってしまうから
一人でひたすら書いてくのな
開発に数年単位かかると

6万字をひたすら作っていたとすると胸熱

 

975: 名無しさん@1周年 2017/12/27(水) 12:10:27.95 ID:dfQ8ta+S0
曲がらない西が名前にある俺にとっては朗報

参考になりましたら
いいね!お願いします

folder


テック・ゲーム

【真実】ネット見てるとオタクの方が性格最悪でDQNの方がいい奴に見えてくる
1: 名無しさん@おーぷん 2018/09/11(火)03:32:54 ID:VuW 何気なくネット見てるとクズ発言とかキモい発言をするオタクにちょくちょく遭遇する 以下、反応 2: 名無しさん@おーぷん 2018/09/11(火)03:33:49 ID:UQG どっちも性格いい奴おるし悪い奴もおる この人は何々だからきっと性格が悪いとか決めつけるのは良くないと思うで   4: 名無しさん@おーぷん 2018/09/11(火)03:34:18 ID:VuW >>2 極端な解釈やな 傾向の話やろが   5: 名無しさん@おーぷん 2018/09/11(火)03:35:00 ID:Yqf >>2 別に決めつけてないだろ   3: 名無しさん@おーぷん 2018/09/11(火)03:33:58 ID:26L DQNは割と普通というかマトモな書き込み多いけどオタクは何故かイキリ倒しててキモい ネットに慣れてるはずなのにおかしな発言ばっかしよる謎   6: 名無しさん@

続きを読む

【IT】NECの最新世代スパコン「SX-Aurora TSUBASA」(´・ω・`)
【YouTuber】じゃあ逆におまえらどういう動画だったら再生するんだよ?
【話題】まんさんの多くが「インスタバテ」と判明 いいね獲得のために頑張り過ぎて疲労を獲得(´・ω・`)
Youtuberライブってどうやったら人増えるの?

「IT情報」記事をもっと見る

IT情報 人気記事

【深層Web】深層webについて語るスレ(まとめ)
スターチャンネル、二度目の改造B-CAS対策?解除可能か?ネット上の反応は
【悲報】Bittorrentでジャンプを違法DLしたらプロパイダから警告文が届いた。
【中華詐欺】Amazonで様々な形態の詐欺ショップが激増中
【深層WEB】Torを使ってもバレるよ 覚せい剤を密売した容疑で男らが逮捕 購入者も無事摘発
【悲報】なんJ民、レスバトル勝利のためだけに5万円で学歴を買ってしまう(メルカリ)
【IT】東京情報大の学生42人、アドビ「イラストレーター」の不正利用が判明 大学は学生らに厳重注意【反応まとめ】
【企業】メルコが製麺大手のシマダヤを完全子会社化 謎
【朗報】「秀丸エディタ」がMicrosoftストアからダウンロード可能、無期限の試用が可能
【フォント】Windows 10の新しいフォントUDデジタル教科書体が見やすいと一部で話題に。これMac超えか?