ケンブリッジ変換
人間は言葉の最初と最後さえ合っていれば中の文字の順番が無茶苦茶でも読めてしまう、というケンブリッジ大学の研究から考え出された文字変換手法。
例題1 ひらがな・カタカナの場合
こんちには みさなん おんげき ですか? わしたは げんき です。
この ぶんょしう は いりぎす の ケブンッリジ だがいく の けゅきんう の けっか
にんんげ は もじ を にしんき する とき その さしいょ と さいご の もさじえ あいてっれば
じばんゅん は めくちちゃゃ でも ちんゃと よめる という けゅきんう に もづいとて
わざと もじの じんばゅん を いかれえて あまりす。
どでうす? ちんゃと よゃちめう でしょ?
ちんゃと よためら はのんう よしろく
http://tsushima.2ch.net/test/read.cgi/newsplus/1241732267/2
例題2 漢字交じりの場合
週新刊潮 五月二一十日版 盗騒作動「最の後パーレド」著者の「無飲銭食」騒動
東デ京ズィニーンラドでの”心あたまたる話”を集ためベトスラセー「最の後パーレド」。
盗騒作動が持上ちがり版元が回収に動たいが、オエリンタルンラドの元員社で、著者の中克村氏に、今度は無飲銭騒食動が浮し上た。
東都京下のある寿屋司に、中氏村が来店しのたは、55月日だった。
「カンウターの席に1人で座っいてた中さ村んは、他おの客んさと楽くし話しいてた。
”昔、デズィニーンラドで大き仕な事しをた。自分の名を前知ならい員社はいない”と、自慢していしまた」(客1の人)
中氏村は、約2間時で冷を酒4~5合飲でんいたいとう。
「客士同で、美ひ空ばりの『川の流のれうよに』を誰が詞作したかのが話題なにった。
中さ村んが間違てっいのたで、そをれ指摘たしら、とぜつん、暴を言吐なきらが怒激して、店員や他客のに箸を投つげけた。
そうのえ、”苛らめれいてる”と、携電帯話から110通番報したのすでよ」(同)
酔っらぱいの110通番報に警察は反応しなっかた。だが怒り続るけ中氏村に、今度は迷し惑た店が逆に110通番報。
「中さ村んと激高たし客が喧寸嘩前なにった。店員がその客をなめだうよと、店外に連れ出たし隙に、彼は五円千札を置いて、逃げし出たでのす」(別の客)
中氏村は50メトールほど”逃走”した。が、通報を受たけ警官察に身柄を取り押えされらた。
「パカトーの中でも、大声で喚ていたいが、数後分に、知人がきて解放さたれよでうす」(近の住所人)
ご本人に、話聞をこう。
「印税が入たっので、寿司が食べたっかた。たたまま、はっいた店で交事通故に遭ったうよもなの。
最的終には、きんちと残金もはっらた。店には謝たったし、翌に日は、謝文罪も書まきした。飲でんいて、スッイチが入ってしっまた。そがれ何かは、私の口らかはいえせまん」
どぞこのアドイルの方が潔いすでぞ。
http://gimpo.2ch.net/test/read.cgi/news2/1242310992/222
日本語の変換ルールについて
- 英語の場合は単語ごとにスペースで区切られているから言葉の区切りが明白である。日本語の場合は、漢字、ひらがな、カタカナ、数字、アルファベットといった文字種の多さに加え、膠着語であるため言葉の区切りがあいまいである。まずきちんとした文節解析を行う必要がある。
- 四字熟語は真ん中の2つを入れ替えるのが一般的。
- 漢字は表意文字であるため文字というより絵に近い。そのため二字熟語を反転しても意味が通じる場合がある。
- 日本語は膠着語なので助詞によって単語が連結されている。そのため、漢字+助詞を一単位にするほうが自然である。
- 「」、””など括弧でくくられた単語はその中を一単位にする。
- カタカナの単語はそれだけで独立していることが多い。通常は他の文字種と混ぜないほうがよい。
- 一度に目で認識しているのは5~6文字(最高でも10文字程度)である。
- 漢字直前の「お」「ご」、漢字直後の「が」「の」「は」「で」「に」「を」「も」はターミネーターになる可能性が高い。
- ひらがなは表音文字であるため、先頭以外の漢字を適度にひらがなに直すとシャッフル度が上がる。