(25) IME2007のしつけかた

IME2007の誤変換が著しいとの情報が乱れ飛ぶ昨今皆様はいかがお過ごしでしょうかさるべーじですこんばんは。

あまりにも私の手元では再現できない珍変換があちこちから聞こえてくるのはなぜなんだぜ。

つことで、IME2007をスタンダードに操作した時にどう変換されるのか、どうしつけると覚えがよろしくなるのか、実際に試してみることにしました。


1. スペック

今回の私の IME2007 スペックは 12.0.6211.1000 ( SP1 適用済 )。
最新語辞書 / 郵便番号辞書 の差し替えはしていません。
小学生辞書を追加していません。
逆に、システム辞書を 標準辞書 / 単漢字辞書 / 人名地名辞書 / 最新語辞書 ( インストール時のままのもの ) の 4 つのみにしてあります。

各種辞書は、それぞれ下記から入手できます。

Microsoft Office IME 2007 最新語辞書更新 2008 年 2 月版
Microsoft Office IME 2007 郵便番号辞書更新 2007 年 11 月版
Microsoft Office IME 2007 小学生辞書


2. 準備

IME2007は学習させて経験値を上げながら変換効率を上げていく、言ってみれば文字列入力型RPG、いやどっちかというと文字列入力型美少女育てゲーみたいなもんなわけです。

当然ですが、ある程度育ててしまった状態でウチの子とヨソの子を比べても、すでに成長パラメータが大きく違うわけですので、あまり意味がないというか。

ので、何をしたらどう育つか、を見るために、一度学習データをリセットします。
もったいないと思う人は、バックアップ取っておけばいいです。

学習データのリセットは、言語バー / IME バーの [ツール] アイコンから [プロパティ] を選択 → [Microsoft Office IME 2007 のプロパティ] ダイアログ → [辞書 / 学習] タブ → [学習情報の消去]、[予測入力] タブ → [入力履歴の消去]。

辞書が壊れていると、データだけリセットしてもインデックスが崩れていて結局ぐずぐずになる可能性もありそうな気がしますので、さらに [辞書 / 学習] タブ → [修復]。

これでもまだ信用ならんという場合は、[辞書 / 学習] タブ → [辞書名] のファイル名部分を変更し、ユーザー辞書を新しく作り起こします。

で、ユーザー辞書フォルダ ( C:\Documents and Settings\imamura\Application Data\Microsoft\IMJP12 ) にある古い方の辞書を削除。
たぶん IME2007 が旧辞書ファイルもまだ握っていて削除に失敗すると思いますので、ファイル名を変更して ( ファイルが握られていてもファイル名の変更はできます ) マシンを再起動して ( ログオフではだめですぜ ) 改めて旧辞書ファイルを削除。

さらにキャッシュフォルダ ( C:\Documents and Settings\imamura\Local Settings\Application Data\Microsoft\IME12\IMEJP\Cache ) の中のファイルを全部削除。
自動学習データフォルダ ( C:\Documents and Settings\imamura\Local Settings\Application Data\Microsoft\IME12\IMEJP\Dicts ) の中のファイルも全部削除。
たぶんここもひとつ IME2007 が握っていて削除不可なファイルがあるはずなので、これもリネーム → 再起動 → 削除。

これで完全に文字列入力型美少女育てゲーが「はじめから」になった状態にできます。

バックアップを取りたい方は、上述の「ユーザー辞書ファイル」「キャッシュファイル」「自動学習データファイル」を取っておくといいかもしれません。

私は今回このエントリのために、ほんとに全部削除しました。
のでリストアできるかどうかは試していません。(;-;)ルルルー


3. ひと単語ずつ試してみる

では、誤変換されたとされる入力を実際に追証してみます。

元ネタは、アバンギャルドな誤変換レポートを提供くださっている古川さんのブログから。

まずは IME 2007の甲斐減少 から。

この時点ではまだ Office2007 SP1は提供されていませんので、元ネタは無印 IME2007 を使っていると思われます。

「怪現象」。

おーっと、ここで「買い減少」が再現したー!

「買い」→「怪」に変更して
「→」キーで変換カーソルを「減少」に移動して
「減少」→「現象」に変更して

Enter、で確定。

これで覚えたかどうか確認するために、続けてもう一度入力してみることにします。

おお、一発変換。Enterで確定します。

「簡易」「話」は初回一発変換でした。

「改変」

惜しいっ。

「改編」 → 「改変」に変更して

Enterで確定、再度入力で学習を確認。

何べんやっても覚えねぇ。

単語だと覚えが弱いのかなーとか思い、いっちょ短文でチャレンジしてみます。

 →

連文節だと一発で覚えるんですよね。

その後、単語で再チャレンジ。

ほーら、一発。
…でも本来前後が違うと別覚えのはずなので、連文節の学習データが単語に反映されるとは考えにくいんですよね。

たぶんこのあとの誤変換例でも同じようなツボに入る例があるんではないかと思います。その時にでもまた別な手法をとってみることにします。

「昨日」「昨晩」「細かい」は初回一発変換。

「細かい事」は…「こと」を「事」って書いちゃうのは、文科省も新聞も認めてないんですが。私が子供の頃にはすでに「こと」と書くように教育を受けたんですが。
もー昔の人なんだからー。

というわけで、第一変換候補は「こと」となりましたが、広く一般に販売される製品としてはこの優先順位は適切だと思います。

    わざわざ「事」に変換して

再度入力学習確認。

あれ?覚えていません。再度。

3 回目で覚えました。

「葬式」は初回一発変換。

 →

「葬式会場」は

おおぅ三文節に。

Shift+「→」キーで文節範囲を変更して再度変換、
って今度は「会場」が「海上」に。
「→」キーで変換カーソルを移動して「海上」→「会場」に変換して確定。

ワンスモア。

これは 1 回で覚えてくれました。

「お葬式会場」「契約」は初回一発変換。

「ただ友」は、…これが辞書に入っているわきゃないすよ普通に考えて。

ほらやっぱり。

「とも」→「友」に」変更して、
再度入力確認、
OK。

次、今度は MS IMEさらに…お馬鹿になっていく のエントリから。

「腱鞘炎」。

まあ出ませんわね。

Shift+「←」キーで文節範囲を「けん」に絞って、
「けん」→「腱」に変更して、うわぁ「しょうえん」が「荘園」になっとる、
「→」キーで変換カーソルを次の文節へ、
Shift+「←」キーで文節範囲を「しょう」に絞って、
「しょう」→「鞘」に変換して、
「→」キーで変換カーソルを次の文節へ、
「えん」→「炎」に変更して、

確定。再度入力確認。

1回で学習完了。

「謝礼」は初回一発変換。

 → 

「社歴」は、

いやそれはふつー「しゃれっけ」ですがな、なと突っ込みつつ、

Shift+「←」キーで文節範囲を「しゃ」に絞って、
変換して、
「者」→「社」に変更してEnter。

再度入力、学習確認。

あれ、覚えてないぞ。

Shift+「←」キーで文節範囲を「しゃ」に絞って、
変換して、ってうわぁ前回と違う「紗」が出たぁ。なぜだ?
「紗」→「社」に変更して、

「社」の変換途中でEnter確定したのが悪かったかもと思い、今度はむだに変換カーソルを「歴」に移動させてからEnterで確定してみました。

で、さらに再度入力学習確認。

おお、今度は初回一発。
でも変換カーソル移動させない限り覚えない、なんて仕様になっているとも考えにくく。

「蒸気機関車」「西永福」「漢字の予測変換」「ブログ」は初回一発変換。

次、今度は MS IME野甲斐、さらに十章に….(の怪、さらに重症に….だってば) のエントリから。

「笑い転げ無いように」って…これ、「転げない」で 1 単語ですし、本来単語中の否定に「無い」は使いません今どき。これもかなり昔の漢字使いですね。

ほら 2 文節じゃないですか。

「→」キーで変換カーソルを移動させて、
Shift+「左」キーで「転げ」までを選択して変換、
「→」キーで変換カーソルを移動させて「ないように」→「無いように」に変換。

なんだかなぁ。で再度入力学習確認。

みごと 1 度で学習完了。

次、「師匠」。

うお、「師匠」よりも「死傷」のほうがポピュラーですかそうですか。

IME2007のヘルプの「ご注意」ページには辞書作成協力者/団体が列挙されている(mk:@MSITStore:C:\Documents%20and%20Settings\All%20Users.WINDOWS\Application%20Data\Microsoft\IMJP12\HELP\imjpcl.chm::/ImeJPCL385.htm)んですが、まあ新聞社が入っているあたりで「死傷」ランキングはけっこう上へ行っちゃうかもしれませんね。

「死傷」→「師匠」に変更して確定して、
再度入力学習確認、

ってうわぁまだ「死傷」が出ますこんちくしょう。

「死傷」→「師匠」に変更して、
「社歴」の時と同じように、用もないのに「→」キーで変換カーソルはずして、
再度チャレンジ、
うわぁ、
うわぁ、
うわぁ、

「死傷」なだけにゾンビ並み。

どーしたもんかなーと煙草吸いながらしばらく考え、
ちぇーとか言いながらもう一回、

あれ。さっきまでだめだったのに。そのあとまったくマシンに触っていないので、新たに学習するわけもないのに。

…つことは、遅延?
例えば、学習した後しばらく入力がないようになった時点でメモリなりキャッシュなり自動学習データなりに遅延書き込みされて、それから学習結果の反映が可能になるとか?

なんか今までの覚えの悪さパターンもしばらく放置で解決していたような気がしてきましたよ。

「映像クリエイター」

誰だー。

「→」キーで変換カーソル移動、Shift+「→」キーで「くりえいたー」までを選択して、
「くりえいたー」→「クリエイター」に変更して確定、
再度入力学習確認、初回一発変換 OK 。

「映像クリエイタ」

まあ「クリエイター」と「クリエイタ」は別物ですので。

「→」キーで変換カーソル移動、Shift+「→」キーで「くりえいた」までを選択して、
「くりえいた」→「クリエイタ」に変更して確定、
再度入力学習確認、初回一発変換 OK 。

カタカナ語は一度変換確定してしまえば割と強力に効きますので、「音楽クリエイター」は一発 OK ですね。

「空力」。

おお元ネタの現象が再現しましたしました。。

「食う」→「空」に変換、確定、再度入力学習確認、
OK。

「ながら族」。

惜しい、「ナ・ガラ族」。ってほんとにどこかにいる原住民族のような。

Shit+「→」キーで「ながら」までを選択して、
変換して、
「乍」→「ながら」に変更して確定して再度入力確認して、
OK。

「今移動中」は初回一発変換。

 → 

「漢字がこう変換されます」

これも元ネタと同じ誤変換。

「→」キーで変換カーソルを移動して、
「高」→「こう」に変更して確定して再度入力学習確認、

意外な伏兵、今度は「漢字」が「感じ」な感じになってしまいました。負けない。

「感じが」→ 「漢字が」に変更して確定して再度入力学習確認、
 → 

待て。ちょっと待て。しばらくほっとけば学習結果が反映されるかもしれないと、「死傷」の集団に囲まれながら仮説を立てたんではなかったか私。

がんばれ私。はやる心を抑えて、がんばってぼーっとするんだ!

…ぼーっとした結果。

イケたじゃん。やっぱ「遅延だからぼー」という理解でいいのかな。

「こう解釈」「こう理解します」「こう展開します」「こう想像します」「こう誤解します」は、どうも「こう」+「名詞」で学習したらしく、全部初回一発変換となりました。

「こう狂います」は、

「くるいます」のほうがひらかなに。こいつぁ盲点。

「→」キーで変換カーソルを移動して、
「くるいます」→「狂います」に変更して確定して再度入力学習確認、
OK。

「好感度抜群」。

アンテナバリ3。

「高感度」→「好感度」に変更して確定して再度入力学習確認、
OK。

「展示台」「展示内容」は初回一発変換。

とりあえずこんなもんでしょうか。


4. まとめて試してみる

ひととおり学習させ終えたところで、再度確認。

今まで入力した単語 / 文章を、連続入力してみることにします。

あれ、「師匠」が「死傷」になる。

しまった、区切り文字に全角スペースを使ったので、さっき教えた「師匠」単独ではなく「全角スペース」+「ししょう」の組み合わせでの変換候補になっちゃったんだ。

しょうがない、「全角スペース」+「師匠」で再度覚えさせ直し。

あとは全部学習結果が反映されました。

もう少し過酷な確認もしましょうか。

  長文一気入力。

自動変換の機能を初めて試すわけですが、実はこれ、入力するこちらもかなり過酷。間違えて確定しちゃったら、そこまでの分を何らかのルールで覚えてしまいかねないので、間違いが許されない一発勝負。

しかも今回はキャプチャ取りながらですので過酷さどんと倍。
思いついた途端に涙目です。

ちなみに先ほど全角空白区切りで別変換になってしまいましたので、今回は半角スペースで入力の途中で区切りを入れていくことにします。

行きますよー。

まぁだいたいこんな感じで。

「昨日」の「き」のあたりで、「怪現象」から順に自動変換され、候補が表示され始めます。

    どんどん行きます。

「葬式会場」の「そうしきかいじょ」のあたりで、「怪現象」が確定されました。
ちなみに私の秀丸は、IME ON の場合のカレント行は赤字で表示されるようになっています。

以上、一気入力成功。疲れたー。


5. 結論とか雑感とか

つことで、ていねいに学習させれば、文字列入力型美少女が少しずつレディーに育っていくということが確認できましたってなんなんだこの結論。

で、ですね。

先に確認した「展示内容」の誤変換のあたりで、古川さんはちょっとおもしろいことを書いているんです。

さらに「点字内容」と「展示内容」が予測候補で両方とも表示されるということは

この記述がほんとに予測変換 →  予測候補のことだとすると。
予測変換は過去に2度以上入力確定した文章しか出さないんですよね。

てことは、ご自身で過去に2回以上「点字内容」と入力確定している、と考えられます。

「予測候補」と記述されているので、この説明は通常操作での変換候補一覧のことを指しているんではないと思います。

もっとも通常の変換候補一覧で「展示内容」と候補表示させるためには 2 文節になる必要がありますので、もしこちらを指して言われるなら

「点字」と「展示」が ~

という言い回しになるのではないかと思います。

「てんじないよう」をむりやり 1 文節で変換すると「転じないよう」などの動詞活用になっちゃって、そもそも候補に「点字内容」も「展示内容」も表示されなくなっちゃいますし。

ので、通常候補一覧を「予測変換」と説明し間違えている可能性はまずないと判断していいと思います。

別例をもうひとつ。

「師匠」の誤変換では「死傷」ではなく「氏翔」を挙げているんですが。

「氏翔」なんて単語、日本語にないんではないでしょうか。
どうていねいに見ても、私の環境では「氏翔」は変換候補に出てきませんでした。
Webを検索しても、ハンドルネーム以外のヒットはありませんでした。

行の先頭では必ず”氏翔”と毎回変換されます。

と書かれています。「文頭 (入力位置より前に文字列がない状態 ) 」で強く出てくる変換候補は、単文節変換で学習させた結果の可能性が高いという IME2007 の特性ではないかと思われます。

ということで、、これも過去にご自分で「ししょう」とだけ入力 → 「氏翔」と確定 → 学習させたっぽいような気がします。

このように誤変換の様を細かく見ていくと、やはり古川さんは基本的に単文節で変換するタイプの方のようです。

通常は、単文節変換でもさほど学習に支障はないらしいんですよ。

IME2007 には 前後フィードバック機能 ってのがありまして、単文節入力でも、入力位置の前後にある「すでに確定されている文字列」を参照しながら変換 / 学習ができるようです。
ので単文節入力でも、実体は長文入力と同じ精度になるはずなんです。

しかし、この前後フィードバック機能に対応していないソフトもあります。つかたぶん対応しているソフトの方が少ないです。

前後フィードバックに非対応のソフトを主に使い、しかも単文節変換中心の使い方をしてしまうと、 IME2007 は文章の前後の関わりをほとんど教えてもらえないまま育ちますので、非常に弱いコになってしまいます。

どうも古川さんの極端な誤変換は、この状況なんではないのかなぁと。

ちなみに、私が文章作成に使うソフトは、秀丸 7 割、Word 3 割くらいです。
これらはどちらも前後フィードバック対応ソフトですので、書き起こしの時だけでなく直し ( 校正 ) で単語単位の差替を行っても、いいコに育つんではないかと思います。


余談。

IME2007:ちょっと脱線。の中で、「開発の主体が中国へ」のくだりでちょっと鵜呑みにできないと書いたんですが、NyaRuRuさんが明解に説明してくださっていました。

「開発の主体」って何だろう? – NyaRuRuの日記

そうそうそれそれ、私の認識もそんな感じです。

でも私としては、

中国の開発部門が作業の分担と責任を持っている

「何の」作業なのかが明確でないあたりで、まだ少々「?」な印象を受けています。

10 コメント

  1. ラム より:

    こんにちは。
    こんなにたくさんのキャプチャー!お疲れ様でした。
    でも、うちの子としつけ方がちょっと違うなぁ・・・と思いまして、トラックバックしてみます。

    なお、つい先日、Office 2007 SP1を入れただけで、各種辞書は全く入っていません。

  2. ラム より:

    なぜか、トラックバックが通りませんでした。
    Windows Vista の Office IME 2007を検証でしつけ方を公開してます。
    また、よろしくお願いいたします。

  3. さるべーじ より:

    > でも、うちの子としつけ方がちょっと違うなぁ

    まぁしつけ方には家風がありますので(^^;)。

    リンク先、拝見しました。
    「腱鞘炎」が1文節で済むのは気がつきませんでしたー。
    「けんしょう」「えん」で文節別れちゃったので、てっきりそれ以上長い単語は入っていないんだと思い込んでしまったようです。

    「クリエーター」もてっきり「クリエイター」だと思っていました。
    手元にある広辞苑(四版)で確認すると、確かに「クリエーター」で載っていますね。

    でもGoogleで検索すると、「クリエイター」で約 1,740,000 件、「クリエーター」で約 1,910,000 件。
    「クリエイター」もけっこう浸透しているようですので、ここはちょっと「違う」とは言い切りにくいかもしれません。

    トラックバックは、あれー?こっちに飛んできていません。迷惑扱いで保留になっているわけでもありません。
    不思議ですね。

  4. ラム より:

    猿頁さんに触発されまして、自分流の躾け方を公開しました。
    Office IME 2007の躾け方
    猿頁さんのこのページへリンクを張っています。
    しかし、トラックバックは、通りませんでした。
    また、よろしくお願いいたします。

  5. さるべーじ より:

    > リンクを張っています。
    > しかし、

    あ、すいません。
    本blogシステムでは、表示とトラックバックのURLが違うみたいです。

    コメント欄の上にトラックバック用URLを記載してありますので、トラックバック先の指定にコピーしてお使いください。

    ラムさんは文節変換派ですか。
    それでも辞書は育てられますよねぇ。

  6. えすぬま より:

    一気に読んでしまいました。本当にごくろうさま~。

    このすばらしい考察と検証を当の本人は読んでらっしゃるのか・・・

  7. さるべーじ より:

    > 一気に読んでしまいました。

    ありがとうございますー。

    > 当の本人

    古川さんのことを指してます?
    であれば、たぶんこんな場末blogまではご覧になってないと思います。

    一応引用リンク先にはトラックバック飛ばしてますが、古川blogには反映されていないようですし。

  8. とおりすがり より:

    「>」→「<br>」
    「a」→「<a href=”">」
    というようなショートカットを常用していたのですが、OfficeIME2007になってから変換候補の最下段にしか出てこなくなりました。
    これを単体で上に持ってきたい場合はいったいどうすれば・・・

  9. さるべーじ より:

    > 変換候補の最下段にしか出てこなくなりました。

    えー、たぶん単語の登録のし方と学習のさせ方にコツがあるんだと思います。

    1. [単語:"<br>"][読み:">"][品詞:名詞]の場合

    ふつーに単後登録をすると、品詞の初期値は「名詞」です。
    名詞で登録すると、ばりばり前後の文脈を参照しますので、いくら単体の「”>”」で変換を繰り返しても候補上位には来ません。

    私の環境で試してみると、

      (1) 「>」→「<br>」  候補2ページ目の7つ目
      (2) 「>」→「<br>」  候補2ページ目の7つ目
      (3) 「>」→「<br>」  候補2ページ目の7つ目
        …

    と順位はまったく変わりませんでした。

    ちなみに、「<br>というタグ。」と文章として一括変換してみると、

      (1) 「>というたぐ。」→「<br>というタグ。」  候補2ページ目の7つ目
      (2) 「>というたぐ。」→「<br>というタグ。」  候補1ページ目の1つ目

    とあっという間に候補上位に。

    2. [単語:"<br>"][読み:">"][品詞:顔文字]の場合

    とはいうものの、前後の文脈から用法を推測できる流暢な文章ばかりを書くわけではありませんよね。

    とおりすがりさんのように、入力を省力化するための方法など、前後の文脈と無関係に、よく使う単語だってけっこうあります。

    こんな場合は、品詞を「顔文字」にするといいです。

    これ、実は「顔文字」というよりは、単に文脈に無関係になる単語を指します。
    顔文字が「文脈と無関係に用いられる単語の代表格」ということで「顔文字」という品詞(?)と名付けちゃったらしいです。
    かえってまぎらわしいような名付け方だと思うんですが…

    [品詞:顔文字]で単語登録して「>」だけで変換してみると、

      (1) 「>」→「<br>」  候補5ページ目の8つ目
      (2) 「>」→「<br>」  候補2ページ目の7つ目
      (3) 「>」→「<br>」  候補2ページ目の6つ目
      (4) 「>」→「<br>」  候補1ページ目の2つ目
      (5) 「>」→「<br>」  候補1ページ目の1つ目

    と、5回の変換で候補トップに来るようになりました。

    私はこんな感じで辞書を鍛えているんですが、いかがでしょうか。

  10. とおりすがり より:

    顔文字ですか、なるほど。
    そこまで調べて頂けるとは流石です。

    しかし連文節変換はいいとして、やはり単語のみの変換は即座に順番変動してほしいですよね・・・

コメントを投稿