Phrasejoyで音声認識率をあげるこつ

PhrasejoyのPronounceトレーニング、つまり、MacやiPhoneなどAppleのデバイスで英語を音声認識させる時のこつの話です。日本語ネイティブで英語は学校で勉強しただけの私がPhrasejoyで半年ほどPronounceトレーニングをしています。今までトレーニングして気が付いた経験則をここでまとめておきます。人それぞれで、全く同じシチュエーションの人はいないかもしれませんが、英語の音声認識で困っている方のヒントになれば幸いです。

発音について

最初の発音をしっかりとする。

発音し始めの音声は、明瞭度が弱いと無視されるようです。おそらく、咳や「えー」「あー」など、しゃべり始める前の意味の無い音と判断されているのでしょう。実際に、弱めに「えー」とか「あー」とか言ってからしゃべり始めてもそれは音声認識されません。それらの音と違いが分かるよう、しゃべりはじめの最初の音は、少し強めにはっきりと発音すると、認識率が上がります。

ofとat

「エブ」や「エット」と言うつもりで発音すると認識率が上がります。”of”や”at”の最初の音は、シュワーと名前がついている/ə/という発音記号の音で、英語の発音では使用頻度の高い重要な発音だそうです。私の場合、力を抜いて「え」と言うつもりで発音するとうまく認識されます。

乾いた音とこもった音の違いをはっきりと

“us”は日本語的な発音をすると、”ass”と認識されます。乾いた感じで「ア」を発音するとうまく認識されます。”drank”と “drunk”の違いもこれです。”drunk”の「ア」は乾いた音で、”drank”の「ア」は、「あ」なのか「え」のなのかよくわからないこもった「あ」です。

w

“always”は、”w”の部分の口の形が重要です。「ウェ」を発音する時に、口の開け具合を小さくしてこもらせると簡単に認識されます。

v

“over”の”v”は、音が振動していることが重要です。学校では、”v”を下唇を上の歯で挟んで発音すると習うので、唇を歯で噛むことに意識がいきがちですが、音が震えていないとうまく認識されません。”v”で音を震わせて、”r”で口の奥の方で音をこもらせることを意識して発音すると”over”は簡単に認識されます。

third

ものすごく難しくて未だに毎日認識されなくて苦しんでいます。認識される時のパターンとしては、「サ」を意識せずに、上下の歯で挟んだ舌を引っ込めながら音を出すのを力を抜いて声を出すといいようです。”thir”の部分は、「サ」でもなく他の特定の母音的な音でもなく、ただ声を出すだけです。結果的に、「タ」に近い少しだけ「サ」が混じった音になっています。

rとl

“r”は巻き舌と思い込んでいましたが、舌を巻くことよりも、こもり具合が重要だと感じます。”r”は、口の奥の方でこもっている音で、”l”は、口の先の方で少しだけこもってる音だと意識するとうまくいきます。

turn

私がトレーニングしているフレーズにはものすごく頻繁に”turn”という単語がでてきます。英語学習の教材で有名な「DUO 3.0 / CD復習用」でも2番目のフレーズで”turn out”という語句ででてくるくらいですから、よほど重要な単語なのでしょう。しかし、日本人には発音が難しいです。私は、発音できるようになるまで1ヶ月ほどかかりました。認識させるこつは、意識的にひらがなのどれかの音を出そうとせずに、力を抜いて声を出すことです。最初の”t”の部分は、舌が上あごにひっかかっていて、それを勢いを付けて引っ込めるような感じで動かすとよいです。

リズムも大事

リズミカルな発音の単語があるということを意識すると上手く認識されることがあります。例えば、”get bitten by〜”というフレーズの”bitten”は、全ての音を発音するより、フレーズ全体の中で”bitt”の部分が飛び跳ねるような感じで少しだけアクセントがくる程度の発音をするといい感じです。

remembered

“I’m surprised that you remembered that.”(よく覚えているな)というフレーズのrememberedが、最初、どうしてもrememberとしか認識されませんでした。surprisedは、dを発音しなくてもsurprisedと認識されるのにです。surprisedは、be動詞の後だから、もしくはsurprisedで使われる頻度が極端に高いからなのでしょうか。

最終的に分かったのは、rememberedは、”d”を強調するよりも、”r”のこもった感じをさらにこもらせ度合いを高めるとうまく認識されます。

連続して同じフレーズを認識させると認識率が落ちる

まだ、正確に発音しきれていない場合、その発音に対して他にも候補の語句があると、2回目は別の候補の語句を認識するようです。なので、正解 > 不正解 > 正解という結果になることが多くなります。こういう状況になったら、不正解を気にするのではなく、正確な発音に限りなく近づいているのだと楽観的にとらえましょう。

調子の悪い時は無理をしない

誰にでも調子の良い日と悪い日があります。寝起きで声が出にくい時もあります。昨日まで高確率で認識されていたのに、なぜか今日は全く認識されないというような日があります。ほとんどの原因は、声の調子が悪いせいだとは思いますが、最近、Appleの音声認識サーバーの認識アルゴリズムが日々変わっているのではないかと感じるようになりました。世界中で使用頻度の高い語句が最優先で採用されるような仕組みになっていて、それが毎日か一定の期間で優先順位が変わっているのではないかと感じます。その理由は、fuckやassなどに間違って認識されることが多いからです。また、”I don’t like the idea of an eye for an eye.”の後半部分は、大抵”iPhone”と認識されます。なので、ある日突然認識されなくなったと思っても、あまり気にせずに、無理して頑張らない方がよいと思います。

正確な発音の確認方法

どうしても特定の単語の発音がうまく認識されない場合、私は、ウィズダム英和・和英辞典 2 – 物書堂という辞書アプリで確認しています。私が知っている中では、このアプリの単語の発音がAppleのデバイスで音声認識される発音に最も近いです。確認の仕方は、まず、単語の発音記号を見ます。それで音のイメージを持ってから何回か発音を聞きます。すると、自分が思い込んでいた音のイメージと実際の音とのずれがわかります。そこで、自分で発声してみて、思い込んでいた間違った発音と正しい発音とのずれを修正します。何度か発音練習を繰り返して納得してからトレーニングに戻ると、あら不思議、ばっちり正解になります。

トレーニング量について

柔軟体操や筋力トレーニングと同じで、1日2日ものすごく頑張ったとしても効果はほとんどありません。少しずつ毎日トレーニングすることで、徐々に舌や発声に使う神経が慣れてきます。一般に、筋力トレーニングの効果は3ヶ月後に現れると言われています。鍛えている部分の細胞が新しい細胞に入れ替わるのと、脳や神経が力の入れ具合を習得するまでにそのくらいの時間がかかるからだそうです。私は、半年ほどPhrasejoyでPronounceをトレーニングしてみて、英語の発音もこれと同じようなものだと感じました。最初は、やる気に満ちあふれているので頑張りがちですが、その反動でやる気がなくなる日が必ずきます。特定の日の頑張り度合いが高い程、必ずやってくるやる気がなくなる日のそのやる気がなくなる度合いも高くなります。目安は、やる気が無い日に億劫にならない量が、毎日継続できる量です。毎日トレーニングしていると、本当に少しずつですが、徐々に正確に音声認識される確率が上がっていきます。そして、自分が正確に発音できるようになったフレーズもしくは同じ構造のフレーズは、ネイティブがしゃべるのを聞いた時に考えなくても感覚的に意味が理解できるようになります。

関連ページ