音声認識によるボイス入力を検討してみた。

前置き

私はキーボード入力が早くないので、テキスト化が面倒だと感じる人間である。
一応、エンジニアの端くれとして、ある程度の入力速度はあるけれど、やはり口頭に比べれば圧倒的に遅いのである。


知り合いが、iPhone音声認識Mailを使っており、結構な精度で認識しており、「しゃべったらそのままテキストに」というのは結構現実的なのだなぁと実感した次第。


しかし、該当製品でも、誤入力、誤変換が多々あり、また話している間はパネルを触っていないと行けないということで、ちょっと不向きであった。
そこで他に何か方法がないか模索してみた。

結論

以下、長々と何を行ったか書くので、先に結論を申し上げるが、今回の手法では音声認識ソフトの認識率がいまいちだったので、実用化は難しいという結論に落ち着いた。
しかし、今後、ソフトの性能が上がる、あるいは代替可能な別のソフトで対応できるかも知れないので、今回の作業をまとめてみた次第。

Evernoteのボイスノート

日頃のスキマ時間を使って録音し、一括テキスト変換という体系を希望するため、録音にはEvernoteiPhoneアプリで使用できるボイスノートを使用した。
iPhone上で20分までの録音ができ、再生もiPhoneで行える。
ちょっとしたボイスメモとして使う分にも、この機能はとても便利だと思う。

Evernote for Windows

普段、EvernoteはWeb版で十分と、専用アプリを使ったことはなかった。
しかし、ボイスノートで録音したファイルのダウンロードは専用ソフトでなくてはできなかった。
専用ソフトであれば、ドラッグ&ドロップで簡単に保存できる。
しかし、Webインターフェイスにもダウンロードリンクくらい用意して欲しいものだと思った。


ファイルフォーマットはWave形式であるためOS標準のWindows Media Playerで再生できた。

Juliusディクテーション実行キット

フリーの音声認識ソフトを検索した所、Juliusというフリーウェアを発見した。
音声を文字変換するための、Juliusディクテーション実行キットというパッケージのWindows版をダウンロードした。


ファイル入力を扱うには、fast.jconfの編集が必要になる。
音声入力ソースという項目で、「-input mic」をコメントアウトし、「-input rawfile」を有効にする。

-input rawfile		# 音声波形データファイル(フォーマット自動判別)
#-input mic		# マイクから直接入力
spwave

Evernoteの生成するボイスファイルはPCMフォーマットではないようで、
そのままではjuliusで変換できなかった。
そこで、spwaveを使用してファイルを変換した。

変換

spwaveで変換するWaveファイルのサンプリング周波数をデフォルトの8000で使用する場合、やはりfast.jconfを編集する。
「サンプリング周波数(Hz)」の行をコピーし、8000という値を設定する。

#-smpFreq 16000		# サンプリング周波数(Hz)
-smpFreq 8000		# サンプリング周波数(Hz)

後は、変換したWaveファイルをJuliusと同じフォルダーにおき、run_fast.batを実行してWaveファイルを指定すればいいのだけれど。

結果

録音した内容は以下のとおり。結構ゆっくり目に話した。

新規ボイスノートをまた使ってみた。
20秒間の録音、あ、間違った、20分間の録音ができるということで、基本的にはこのボイスノートを使用すれば、大体の、えー、アイデアを、口頭で話して、それを録音するということが、できるはずである。


ただ、認識する、えー、テスト側のソフトが、あまり、えー、賢くないということが多々あり、変換性能も含めて、今後の課題となるということが確認できた。


なお、テストにはEvernoteの、えー、ボイスノートを使用したが、それだけではなく、Waveファイルの変換ソフトなども必要になった。

それを変換してみた結果が次のとおりだった。

国内 の 後 だっ た が 、 新型 ば 、 学部 と なっ た 。 僕
十分 華やか な 事 で 、 他の 方 も 、 監督 は 、 夏バテ など 、 女性
が 、 あと は 、 ただ 、 ほったらかし だっ た 録音 て 、 他人 から 、
いずれ か ? って 、 結構 いい 。 大人 が 、 ただ 、 何 ? 大きく
なっ て いる 。 何 か と の 間 、 学科 の 中 に 、 インタラクティブ
に 、 は 、 ただ 、 何らかの 。 崖 など と 強 さ 、 それ は なく 、
菜の花 、 お客様 の もと に なっ た 。 あなた は 、 困っ た が 、 夏

ちょっとくらいの誤変換を直すだけなら、一から書くよりも早いかと思ったんだ。
所詮は、草案であり、それを元に推敲をすると考えるならば、だ。


しかし、これはもう修正するのは不可能。そんな気は起きないというレベルの変換率である。
元がフリーソフトゆえに限界もあるのかも知れないし、しゃべり方が悪いのかも知れない。
しかし、私が望んだ環境としては、要件を満たさないということが確認できた。


一応、以下のテストも行った。

あまりゆっくり話しすぎるといけないのかと思って、普通に話してみたバージョンも追加するが、
たぶんこれも駄目だと思う。
以上新規ボイスノートのテストです。

しかし、結果としては同様。

熱く する こと と なっ て い ます 。 あなた も 解け た パソコン と
も 、 月 長かっ た 。


EvernoteからWaveを取り出すところまでは、結構理想的であった。
専用インターフェイスなのでバッチ化は難しいかも知れないけど、手間が少なかったし。


機会があれば、商用の音声変換ソフトとかも試してみたいと思う。

参考URL

判らないことを解決する際に、役に立ったURLを参考サイトとして挙げさせていただきます。
http://blogs.yahoo.co.jp/kakudanaoyuki/44591703.html
http://julius.sourceforge.jp/forum/viewtopic.php?f=14&t=269