城北の雑記林 by 彰篠宮

音声入力を始めて1ヵ月が経過した現時点の状況報告…という話。

こんばんは
管理人の彰篠宮です。

今回の記事は、勝間和代女史が使われている音声入力なるものを、小生が始めて約1ヵ月が経過したので、現状をご報告したいと思います。

スポンサーリンク
スポンサーリンク

リモートマウス導入で音声入力環境が激変。

最初はMacBook Airを使って音声入力を行っていましたが、いろいろ工夫してやってみたものの音声認識の精度は70%位でした。そのため、出来上がった文章の手直しが多く、業務効率は手打ち入力に対して大幅に上がっているとは言えませんでした。

勝間女史のBlog記事にあったリモートマウスをiPadにインストールし、体の正面に置いて使い始めた頃から様相が変わってきました。実例を挙げてご説明申し上げます。

音声入力結果
———-
他の5種類に分類されない茶葉は青茶とされます。そのため製造工程や味、香り、茶葉の形状は様々です。発光部分の褐色と付発行部分の緑色とが混じり合って、見た目が青っぽく見えることからこう呼ばれます。

原文というか正解
———-
他の5種類に分類されない茶葉は青茶とされます。そのため製造工程や味、香り、茶葉の形状は様々です。発酵部分の褐色と不発酵部分の緑色とが混じり合って、見た目が青っぽく見えることからこう呼ばれます。

赤字が正しく認識されなかった部分です。

このように一般的な文章であれば、85〜90%位の認識率で音声入力の結果が正しく反映されます。ただ商品名とか中国の地名であるといったような固有名詞の場合、その認識率は大幅に下がります。この場合、固有名詞は似たような音の言葉に変換されてしまう、みたいなイメージです。

小生が使っているのはiPadですが、勝間女史によると、音声入力の認識力はiPadやiPhoneで使われるているiOSによる場合、Google Chromeの拡張機能の場合、アンドロイドの場合とでは幾分差がある様です。

リモートマウスを使って音声入力をするときに最初はちょっとした戸惑いがありました。それは、いざ音声を発する時に、音声入力のボタンを押したり、Macに送信するためにiPadに触れなくてはならないと言うことでした。

入力用のマイクを導入でさらに進歩

言葉を発する音源(口のこと)と音声入力の収音部との距離が近くなると、音声入力の精度がぐんと高くなるという話があり、yeti Blueというマイクを購入してみました。

この時は、ブラウザ上で音声入力が出来るGoogle Chromeの拡張機能「VoiceIn」をインストールしたり、同じくChrome上で動くGoogleDocumentsの音声入力を使ったりといくつか試して見ました。その結果、音声入力の精度は確かに上がるものの、コンピュータの操作回数が増え、かえって業務効率の向上にはならないと言う判断に至りました。

音声入力開始1ヵ月経過した現時点のスタイル。

iPadと外部マイク(yeti Blue)とを接続するケーブルを購入し、音声入力の音源と収音部とを近づけるスタイルにしました。

この状態では、iPadで直接音声を受けるより認識率は遥かに高くなっています。音源からiPadまでの距離が50cmほどあるのに対し、外部マイクは15cmほどです。
近いというのはイイことだ!

手前に小生、そして外部マイク → iPad(リモートマウス送)→ Mac(リモートマウス受)でデータが送られます。キーボードはiPadとマイクとの間に置き、都度、手直しを行います。
iPadの代わりにiPhoneを使っても構いませんが、小さい画面より大きい画面の方が操作効率が良い様に思います。

機器相互の位置関係は改善の余地大いにありです。
感覚的にはiPadとキーボードとは手を動かさずに触れる位置に置くのが良いみたいです。
マイクを机の上、身近に置くとハッキリ言って邪魔なことこの上なしなんですよね。これが目下の悩みです。その点、上から吊っている勝間女史、流石だなぁ…、つか、必然的にそうなるのだろうな、と思います。

業務効率が上がらないネック工程は何?

勝間和代女史に倣ってテキストの音声入力を始めて1ヶ月経過していますが、実はチョト深刻な問題に直面しています。

入力した文章の手直しが多く業務効率が上がらない。

音声入力はたしかに便利ですが、小生のバヤイ、入力する元々の文章が余りにもヘボなので、書き直し、修正が多いために、勝間女史ほど効率Upが達成出来ていないのです。彼女は効率3倍、小生は1.5倍くらいだと思います。

文章の推敲が足りないため、文章そのものの質が低い。

それと、さらに悩ましいのは出来上がった文章の推敲が足りないと言う事です。

通常の文章は、一度書いたら終わりではなく、2度3度と目を通して書き直す作業が加わって漸く出来上がります。

それに対し、音声入力の場合は、一旦書くというか言葉を発声し、思うがままにどんどん文章を出してそれをコンピュータ側で書き込むわけです。推敲する、それを書き直す時はどうするか?もう一度最初から読み直すのとは少し違うと思います。書いた文章を読み直し、画面上で書き直す作業を行います。この際は、音声入力ではありません。そんな風にやっても、翌日読み直したら、更に手直しをしたくなります。

 

勝間和代さんの場合はどうなんでしょうね?

きちんとした原稿は誤字脱字をチェックする助手の方が居ると話しておられた様に思います。それでも、文章を練る…みたいな場合は言い直すのでしょうか。

 

先日、大江健三郎さんの原稿が、母校の東京大学に寄贈されましたが、その画像を見ると本当に原稿用紙に手を入れて大幅に書き直しておられます。そういう作業を経た上で文章として世に出るわけであります。

 

この文章を音声入力で済ますというのは非常に出来の悪い文章を量産することになりそうで、それは気をつけなければいけないと考えております。

音声入力はうるさくて、猫もたまらん

いつもは膝の上で寝ているヌコが、小生が騒がしいためか?何処かに逃げてしまいます。これはチョト哀しいことです。

悪いことばかりではなく良いこともある

効率が上がらないとか、出来が悪いとか、猫が逃げていくといった音声入力の悪い点ばかり上げていますが、見逃してはいけない良い点があります。

 

それは、思いついたアイデアが、その熱気を保ったままテキスト化されると言うことです。手書き入力の場合、あれこれ悩みながら打つこともあり一分間に100文字ぐらいしか打てませんが、音声入力の場合、その出来不出来はともかくとして話すスピードで音声をどんどんテキスト化する事が出来ます。

昔、携帯電話もない時代、作曲家が思いついたメロディーを残すために、公衆電話から自宅へ電話して留守電にそのメロディーを口ずさんで残したと言う笑い話がありますが、それに似た様な事が出来るワケです。スイッチ1つで、考えていることをコンピュータ上にテキストとして残せる。これは今までの仕事にない大きなメリットであると考えます。

音声入力、まだまだ小生には消化しきれていない代物ではありますが、非常に大きな可能性を持ったツールであると言えましょう。

モバイルバージョンを終了