録音音声データをテキスト化する文字起こし(テープ起こし)の作業を軽減したいので、何かいいソフトやアプリはないか。こうした質問は、一般の方はもちろん、私たちテープ起こしを専門に行うライターの間でもよく聞かれます。
また、新型コロナウイルスの流行をきっかけに、リモートで録音・録画されたweb会議やインタビューのテキスト化を効率よく行いたいというニーズも、急速に高まっています。
そこで近年注目されているのが、音声データを自動で文字起こししてくれる音声認識ソフトです。これを使えば、面倒な文字起こし作業から解放される!?
録音音声データの文字起こしを変える音声認識技術
目次
スマホでお馴染みの音声認識機能
スマートフォンのテレビCMなどで、スマホに向かって利用者が質問すると、求める情報を提供してくれたりする場面を見かけます。これは音声認識機能により、人の発した音声を言葉として理解してくれるからです。
人工知能(AI)の研究が進むとともに音声認識の技術も進化し、すでに様々な分野で利用されています。一般人の間でもよく知られるようになったのは、iPhoneに「Siri」が搭載されたあたりからでしょうか。
スマートフォン、さらにスマートスピーカーや情報家電などでも音声認識が注目され、その技術も急速に進化しています。
この音声認識の技術を使うことで、音声入力によるテキスト化も可能で、その精度もかなり高くなってきました。つまり、音声認識技術を利用して文字起こし(テープ起こし)ができないか、ということです。
ICレコーダーで録音した音声をテキスト化できるか
文字起こし(テープ起こし)は録音音声をテキスト化する作業になります。それでは、ICレコーダー等により録音済みの音声データを、音声認識ソフトを使って自動でテキスト化できるのでしょうか。
というのも、文字起こし(テープ起こし)の対象となる音声の多くは、スマホの音声検索のように話者が直接マイクに向かって音声入力しているわけではないです。
講演やインタビューなどをいったん録音機器で録音して、その音声データをテキスト化しています。これができなければ、文字起こし(テープ起こし)においては実用的とはいえません。
さて、音声認識ソフトを使って、録音音声データを自動で文字化することはできるのか。現状では、できるか否かを2者択一で問われれば、「できる」が答えになります。できますが、まったく問題がないわけではないです。
自動文字起こしができる音声認識ソフト・アプリ
たとえば、以下のような音声認識ソフト、サービスを使えば、録音音声からのテキスト化が可能です。
- ドラゴンスピーチ11
- AmiVoice SP2
- VoXTセルフ
- Voice Rep Pro 2
- Watson Speech to Text
- Googleドキュメント
他にもありますが、比較的よく知られており、現時点でネット検索などで調べやすいのはこれらのソフトやサービスです。また、iPhoneやandroidの文字起こしアプリも多数あります。
それぞれのソフトやサービス、あるいはアプリについてくわしく知りたい方は、ご自身で検索して調べてみてください。
ただ、問題なのは、技術的に「できる」のと、仕事や生活で実用として「使える」のは違うということです。その点については、次項で述べます。
録音音声をテキスト化(文字起こし)する精度は
実用レベルに達しているか
録音音声データを自動で文字化することについて、技術的には「できる」と前述しました。
それでは、文字起こし(テープ起こし)の実用に耐えうるものかどうかという問題についてです。つまり、「使えるか」ということです。
これは簡単に白黒はっきりとは言えませんが、現役の文字起こしライターとして日々作業をしている私の個人的見解としては、「まだ実用レベルでは使えないかな」というのが現時点での答えになります。
〇△×で言えば、まだ△といったところでしょうか。もちろん、音声認識ソフト自体を使い慣れていないという面もありますが、どんな録音音声でも正確に文字起こし(テープ起こし)できるかというと、精度は今一つという印象です。
音声認識に適した録音音声とは
音声認識の技術は日進月歩ですし、音声認識ソフトを使う人の習熟度や録音状態の良し悪しにもよりますから、私の見解が正しいとは言いません。おそらく、将来的にはより実用レベルへと近づいていくことでしょう。
また、現時点においても、いくつかの条件を満たした「音声認識に適した録音音声データならば可能」といえます。
その条件とは、以下のようなものになります。
- レコーダー(のマイク)と話者の口元の距離が近く、録音された音声が明瞭である場合。
- 録音場所の雑音、様々な原因によるノイズがないクリアな音質である場合。
- 不明瞭な発音、強い訛りなど、聞き取りづらい言葉が少ない場合。
- 複数人のランダムな会話でない場合。
1については諸説ありますが、マイクと口元の距離は10センチ以内とも言われています。
2、3については、実際の音声データは録音場所、話者、録音状態、聞き取りやすさ等が様々で、10本の音声があれば10本とも異なります。現実的には、アナウンサーのような人が話しているのを、静かな場所で、至近距離で録音しました、などというクリアな音声は、文字起こし(テープ起こし)では少ないといえます。
4は、だいぶ技術が進化しているようですが、音声認識で複数人の話者を聞き分けするのは難しいといわれています。
どの程度の録音音声なら認識できるか
「雑音や不明瞭な言葉は音声認識できないというが、どの程度なら大丈夫なのか」と聞かれることもあります。
上述のとおり録音音声は様々なため、具体的に明示することは難しいです。
録音音声を科学的に分析して、何かの数値がいくつ以上(以下)ならOKといった基準を作ることは可能かもしれませんが、私の知る限りまだそのようなものはありません。
また、新型コロナウイルスの流行により、zoom等を使ったリモート会議などの録音音声から文字に起こす機会も増えてきました。当事務所でもお客様からの依頼が増えていますが、現状、リモート会議などの録音音声のクオリティは本当にピンキリで、まだ音声認識技術で自動文字化するのは難しそうな案件が多いです。
この方法なら音声認識ソフトで文字起こしできる
最初から音声認識ソフト使用を前提にする
もし、録音前から、この音声データは音声認識ソフトでテキスト化すると決めて、録音時点から十分注意して音を録れば、良い結果を得られる確率は高まります。上記で説明した、音声認識に適した録音を実現できればよいわけです。
あるいは、会議やインタビューなどをリアルタイムで音声認識ソフトを使ってテキスト化する方法もあります。
ただ、話者が自分一人ならやり直しもできますが、大抵は場所も話者も様々で、途中で話を止めたり、ましてやり直したりはできないです。「ちょっと音声認識ソフトが上手く動いていないので、最初から会議をやり直してください」なんて、言えませんからね。
議会の文字起こしは音声認識の実用化が進む
現在、地方自治体の議会などは、音響設備も充実していますし、内容や進行も想定できますし、発言者もマイクの前できっちり話す傾向があるので、音声認識を利用しているところもあります。つまり、音声認識と相性がいいわけです。
しかし、私どものようにお客様から録音音声をお預かりして文字起こし(テープ起こし)を行うとなると、内容も録音状態も様々な音声データを取り扱うことになります。どうしても、テキスト化の精度が落ちる案件も多くなるので、「まだ実用では使えないかな」という見解になってしまいます。
パソコン初心者には使いこなせないことも
あと、いくら録音に気を付けて高音質の音声を録っても、音声認識ソフトはパソコン初心者にとっては、使いこなすのがけっこう難しいこともあります。
「面倒な文字起こしがこんなに簡単にできました!」といった記事をネットで見かけることがありますが、大抵はパソコンが得意そうな人か、少なくともこういった技術に対して前向きに取り組んでみようという方です。
真似して自分で同じようにやってみたら、えらく面倒だし、音声認識ソフトは思ったように動かないし、結局うまくいかず挫折した、という話もよく聞きます。
音声認識ソフトを使った文字起こしの裏技
録音音声データを音声認識ソフトでテキスト化する、別の方法について説明します。この方法なら、パソコンが苦手な方でも大丈夫かもしれません。
これまで述べてきたように、音声入力がしっかりできていれば、音声認識によるテキスト化(文字起こし)の精度は上がります。
そこで、ヘッドセットマイクを使用して、録音音声を聞きながら話の内容を復唱し、音声認識ソフトで文字化するという方法です。
要は、録音音声を聞いて、作業者自身があらためて音声を入力し直すということです。
私自身はそこまでして音声認識ソフトを使おうとは思わないので試したことはありませんが、ご興味のある方は試してみてはいかがでしょうか。
文字起こし専門業者のご利用も検討ください
多忙、急いでいる、ITが苦手なら外注が賢明
音声認識ソフトを使って録音音声をテキスト化するのは、実用面でまだ課題があるといえます。また、パソコンやITの中・上級者でなければ、どうしても試行錯誤することになり時間と手間を要します。
それでも、時間や手間がかかっても結果的に上手くいくならまだいいですが、「いろいろ試してみたけど結局あきらめた」という方が多いのも現実です。
今すぐにテキスト化したい音声があり急いでいるとか、文字起こし(テープ起こし)を行いたいのは今回だけとか、日々の仕事が忙しいとか、このような方々はプロフェッショナルな技術をもったテープ起こし(文字起こし)の専門業者に頼んでしまったほうが賢明といえます。
佐藤編集事務所の文字起こし・テープ起こしサービス
このサイトを運営しているテープ起こし・文字起こしの佐藤編集事務所は30年以上にわたり、全国の大学、企業、自治体などからの依頼を受けている音声テキスト化の専門業者です。
今回は自身で無理そうなので、プロの業者に文字起こし(テープ起こし)を外注するのが賢明と判断されましたら、いつでも当事務所へご連絡ください。各サービス内容については、下記のページでご覧いただけます。
文字起こしの自動化やソフト・アプリの関連記事
この記事を読まれた方は、下記の記事もあわせて読まれています。
■音声認識技術やソフト・アプリの関連記事
■文字起こし支援ソフトの関連記事