Windowsで文字起こし(テープ起こし)の自動化!writer.app?Googleドキュメント?

よこのじ(@yokonoji_work)です。

文字起こし(テープ起こし)はとても面倒な作業ですので、自動化できる方法はないかと探してみました。調べてみると無料のサービス・ツールの組み合わせで高精度な文字起こし(テープ起こし)が可能と分かりましたので、その方法をご紹介します。

Googleドキュメントとwriter.app

文字起こし(テープ起こし)を自動化する第一歩のツールとして「Googleドキュメント」と「writer.app」があります。これらは、マイクからの音声入力を認識して文字に起こしてくれるものです。

早速ですが、アニメ「ドラゴンボールZ 地球まるごと超決戦」の次のセリフ部分を両サービスで文字起こしした結果をご覧ください。

原文

ターレス:俺か?俺はな
悟飯:サ、サイヤ人?
ターレス:そう、俺の名はターレス
悟飯:タ、ターレス?
ターレス:ふふふ・・・。なぁ小僧、俺と一緒に来る気はないか?宇宙を気ままにさすらって、好きな星をぶっ壊し、うまいものを食い、うまい酒に酔う

Googleドキュメント

俺か俺はな俺の流れ俺と一緒に来る気はないか宇宙を気ままにさすらって好きな星をぶっ壊しうまいものを食いうまい酒に酔う

writer.app

俺か俺はな。
俺の長さ。
逆転俺と一緒に来る気はないか。
気ままにさすらって星をぶっ壊し。
うまいものを食いうまい酒に酔う。

両サービスともに、連続再生させたものを認識するのは得意ではないようですので、セリフごとに一時停止させながら認識させました。なお、iPhoneのスピーカー出力の音声をノートパソコンに標準搭載のマイクで拾っていますので、良い環境とは言えないと思います。また、アニメの音声の場合はBGMが入るのも認識がしにくい要因になっているでしょう。

さて、見てのとおりwriter.appは自動で改行や句点を入れてくれます。その他の違いとしては、writer.appはタブが非アクティブでも動作するが、Googleドキュメントは非アクティブだと動作しないという違いがあります。つまりwriter.appであれば、音声認識させながら別の作業ができるということです。また、writer.appは文字起こしに特化したツールとして音声ファイルの読み込み、10秒戻し、再生速度変更の機能を備えています。

精度は両方を比べても違いはないように感じます。こちらはwriter.appを利用して、私の声を認識させたものです。発声が良くない私の声ですが、ある程度整った音声を与えてあげれば精度良く認識してくれるのが分かります。

俺か俺はな。
サイヤ人。
俺の名はターレス。
ターレス。
なこと俺と一緒に来る気はないか。
宇宙を気ままにさすらって好きな星をぶっ壊しうまいものを食いうまい酒に酔う。

使い方

Googleドキュメントとwriter.appを使うのはとても簡単です。

Googleドキュメントの場合は、ツール -> 音声入力と進むとマイクアイコンが現れますので、それを押して赤く点灯すると音声認識が可能な状態となります。

032-mojiokoshi-googleドキュメントの使い方

writer.appの場合は、エディタ画面でマイクアイコンを押して赤く点灯すると音声認識が可能な状態となります。

032-mojiokoshi-writerapp使い方

キレイな音声をwriter.appに渡す

writer.appは文字起こしに適したサービスで、キレイな音声を与えれば精度良く文字起こししてくれることが分かりました。そういうことであれば、音声データを入力データとして直接渡すことができないかと考えます。

  • X:音声データ -> スピーカー出力 -> マイク入力 -> 入力データ
  • ○:音声データ -> 入力データ

 

音声データをスピーカーで出力させずにそのまま入力データと渡すには、「仮想オーディオデバイス」を利用します。難しく聞こえますが、イヤホン端子とマイク端子をケーブルでつないで音声信号をそのまま入力信号として渡すということを仮想的にやっているだけです(なので、ケーブルは不要です)。

これを行うために、次のツールを使用します。

Windows:ステレオミキサーまたはVB-CABLE

ステレオミキサーはWindowsに標準で入っている機能ですので、簡単な設定だけで使うことができます。

writer.appとウィンドウズのサウンド設定変更でやる、自動文字起こし術

VB-CABLEを使う場合は、writer.app作者による解説記事をご確認ください。

Windowsで writer-app + VB-Audio Virtual Cableを使った完全自動文字起こしの方法

 

MacSoundflower

リンク先画面の緑のボタン ->「Download ZIP」よりダウンロードできます。こちらもwriter.app作者による解説記事があります。

Macで writer-app + Soundflower を使った完全自動文字起こしを行う方法

テストしてみました

上記のツールを使うことで、パソコンで再生されている音がマイク入力にも音声信号そのままで入力されます。そのため、余計なノイズが入ったりせずにはっきりと認識させることができます。また、スピーカーからは出力させずに信号だけを入力させることもできますので、寝てる間に文字起こしということも可能です。

こちらは、Windowsのステレオミキサーを使用して実際に文字起こしした様子です。YouTubeの音声をwriter.appに渡しています。そのままの再生速度ではすべてのセリフを拾えないこともあるので、速度調整などの工夫は必要ですが、文字起こしの精度は悪くないです。

032-mojiokoshi-キズナアイ

キズナアイの落とし方【#127】

また、YouTubeの字幕が出ているのでわかるかと思いますが、こちらもかなり良い感じで文字起こしされています。動画下の「…」マークより「文字起こしを開く」と進むとテキストデータを取得することができます。これを利用して、自分でデータをアップロードしたものを文字起こしする方もいるようですね。

YouTubeを使って音声データファイルから自動で文字起こしをする方法が簡単かつ無料でおすすめだった話