米Googleは4月11日(現地時間)、会話や騒音が多い中などの動画から、1人の人の声を分離するディープラーニングモデルについての論文「Looking to Listen at the Cocktail Party」を発表した。
人間は、パーティー会場のような複数の会話が進行している中でも、自分が聴きたい声を自然に聞き取る選択的聴取能力があり、一般に「カクテルパーティー効果」と呼ばれる。これを、ディープラーニングで再現しようというものだ。
サンプルの動画では、2人の男性がステージで同時に同じくらいの声量で話しているものを、一人ずつの声に切り分けて字幕をつけることに成功している。下の画像で、最初は2人同時の音声、右の男性の顔に枠が付いた段階では右の男性の声だけ、左の男性の顔に枠が付いた段階では左の男性の声だけが聞こえる。
この動画の音源はステレオではなく、ディープラーニングモデルが音声を切り分けている。このモデルでは音声だけでなく映像が重要で、例えば人物の口が動き出したことを検出してどちらの声かを判断しているという。
同社はこのディープラーニングモデル構築のためにYouTube上のスピーチや会話の約10万本の動画を集めて約2000時間分の雑音のない音声を抽出し、それに人工的な雑音を追加することで人工的なカクテルパーティー動画を作成。それらの動画で話している人の「face thumbnail」と動画の音声から話している人の音声を切り分けるよう学習を繰り返した。
この技術は動画のキャプション追加に役立ちそうだ。Googleは、将来的には同社の様々なサービスで利用していく計画としている。
Copyright © ITmedia, Inc. All Rights Reserved.
ITmedia 総合記事一覧で全文を見る
0 件のコメント:
コメントを投稿