Quiet Flag

気になる内容について発信していきます。音楽と紐付けられると良いですね。

AI 話題

【聖徳太子?】NTTが雑音の中でも複数人の会話を聞き分け、議事録を作成できるAI「corevo」を開発

NTTが、大きな雑音がある中でも必要な音声を聞き分け書き起こすAI技術を開発したと発表したようです。

発言者の会話の聞き分けも可能であるということで、会議でのリアルタイムの議事録作成を可能とするようです。

実用は1, 2年後になる予定だそうです。

 

スポンサーリンク

 

音声認識でネックとなるのが雑音であり、本当に必要な音声とそうではないノイズの部分をうまく切り分けて認識させる正確さが今後求められることとなります。

NTTはこれらを、音の方向や大きさから自動的に必要な音を推定して、歪を生むことなく雑音のみを潰すアルゴリズムを開発したようですね。

具体的にどう識別するかはもちろん書かれてはいませんが、画期的な技術ですね。

予め状況にあった音声の周波数や発言者の空間的な位置をインプットさせるか自動的に取り込んでおくことで識別を行うのでしょうか。

1, 2年後を目安としているということで、今は極端な状況での識別のみが実践されているのかもしれませんが、その様子を一度見てみたいですね。

発言者は人だけなのか、メディア等の媒体を通しての音声も雑音との識別が可能であるのか、具体的な対応環境を知りたいところです。

 

さらに、その空間識別能を活かして、会議のような多人数での会話での識別はもちろん、その発言内容を発言者ごとにストックすることで、リアルタイムでの議事録作成に応用できることを発表しています。

現時点では6人程度のやり取りの聞き分けを可能としているようですね。

一般的な人では不可能な多人数の聞き分け、まさに聖徳太子のような能力を有しているAIですね。

参加している人の声の高さの違い(例えば男女での周波数の違いなど)、距離等に応じた音の大きさの違いなどにもしっかり対応できるのでしょうか。

混みあった部屋での識別は、音の反射等もあって現時点ではまだ難しいかもしれませんが、今後このあたりも進化させていくのでしょうかね。

議事録に関しては、まだそのまま書き起こすしかできないかもしれませんが、他のAIなんかも組み合わせて要約できるまでに至ったら、議事録作成としての役割が本当に必要なくなりますね。

音声認識の精度が上がると、通話での顧客からの要望のまとめだったり、多人数があつまるイベントでの観客の声をまとめたりするのに非常に役立ちそうです。

 

 

スポンサーリンク

 

より効率的に仕事を行うために、AIの発達は欠かせないものとなりましたね。

ベンチャー企業でも多種多様な技術開発が行われているようなので、どの会社にも期待していきたいところです。

 


-AI, 話題