(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023064381
(43)【公開日】2023-05-11
(54)【発明の名称】情報処理方法、情報処理装置、プログラム、情報処理システム
(51)【国際特許分類】
G10L 15/20 20060101AFI20230501BHJP
G10L 25/30 20130101ALI20230501BHJP
【FI】
G10L15/20 370Z
G10L25/30
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021174634
(22)【出願日】2021-10-26
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】加藤 暁浩
(57)【要約】 (修正有)
【課題】音声認識の精度を向上させることができる情報処理方法、情報処理装置、プログラム及び情報処理システムを提供する。
【解決手段】情報処理方法は、音声データを取得しS501、音声データから音声特徴量を抽出しS502、音声特徴量から音声表現を取得しS503、音声表現を音声認識部に入力してテキストデータを取得するS504、取得したテキストデータを端末装置へ出力するS505。
【選択図】
図5
【特許請求の範囲】
【請求項1】
コンピュータによる情報処理方法であって、前記コンピュータが、
音声データを取得し、
前記音声データに基づいて生成された、前記音声データに含まれる音素のみに依存する音声表現を、音声認識部に対して出力する、情報処理方法。
【請求項2】
前記コンピュータが、
前記音声認識部により、前記音声表現をテキストデータに変換し、前記テキストデータを出力する、請求項1記載の情報処理方法。
【請求項3】
前記音声データに基づいて、前記音声データに含まれる音素のみに依存する音声表現を音声認識部に対して出力する処理は、ニューラルネットワークによって実現される、請求項1又は2記載の情報処理方法。
【請求項4】
前記ニューラルネットワークのパラメータは、対照学習によって最適化される、請求項3記載の情報処理方法。
【請求項5】
前記音声データに基づいて、前記音声データに含まれる音素のみに依存する音声表現を音声認識部に対して出力する処理は、前記音声データから抽出された音声特徴量を入力として、実行される、請求項1乃至4の何れか一項に記載の情報処理方法。
【請求項6】
前記音声データに基づいて生成された、前記音声データに含まれる音素のみに依存する音声表現を、音声認識部に対して出力する処理は、前記音声データを入力として実行される、請求項1乃至4の何れか一項に記載の情報処理方法。
【請求項7】
音声データを取得し、
前記音声データに基づいて生成された、前記音声データに含まれる音素のみに依存する音声表現を、音声認識部に対して出力する、処理をコンピュータに実行させる、プログラム。
【請求項8】
音声データを取得する音声取得部と、
前記音声データに基づいて生成された、前記音声データに含まれる音素のみに依存する音声表現を、音声認識部に対して出力する前処理部と、を有する情報処理装置。
【請求項9】
請求項8記載の情報処理装置と、前記音声認識部による認識結果のテキストデータを表示させる端末装置と、を含む情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理方法、情報処理装置、プログラム、情報処理システムに関する。
【背景技術】
【0002】
従来から、人間の発話を記録した音声データに対して、コンピュータが音と文字とをパターンマッチングし、テキストに変換するシステムが知られている。具体的には、例えば、従来では、話者の言語的特徴(使用する語彙の傾向や言い回し、相槌等の癖)を個別に言語モデル化しておき、音声認識時に、話者を認識し適切な言語モデルを選択するシステムが知られている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
上述した従来の技術は、話者の言語的特徴と最も近い言語モデルを選択するものであり、話者に依存する音声データのゆらぎや、環境由来のノイズや残響等を除去するまでに至っていない。このため、従来の技術では、話者に依存するゆらぎや環境由来のノイズ、残響等が、音声認識の精度に影響を及ぼす。
【0004】
開示の技術は、上記事情に鑑みたものであり、音声認識の精度を向上させることを目的とする。
【課題を解決するための手段】
【0005】
開示の技術は、コンピュータによる情報処理方法であって、前記コンピュータが、
音声データを取得し、前記音声データに基づいて生成された、前記音声データに含まれる音素のみに依存する音声表現を音声認識部に対して出力する、情報処理方法である。
【発明の効果】
【0006】
音声認識の精度を向上させることができる。
【図面の簡単な説明】
【0007】
【
図1】第一の実施形態の情報処理システムの一例を示す図である。
【
図2】情報処理装置のハードウェア構成の一例を示す図である。
【
図3】端末装置のハードウェア構成の一例を示す図である。
【
図4】第一の実施形態の情報処理システムの有する各装置の機能構成を説明する図である。
【
図5】第一の実施形態の情報処理装置の処理を説明する第一のフローチャートである。
【
図6】第一の実施形態の情報処理装置の処理を説明する図である。
【
図7】学習部による学習について説明する図である。
【
図8】第一の実施形態の情報処理装置の処理を説明する第二のフローチャートである。
【
図9】第一の実施形態の効果を説明する第一の図である。
【
図10】第一の実施形態の効果を説明する第二の図である。
【
図11】第二の実施形態の情報処理システムの有する各装置の機能構成を説明する図である。
【
図12】第二の実施形態の情報処理装置の処理を説明する図である。
【
図13】第二の実施形態の情報処理装置の処理を説明する第一のフローチャートである。
【
図14】第二の実施形態の情報処理装置の処理を説明する第二のフローチャートである。
【
図15】第三の実施形態のシステム構成の一例を示す図である。
【
図16】第四の実施形態のシステム構成の一例を示す図である。
【発明を実施するための形態】
【0008】
(第一の実施形態)
以下に図面を参照して、第一の実施形態について説明する。
図1は、第一の実施形態の情報処理システムの一例を示す図である。
【0009】
本実施形態の情報処理システム100は、情報処理装置200と、端末装置300とを含み、情報処理装置200と端末装置300とは、ネットワーク等を介して接続されている。
【0010】
本実施形態の情報処理システム100において、情報処理装置200は、音声認識処理部220を有する。つまり、本実施形態の情報処理システム100は、音声認識システムの一例である。
【0011】
情報処理装置200は、端末装置300から音声データの入力を受け付けると、音声認識処理部220により、音声データに対する音声認識を行い、音声認識の結果であるテキストデータを、端末装置300に対して出力する。
【0012】
本実施形態の端末装置300は、例えば、スマートフォンやタブレット端末等であり、集音装置と表示装置とを含んでもよい。端末装置300は、例えば、集音装置によって取得された音声データを情報処理装置200に送信し、情報処理装置200から、音声データの認識結果であるテキストデータを受信してもよい。また、端末装置300は、受信したテキストデータを表示させてもよい。
【0013】
ここで、本実施形態の情報処理装置200は、音声認識処理部220により、音声データから話者の言語的特徴や、環境に起因するノイズや残響等を除去した音声表現を生成し、音声表現に基づき、音声認識を行う。
【0014】
本実施形態の音声表現(Speech representation)とは、例えば、音声データから得られる音声特徴量に基づくものであり、ニューラルネットワークの中間層または出力層に現れる、音素または音素群のみに依存する特徴表現である。言い換えれば、音声表現とは、音声特徴量が示すベクトルの方向及び大きさから、音声内の音素以外の要素をそぎ落としたベクトルである。したがって、音声表現では、音声特徴量が示す意味を維持している。
【0015】
このように、本実施形態の情報処理装置200では、音声表現に基づいて音声認識を行うことで、音声データに含まれる話者の言語的特徴や、環境に起因するノイズや残響等に依存せずに音声認識を行うことができ、音声認識の精度を向上させることができる。
【0016】
なお、
図1の例では、情報処理システム100に含まれる端末装置300を1台としているが、これに限定されない。情報処理システム100は、端末装置300が複数有し、音声データを情報処理装置200に送信する端末装置300と、情報処理装置200から出力されたテキストデータを受信する端末装置300と、をそれぞれ別々の端末装置としてもよい。
【0017】
また、本実施形態では、端末装置300から音声データを受信し、情報処理装置200の有する表示装置にテキストデータを出力してもよい。また、本実施形態では、情報処理装置200に対して直接音声データし、テキストデータを端末装置300に出力してもよい。また、本実施形態では、情報処理装置200に対して直接音声データを入力し、テキストデータを情報処理装置200の有する表示装置に出力してもよい。
【0018】
また、
図1の例では、情報処理装置200が音声認識処理部220を有するものとしたが、これに限定されない。音声認識処理部220は、複数の情報処理装置200で実現されてもよい。
【0019】
次に、
図2、
図3を参照して、情報処理装置200と端末装置300のハードウェア構成について説明する。
図2は、情報処理装置のハードウェア構成の一例を示す図である。
【0020】
情報処理装置200は、コンピュータによって構築されており、
図2に示されているように、CPU201、ROM202、RAM203、HD204、HDD(Hard Disk Drive)コントローラ205、ディスプレイ206、外部機器接続I/F(Interface)208、ネットワークI/F209、バスラインB1、キーボード211、ポインティングデバイス212、DVD-RW(Digital Versatile Disk Rewritable)ドライブ214、メディアI/F216を備えている。
【0021】
これらのうち、CPU201は、情報処理装置200全体の動作を制御する。ROM202は、IPL等のCPU201の駆動に用いられるプログラムを記憶する。RAM203は、CPU201のワークエリアとして使用される。HD204は、プログラム等の各種データを記憶する。HDDコントローラ205は、CPU201の制御にしたがってHD204に対する各種データの読み出し又は書き込みを制御する。
【0022】
ディスプレイ(表示装置)206は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F208は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F209は、通信ネットワークを利用してデータ通信をするためのインターフェースである。バスラインB1は、
図2に示されているCPU201等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0023】
また、キーボード211は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス212は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ214は、着脱可能な記録媒体の一例としてのDVD-RW213に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F216は、フラッシュメモリ等の記録メディア215に対するデータの読み出し又は書き込み(記憶)を制御する。
【0024】
図3は、端末装置のハードウェア構成の一例を示す図である。本実施形態の端末装置300は、CPU301、ROM302、RAM303、EEPROM304、CMOSセンサ305、撮像素子I/F306、加速度・方位センサ307、メディアI/F309、GPS受信部311を備えている。
【0025】
これらのうち、CPU301は、端末装置300全体の動作を制御する演算処理装置である。ROM302は、CPU301やIPL等のCPU301の駆動に用いられるプログラムを記憶する。RAM303は、CPU301のワークエリアとして使用される。EEPROM304は、CPU301の制御にしたがって、スマートフォン用プログラム等の各種データの読み出し又は書き込みを行う。ROM302、RAM303、EEPROM304は、端末装置300の記憶装置の一例である。
【0026】
CMOS(Complementary Metal Oxide Semiconductor)センサ305は、CPU301の制御に従って被写体(主に自画像)を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、CMOSセンサではなく、CCD(Charge Coupled Device)センサ等の撮像手段であってもよい。
【0027】
撮像素子I/F306は、CMOSセンサ305の駆動を制御する回路である。加速度・方位センサ307は、地磁気を検知する電子磁気コンパスやジャイロコンパス、加速度センサ等の各種センサである。メディアI/F309は、フラッシュメモリ等の記録メディア308に対するデータの読み出し又は書き込み(記憶)を制御する。GPS受信部311は、GPS衛星からGPS信号を受信する。
【0028】
また、端末装置300は、遠距離通信回路312、遠距離通信回路312のアンテナ312a、CMOSセンサ313、撮像素子I/F314、マイク(集音装置)315、スピーカ316、音入出力I/F317、ディスプレイ(表示装置)318、外部機器接続I/F(Interface)319、近距離通信回路320、近距離通信回路320のアンテナ320a、及びタッチパネル321を備えている。
【0029】
これらのうち、遠距離通信回路312は、通信ネットワークを介して、他の機器と通信する回路である。CMOSセンサ313は、CPU301の制御に従って被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。撮像素子I/F314は、CMOSセンサ313の駆動を制御する回路である。マイク315は、音を電気信号に変える内蔵型の回路である。スピーカ316は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力I/F317は、CPU301の制御に従ってマイク315及びスピーカ316との間で音信号の入出力を処理する回路である。
【0030】
ディスプレイ318は、被写体の画像や各種アイコン等を表示する液晶や有機EL(Electro Luminescence)などの表示手段の一種である。外部機器接続I/F319は、各種の外部機器を接続するためのインターフェースである。近距離通信回路430は、NFC(Near Field Communication)やBluetooth(登録商標)等の通信回路である。タッチパネル321は、利用者がディスプレイ318を押下することで、端末装置300を操作する入力手段の一種である。ディスプレイ318は、端末装置300の有する表示部の一例である。
【0031】
なお、本実施形態では、端末装置300は、スマートフォンやタブレット端末としたが、これに限定されない。端末装置300は、
図2に示す情報処理装置200と同様のハードウェア構成を有する一般的なコンピュータであってもよい。
【0032】
次に、
図4を参照して、本実施形態の情報処理システム100の有する各装置の機能について説明する。
【0033】
図4は、第一の実施形態の情報処理システムの有する各装置の機能構成を説明する図である。
【0034】
はじめに、情報処理装置200の機能について説明する。本実施形態の情報処理装置200は、音声認識処理部220と、学習部230と、を有する。
【0035】
音声認識処理部220は、音声取得部221、特徴量抽出部222、前処理部223、音声認識部224、通信部225を有する。
【0036】
音声取得部221は、音声データの取得する。具体的には、音声取得部221は、前処理部223を実現する前処理モデルに対して入力される音声データを取得する。
【0037】
特徴量抽出部222は、音声認識に適した特徴量(以下、音声特徴量という)を音声データから抽出する。音声特徴量としてはMMFCが知られているが、LPC(Linear Predictive Coding)、FBANK(Log Mel-Filterbank Coefficients)等を使用してよい。
【0038】
前処理部223は、音声特徴量が入力されると、音声特徴量に基づく音声表現を生成して出力する。つまり、前処理部223は、音声入力を受け付けると、音声入力から抽出された音声特徴量に基づく音声表現を生成して出力する。
【0039】
具体的には、前処理部223は、畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、トランスフォーマー、又は、ゲート付き多層パーセプトロン(gMLP)等によって実現される前処理モデルである。
【0040】
また、前処理部223は、学習部230による機械学習により、前処理部223を実現するニューラルネットワーク等を学習させることで、実現される。
【0041】
音声認識部224は、前処理部223で生成された音声表現が入力されると、音声表現と対応するテキストデータを出力する。言い換えれば、音声認識部224は、前処理部223で生成された音声表現をテキストデータ(言語情報)に変換して出力する。
【0042】
具体的には、音声認識部224は、例えば、ニューラルネットワーク等で実現される音声認識モデルに対し、音声表現とテキストデータとを対応付けたデータを教師データとした教師あり学習を行わせることで実現される。
【0043】
通信部225は、情報処理装置200と端末装置300との通信を制御する。具体的には、通信部225は、端末装置300からの音声データの受信や、端末装置300へのテキストデータの送信等を行う。
【0044】
学習部230は、対照学習により、前処理部223を実現する前処理モデルを学習させる。学習部230の処理の詳細は後述する。
【0045】
次に、端末装置300の機能について説明する。本実施形態の端末装置300は、入力受付部325、出力部330、通信部340を含む。
【0046】
入力受付部325は、端末装置300に対する情報の入力を受け付ける。具体的には、入力受付部325は、マイク315によって集音された音声データを取得する。
【0047】
出力部330は、端末装置300からの各種の情報の出力を行う。具体的には、出力部330は、ディスプレイ318に、情報処理装置200から受信したテキストデータを表示させる。
【0048】
通信部340は、端末装置300と情報処理装置200との通信を制御する。具体的には、通信部340は、端末装置300から情報処理装置200へ、音声データを送信し、情報処理装置200からテキストデータを受信する。
【0049】
次に、
図5を参照して、本実施形態の情報処理装置200の処理について説明する。
図5は、第一の実施形態の情報処理装置の処理を説明する第一のフローチャートである。
図5では、情報処理装置200における音声認識処理部220の処理を示している。
【0050】
本実施形態の情報処理装置200の音声認識処理部220は、音声取得部221により、端末装置300から音声データを取得する(ステップS501)。続いて、音声認識処理部220は、特徴量抽出部222により、音声データから音声特徴量を抽出する(ステップS502)。
【0051】
続いて、音声認識処理部220は、前処理部223に音声特徴量を入力し、前処理部223から出力された音声表現を取得する(ステップS503)。
【0052】
続いて、音声認識処理部220は、前処理部223から出力された音声表現を音声認識部224に入力し、音声認識部224から出力されるテキストデータを取得する(ステップS504)。
【0053】
続いて、音声認識処理部220は、通信部225により、音声認識部224から出力されたテキストデータを端末装置300へ出力し(ステップS505)、処理を終了する。
【0054】
以下に、
図6を参照して、
図5に示す処理について、さらに説明する。
図6は、第一の実施形態の情報処理装置の処理を説明する図である。
【0055】
図6では、特徴量抽出部222から出力された音声特徴量xが前処理部223に入力される場合を示している。
【0056】
前処理部223は、ニューラルネットワークを用いた対照学習により実装される前処理モデルである。前処理部223は、音声特徴量xが入力されると、この音声特徴量xから、話者の言語的特徴や、環境に起因するノイズや残響等を除去した音声表現を示す波形r(以下、音声表現r)を出力する。
【0057】
つまり、音声表現rは、音素のみに依存し、話者の言語的特徴や、環境に起因するノイズや残響等とは独立したものとなる。なお、音素とは、声を発したときに観測できる音波の最小構成要素を示し、音声に含まれるものである。
【0058】
本実施形態では、音声表現rが、音声認識部224に入力される。つまり、本実施形態では、音素のみに依存する波形が、音声認識部224を実現する音声認識モデルに入力される。
【0059】
音声認識部224は、音声表現rが入力されると、音声表現rに基づく音声認識を行い、テキストデータyを出力する。
【0060】
このように、本実施形態の音声認識部224は、話者の言語的特徴や、環境に起因するノイズや残響等に影響されることなく、音声認識を行うことができ、音声認識の精度を向上させることができる。
【0061】
次に、
図7を参照して、本実施形態の情報処理装置200の有する学習部230による学習について説明する。
図7は、学習部による学習について説明する図である。
【0062】
本実施形態の学習部230は、ニューラルネットワークによる対照学習(Contrastive learning)によって、従来の音声特徴量から音素の類似性のみを前処理部223を実現する前処理モデルに学習させる。つまり、本実施形態の前処理部223は、学習済みの前処理モデルである。
【0063】
図7に示す前処理部223は、学習部230よって最適化される前の前処理部であり、一対の音声特徴量が入力されると、それぞれが音声特徴量に基づく音声表現を生成して出力する。
【0064】
一対の音声特徴量とは、テキストにしたときに同じ内容となる音声特徴量xaと音声特徴量xbである。言い換えれば、一対の音声特徴量とは、言語的内容(Transcript)が同じであって、それぞれに含まれる話者の言語的特徴(声色、発話スピード、韻律)、ノイズ、残響等が異なる音声特徴量である。
【0065】
本実施形態の前処理部223(前処理モデル)は、畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、トランスフォーマー、ゲート付き多層パーセプトロン(gMLP)等で実現される。
【0066】
学習部230は、前処理部223に対し、音声特徴量xaと音声特徴量xbとを入力し、前処理部223から出力された音声表現rA、rBを識別モデル250に入力させる。なお、音声特徴量xaと音声特徴量xbとは、それぞれが時間差をもって前処理部223に入力されてよい。また、音声表現rA、rBは、音声特徴量xa、xbの入力に応じて出力されてよい。
【0067】
識別モデル250は、音声表現rAと、音声表現rBとを照合して二値分類するモデルであり、例えば、多層パーセプトロン(MLP)等により実現される。
【0068】
本実施形態の学習部230は、一対の音声特徴量である入力データと、一対の音声特徴量のそれぞれが示す言語的内容が一致するか否か示すデータとを対応付けた学習データを用いて、前処理部223と識別モデル250とを学習させる。
【0069】
言い換えれば、学習部230は、一対の音声特徴量と、一対の音声特徴量が示す言語的内容が一致するか否かを示すデータとが対応付けられた学習データを用いて、前処理モデルと識別モデル250が後述する所定の動作を行うように、各モデルのパラメータを最適化(学習)させる。
【0070】
<所定の動作>
(1)音声特徴量xa、xbが示す音声の言語的内容が同じである場合、その他の条件(話者、声色、発話スピード、韻律、ノイズ、残響等)の違いによらず、識別モデル250はTureを出力する。
【0071】
(2)音声特徴量xa、xbが示す音声の言語的内容が異なる場合、その他の条件に関わらず、識別モデル250は、Falseを出力する。
【0072】
本実施形態では、学習部230による学習が終了した学習済みの前処理モデルを、前処理部223を実現する前処理モデルとする。
【0073】
以下に、
図8は、第一の実施形態の情報処理装置の処理を説明する第二のフローチャートである。
図8では、学習部230の処理を示している。
【0074】
本実施形態の情報処理装置200は、学習部230により、前処理モデルに対して、一対の音声特徴量(入力データ)を入力する(ステップS801)。続いて、学習部230は、前処理モデルから出力される音声表現を取得し(ステップS802)、識別モデル250に入力する(ステップS803)。
【0075】
続いて、学習部230は、一対の音声特徴量が示す言語的内容が一致しているか否かを判定する(ステップS804)。
【0076】
続いて、ステップS804における識別モデル250の判定結果を真の正解と照合し、損失関数を計算する(ステップS805)。なお、損失関数には交差エントロピー等を用いる。
【0077】
続いて、学習部230は、ステップS805で算出された損失関数が減少するように前処理モデルと識別モデル250のネットワークパラメータを更新する(ステップS806)。続いて、学習部230は、損失関数が最小化されたか否かを判定する(ステップS807)。ステップS807において、損失関数が最小化されていない場合、ステップS801へ戻る。ステップS807において、損失関数が最小化された場合、処理を終了する。
【0078】
本実施形態では、学習部230が上述した処理を実行することで前処理モデル223と、識別モデル250とが、上述した所定の動作を行うように最適化される。
【0079】
本実施形態では、学習部230により、前処理モデル223が最適化されると、最適化された前処理モデル223が、音声認識処理部220の前処理部223を実現する前処理モデルとして音声認識処理部220に実装され、識別モデル250は削除される。
【0080】
本実施形態では、以上のようにして、前処理部223を実現する前処理モデルを生成する。なお、本実施形態では、情報処理装置200が学習部230を有するものとしたが、これに限定されない。学習部230は、情報処理装置200以外の情報処理装置に設けられていてもよい。その場合、前処理部223を実現する前処理モデルは、他の情報処理装置において学習されたものが、情報処理装置200に実装されることになる。
【0081】
以下に、
図9、
図10を参照して、本実施形態の効果について説明する。
図9は、第一の実施形態の効果を説明する第一の図である。
図10は、第一の実施形態の効果を説明する第二の図である。
【0082】
図9では、本実施形態の前処理部223を用いずに、音声特徴量を音声認識部(音声認識モデル)90に入力した場合を示している。
【0083】
図9において、音声特徴量XAと、音声特徴量XBとが示す言語的内容(テキスト)は、同一である。
図9の例では、音声特徴量XAと、音声特徴量XBとが示す言語的内容は、「あいうえお」である。
【0084】
ここで、音声特徴量XAは、音声認識部90を用いた音声認識を頻繁に行う人物Aが、静かな室内で発話したときに取得された音声データから抽出されたものとする。これに対し、音声特徴量XBは、人物A以外の人物Bが、屋外等の騒音(ノイズ)ある場所で発話したときに取得された音声データから抽出されたものとする。
【0085】
図9の例では、音声認識部90は、音声特徴量XAと対応するテキストデータとして、「あいうえお」という正解を出力する。これに対し、音声特徴量XBが入力された場合、音声特徴量XBに含まれるノイズや話者の言語的特徴に影響を受けるため、音声認識部90は、「あいうえお」とは異なるテキストデータ「あかさたな」を出力する。
【0086】
図10は、本実施形態を適用した状態を示しており、音声認識部224の前段に、前処理部223が設けられている。
【0087】
この場合、音声特徴量XAと、音声特徴量XBとは、まず前処理部223に入力される。前処理部223は、音声特徴量XAが入力されると、この音声特徴量XAに基づく音声表現を示す波形ra(以下、音声表現ra)を出力する。音声表現raは、音声認識部224に入力される。
【0088】
ここで、音声表現raは、「あいうえお」という音素のみに依存し、話者の言語的特徴や、環境に起因するノイズや残響等とは独立したものとなる。
【0089】
音声認識部224は、音声表現raが入力されると、音声特徴量XAと対応するテキストデータとして「あいうえお」を出力する。
【0090】
また、前処理部223は、音声特徴量XBが入力された場合も、この音声特徴量XBに基づく音声表現を示す波形rb(以下、音声表現rb)を出力する。波形raは、音声認識部224に入力される。
【0091】
音声表現rbは、「あいうえお」という音素のみに依存し、話者の言語的特徴や、環境に起因するノイズや残響等とは独立したものであり、音声特徴量XAに基づく音声表現raと同一の波形となる。
【0092】
音声認識部224は、波形rbが入力されると、音声特徴量XBと対応するテキストデータとして「あいうえお」を出力する。
【0093】
このように、本実施形態では、前処理部223を音声認識部224の前段に配置することで、音声特徴量に含まれる話者の言語的特徴や、環境に起因するノイズや残響等を除去した音声表現に基づいて、音声認識を行う。
【0094】
したがって、本実施形態によれば、例えば、過去に音声認識部224を用いた音声認識を行ったことがない話者の音声データであっても、音声認識部224を用いた音声認識を頻繁に行っている話者の音声データと同じ程度の精度で音声認識を行うことができる。また、本実施形態によれば、音声認識は、音声データを取得したときの環境に依存しない音声表現に基づき行われるため、音声データを取得したときの環境に関わらず、音声認識の精度を維持することができる。
【0095】
(第二の実施形態)
以下に、図面を参照して、第二の実施形態について説明する。第二の実施形態は、前処理部に音声データが入力される点が、第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
【0096】
図11は、第二の実施形態の情報処理システムの有する各装置の機能構成を説明する図である。
【0097】
本実施形態の情報処理システム100Aは、情報処理装置200Aと端末装置300とを含む。本実施形態の情報処理装置200Aは、音声認識処理部220Aと、学習部230Aとを有する。
【0098】
音声認識処理部220Aは、音声取得部221、前処理部223A、音声認識部224、通信部225を有し、特徴量抽出部222を有していない。
【0099】
本実施形態の前処理部223Aは、音声取得部221により、音声データの入力を受け付けると、音声データに基づく音声表現を生成し、出力する。
【0100】
本実施形態の学習部230Aは、対照学習により、前処理部223Aを実現する前処理モデルを学習させる。学習部230Aの詳細は後述する。
【0101】
以下に、
図12を参照して、情報処理装置200Aの処理について説明する。
図12は、第一の実施形態の情報処理装置の処理を説明する図である。
【0102】
図12では、音声データx(t)が前処理部223Aに入力される場合を示している。前処理部223Aは、ニューラルネットワークを用いた対照学習により実装される前処理モデルである。前処理部223Aは、音声データx(t)が入力されると、この音声データx(t)から、話者の言語的特徴や、環境に起因するノイズや残響等を除去した音声表現を示す波形r(以下、音声表現r)を出力する。
【0103】
前処理部223Aから出力された音声表現rは、音声認識部224に入力される。つまり、本実施形態では、音素のみに依存する波形が、音声認識部224を実現する音声認識モデルに入力される。
【0104】
図13は、第二の実施形態の情報処理装置の処理を説明する第一のフローチャートである。
【0105】
本実施形態の情報処理装置200Aの音声認識処理部220Aは、音声取得部221により、端末装置300から音声データを取得する(ステップS1301)。続いて、音声認識処理部220Aは、音声データを前処理部223Aに入力し、前処理部223Aから出力される音声表現を取得する(ステップS1302)。
【0106】
図13のステップS1303とステップS1304の処理は、
図5のステップS504とステップS505の処理と同様であるから、説明を省略する。
【0107】
次に、
図14を参照して、本実施形態の学習部230Aの処理について説明する。
図14は、第二の実施形態の情報処理装置の処理を説明する第二のフローチャートである。
【0108】
本実施形態の学習部230Aは、一対の音声データである入力データと、一対の音声データのそれぞれが示す言語的内容が一致するか否か示すデータとを対応付けた学習データを用いて、前処理モデルと識別モデルとを学習させる。
【0109】
言い換えれば、学習部230Aは、一対の音声データと、一対の音声データが示す言語的内容が一致するか否かを示すデータとが対応付けられた学習データを用いて、前処理モデルと識別モデルが所定の動作を行うように、各モデルのパラメータを最適化(学習)させる。
【0110】
本実施形態の学習部230Aは、前処理モデルに対して、一対の音声データを入力する(ステップS1401)。続いて、学習部230Aは、前処理モデルのそれぞれから出力される音声表現を取得し(ステップS1402)、識別モデルに入力する(ステップS1403)。
【0111】
図14のステップS1403からステップS1407の処理は、
図8のステップS803からステップS807の処理と同様であるから、説明を省略する。
【0112】
本実施形態では、
図14の処理によって最適化された前処理モデルが、前処理部223Aを実現する前処理モデルとして、音声認識処理部220Aに実装される。
【0113】
このように、本実施形態では、話者の言語的特徴や、環境に起因するノイズや残響等に影響されることなく、音声認識を行うことができ、音声認識の精度を向上させることができる。
【0114】
また、本実施形態では、音声データから音声特徴量を抽出する必要がなく、音声データを直接前処理部223Aに入力することができる。したがって、本実施形態によれば、情報処理装置200Aの処理の負荷を軽減することができる。
【0115】
(第三の実施形態)
以下に、図面を参照して、第三の実施形態について説明する。第三の実施形態では、第一又は第二の実施形態の情報処理システムの具体的な利用シーンの一例を示している。
【0116】
図15は、第三の実施形態のシステム構成の一例を示す図である。
図15では、第一の実施形態又は第二の実施形態を、遠隔会議システムに利用した場合を示している。
【0117】
本実施形態の遠隔会議システム100Bは、情報処理装置200、電子黒板500、卓上マイク600を含み、それぞれがネットワークを介して接続されている。
【0118】
本実施形態では、電子黒板500と、卓上マイク600とは、それぞれが、地理的に離れた場所に設置されていてもよい。具体的には、例えば、卓上マイク600は、A県A市に所在する事業所の会議室に設置されており、電子黒板500は、B県B市に所在する事業所の会議室に設置されていてもよい。
【0119】
卓上マイク600は、一般的な集音装置であってよく、集音した音声データを記憶する記憶装置と、音声データを情報処理装置200へ送信する通信装置とを含んでもよい。
【0120】
電子黒板500は、例えば、タッチパネル付大型ディスプレイを有し、ユーザが指示した盤面の座標を検出し座標を接続してストロークを表示するものであり、表示装置の一例である。なお、電子黒板500は、電子情報ボード、電子ホワイトボードと呼ばれる場合もある。
【0121】
本実施形態の情報処理装置200は、音声認識処理部220を有し、例えば、卓上マイク600が設置された会議室で集音された音声データを、テキストデータに変換して電子黒板500に表示させる。
【0122】
具体的には、卓上マイク600が設置された会議室において集音された音声データを受信すると、音声認識処理部220により音声認識を行う。そして、情報処理装置200は、電子黒板500に対して、音声認識の結果であるテキストデータを出力する。電子黒板500は、情報処理装置200から出力されたテキストデータを受信すると、このテキストデータを表示させる。
【0123】
本実施形態では、このように情報処理装置200を用いることで、例えば、卓上マイク600が設置された会議室で集音された音声データを、遠隔地に設置された電子黒板500にテキストデータとして表示させることができる。
【0124】
また、本実施形態では、例えば、卓上マイク600が設置された会議室において、プレゼンテーションが行われている場合等に、話者の発話の内容をテキストデータとして電子黒板500に表示させることができる。
【0125】
さらに、本実施形態では、例えば、卓上マイク600が設置された会議室において、不特定多数の話者が入れ替わりプレゼンテーションを行う場合であっても、高い精度で音声認識を行うことができる。また、本実施形態では、例えば、卓上マイク600が設置された会議室において、雑音や騒音が生じている場合であっても、高い精度で音声認識を行うことができる。
【0126】
なお、
図15では、卓上マイク600により話者の音声データを収集するものとしたが、これに限定されない。本実施形態では、話者の音声データを収集して情報処理装置200に送信する機能を有する装置であれば、卓上マイク600の代わりとすることができる。
【0127】
また、
図15では、テキストデータが電子黒板500に表示されるものとしたが、これに限定されない。本実施形態は、テキストデータを受信する機能と、テキストデータを表示させる機能とを有する装置であれば、電子黒板500の代わりとすることができる。
【0128】
また、本実施形態では、音声認識処理部220による音声認識の結果のテキストデータを表示させるものとしたが、これに限定されない。音声認識処理部220による音声認識の結果のテキストデータは、例えば、議事録データとして情報処理装置200に保存されてもよい。
【0129】
(第四の実施形態)
以下に、図面を参照して、第四の実施形態について説明する。第四の実施形態では、第一又は第二の実施形態の情報処理システムの具体的な利用シーンの一例を示している。
【0130】
図16は、第四の実施形態のシステム構成の一例を示す図である。
図16では、第位置の実施形態又は第二の実施形態を、見守りシステムに利用した場合を示している。
【0131】
本実施形態の見守りシステム100Cは、情報処理装置200、監視装置700、表示装置800を含み、それぞれがネットワークを介して接続されている。
【0132】
本実施形態の見守りシステム100Cは、例えば、医療機関や介護施設等に導入されてもよい。見守りシステム100Cは、情報処理装置200と、監視装置700と、表示装置800とを含む。
【0133】
監視装置700は、例えば、医療機関の病室や介護施設の居室等に設置されており、見守り対象の対象者の動画像データを取得する撮像装置であってよい。なお、動画像データには、音声データも含まれる。また、見守り対象の対象者とは、例えば、医療機関に入院している患者や、介護施設に入居している入居者等であってよい。また、見守りの対象者とは、何らかの事情により、個室等に隔離されている人であってもよい。
【0134】
表示装置800は、例えば、医療従事者や介護スタッフ等によって閲覧されるものであり、例えば、ナースステーション等に設置されていてもよい。また、表示装置800は、例えば、見守りの対象者の家族や親族等が所持する端末装置であってもよい。
【0135】
本実施形態では、情報処理装置200は、監視装置700から、音声データを含む動画像データを受信すると、音声データに基づく音声認識を行い、認識結果のテキストデータを表示装置800に表示させる。
【0136】
このとき、情報処理装置200は、監視装置700から受信した動画像データに対して、認識結果のテキストデータを重畳させた動画像データを生成し、表示装置800に表示させてもよい。
【0137】
このようにすることで、本実施形態では、見守りの対象者を撮像した動画像データから、対象者の発話の内容をテキストデータとして出力することができる。また、本実施形態では、例えば、対象者の発音等が不明瞭であっても、高い精度で音声認識を行うことで、他者に対して、対象者の発話内容を把握させることができる。
【0138】
また、情報処理装置200は、音声認識の結果であるテキストデータの内容から、対象者に対する支援が必要か否かを判定してもよい。そして、情報処理装置200は、支援が必要と判定された場合には、テキストデータと共に、警報等を表示装置800に対して出力してもよい。
【0139】
さらに、情報処理装置200の利用の仕方は、上述した遠隔会議システム100B、見守りシステム100Cに限定されない。情報処理装置200は、例えば、コールセンタのオペレータと、コールセンタの利用者との会話を録音した音声データを入力とし、音声認識を行った結果のテキストデータを通話記録データとして保管してもよい。
【0140】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0141】
また、実施形態に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。
【0142】
ある実施形態では、情報処理装置200は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。同様に、情報処理装置200は、互いに通信するように構成された複数のコンピューティングデバイスを含むことができる。
【0143】
さらに、情報処理装置200は、開示された処理ステップを様々な組み合わせで共有するように構成できる。例えば、情報処理装置200によって実行されるプロセスは、他の情報処理装置によって実行され得る。同様に、情報処理装置200の機能は、他の情報処理装置によって実行することができる。また、情報処理装置と他の情報処理装置の各要素は、1つの情報処理装置にまとめられていても良いし、複数の装置に分けられていても良い。
【0144】
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。
【符号の説明】
【0145】
100、100A 情報処理システム
100B 遠隔会議システム
100C 見守りシステム
200、200A 情報処理装置
220、220A 音声認識処理部
221 音声取得部
222 特徴量抽出部
223、223A 前処理部
224 音声認識部
225 通信部
300 端末装置
【先行技術文献】
【特許文献】
【0146】