特開2023-64381 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特開2023-64381情報処理方法、情報処理装置、プログラム、情報処理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023064381

(43)【公開日】2023-05-11

(54)【発明の名称】情報処理方法、情報処理装置、プログラム、情報処理システム

(51)【国際特許分類】

G10L 15/20 20060101AFI20230501BHJP

G10L 25/30 20130101ALI20230501BHJP

【ＦＩ】

G10L15/20 370Z

G10L25/30

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2021174634

(22)【出願日】2021-10-26

(71)【出願人】

【識別番号】000006747

【氏名又は名称】株式会社リコー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】加藤暁浩

(57)【要約】（修正有）

【課題】音声認識の精度を向上させることができる情報処理方法、情報処理装置、プログラム及び情報処理システムを提供する。
【解決手段】情報処理方法は、音声データを取得しＳ５０１、音声データから音声特徴量を抽出しＳ５０２、音声特徴量から音声表現を取得しＳ５０３、音声表現を音声認識部に入力してテキストデータを取得するＳ５０４、取得したテキストデータを端末装置へ出力するＳ５０５。
【選択図】図５

【特許請求の範囲】

【請求項1】

コンピュータによる情報処理方法であって、前記コンピュータが、
音声データを取得し、
前記音声データに基づいて生成された、前記音声データに含まれる音素のみに依存する音声表現を、音声認識部に対して出力する、情報処理方法。

【請求項2】

前記コンピュータが、
前記音声認識部により、前記音声表現をテキストデータに変換し、前記テキストデータを出力する、請求項１記載の情報処理方法。

【請求項3】

前記音声データに基づいて、前記音声データに含まれる音素のみに依存する音声表現を音声認識部に対して出力する処理は、ニューラルネットワークによって実現される、請求項１又は２記載の情報処理方法。

【請求項4】

前記ニューラルネットワークのパラメータは、対照学習によって最適化される、請求項３記載の情報処理方法。

【請求項5】

前記音声データに基づいて、前記音声データに含まれる音素のみに依存する音声表現を音声認識部に対して出力する処理は、前記音声データから抽出された音声特徴量を入力として、実行される、請求項１乃至４の何れか一項に記載の情報処理方法。

【請求項6】

前記音声データに基づいて生成された、前記音声データに含まれる音素のみに依存する音声表現を、音声認識部に対して出力する処理は、前記音声データを入力として実行される、請求項１乃至４の何れか一項に記載の情報処理方法。

【請求項7】

音声データを取得し、
前記音声データに基づいて生成された、前記音声データに含まれる音素のみに依存する音声表現を、音声認識部に対して出力する、処理をコンピュータに実行させる、プログラム。

【請求項8】

音声データを取得する音声取得部と、
前記音声データに基づいて生成された、前記音声データに含まれる音素のみに依存する音声表現を、音声認識部に対して出力する前処理部と、を有する情報処理装置。

【請求項9】

請求項８記載の情報処理装置と、前記音声認識部による認識結果のテキストデータを表示させる端末装置と、を含む情報処理システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理方法、情報処理装置、プログラム、情報処理システムに関する。

【背景技術】

【0002】

従来から、人間の発話を記録した音声データに対して、コンピュータが音と文字とをパターンマッチングし、テキストに変換するシステムが知られている。具体的には、例えば、従来では、話者の言語的特徴（使用する語彙の傾向や言い回し、相槌等の癖）を個別に言語モデル化しておき、音声認識時に、話者を認識し適切な言語モデルを選択するシステムが知られている。

【発明の概要】

【発明が解決しようとする課題】

【0003】

上述した従来の技術は、話者の言語的特徴と最も近い言語モデルを選択するものであり、話者に依存する音声データのゆらぎや、環境由来のノイズや残響等を除去するまでに至っていない。このため、従来の技術では、話者に依存するゆらぎや環境由来のノイズ、残響等が、音声認識の精度に影響を及ぼす。

【0004】

開示の技術は、上記事情に鑑みたものであり、音声認識の精度を向上させることを目的とする。

【課題を解決するための手段】

【0005】

開示の技術は、コンピュータによる情報処理方法であって、前記コンピュータが、
音声データを取得し、前記音声データに基づいて生成された、前記音声データに含まれる音素のみに依存する音声表現を音声認識部に対して出力する、情報処理方法である。

【発明の効果】

【0006】

音声認識の精度を向上させることができる。

【図面の簡単な説明】

【0007】

【図1】第一の実施形態の情報処理システムの一例を示す図である。

【図2】情報処理装置のハードウェア構成の一例を示す図である。

【図3】端末装置のハードウェア構成の一例を示す図である。

【図4】第一の実施形態の情報処理システムの有する各装置の機能構成を説明する図である。

【図5】第一の実施形態の情報処理装置の処理を説明する第一のフローチャートである。

【図6】第一の実施形態の情報処理装置の処理を説明する図である。

【図7】学習部による学習について説明する図である。

【図8】第一の実施形態の情報処理装置の処理を説明する第二のフローチャートである。

【図9】第一の実施形態の効果を説明する第一の図である。

【図10】第一の実施形態の効果を説明する第二の図である。

【図11】第二の実施形態の情報処理システムの有する各装置の機能構成を説明する図である。

【図12】第二の実施形態の情報処理装置の処理を説明する図である。

【図13】第二の実施形態の情報処理装置の処理を説明する第一のフローチャートである。

【図14】第二の実施形態の情報処理装置の処理を説明する第二のフローチャートである。

【図15】第三の実施形態のシステム構成の一例を示す図である。

【図16】第四の実施形態のシステム構成の一例を示す図である。

【発明を実施するための形態】

【0008】

（第一の実施形態）
以下に図面を参照して、第一の実施形態について説明する。図１は、第一の実施形態の情報処理システムの一例を示す図である。

【0009】

本実施形態の情報処理システム１００は、情報処理装置２００と、端末装置３００とを含み、情報処理装置２００と端末装置３００とは、ネットワーク等を介して接続されている。

【0010】

本実施形態の情報処理システム１００において、情報処理装置２００は、音声認識処理部２２０を有する。つまり、本実施形態の情報処理システム１００は、音声認識システムの一例である。

【0011】

情報処理装置２００は、端末装置３００から音声データの入力を受け付けると、音声認識処理部２２０により、音声データに対する音声認識を行い、音声認識の結果であるテキストデータを、端末装置３００に対して出力する。

【0012】

本実施形態の端末装置３００は、例えば、スマートフォンやタブレット端末等であり、集音装置と表示装置とを含んでもよい。端末装置３００は、例えば、集音装置によって取得された音声データを情報処理装置２００に送信し、情報処理装置２００から、音声データの認識結果であるテキストデータを受信してもよい。また、端末装置３００は、受信したテキストデータを表示させてもよい。

【0013】

ここで、本実施形態の情報処理装置２００は、音声認識処理部２２０により、音声データから話者の言語的特徴や、環境に起因するノイズや残響等を除去した音声表現を生成し、音声表現に基づき、音声認識を行う。

【0014】

本実施形態の音声表現（Speech representation）とは、例えば、音声データから得られる音声特徴量に基づくものであり、ニューラルネットワークの中間層または出力層に現れる、音素または音素群のみに依存する特徴表現である。言い換えれば、音声表現とは、音声特徴量が示すベクトルの方向及び大きさから、音声内の音素以外の要素をそぎ落としたベクトルである。したがって、音声表現では、音声特徴量が示す意味を維持している。

【0015】

このように、本実施形態の情報処理装置２００では、音声表現に基づいて音声認識を行うことで、音声データに含まれる話者の言語的特徴や、環境に起因するノイズや残響等に依存せずに音声認識を行うことができ、音声認識の精度を向上させることができる。

【0016】

なお、図１の例では、情報処理システム１００に含まれる端末装置３００を１台としているが、これに限定されない。情報処理システム１００は、端末装置３００が複数有し、音声データを情報処理装置２００に送信する端末装置３００と、情報処理装置２００から出力されたテキストデータを受信する端末装置３００と、をそれぞれ別々の端末装置としてもよい。

【0017】

また、本実施形態では、端末装置３００から音声データを受信し、情報処理装置２００の有する表示装置にテキストデータを出力してもよい。また、本実施形態では、情報処理装置２００に対して直接音声データし、テキストデータを端末装置３００に出力してもよい。また、本実施形態では、情報処理装置２００に対して直接音声データを入力し、テキストデータを情報処理装置２００の有する表示装置に出力してもよい。

【0018】

また、図１の例では、情報処理装置２００が音声認識処理部２２０を有するものとしたが、これに限定されない。音声認識処理部２２０は、複数の情報処理装置２００で実現されてもよい。

【0019】

次に、図２、図３を参照して、情報処理装置２００と端末装置３００のハードウェア構成について説明する。図２は、情報処理装置のハードウェア構成の一例を示す図である。

【0020】

情報処理装置２００は、コンピュータによって構築されており、図２に示されているように、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、ＨＤ２０４、ＨＤＤ(Hard Disk Drive)コントローラ２０５、ディスプレイ２０６、外部機器接続Ｉ／Ｆ(Interface)２０８、ネットワークＩ／Ｆ２０９、バスラインＢ１、キーボード２１１、ポインティングデバイス２１２、ＤＶＤ－ＲＷ(Digital Versatile Disk Rewritable)ドライブ２１４、メディアＩ／Ｆ２１６を備えている。

【0021】

これらのうち、ＣＰＵ２０１は、情報処理装置２００全体の動作を制御する。ＲＯＭ２０２は、ＩＰＬ等のＣＰＵ２０１の駆動に用いられるプログラムを記憶する。ＲＡＭ２０３は、ＣＰＵ２０１のワークエリアとして使用される。ＨＤ２０４は、プログラム等の各種データを記憶する。ＨＤＤコントローラ２０５は、ＣＰＵ２０１の制御にしたがってＨＤ２０４に対する各種データの読み出し又は書き込みを制御する。

【0022】

ディスプレイ（表示装置）２０６は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続Ｉ／Ｆ２０８は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、ＵＳＢ(Universal Serial Bus)メモリやプリンタ等である。ネットワークＩ／Ｆ２０９は、通信ネットワークを利用してデータ通信をするためのインターフェースである。バスラインＢ１は、図２に示されているＣＰＵ２０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

【0023】

また、キーボード２１１は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス２１２は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。ＤＶＤ－ＲＷドライブ２１４は、着脱可能な記録媒体の一例としてのＤＶＤ－ＲＷ２１３に対する各種データの読み出し又は書き込みを制御する。なお、ＤＶＤ－ＲＷに限らず、ＤＶＤ－Ｒ等であってもよい。メディアＩ／Ｆ２１６は、フラッシュメモリ等の記録メディア２１５に対するデータの読み出し又は書き込み（記憶）を制御する。

【0024】

図３は、端末装置のハードウェア構成の一例を示す図である。本実施形態の端末装置３００は、ＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＥＥＰＲＯＭ３０４、ＣＭＯＳセンサ３０５、撮像素子Ｉ／Ｆ３０６、加速度・方位センサ３０７、メディアＩ／Ｆ３０９、ＧＰＳ受信部３１１を備えている。

【0025】

これらのうち、ＣＰＵ３０１は、端末装置３００全体の動作を制御する演算処理装置である。ＲＯＭ３０２は、ＣＰＵ３０１やＩＰＬ等のＣＰＵ３０１の駆動に用いられるプログラムを記憶する。ＲＡＭ３０３は、ＣＰＵ３０１のワークエリアとして使用される。ＥＥＰＲＯＭ３０４は、ＣＰＵ３０１の制御にしたがって、スマートフォン用プログラム等の各種データの読み出し又は書き込みを行う。ＲＯＭ３０２、ＲＡＭ３０３、ＥＥＰＲＯＭ３０４は、端末装置３００の記憶装置の一例である。

【0026】

ＣＭＯＳ(Complementary Metal Oxide Semiconductor)センサ３０５は、ＣＰＵ３０１の制御に従って被写体（主に自画像）を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、ＣＭＯＳセンサではなく、ＣＣＤ(Charge Coupled Device)センサ等の撮像手段であってもよい。

【0027】

撮像素子Ｉ／Ｆ３０６は、ＣＭＯＳセンサ３０５の駆動を制御する回路である。加速度・方位センサ３０７は、地磁気を検知する電子磁気コンパスやジャイロコンパス、加速度センサ等の各種センサである。メディアＩ／Ｆ３０９は、フラッシュメモリ等の記録メディア３０８に対するデータの読み出し又は書き込み（記憶）を制御する。ＧＰＳ受信部３１１は、ＧＰＳ衛星からＧＰＳ信号を受信する。

【0028】

また、端末装置３００は、遠距離通信回路３１２、遠距離通信回路３１２のアンテナ３１２ａ、ＣＭＯＳセンサ３１３、撮像素子Ｉ／Ｆ３１４、マイク（集音装置）３１５、スピーカ３１６、音入出力Ｉ／Ｆ３１７、ディスプレイ（表示装置）３１８、外部機器接続Ｉ／Ｆ(Interface)３１９、近距離通信回路３２０、近距離通信回路３２０のアンテナ３２０ａ、及びタッチパネル３２１を備えている。

【0029】

これらのうち、遠距離通信回路３１２は、通信ネットワークを介して、他の機器と通信する回路である。ＣＭＯＳセンサ３１３は、ＣＰＵ３０１の制御に従って被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。撮像素子Ｉ／Ｆ３１４は、ＣＭＯＳセンサ３１３の駆動を制御する回路である。マイク３１５は、音を電気信号に変える内蔵型の回路である。スピーカ３１６は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力Ｉ／Ｆ３１７は、ＣＰＵ３０１の制御に従ってマイク３１５及びスピーカ３１６との間で音信号の入出力を処理する回路である。

【0030】

ディスプレイ３１８は、被写体の画像や各種アイコン等を表示する液晶や有機ＥＬ(Electro Luminescence)などの表示手段の一種である。外部機器接続Ｉ／Ｆ３１９は、各種の外部機器を接続するためのインターフェースである。近距離通信回路４３０は、ＮＦＣ(Near Field Communication)やＢｌｕｅｔｏｏｔｈ（登録商標）等の通信回路である。タッチパネル３２１は、利用者がディスプレイ３１８を押下することで、端末装置３００を操作する入力手段の一種である。ディスプレイ３１８は、端末装置３００の有する表示部の一例である。

【0031】

なお、本実施形態では、端末装置３００は、スマートフォンやタブレット端末としたが、これに限定されない。端末装置３００は、図２に示す情報処理装置２００と同様のハードウェア構成を有する一般的なコンピュータであってもよい。

【0032】

次に、図４を参照して、本実施形態の情報処理システム１００の有する各装置の機能について説明する。

【0033】

図４は、第一の実施形態の情報処理システムの有する各装置の機能構成を説明する図である。

【0034】

はじめに、情報処理装置２００の機能について説明する。本実施形態の情報処理装置２００は、音声認識処理部２２０と、学習部２３０と、を有する。

【0035】

音声認識処理部２２０は、音声取得部２２１、特徴量抽出部２２２、前処理部２２３、音声認識部２２４、通信部２２５を有する。

【0036】

音声取得部２２１は、音声データの取得する。具体的には、音声取得部２２１は、前処理部２２３を実現する前処理モデルに対して入力される音声データを取得する。

【0037】

特徴量抽出部２２２は、音声認識に適した特徴量（以下、音声特徴量という）を音声データから抽出する。音声特徴量としてはＭＭＦＣが知られているが、ＬＰＣ（Linear Predictive Coding）、ＦＢＡＮＫ（Log Mel-Filterbank Coefficients）等を使用してよい。

【0038】

前処理部２２３は、音声特徴量が入力されると、音声特徴量に基づく音声表現を生成して出力する。つまり、前処理部２２３は、音声入力を受け付けると、音声入力から抽出された音声特徴量に基づく音声表現を生成して出力する。

【0039】

具体的には、前処理部２２３は、畳み込みニューラルネットワーク（ＣＮＮ）、再帰型ニューラルネットワーク（ＲＮＮ）、トランスフォーマー、又は、ゲート付き多層パーセプトロン（ｇＭＬＰ）等によって実現される前処理モデルである。

【0040】

また、前処理部２２３は、学習部２３０による機械学習により、前処理部２２３を実現するニューラルネットワーク等を学習させることで、実現される。

【0041】

音声認識部２２４は、前処理部２２３で生成された音声表現が入力されると、音声表現と対応するテキストデータを出力する。言い換えれば、音声認識部２２４は、前処理部２２３で生成された音声表現をテキストデータ（言語情報）に変換して出力する。

【0042】

具体的には、音声認識部２２４は、例えば、ニューラルネットワーク等で実現される音声認識モデルに対し、音声表現とテキストデータとを対応付けたデータを教師データとした教師あり学習を行わせることで実現される。

【0043】

通信部２２５は、情報処理装置２００と端末装置３００との通信を制御する。具体的には、通信部２２５は、端末装置３００からの音声データの受信や、端末装置３００へのテキストデータの送信等を行う。

【0044】

学習部２３０は、対照学習により、前処理部２２３を実現する前処理モデルを学習させる。学習部２３０の処理の詳細は後述する。

【0045】

次に、端末装置３００の機能について説明する。本実施形態の端末装置３００は、入力受付部３２５、出力部３３０、通信部３４０を含む。

【0046】

入力受付部３２５は、端末装置３００に対する情報の入力を受け付ける。具体的には、入力受付部３２５は、マイク３１５によって集音された音声データを取得する。

【0047】

出力部３３０は、端末装置３００からの各種の情報の出力を行う。具体的には、出力部３３０は、ディスプレイ３１８に、情報処理装置２００から受信したテキストデータを表示させる。

【0048】

通信部３４０は、端末装置３００と情報処理装置２００との通信を制御する。具体的には、通信部３４０は、端末装置３００から情報処理装置２００へ、音声データを送信し、情報処理装置２００からテキストデータを受信する。

【0049】

次に、図５を参照して、本実施形態の情報処理装置２００の処理について説明する。図５は、第一の実施形態の情報処理装置の処理を説明する第一のフローチャートである。図５では、情報処理装置２００における音声認識処理部２２０の処理を示している。

【0050】

本実施形態の情報処理装置２００の音声認識処理部２２０は、音声取得部２２１により、端末装置３００から音声データを取得する（ステップＳ５０１）。続いて、音声認識処理部２２０は、特徴量抽出部２２２により、音声データから音声特徴量を抽出する（ステップＳ５０２）。

【0051】

続いて、音声認識処理部２２０は、前処理部２２３に音声特徴量を入力し、前処理部２２３から出力された音声表現を取得する（ステップＳ５０３）。

【0052】

続いて、音声認識処理部２２０は、前処理部２２３から出力された音声表現を音声認識部２２４に入力し、音声認識部２２４から出力されるテキストデータを取得する（ステップＳ５０４）。

【0053】

続いて、音声認識処理部２２０は、通信部２２５により、音声認識部２２４から出力されたテキストデータを端末装置３００へ出力し（ステップＳ５０５）、処理を終了する。

【0054】

以下に、図６を参照して、図５に示す処理について、さらに説明する。図６は、第一の実施形態の情報処理装置の処理を説明する図である。

【0055】

図６では、特徴量抽出部２２２から出力された音声特徴量ｘが前処理部２２３に入力される場合を示している。

【0056】

前処理部２２３は、ニューラルネットワークを用いた対照学習により実装される前処理モデルである。前処理部２２３は、音声特徴量ｘが入力されると、この音声特徴量ｘから、話者の言語的特徴や、環境に起因するノイズや残響等を除去した音声表現を示す波形ｒ（以下、音声表現ｒ）を出力する。

【0057】

つまり、音声表現ｒは、音素のみに依存し、話者の言語的特徴や、環境に起因するノイズや残響等とは独立したものとなる。なお、音素とは、声を発したときに観測できる音波の最小構成要素を示し、音声に含まれるものである。

【0058】

本実施形態では、音声表現ｒが、音声認識部２２４に入力される。つまり、本実施形態では、音素のみに依存する波形が、音声認識部２２４を実現する音声認識モデルに入力される。

【0059】

音声認識部２２４は、音声表現ｒが入力されると、音声表現ｒに基づく音声認識を行い、テキストデータｙを出力する。

【0060】

このように、本実施形態の音声認識部２２４は、話者の言語的特徴や、環境に起因するノイズや残響等に影響されることなく、音声認識を行うことができ、音声認識の精度を向上させることができる。

【0061】

次に、図７を参照して、本実施形態の情報処理装置２００の有する学習部２３０による学習について説明する。図７は、学習部による学習について説明する図である。

【0062】

本実施形態の学習部２３０は、ニューラルネットワークによる対照学習（Contrastive learning)によって、従来の音声特徴量から音素の類似性のみを前処理部２２３を実現する前処理モデルに学習させる。つまり、本実施形態の前処理部２２３は、学習済みの前処理モデルである。

【0063】

図７に示す前処理部２２３は、学習部２３０よって最適化される前の前処理部であり、一対の音声特徴量が入力されると、それぞれが音声特徴量に基づく音声表現を生成して出力する。

【0064】

一対の音声特徴量とは、テキストにしたときに同じ内容となる音声特徴量ｘａと音声特徴量ｘｂである。言い換えれば、一対の音声特徴量とは、言語的内容（Transcript）が同じであって、それぞれに含まれる話者の言語的特徴（声色、発話スピード、韻律）、ノイズ、残響等が異なる音声特徴量である。

【0065】

本実施形態の前処理部２２３（前処理モデル）は、畳み込みニューラルネットワーク（ＣＮＮ）、再帰型ニューラルネットワーク（ＲＮＮ）、トランスフォーマー、ゲート付き多層パーセプトロン（ｇＭＬＰ）等で実現される。

【0066】

学習部２３０は、前処理部２２３に対し、音声特徴量ｘａと音声特徴量ｘｂとを入力し、前処理部２２３から出力された音声表現ｒＡ、ｒＢを識別モデル２５０に入力させる。なお、音声特徴量ｘａと音声特徴量ｘｂとは、それぞれが時間差をもって前処理部２２３に入力されてよい。また、音声表現ｒＡ、ｒＢは、音声特徴量ｘａ、ｘｂの入力に応じて出力されてよい。

【0067】

識別モデル２５０は、音声表現ｒＡと、音声表現ｒＢとを照合して二値分類するモデルであり、例えば、多層パーセプトロン（ＭＬＰ）等により実現される。

【0068】

本実施形態の学習部２３０は、一対の音声特徴量である入力データと、一対の音声特徴量のそれぞれが示す言語的内容が一致するか否か示すデータとを対応付けた学習データを用いて、前処理部２２３と識別モデル２５０とを学習させる。

【0069】

言い換えれば、学習部２３０は、一対の音声特徴量と、一対の音声特徴量が示す言語的内容が一致するか否かを示すデータとが対応付けられた学習データを用いて、前処理モデルと識別モデル２５０が後述する所定の動作を行うように、各モデルのパラメータを最適化（学習）させる。

【0070】

＜所定の動作＞
（１）音声特徴量ｘａ、ｘｂが示す音声の言語的内容が同じである場合、その他の条件（話者、声色、発話スピード、韻律、ノイズ、残響等）の違いによらず、識別モデル２５０はＴｕｒｅを出力する。

【0071】

（２）音声特徴量ｘａ、ｘｂが示す音声の言語的内容が異なる場合、その他の条件に関わらず、識別モデル２５０は、Ｆａｌｓｅを出力する。

【0072】

本実施形態では、学習部２３０による学習が終了した学習済みの前処理モデルを、前処理部２２３を実現する前処理モデルとする。

【0073】

以下に、図８は、第一の実施形態の情報処理装置の処理を説明する第二のフローチャートである。図８では、学習部２３０の処理を示している。

【0074】

本実施形態の情報処理装置２００は、学習部２３０により、前処理モデルに対して、一対の音声特徴量（入力データ）を入力する（ステップＳ８０１）。続いて、学習部２３０は、前処理モデルから出力される音声表現を取得し（ステップＳ８０２）、識別モデル２５０に入力する（ステップＳ８０３）。

【0075】

続いて、学習部２３０は、一対の音声特徴量が示す言語的内容が一致しているか否かを判定する（ステップＳ８０４）。

【0076】

続いて、ステップＳ８０４における識別モデル２５０の判定結果を真の正解と照合し、損失関数を計算する（ステップＳ８０５）。なお、損失関数には交差エントロピー等を用いる。

【0077】

続いて、学習部２３０は、ステップＳ８０５で算出された損失関数が減少するように前処理モデルと識別モデル２５０のネットワークパラメータを更新する（ステップＳ８０６）。続いて、学習部２３０は、損失関数が最小化されたか否かを判定する（ステップＳ８０７）。ステップＳ８０７において、損失関数が最小化されていない場合、ステップＳ８０１へ戻る。ステップＳ８０７において、損失関数が最小化された場合、処理を終了する。

【0078】

本実施形態では、学習部２３０が上述した処理を実行することで前処理モデル２２３と、識別モデル２５０とが、上述した所定の動作を行うように最適化される。

【0079】

本実施形態では、学習部２３０により、前処理モデル２２３が最適化されると、最適化された前処理モデル２２３が、音声認識処理部２２０の前処理部２２３を実現する前処理モデルとして音声認識処理部２２０に実装され、識別モデル２５０は削除される。

【0080】

本実施形態では、以上のようにして、前処理部２２３を実現する前処理モデルを生成する。なお、本実施形態では、情報処理装置２００が学習部２３０を有するものとしたが、これに限定されない。学習部２３０は、情報処理装置２００以外の情報処理装置に設けられていてもよい。その場合、前処理部２２３を実現する前処理モデルは、他の情報処理装置において学習されたものが、情報処理装置２００に実装されることになる。

【0081】

以下に、図９、図１０を参照して、本実施形態の効果について説明する。図９は、第一の実施形態の効果を説明する第一の図である。図１０は、第一の実施形態の効果を説明する第二の図である。

【0082】

図９では、本実施形態の前処理部２２３を用いずに、音声特徴量を音声認識部（音声認識モデル）９０に入力した場合を示している。

【0083】

図９において、音声特徴量ＸＡと、音声特徴量ＸＢとが示す言語的内容（テキスト）は、同一である。図９の例では、音声特徴量ＸＡと、音声特徴量ＸＢとが示す言語的内容は、「あいうえお」である。

【0084】

ここで、音声特徴量ＸＡは、音声認識部９０を用いた音声認識を頻繁に行う人物Ａが、静かな室内で発話したときに取得された音声データから抽出されたものとする。これに対し、音声特徴量ＸＢは、人物Ａ以外の人物Ｂが、屋外等の騒音（ノイズ）ある場所で発話したときに取得された音声データから抽出されたものとする。

【0085】

図９の例では、音声認識部９０は、音声特徴量ＸＡと対応するテキストデータとして、「あいうえお」という正解を出力する。これに対し、音声特徴量ＸＢが入力された場合、音声特徴量ＸＢに含まれるノイズや話者の言語的特徴に影響を受けるため、音声認識部９０は、「あいうえお」とは異なるテキストデータ「あかさたな」を出力する。

【0086】

図１０は、本実施形態を適用した状態を示しており、音声認識部２２４の前段に、前処理部２２３が設けられている。

【0087】

この場合、音声特徴量ＸＡと、音声特徴量ＸＢとは、まず前処理部２２３に入力される。前処理部２２３は、音声特徴量ＸＡが入力されると、この音声特徴量ＸＡに基づく音声表現を示す波形ｒａ（以下、音声表現ｒａ）を出力する。音声表現ｒａは、音声認識部２２４に入力される。

【0088】

ここで、音声表現ｒａは、「あいうえお」という音素のみに依存し、話者の言語的特徴や、環境に起因するノイズや残響等とは独立したものとなる。

【0089】

音声認識部２２４は、音声表現ｒａが入力されると、音声特徴量ＸＡと対応するテキストデータとして「あいうえお」を出力する。

【0090】

また、前処理部２２３は、音声特徴量ＸＢが入力された場合も、この音声特徴量ＸＢに基づく音声表現を示す波形ｒｂ（以下、音声表現ｒｂ）を出力する。波形ｒａは、音声認識部２２４に入力される。

【0091】

音声表現ｒｂは、「あいうえお」という音素のみに依存し、話者の言語的特徴や、環境に起因するノイズや残響等とは独立したものであり、音声特徴量ＸＡに基づく音声表現ｒａと同一の波形となる。

【0092】

音声認識部２２４は、波形ｒｂが入力されると、音声特徴量ＸＢと対応するテキストデータとして「あいうえお」を出力する。

【0093】

このように、本実施形態では、前処理部２２３を音声認識部２２４の前段に配置することで、音声特徴量に含まれる話者の言語的特徴や、環境に起因するノイズや残響等を除去した音声表現に基づいて、音声認識を行う。

【0094】

したがって、本実施形態によれば、例えば、過去に音声認識部２２４を用いた音声認識を行ったことがない話者の音声データであっても、音声認識部２２４を用いた音声認識を頻繁に行っている話者の音声データと同じ程度の精度で音声認識を行うことができる。また、本実施形態によれば、音声認識は、音声データを取得したときの環境に依存しない音声表現に基づき行われるため、音声データを取得したときの環境に関わらず、音声認識の精度を維持することができる。

【0095】

（第二の実施形態）
以下に、図面を参照して、第二の実施形態について説明する。第二の実施形態は、前処理部に音声データが入力される点が、第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。

【0096】

図１１は、第二の実施形態の情報処理システムの有する各装置の機能構成を説明する図である。

【0097】

本実施形態の情報処理システム１００Ａは、情報処理装置２００Ａと端末装置３００とを含む。本実施形態の情報処理装置２００Ａは、音声認識処理部２２０Ａと、学習部２３０Ａとを有する。

【0098】

音声認識処理部２２０Ａは、音声取得部２２１、前処理部２２３Ａ、音声認識部２２４、通信部２２５を有し、特徴量抽出部２２２を有していない。

【0099】

本実施形態の前処理部２２３Ａは、音声取得部２２１により、音声データの入力を受け付けると、音声データに基づく音声表現を生成し、出力する。

【0100】

本実施形態の学習部２３０Ａは、対照学習により、前処理部２２３Ａを実現する前処理モデルを学習させる。学習部２３０Ａの詳細は後述する。

【0101】

以下に、図１２を参照して、情報処理装置２００Ａの処理について説明する。図１２は、第一の実施形態の情報処理装置の処理を説明する図である。

【0102】

図１２では、音声データｘ（ｔ）が前処理部２２３Ａに入力される場合を示している。前処理部２２３Ａは、ニューラルネットワークを用いた対照学習により実装される前処理モデルである。前処理部２２３Ａは、音声データｘ（ｔ）が入力されると、この音声データｘ（ｔ）から、話者の言語的特徴や、環境に起因するノイズや残響等を除去した音声表現を示す波形ｒ（以下、音声表現ｒ）を出力する。

【0103】

前処理部２２３Ａから出力された音声表現ｒは、音声認識部２２４に入力される。つまり、本実施形態では、音素のみに依存する波形が、音声認識部２２４を実現する音声認識モデルに入力される。

【0104】

図１３は、第二の実施形態の情報処理装置の処理を説明する第一のフローチャートである。

【0105】

本実施形態の情報処理装置２００Ａの音声認識処理部２２０Ａは、音声取得部２２１により、端末装置３００から音声データを取得する（ステップＳ１３０１）。続いて、音声認識処理部２２０Ａは、音声データを前処理部２２３Ａに入力し、前処理部２２３Ａから出力される音声表現を取得する（ステップＳ１３０２）。

【0106】

図１３のステップＳ１３０３とステップＳ１３０４の処理は、図５のステップＳ５０４とステップＳ５０５の処理と同様であるから、説明を省略する。

【0107】

次に、図１４を参照して、本実施形態の学習部２３０Ａの処理について説明する。図１４は、第二の実施形態の情報処理装置の処理を説明する第二のフローチャートである。

【0108】

本実施形態の学習部２３０Ａは、一対の音声データである入力データと、一対の音声データのそれぞれが示す言語的内容が一致するか否か示すデータとを対応付けた学習データを用いて、前処理モデルと識別モデルとを学習させる。

【0109】

言い換えれば、学習部２３０Ａは、一対の音声データと、一対の音声データが示す言語的内容が一致するか否かを示すデータとが対応付けられた学習データを用いて、前処理モデルと識別モデルが所定の動作を行うように、各モデルのパラメータを最適化（学習）させる。

【0110】

本実施形態の学習部２３０Ａは、前処理モデルに対して、一対の音声データを入力する（ステップＳ１４０１）。続いて、学習部２３０Ａは、前処理モデルのそれぞれから出力される音声表現を取得し（ステップＳ１４０２）、識別モデルに入力する（ステップＳ１４０３）。

【0111】

図１４のステップＳ１４０３からステップＳ１４０７の処理は、図８のステップＳ８０３からステップＳ８０７の処理と同様であるから、説明を省略する。

【0112】

本実施形態では、図１４の処理によって最適化された前処理モデルが、前処理部２２３Ａを実現する前処理モデルとして、音声認識処理部２２０Ａに実装される。

【0113】

このように、本実施形態では、話者の言語的特徴や、環境に起因するノイズや残響等に影響されることなく、音声認識を行うことができ、音声認識の精度を向上させることができる。

【0114】

また、本実施形態では、音声データから音声特徴量を抽出する必要がなく、音声データを直接前処理部２２３Ａに入力することができる。したがって、本実施形態によれば、情報処理装置２００Ａの処理の負荷を軽減することができる。

【0115】

（第三の実施形態）
以下に、図面を参照して、第三の実施形態について説明する。第三の実施形態では、第一又は第二の実施形態の情報処理システムの具体的な利用シーンの一例を示している。

【0116】

図１５は、第三の実施形態のシステム構成の一例を示す図である。図１５では、第一の実施形態又は第二の実施形態を、遠隔会議システムに利用した場合を示している。

【0117】

本実施形態の遠隔会議システム１００Ｂは、情報処理装置２００、電子黒板５００、卓上マイク６００を含み、それぞれがネットワークを介して接続されている。

【0118】

本実施形態では、電子黒板５００と、卓上マイク６００とは、それぞれが、地理的に離れた場所に設置されていてもよい。具体的には、例えば、卓上マイク６００は、Ａ県Ａ市に所在する事業所の会議室に設置されており、電子黒板５００は、Ｂ県Ｂ市に所在する事業所の会議室に設置されていてもよい。

【0119】

卓上マイク６００は、一般的な集音装置であってよく、集音した音声データを記憶する記憶装置と、音声データを情報処理装置２００へ送信する通信装置とを含んでもよい。

【0120】

電子黒板５００は、例えば、タッチパネル付大型ディスプレイを有し、ユーザが指示した盤面の座標を検出し座標を接続してストロークを表示するものであり、表示装置の一例である。なお、電子黒板５００は、電子情報ボード、電子ホワイトボードと呼ばれる場合もある。

【0121】

本実施形態の情報処理装置２００は、音声認識処理部２２０を有し、例えば、卓上マイク６００が設置された会議室で集音された音声データを、テキストデータに変換して電子黒板５００に表示させる。

【0122】

具体的には、卓上マイク６００が設置された会議室において集音された音声データを受信すると、音声認識処理部２２０により音声認識を行う。そして、情報処理装置２００は、電子黒板５００に対して、音声認識の結果であるテキストデータを出力する。電子黒板５００は、情報処理装置２００から出力されたテキストデータを受信すると、このテキストデータを表示させる。

【0123】

本実施形態では、このように情報処理装置２００を用いることで、例えば、卓上マイク６００が設置された会議室で集音された音声データを、遠隔地に設置された電子黒板５００にテキストデータとして表示させることができる。

【0124】

また、本実施形態では、例えば、卓上マイク６００が設置された会議室において、プレゼンテーションが行われている場合等に、話者の発話の内容をテキストデータとして電子黒板５００に表示させることができる。

【0125】

さらに、本実施形態では、例えば、卓上マイク６００が設置された会議室において、不特定多数の話者が入れ替わりプレゼンテーションを行う場合であっても、高い精度で音声認識を行うことができる。また、本実施形態では、例えば、卓上マイク６００が設置された会議室において、雑音や騒音が生じている場合であっても、高い精度で音声認識を行うことができる。

【0126】

なお、図１５では、卓上マイク６００により話者の音声データを収集するものとしたが、これに限定されない。本実施形態では、話者の音声データを収集して情報処理装置２００に送信する機能を有する装置であれば、卓上マイク６００の代わりとすることができる。

【0127】

また、図１５では、テキストデータが電子黒板５００に表示されるものとしたが、これに限定されない。本実施形態は、テキストデータを受信する機能と、テキストデータを表示させる機能とを有する装置であれば、電子黒板５００の代わりとすることができる。

【0128】

また、本実施形態では、音声認識処理部２２０による音声認識の結果のテキストデータを表示させるものとしたが、これに限定されない。音声認識処理部２２０による音声認識の結果のテキストデータは、例えば、議事録データとして情報処理装置２００に保存されてもよい。

【0129】

（第四の実施形態）
以下に、図面を参照して、第四の実施形態について説明する。第四の実施形態では、第一又は第二の実施形態の情報処理システムの具体的な利用シーンの一例を示している。

【0130】

図１６は、第四の実施形態のシステム構成の一例を示す図である。図１６では、第位置の実施形態又は第二の実施形態を、見守りシステムに利用した場合を示している。

【0131】

本実施形態の見守りシステム１００Ｃは、情報処理装置２００、監視装置７００、表示装置８００を含み、それぞれがネットワークを介して接続されている。

【0132】

本実施形態の見守りシステム１００Ｃは、例えば、医療機関や介護施設等に導入されてもよい。見守りシステム１００Ｃは、情報処理装置２００と、監視装置７００と、表示装置８００とを含む。

【0133】

監視装置７００は、例えば、医療機関の病室や介護施設の居室等に設置されており、見守り対象の対象者の動画像データを取得する撮像装置であってよい。なお、動画像データには、音声データも含まれる。また、見守り対象の対象者とは、例えば、医療機関に入院している患者や、介護施設に入居している入居者等であってよい。また、見守りの対象者とは、何らかの事情により、個室等に隔離されている人であってもよい。

【0134】

表示装置８００は、例えば、医療従事者や介護スタッフ等によって閲覧されるものであり、例えば、ナースステーション等に設置されていてもよい。また、表示装置８００は、例えば、見守りの対象者の家族や親族等が所持する端末装置であってもよい。

【0135】

本実施形態では、情報処理装置２００は、監視装置７００から、音声データを含む動画像データを受信すると、音声データに基づく音声認識を行い、認識結果のテキストデータを表示装置８００に表示させる。

【0136】

このとき、情報処理装置２００は、監視装置７００から受信した動画像データに対して、認識結果のテキストデータを重畳させた動画像データを生成し、表示装置８００に表示させてもよい。

【0137】

このようにすることで、本実施形態では、見守りの対象者を撮像した動画像データから、対象者の発話の内容をテキストデータとして出力することができる。また、本実施形態では、例えば、対象者の発音等が不明瞭であっても、高い精度で音声認識を行うことで、他者に対して、対象者の発話内容を把握させることができる。

【0138】

また、情報処理装置２００は、音声認識の結果であるテキストデータの内容から、対象者に対する支援が必要か否かを判定してもよい。そして、情報処理装置２００は、支援が必要と判定された場合には、テキストデータと共に、警報等を表示装置８００に対して出力してもよい。

【0139】

さらに、情報処理装置２００の利用の仕方は、上述した遠隔会議システム１００Ｂ、見守りシステム１００Ｃに限定されない。情報処理装置２００は、例えば、コールセンタのオペレータと、コールセンタの利用者との会話を録音した音声データを入力とし、音声認識を行った結果のテキストデータを通話記録データとして保管してもよい。

【0140】

上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC（Application Specific Integrated Circuit）、DSP（digital signal processor）、FPGA（field programmable gate array）や従来の回路モジュール等のデバイスを含むものとする。

【0141】

また、実施形態に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの１つを示すものにすぎない。

【0142】

ある実施形態では、情報処理装置２００は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。同様に、情報処理装置２００は、互いに通信するように構成された複数のコンピューティングデバイスを含むことができる。

【0143】

さらに、情報処理装置２００は、開示された処理ステップを様々な組み合わせで共有するように構成できる。例えば、情報処理装置２００によって実行されるプロセスは、他の情報処理装置によって実行され得る。同様に、情報処理装置２００の機能は、他の情報処理装置によって実行することができる。また、情報処理装置と他の情報処理装置の各要素は、１つの情報処理装置にまとめられていても良いし、複数の装置に分けられていても良い。

【0144】

以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。

【符号の説明】

【0145】

１００、１００Ａ情報処理システム
１００Ｂ遠隔会議システム
１００Ｃ見守りシステム
２００、２００Ａ情報処理装置
２２０、２２０Ａ音声認識処理部
２２１音声取得部
２２２特徴量抽出部
２２３、２２３Ａ前処理部
２２４音声認識部
２２５通信部
３００端末装置

【先行技術文献】

【特許文献】

【0146】

【特許文献1】特開２０２１－０２６０５０号公報

【図1】