IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特開2023-119328情報処理方法、プログラム、情報処理装置、情報処理システム
<>
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図1
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図2
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図3
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図4
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図5
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図6
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図7
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図8
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図9
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023119328
(43)【公開日】2023-08-28
(54)【発明の名称】情報処理方法、プログラム、情報処理装置、情報処理システム
(51)【国際特許分類】
   G10L 15/06 20130101AFI20230821BHJP
   G10L 15/00 20130101ALI20230821BHJP
【FI】
G10L15/06 300Y
G10L15/00 200U
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022022169
(22)【出願日】2022-02-16
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】能勢 将樹
(72)【発明者】
【氏名】加藤 暁浩
(72)【発明者】
【氏名】長野 紘之
(72)【発明者】
【氏名】後藤 悠斗
(57)【要約】
【課題】学習データの収集を支援することを目的としている。
【解決手段】情報処理システムによる情報処理方法であって、前記情報処理システムが、集音装置と発話者との距離に基づき取得した音声データと、メッセージの送受信を行うサービスにおいて入力されたテキストデータとを取得し、前記音声データを用いた第一学習データと、前記テキストデータを含む第二学習データと、を学習部に対して出力する。
【選択図】図2
【特許請求の範囲】
【請求項1】
情報処理システムによる情報処理方法であって、前記情報処理システムが、
集音装置と発話者との距離に基づき取得した音声データと、メッセージの送受信を行うサービスにおいて入力されたテキストデータとを取得し、
前記音声データを用いた第一学習データと、前記テキストデータを含む第二学習データと、を学習部に対して出力する、情報処理方法。
【請求項2】
前記集音装置と発話者との距離に基づき取得した音声データは、予め決められた特定の手段によって取得された音声データである、請求項1記載の情報処理方法。
【請求項3】
前記特定の手段は、
インターネット回線を介した遠隔会議を実現するシステムを含む、請求項2記載の情報処理方法。
【請求項4】
前記学習部は、
前記第一学習データと前記第二学習データの両方、又は、何れか一方を用いた学習を音声認識部に行わせる、請求項2又は3記載の情報処理方法。
【請求項5】
前記情報処理システムが、
前記特定の手段で取得された音声データを、前記特定の手段以外の手段で取得された音声データと相当する第一処理後音声データとし、
前記特定の手段で取得された音声データから変換されたテキストデータと、前記第一処理後音声データと、を対応付けたデータセットを前記第一学習データとする、請求項4記載の情報処理方法。
【請求項6】
前記情報処理システムが、
前記入力されたデータに対する音声合成処理を行って、合成音声データを生成し、
前記合成音声データを、前記特定の手段以外の手段で取得された音声データと相当する第二処理後音声データとし、
前記入力されたテキストデータと、前記第二処理後音声データと、を対応付けたデータセットを前記第二学習データとする、請求項4又は5記載の情報処理方法。
【請求項7】
前記学習部は、
前記音声認識部に対し、前記第一学習データと前記第二学習データの両方、又は、何れか一方を用いた学習を行わせた後に、アノテーションによって作成された第三学習データを用いた学習を行わせる、請求項4乃至6の何れか一項に記載の情報処理方法。
【請求項8】
前記第三学習データは、前記特定の手段以外の手段で取得された音声データと、前記音声データに対してアノテーションを行って作成したテキストデータとを対応付けたデータセットである、請求項7記載の情報処理方法。
【請求項9】
情報処理システムによる情報処理方法であって、前記情報処理システムが、
予め決められた特定の手段によって取得された音声データと、メッセージの送受信を行うサービスにおいて入力されたテキストデータとを取得し、
前記音声データを用いた第一学習データと、前記テキストデータを含む第二学習データと、を学習部に対して出力する、情報処理方法。
【請求項10】
集音装置と発話者との距離に基づき取得した音声データと、メッセージの送受信を行うサービスにおいて入力されたテキストデータとを取得し、
前記音声データを用いた第一学習データと、前記テキストデータを含む第二学習データと、を学習部に対して出力する、処理を情報処理装置に実行させる、プログラム。
【請求項11】
集音装置と発話者との距離に基づき取得した音声データと、メッセージの送受信を行うサービスにおいて入力されたテキストデータとを取得するデータ取得部と、
前記音声データを用いた第一学習データと、前記テキストデータを含む第二学習データと、を学習部に対して出力する学習データ出力部と、有する情報処理装置。
【請求項12】
情報処理装置と、前記情報処理装置との通信が可能なサーバ装置とを有する情報処理システムであって、
前記情報処理装置は、
集音装置と発話者との距離に基づき取得した音声データと、メッセージの送受信を行うサービスにおいて入力されたテキストデータとを取得するデータ取得部と、
前記音声データを用いた第一学習データと、前記テキストデータを含む第二学習データと、を前記サーバ装置に対して出力する学習データ出力部と、を有し、
前記サーバ装置は、
前記第一学習データと前記第二学習データの両方、又は、何れか一方を用いた学習を行う学習部と、
前記学習部によって学習される音声認識部を有する、情報処理システム。
【請求項13】
情報処理装置と、前記情報処理装置との通信が可能なサーバ装置と、前記サーバ装置と通信が可能な集音装置及び表示装置と、を有する遠隔会議システムであって、
前記情報処理装置は、
他の集音装置と発話者との距離に基づき取得した音声データと、メッセージの送受信を行うサービスにおいて入力されたテキストデータとを取得するデータ取得部と、
前記音声データを用いた第一学習データと、前記テキストデータを含む第二学習データと、を前記サーバ装置に対して出力する学習データ出力部と、を有し、
前記サーバ装置は、
前記第一学習データと前記第二学習データの両方、又は、何れか一方を用いた学習を行う学習部と、
前記学習部によって学習される音声認識部と、を有し、
前記サーバ装置は、
前記集音装置によって取得された会議の参加者の音声データを、前記音声認識部に対して入力し、前記音声認識部による音声認識の結果であるテキストデータを、前記表示装置に表示させる、遠隔会議システム。
【請求項14】
情報処理装置と、前記情報処理装置との通信が可能なサーバ装置と、前記サーバ装置と通信が可能な集音装置及び表示装置と、を有する見守りシステムであって、
前記情報処理装置は、
他の集音装置と発話者との距離に基づき取得した音声データと、メッセージの送受信を行うサービスにおいて入力されたテキストデータとを取得するデータ取得部と、
前記音声データを用いた第一学習データと、前記テキストデータを含む第二学習データと、を前記サーバ装置に対して出力する学習データ出力部と、を有し、
前記サーバ装置は、
前記第一学習データと前記第二学習データの両方、又は、何れか一方を用いた学習を行う学習部と、
前記学習部によって学習される音声認識部と、を有し、
前記サーバ装置は、
前記集音装置によって取得された見守り対象者の音声データを、前記音声認識部に対して入力し、前記音声認識部による音声認識の結果であるテキストデータを、前記表示装置に表示させる、見守りシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理方法、プログラム、情報処理装置、情報処理システムに関する。
【背景技術】
【0002】
近年では、音声認識を用いた様々な技術が知られている。その一つとして、例えば、会議室に設置された卓上マイク等により、発話者の音声データを取得し、音声認識器による音声認識を行って議事録等を作成する技術がある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
上述した従来の技術では、発話者がマイクを意識しない口調で話す場合や、発話者の口元からマイクまでの距離が一定の距離以上離れている場合が多く、高い精度で音声認識を行うことが難しい。このため、音声認識の精度の向上を目指した音声認識器の学習が望まれているが、学習には大量の学習データが必要であり、容易に収集できない。
【0004】
開示の技術は、上記事情に鑑みたものであり、学習データの収集を支援することを目的としている。
【課題を解決するための手段】
【0005】
開示の技術は、情報処理システムによる情報処理方法であって、前記情報処理システムが、集音装置と発話者との距離に基づき取得した音声データと、メッセージの送受信を行うサービスにおいて入力されたテキストデータとを取得し、前記音声データを用いた第一学習データと、前記テキストデータを含む第二学習データと、を学習部に対して出力する、情報処理方法である。
【発明の効果】
【0006】
学習データの収集を支援できる。
【図面の簡単な説明】
【0007】
図1】音声認識システムの一例を示す図である。
図2】学習データについて説明する図である。
図3】情報処理装置のハードウェア構成の一例を示す図である。
図4】第三学習データの一例を示す図である。
図5】音声認識システムの有する各装置の機能構成を説明する図である。
図6】音声認識システムの動作を説明するシーケンス図である。
図7】第一学習データ生成部の処理を説明するフローチャートである。
図8】第二学習データ生成部の処理を説明するフローチャートである。
図9】音声認識システムの利用シーンを説明する第一の図である。
図10】音声認識システムの利用シーンを説明する第二の図である。
【発明を実施するための形態】
【0008】
以下に図面を参照して、実施形態について説明する。図1は、音声認識システムの一例を示す図である。
【0009】
本実施形態の音声認識システム100は、情報処理システムの一例である。音声認識システム100は、情報処理装置200と、サーバ装置300とを含み、情報処理装置200とサーバ装置300とは、ネットワーク等を介して接続されている。
【0010】
本実施形態の音声認識システム100において、情報処理装置200は、後述する音声認識部330の学習に用いられる学習データを生成し、サーバ装置300に対して出力する。本実施形態のサーバ装置300は、情報処理装置200で生成された学習データを用いて音声認識部330の学習を行う。本実施形態のサーバ装置300は、例えば、クラウドサーバであってもよい。
【0011】
本実施形態の音声認識部330は、特に、発話者の口元とマイク等の集音装置との距離が一定の距離以上離れている状態において取得された音声データに対し、音声認識を行う音声認識器である。なお、以下の説明では、発話者の口元とマイクとの距離が一定の距離以上離れている状態を「Far Field(遠方界)」と表現する場合がある。Far Fieldにおいて取得された音声データとは、具体的には、例えば、バウンダリーマイクのような卓上マイクを用いて収音した音声データである。
【0012】
本実施形態の情報処理装置200は、音声データ記憶部230、テキストデータ記憶部240、学習データ生成部250を有する。
【0013】
音声データ記憶部230は、所定の条件で取得された音声データが格納される。所定の条件とは、発話者の口元と、音声データを取得するマイクとの距離が一定の距離未満であることを示す。なお、一定の距離とは、例えば、1メートル程度であってもよい。以下の説明では、発話者の口元とマイクとの距離が一定の距離未満である状態を「Near Field(近傍界)」と表現する場合がある。
【0014】
Near Fieldで取得された音声データは、発話者とマイクとの距離が近く、音声のSN比が高いため、発話の内容が明瞭に聞き取れる場合が多い。
【0015】
ここで、本実施形態における、「Near Fieldで取得された音声データ」の定義と、「Far Fieldにおいて取得された音声データ」の定義と、について、さらに具体的に説明する。
【0016】
上述の記載では、本実施形態では、「Near Fieldで取得された音声データ」とは、所定の条件で取得された音声データとした。
【0017】
本実施形態では、所定の条件(発話者の口元と、音声データを取得するマイクとの距離が一定の距離未満)を満たす音声データを取得するための手段として、オンライン会議システムを用いる。
【0018】
オンライン会議とは、インターネット回線を介した遠隔会議である。オンライン会議システムとは、インターネット回線を介した遠隔会議を実現させるシステムである。
【0019】
オンライン会議システムは、会議中の動画像データを取得(録画)する機能を有している場合がある。本実施形態では、オンライン会議システムの録画機能によって取得された動画像データに含まれる、会議の参加者の発話を示す音声データを、所定の条件で取得された音声データとする。
【0020】
言い換えれば、本実施形態では、オンライン会議システムによって取得された音声データを、Near Fieldで取得された音声データとして取り扱う。
【0021】
このため、本実施形態の音声データ記憶部230に格納された音声データとは、インターネット回線を介した遠隔会議を実現するシステムにおいて、会議中に取得された音声データと言える。このとき、音声データは、ヘッドセット等のように、利用者が装着する形式のマイク(集音装置)によって取得されてもよい。本実施形態では、例えば、オンライン会議システムによって取得された音声データを、Near Fieldで取得された音声データとして、予め音声データ記憶部230に格納しておけばよい。
【0022】
なお、所定の条件で音声データを取得するための手段は、予め決められていればよく、オンライン会議システムに限定されなくてもよい。例えば、所定の条件で音声データを取得するための手段は、コールセンター等におけるオペレータと利用者との会話を録音する手段等であってもよい。このとき、オペレータと利用者と会話は、インターネット回線を介して行われてもよい。
【0023】
このように、本実施形態では、予め決められた特定の手段によって取得された音声データを、「Near Fieldで取得された音声データ」とする。
【0024】
これに対し、「Far Fieldにおいて取得された音声データ」は、音声データを取得する際に所定の条件を満たす必要はない。このため、「Far Fieldにおいて取得された音声データ」は、予め決められた特定の手段以外の手段によって取得された音声データであればよい。
【0025】
テキストデータ記憶部240は、メッセージの送受信を行うサービスにおいて入力されたテキストデータが格納される。つまり、テキストデータ記憶部240に格納されたテキストデータは、メッセージの送受信を行うシステムに対して利用者が入力したものであり、利用者の発話の内容が正しく反映されたテキストデータと言える。
【0026】
メッセージの送受信を行うサービスとは、二人以上の参加者による、対話や連絡を目的としたメッセージの交換(送受信)を実現するサービスである。具体的には、メッセージの送受信を行うサービスとは、例えば、発話者がマイクを意識しない口調に近いメッセージが交換されるチャットシステム等によって実現されてよい。
【0027】
学習データ生成部250は、音声データ記憶部230に格納された音声データを用いた第一学習データと、テキストデータ記憶部240に格納されたテキストデータを用いた第二学習データとを生成する。
【0028】
言い換えれば、学習データ生成部250は、発話の内容が比較的明瞭に聞き取れる音声データを用いた学習データと、発話の内容が正しく反映されたテキストデータを含む学習データとを生成する。そして、学習データ生成部250は、第一学習データと第二学習データとを、音声認識部330を有するサーバ装置300に対して出力する。第一学習データと第二学習データの詳細は後述する。
【0029】
サーバ装置300は、学習データ記憶部310、学習部320、音声認識部330を有する。
【0030】
学習データ記憶部310は、学習部320による音声認識部330の学習に用いる第三学習データが格納される。
【0031】
本実施形態の第三学習データは、予め学習データ記憶部310に格納されている。また、本実施形態の第三学習データは、例えば、対面会議等において、会議室に設置された卓上マイク等により取得した音声データに対して作業者がアノテーションを行って作成した学習データである。
【0032】
言い換えれば、第三学習データは、予め決められた特定の手段以外の手段によって取得された音声データと、この音声データを人手で書き起こしたテキストデータとを対応付けたデータセットである。
【0033】
学習部320は、情報処理装置200から取得した第一学習データと、第二学習データと、学習データ記憶部310に格納された第三学習データとを用いて音声認識部330を機械学習させる。
【0034】
音声認識部330は、第一学習データ、第二学習データ、第三学習データを用いた学習を行った音声認識モデルである。
【0035】
なお、図1の例では、音声認識システム100は、情報処理装置200とサーバ装置300とを含むものとしたが、これに限定されない。音声認識システム100は、例えば、一台の情報処理装置によって実現されてもよい。
【0036】
また、本実施形態の情報処理装置200とサーバ装置300のそれぞれが有する機能は、複数台コンピュータにより実現されてもよい。
【0037】
次に、図2を参照して、本実施形態における学習データについて説明する。図2は、学習データについて説明する図である。
【0038】
本実施形態の第一学習データ20について説明する。本実施形態の第一学習データ20は、テキストデータ21と、第一処理後音声データ22とを対応付けたデータセットである。
【0039】
テキストデータ21は、オンライン会議システム等において録音された音声データ23に対して音声認識を行った結果として取得される。
【0040】
ここで、音声データ23は、インターネット回線を介した遠隔会議を実現するオンライン会議システム(特定の手段)において、会議中に取得された音声データである。言い換えれば、音声データ23は、Near Fieldで取得された音声データである。したがって、テキストデータ21は、比較的精度の高い音声認識結果と言える。
【0041】
第一処理後音声データ22は、音声データ23に対し、音響変換処理を行った音声データである。本実施形態の音響変換処理とは、Near Fieldで取得された音声データを、Far Fieldで取得された音声データと相当する音声データとなるように変換する処理である。
【0042】
このように、第一学習データ20では、比較的精度の高い音声認識結果であるテキストデータ21と、音声データ23をFar Fieldで取得された音声データと相当する音声データに変換した第一処理後音声データ22とが対応付けられている。
【0043】
したがって、第一学習データ20は、Far Fieldで取得された音声データに対する音声認識を行う音声認識部330の学習において、音声認識部330の利用シーンに合致した有用な学習データと言える。
【0044】
本実施形態の第二学習データ30は、テキストデータ31と、第二処理後音声データ32とを対応付けたデータセットである。
【0045】
テキストデータ31は、例えば、チャットシステム等から取得される。つまり、テキストデータ31は、発話の内容が正しく反映されたデータと言える。
【0046】
第二処理後音声データ32は、音声合成処理によってテキストデータ31から生成した合成音声データ33に対し、音響変換処理を行った音声データである。
【0047】
このように、第二学習データ30では、発話の内容が正しく反映されたテキストデータ31と、テキストデータ31から生成された合成音声データ33をFar Fieldで取得された音声データと相当する音声データに変換した第二処理後音声データ32とが対応付けられている。
【0048】
したがって、第二学習データ30は、Far Fieldで取得された音声データに対する音声認識を行う音声認識部330の学習において、音声認識部330の利用シーンに合致した有用な学習データと言える。
【0049】
なお、第一学習データ20と第二学習データ30とは、アノテーション作業が行われていない学習データである。
【0050】
第三学習データ40は、例えば、会議室に設置された卓上マイク等によって取得された音声データ41と、アノテーション作業により作成されたテキストデータ42とを対応付けたデータセットである。
【0051】
つまり、第三学習データ40は、音声データ41が示す発話の内容と、テキストデータ42が示す発話の内容とが一致する高精度の学習データと言える。
【0052】
本実施形態のサーバ装置300は、第一学習データ20と第二学習データ30とを情報処理装置200から取得すると、第一学習データ20と第二学習データ30との少なくとも何れか一方を用いて音声認識部330を学習させる(ステップS1)。言い換えれば、本実施形態の事前学習とは、作業者によるアノテーション作業が行われていない学習データを用いた学習である。
【0053】
次に、サーバ装置300は、事前学習を終えた音声認識部330に対し、第三学習データ40を用いて、パラメータをチューニングするファインチューニングを行う。言い換えれば、ファインチューニングは、作業者によるアノテーション作業が行われた学習データを用いた学習である。
【0054】
このように、本実施形態では、Far Fieldで取得された音声データに対する音声認識部330の学習に有用な学習データを、既存のシステムから自動的に生成する。したがって、本実施形態では、多数の学習データを容易に収集することができる。
【0055】
また、本実施形態では、事前学習のための学習データを大量に低コストで収集できるため、事前学習とファインチューニングとを繰り返し行うことができ、音声認識部330による音声認識の精度を向上させることができる。
【0056】
以下に、図3を参照して、本実施形態の情報処理装置200のハードウェア構成について説明する。図3は、情報処理装置のハードウェア構成の一例を示す図である。
【0057】
情報処理装置200は、コンピュータによって構築されており、図3に示されているように、CPU201、ROM202、RAM203、HD204、HDD(Hard Disk Drive)コントローラ205、ディスプレイ206、外部機器接続I/F(Interface)208、ネットワークI/F209、バスラインB1、キーボード211、ポインティングデバイス212、DVD-RW(Digital Versatile Disk Rewritable)ドライブ214、メディアI/F216を備えている。
【0058】
これらのうち、CPU201は、情報処理装置200全体の動作を制御する。ROM202は、IPL等のCPU201の駆動に用いられるプログラムを記憶する。RAM203は、CPU201のワークエリアとして使用される。HD204は、プログラム等の各種データを記憶する。HDDコントローラ205は、CPU201の制御にしたがってHD204に対する各種データの読み出し又は書き込みを制御する。
【0059】
ディスプレイ(表示装置)206は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F208は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F209は、通信ネットワークを利用してデータ通信をするためのインターフェースである。バスラインB1は、図3に示されているCPU201等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0060】
また、キーボード211は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス212は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ214は、着脱可能な記録媒体の一例としてのDVD-RW213に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F216は、フラッシュメモリ等の記録メディア215に対するデータの読み出し又は書き込み(記憶)を制御する。
【0061】
なお、本実施形態のサーバ装置300のハードウェア構成は、情報処理装置200と同様であるから、説明を省略する。
【0062】
次に、図4を参照して、本実施形態のサーバ装置300の学習データ記憶部310に格納された第三学習データ40について説明する。図4は、第三学習データの一例を示す図である。
【0063】
本実施形態の第三学習データ40は、情報の項目として、発話ID、開始時刻、終了時刻、発話内容を含み、項目「発話ID」と他の項目とが対応付けられている。
【0064】
項目「発話ID」の値は、開始時刻と終了時刻により特定される発話区間に取得された音声データを特定するための識別情報である。発話区間とは、発話が行われている区間を示す。
【0065】
項目「開始時刻」、「終了時刻」の値は、それぞれ、発話区間の開始時刻と、発話区間の終了時刻とを示す。項目「発話内容」の値は、発話IDによって特定される音声データから書き起こしたテキストデータである。
【0066】
本実施形態では、サーバ装置300の学習データ記憶部310に、予め作成された第三学習データ40が格納される。
【0067】
次に、図5を参照して、本実施形態の音声認識システム100の有する各装置の機能について説明する。
【0068】
図5は、音声認識システムの有する各装置の機能構成を説明する図である。
【0069】
はじめに、情報処理装置200の機能について説明する。本実施形態の情報処理装置200は、音声データ記憶部230、テキストデータ記憶部240、学習データ生成部250を有する。音声データ記憶部230、テキストデータ記憶部240は、例えば、RAM203等の記憶装置により実現される。学習データ生成部250は、CPU201がHD204等の記憶装置に格納されたプログラムを読み出して実行することで実現される。
【0070】
音声データ記憶部230には、例えば、オンライン会議システム等から取得された音声データ23が格納される。テキストデータ記憶部240には、例えば、チャットシステム等から取得されたテキストデータ31が格納される。
【0071】
学習データ生成部250は、データ取得部251、第一学習データ生成部252、第二学習データ生成部253、音響変換処理部254、学習データ出力部255を有する。
【0072】
データ取得部251は、例えば、情報処理装置200と通信が可能なオンライン会議システム等から、音声データ23を取得し、音声データ記憶部230に格納する。また、データ取得部251は、情報処理装置200と通信が可能なチャットシステム等からテキストデータ31を取得し、テキストデータ記憶部240に格納する。なお、音声データ23やテキストデータ31は、それぞれが、音声認識システム100の管理者等によって音声データ記憶部230、テキストデータ記憶部240に格納されてもよい。
【0073】
第一学習データ生成部252は、第一学習データ20を生成する。具体的には、第一学習データ生成部252は、音声データ記憶部230から音声データ23を取得して音声認識を行い、テキストデータ21を生成する。また、第一学習データ生成部252は、音響変換処理部254により、音声データ23の音響変換処理を行って、第一処理後音声データ22を取得する。そして、第一学習データ生成部252は、テキストデータ21と第一処理後音声データ22とを対応付けたデータセットである第一学習データ20を生成する。
【0074】
第二学習データ生成部253は、第二学習データ30を生成する。具体的には、第二学習データ生成部253は、テキストデータ記憶部240からテキストデータ31を取得して音声合成処理を行い、合成音声データ33を生成する。また、第二学習データ生成部253は、音響変換処理部254により、合成音声データ33の音響変換処理を行って、第二処理後音声データ32を取得する。そして、第二学習データ生成部253は、テキストデータ31と第二処理後音声データ32とを対応付けたデータセットである第二学習データ30を生成する。
【0075】
音響変換処理部254は、Near Fieldで取得された音声データを、Far Fieldで取得された音声データと相当する音声データとなるように変換する処理を行う。具体的には、音響変換処理部254は、Near Fieldで取得された音声データに人工的なノイズや人工的なインパルス応答(残響)を加える処理を行ってもよい。
【0076】
また、例えば、Near Fieldで取得された音声データをスピーカで再生し、所定の距離以上離れた場所に配置したマイクにより再生された音声データを録音したものを、Far Fieldで取得された音声データと相当する音声データとしてもよい。
【0077】
学習データ出力部255は、第一学習データ生成部252、第二学習データ生成部253のそれぞれが生成した第一学習データ20と第二学習データ30とを、サーバ装置300に対して出力する。
【0078】
次に、サーバ装置300の機能について説明する。本実施形態のサーバ装置300は、学習データ記憶部310、学習部320、音声認識部330を有する。学習データ記憶部310は、例えば、サーバ装置300の有する記憶装置により実現されてよい。学習部320、音声認識部330は、サーバ装置300の有するCPUが記憶装置に格納されたプログラムを読み出して実行することで実現される。
【0079】
学習部320は、学習データ記憶部310に格納された学習データを用いて音声認識部330に学習を行わせる。具体的には、学習部320は、第一学習部321と、第二学習部322とを有する。なお、学習データ記憶部310には、情報処理装置200から取得した第一学習データ20と第二学習データ30も格納されてよい。
【0080】
第一学習部321は、第一学習データ20と第二学習データ30の何れか一方、又は、両方を用いた事前学習を音声認識部330に行わせる。第二学習部322は、第三学習データ40を用いたファインチューニングを音声認識部330に行わせる。
【0081】
音声認識部330は、音声データをテキストデータに変換する音声認識処理を行う。
【0082】
次に、図6を参照して、本実施形態の音声認識システム100の動作について説明する。図6は、音声認識システムの動作を説明するシーケンス図である。図6では、本実施形態の音声認識部330を学習させる場合の動作について説明する。
【0083】
本実施形態の音声認識システム100において、情報処理装置200の学習データ生成部250は、データ取得部251により、既存のオンラインシステムやチャットシステム等から、音声データ23やテキストデータ31を取得し、音声データ記憶部230、テキストデータ記憶部240に格納する。
【0084】
続いて、学習データ生成部250は、第一学習データ生成部252により、第一学習データ20を生成する(ステップS602)。続いて、学習データ生成部250は、第二学習データ生成部253により、第二学習データ30を生成する(ステップS603)。ステップS602とステップS603の処理の詳細は後述する。
【0085】
続いて、学習データ生成部250は、学習データ出力部255により、生成した第一学習データ20、第二学習データ30をサーバ装置300に出力する(ステップS604)。
【0086】
サーバ装置300は、情報処理装置200から出力された第一学習データ20、第二学習データ30を取得し、学習データ記憶部310に格納する(ステップS605)。
【0087】
続いて、サーバ装置300は、学習部320の第一学習部321により、第一学習データ20、第二学習データ30の少なくとも何れか一方の学習データを用いた事前学習を音声認識部330に行わせる(ステップS606)。
【0088】
続いて、サーバ装置300は、第二学習部322により、学習データ記憶部310に格納されている第三学習データ40を用いたファインチューニングを音声認識部330に行わせる(ステップS607)。
【0089】
本実施形態の音声認識システム100では、図6の処理を繰り返すことで、音声認識部330の音声認識の精度を向上させる。
【0090】
例えば、本実施形態の音声認識部330を実現する音声認識モデルは、最初の事前学習において生成され、その後にファインチューニングにより更新される。そして、次の事前学習では、ファインチューニング後の音声認識モデルに対して行われ、この音声認識モデルがさらにファインチューニングされる。
【0091】
本実施形態では、このように学習を繰り返すことで、音声認識モデルの精度が徐々に向上していく。したがって、本実施形態によれば、Far Fieldで取得された音声データに対する音声認識の精度を高めることができる。
【0092】
次に、図7図8を参照して、第一学習データ生成部252、第二学習データ生成部253のそれぞれの処理について説明する。
【0093】
図7は、第一学習データ生成部の処理を説明するフローチャートである。図7では、図6のステップS602の処理の詳細を示す。
本実施形態の第一学習データ生成部252は、音声データ記憶部230から音声データ23を取得する(ステップS701)。続いて、第一学習データ生成部252は、取得した音声データ23に対して音声認識を行い、テキストデータ21を取得する(ステップS702)。
【0094】
続いて、第一学習データ生成部252は、音声データ23に対して、音響変換処理部254により、音響変換処理を行い、第一処理後音声データ22を生成する(ステップS703)。
【0095】
続いて、第一学習データ生成部252は、テキストデータ21と、第一処理後音声データ22とを対応付けたデータセットを第一学習データ20とし(ステップS704)、学習データ出力部255へ渡す。
【0096】
図8は、第二学習データ生成部の処理を説明するフローチャートである。図8では、図6のステップS603の処理の詳細を示す。
【0097】
本実施形態の第二学習データ生成部253は、テキストデータ記憶部240からテキストデータ31を取得する(ステップS801)。続いて、第二学習データ生成部253は、取得したテキストデータ31に対して音声合成処理を行い、合成音声データ33を生成する(ステップS802)。
【0098】
続いて、第二学習データ生成部253は、合成音声データ33に対して、音響変換処理部254により、音響変換処理を行い、第二処理後音声データ32を生成する(ステップS803)。
【0099】
続いて、第二学習データ生成部253は、テキストデータ31と、第二処理後音声データ32とを対応付けたデータセットを第二学習データ30とし(ステップS804)、学習データ出力部255へ渡す。
【0100】
以上が、第一学習データ生成部252と第二学習データ生成部253の処理である。
【0101】
本実施形態では、このように、第一学習データ20と第二学習データ30とを自動的に生成することができる。したがって、本実施形態では、音声認識部330の学習に適した学習データの収集に係る手間を削減でき、低コストで事前学習に用いる多くの学習データを収集することができる。
【0102】
なお、本実施形態では、学習部320は、第一学習データ20と第二学習データ30の何れか一方を用いて事前学習を行ってもよいし、第一学習データ20と第二学習データ30の両方を用いた事前学習を行ってもよい。
【0103】
また、本実施形態の第一学習データ20と第二学習データ30とは、例えば、処理後音声データが示す発話の内容と、テキストデータが示す発話の内容との一致度が、第三学習データ40と同程度である場合には、ファインチューニングに用いられてもよい。
【0104】
次に、図9及び図10を参照して、本実施形態の音声認識システム100の具体的な利用シーンについて説明する。
【0105】
図9は、音声認識システムの利用シーンを説明する第一の図である。本実施形態では、音声認識システム100を、遠隔会議システムに利用した場合を示している。
【0106】
本実施形態の遠隔会議システム400は、会議室R1のテーブルに配置された卓上マイク500により取得された音声データをテキストデータに変換し、会議室R1とは地理的に離れた会議室R2に設置された電子黒板600にテキストデータを表示させる。具体的には、例えば、卓上マイク500は、A県A市に所在する事業所の会議室R1に設置されており、電子黒板600は、B県B市に所在する事業所の会議室R2に設置されていてもよい。
【0107】
卓上マイク500は、一般的な集音装置であってよく、集音した音声データを記憶する記憶装置と、音声データを音声認識システム100へ送信する通信装置とを含んでもよい。
【0108】
電子黒板600は、例えば、タッチパネル付大型ディスプレイを有し、ユーザが指示した盤面の座標を検出し座標を接続してストロークを表示するものであり、表示装置の一例である。なお、電子黒板600は、電子情報ボード、電子ホワイトボードと呼ばれる場合もある。
【0109】
卓上マイク500は、会議室R1に設置されたテーブルの中央に配置されており、会議には参加者P1~P6が参加している。また、卓上マイク500は、参加者P1~P6の口元から所定の距離以上離れた位置に配置される。
【0110】
したがって、卓上マイク500が取得する音声データは、Far Fieldで取得された音声データである。
【0111】
本実施形態の音声認識システム100では、卓上マイク500によって取得された参加者P1~P6の音声データを、音声認識システム100の有する音声認識部330に入力し、音声認識部330による音声認識を行う。そして、音声認識システム100は、音声認識の結果のテキストデータを会議室R2に配置された電子黒板600に表示させる。
なお、遠隔会議システム400では、卓上マイク500と、電子黒板600と、のそれぞれが、音声認識システム100の有するサーバ装置300と通信可能である。
ここで、音声認識部330は、情報処理装置200で生成された学習データを用いて学習が行われた音声認識モデルであり、学習によりFar Fieldで取得された音声データに対する音声認識の精度が向上している。
【0112】
したがって、本実施形態では、例えば、会議室R1において、卓上マイク500から最も離れた位置に座っている参加者P4がプレゼンテーション等を行う場合でも、発話の内容を高い精度でテキストデータに変換し、電子黒板600に表示させることができる。
【0113】
また、図9では、テキストデータが電子黒板600に表示されるものとしたが、これに限定されない。本実施形態は、テキストデータを受信する機能と、テキストデータを表示させる機能とを有する装置であれば、電子黒板600の代わりとすることができる。
【0114】
また、本実施形態では、音声認識システム100による音声認識の結果のテキストデータを表示させるものとしたが、これに限定されない。音声認識システム100による音声認識の結果のテキストデータは、例えば、議事録データとして、音声認識システム100のサーバ装置300等に保存されてもよい。このように、本実施形態では、Far Fieldで取得された音声データであっても、テキストデータに変換して議事録データとすることができる。
【0115】
なお、図9では、卓上マイク500により話者の音声データを収集するものとしたが、これに限定されない。本実施形態では、話者の音声データを収集して音声認識システム100に送信する機能を有する装置であれば、卓上マイク500の代わりとすることができる。
【0116】
図10は、音声認識システムの利用シーンを説明する第二の図である。図10では、音声認識システム100を、見守りシステム400Aに利用した場合を示している。
【0117】
本実施形態の見守りシステム400Aは、音声認識システム100、集音装置500A、表示装置600Aを含み、それぞれがネットワークを介して接続されている。
【0118】
集音装置500Aは、例えば、医療機関の病室や介護施設の居室等に設置されており、見守り対象の対象者の音声データを取得するマイクであってよい。また、集音装置500Aは、見守り対象の対象者から所得の距離以上離れた位置に設置されている。
【0119】
なお、見守り対象の対象者(見守り対象者)とは、例えば、医療機関に入院している患者や、介護施設に入居している入居者等であってよい。また、見守りの対象者とは、何らかの事情により、個室等に隔離されている人であってもよい。
【0120】
表示装置600Aは、例えば、医療従事者や介護スタッフ等によって閲覧されるものであり、例えば、ナースステーション等に設置されていてもよい。また、表示装置600Aは、例えば、見守りの対象者の家族や親族等が所持する端末装置であってもよい。
【0121】
本実施形態では、音声認識システム100は、集音装置500Aから、音声データを受信すると、音声データに基づく音声認識を行い、認識結果のテキストデータを表示装置600Aに表示させる。
【0122】
このとき、音声認識システム100は、学習により、Far Fieldで取得された音声データに対する音声認識の精度が向上している。
【0123】
したがって、本実施形態では、見守り対象の対象者が、集音装置500Aを意識せずに発話した内容と一致度の高いテキストデータとして出力することができる。
【0124】
なお、見守りシステム400Aでは、集音装置500Aの代わりに、音声データを含む動画像データを取得可能な撮像装置を用いてもよい。その場合、音声認識システム100は、動画像データに、音声認識の結果であるテキストデータを重ねた表示させてよい。
【0125】
このようにすることで、本実施形態では、見守りの対象者の音声データから、対象者の発話の内容をテキストデータとして出力することができる。また、本実施形態では、例えば、対象者の発音等が不明瞭であっても、高い精度で音声認識を行うことで、他者に対して、対象者の発話内容を把握させることができる。
【0126】
また、音声認識システム100は、音声認識の結果であるテキストデータの内容から、対象者に対する支援が必要か否かを判定してもよい。そして、情報処理装置200は、支援が必要と判定された場合には、テキストデータと共に、警報等を表示装置600Aに対して出力してもよい。
【0127】
さらに、音声認識システム100の利用の仕方は、上述した遠隔会議システム400、見守りシステム400Aに限定されない。音声認識システム100は、例えば、コールセンターのオペレータと、コールセンターの利用者との会話を録音した音声データを入力とし、音声認識を行った結果のテキストデータを通話記録データとして保管する管理システムとされてもよい。
【0128】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるGPU(Graphics Processing Unit)やTPU(Tensor Processing Unit)に代表されるプロセッサのように、ソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0129】
また、実施形態に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。
【0130】
ある実施形態では、情報処理装置200は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。同様に、情報処理装置200は、互いに通信するように構成された複数のコンピューティングデバイスを含むことができる。
【0131】
さらに、音声認識システム100は、開示された処理ステップを様々な組み合わせで共有するように構成できる。例えば、情報処理装置200とサーバ装置300によって実行されるプロセスは、他の情報処理装置によって実行され得る。同様に、情報処理装置200とサーバ装置300の機能は、他の情報処理装置によって実行することができる。また、情報処理装置と他の情報処理装置の各要素は、1つの情報処理装置にまとめられていても良いし、複数の装置に分けられていても良い。
【0132】
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。
【符号の説明】
【0133】
20 第一学習データ
30 第二学習データ
40 第三学習データ
100 音声認識システム
200 情報処理装置
230 音声データ記憶部
240 テキストデータ記憶部
250 学習データ生成部
251 データ取得部
252 第一学習データ生成部
253 第二学習データ生成部
254 音響変換処理部
255 学習データ出力部
300 サーバ装置
310 学習データ記憶部
320 学習部
330 音声認識部
【先行技術文献】
【特許文献】
【0134】
【特許文献1】特許5797009公報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10