IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特開2023-79562情報処理方法、プログラム、情報処理装置、情報処理システム
<>
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図1
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図2
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図3
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図4
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図5
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図6
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図7
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図8
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図9
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図10
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図11
  • 特開-情報処理方法、プログラム、情報処理装置、情報処理システム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023079562
(43)【公開日】2023-06-08
(54)【発明の名称】情報処理方法、プログラム、情報処理装置、情報処理システム
(51)【国際特許分類】
   G10L 15/18 20130101AFI20230601BHJP
   G10L 15/24 20130101ALI20230601BHJP
   G10L 15/22 20060101ALI20230601BHJP
【FI】
G10L15/18 400
G10L15/24 Q
G10L15/22 460Z
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2021193077
(22)【出願日】2021-11-29
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】長野 紘之
(57)【要約】
【課題】音声認識の精度を向上させることを目的とする。
【解決手段】コンピュータによる情報処理方法であって、前記コンピュータが、話者の映像を含む映像データの入力を受け付けて、前記映像データに基づき推定された前記話者の発話の様態に応じた言語モデルを用いて前記映像データに含まれる音声データの音声認識を行った結果のテキストデータを、表示装置に表示させる、情報処理方法である。
【選択図】図6
【特許請求の範囲】
【請求項1】
コンピュータによる情報処理方法であって、前記コンピュータが、
話者の映像を含む映像データの入力を受け付けて、
前記映像データに基づき推定された前記話者の発話の様態に応じた言語モデルを用いて前記映像データに含まれる音声データの音声認識を行った結果のテキストデータを、表示装置に表示させる、情報処理方法。
【請求項2】
前記コンピュータが、
前記映像データに基づき推定された前記話者の発話の様態に応じた言語モデルを、前記音声認識を行う音声認識部に提供する、請求項1記載の情報処理方法。
【請求項3】
前記コンピュータが、
前記映像データが入力されると、記憶部に格納された複数の言語モデルと対応する複数の発話の様態のそれぞれについて、各発話の様態が、前記話者の発話の様態と合致する確率を示す推定情報を出力し、
前記複数の言語モデルのうち、前記確率が最も高い発話の様態と対応する言語モデルを、前記話者の発話の様態に応じた言語モデルとして選択し、前記音声認識部に提供する、請求項2記載の情報処理方法。
【請求項4】
前記コンピュータが、
前記映像データが入力されると、記憶部に格納された複数の言語モデルと対応する複数の発話の様態のそれぞれについて、前記発話の様態が、前記話者の発話の様態と合致する確率を示す推定情報を出力し、
前記推定情報に含まれる各発話の様態毎の確率と、前記複数の言語モデルとを用いて、新たな言語モデルを生成し、
前記新たな言語モデルを前記音声認識部へ提供する、請求項2記載の情報処理方法。
【請求項5】
前記コンピュータが、
前記話者の発話の様態に応じた言語モデルを選択する設定がされている場合に、前記推定情報に基づき前記話者の発話の様態に応じた言語モデルを選択し、
前記話者の発話の様態に応じた新たな言語モデルを生成する設定がされている場合に、前記推定情報に基づき前記話者の発話の様態に応じた新たな言語モデルを生成する、請求項3又は4記載の情報処理方法。
【請求項6】
前記コンピュータが、
前記複数の発話の様態のそれぞれにおける、前記話者の発話の様態と合致する確率のうち、最も高い確率の値が所定の閾値未満である場合に、
前記話者の発話の様態に応じた新たな言語モデルを生成する設定がされているものと判定する、請求項5記載の情報処理方法。
【請求項7】
前記コンピュータが、
前記テキストデータを、前記話者の発話毎に、前記表示装置に表示させる、請求項2乃至6の何れか一項に記載の情報処理方法。
【請求項8】
前記コンピュータが、
前記音声認識部に提供された言語モデルと対応する発話の様態を示す情報を、前記テキストデータと共に前記表示装置に表示させる、請求項7記載の情報処理方法。
【請求項9】
話者の映像を含む映像データの入力を受け付けて、
前記映像データに基づき推定された前記話者の発話の様態に応じた言語モデルを用いて前記映像データに含まれる音声データの音声認識を行った結果のテキストデータを、表示装置に表示させる、処理をコンピュータに実行させるプログラム。
【請求項10】
話者の映像を含む映像データの入力を受け付ける入力受付部と、
前記映像データに基づき推定された前記話者の発話の様態に応じた言語モデルを用いて前記映像データに含まれる音声データの音声認識を行った結果のテキストデータを、表示装置に表示させる出力テキスト生成部と、を有する情報処理装置。
【請求項11】
請求項10に記載の情報処理装置と、前記映像データを撮像する撮像装置と、を含む情報処理システム。
【請求項12】
前記撮像装置は、全天球型撮像装置、又は、半天球型撮像装置である、請求項11記載の情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理方法、プログラム、情報処理装置、情報処理システムに関する。
【背景技術】
【0002】
従来から、映像とともに記録されている音声を認識する音声認識において、映像を画像認識した結果に基づいて言語モデルを選択し、選択された言語モデルを用いて音声認識を行う技術が知られている。具体的には、例えば、映像の中で発話している人物の性別や年齢等の属性を画像認識結果として言語モデルを選択し、選択された言語モデルを用いて音声認識を行うことが知られている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、人物の発話の様態は、同一人物であっても、発話の相手や会話を行った場面等、発話が行われたときの状況に応じて様々に変化する。このため、上述した従来の技術のように、人物の属性等に基づき言語モデルを選択する場合、状況に応じた発話の様態が言語モデルに反映されず、音声認識の精度を低下させる可能性がある。
【0004】
開示の技術は、上記事情に鑑みたものであり、音声認識の精度を向上させることを目的とする。
【課題を解決するための手段】
【0005】
開示の技術は、コンピュータによる情報処理方法であって、前記コンピュータが、話者の映像を含む映像データの入力を受け付けて、前記映像データに基づき推定された前記話者の発話の様態に応じた言語モデルを用いて前記映像データに含まれる音声データの音声認識を行った結果のテキストデータを、表示装置に表示させる、情報処理方法である。
【発明の効果】
【0006】
音声認識の精度を向上させることができる。
【図面の簡単な説明】
【0007】
図1】第一の実施形態の情報処理システムの一例を示す図である。
図2】情報処理装置のハードウェア構成の一例を示す図である。
図3】端末装置のハードウェア構成の一例を示す図である。
図4】第一の実施形態の情報処理装置の機能を説明する図である。
図5】第一の実施形態の端末装置の機能構成を説明する図である。
図6】第一の実施形態の情報処理装置の処理を説明するフローチャートである。
図7】第一の実施形態の情報処理装置の処理を説明する第一の図である。
図8】第一の実施形態の情報処理装置の処理を説明する第二の図である。
図9】第二の実施形態の情報処理装置の処理を説明するフローチャートである。
図10】第三の実施形態の情報処理装置の処理を説明するフローチャートである。
図11】第四の実施形態のシステム構成の一例を示す図である。
図12】第五の実施形態のシステム構成の一例を示す図である。
【発明を実施するための形態】
【0008】
(第一の実施形態)
以下に図面を参照して、第一の実施形態について説明する。図1は、第一の実施形態の情報処理システムの一例を示す図である。
【0009】
本実施形態の情報処理システム100は、情報処理装置200と、端末装置300とを含み、情報処理装置200と端末装置300とは、ネットワーク等を介して接続されている。
【0010】
本実施形態の情報処理システム100において、情報処理装置200は、音声認識処理部220を有する。つまり、本実施形態の情報処理システム100は、音声認識システムの一例である。
【0011】
情報処理装置200は、端末装置300から、音声データを含む映像データの入力を受け付けると、音声認識処理部220により、映像データから、発話が行われた状況に対応した話者の発話の仕方を推定する。
【0012】
そして、情報処理装置200は、推定された発話の仕方と対応した言語モデルを用いて、映像データに含まれる音声データに対する音声認識を行い、音声認識の結果であるテキストデータを出力する。テキストデータは、例えば、端末装置300に対して出力されて、端末装置300において表示されてもよい。
【0013】
話者の発話の仕方とは、言い換えれば、話者の発話における言葉遣いや話し方を含む発話の様態である。以下の説明では、話者の発話の様態を、話者の発話スタイルと表現する場合がある。
【0014】
本実施形態における、発話が行われた状況とは、具体的には、例えば、話者が紙面に印刷された文章やディスプレイに表示された文章を読み上げている状況、仲の良い複数の話者が会話を楽しんでいる状況、複数の話者の関係が上司と部下であり部下が上司に対して報告を行っている状況や、互いに初対面である状況等を含む。
【0015】
また、話者の発話スタイルには、例えば、書き言葉による発話、話し言葉による発話、くだけた話し言葉による発話などがある。
【0016】
書き言葉とは、文章を書く際に使われる言葉である。話し言葉とは、会話で使う言葉であり、くだけた話し言葉よりも丁寧な表現を用いた言葉である。くだけた話し言葉とは、親しみやすい言葉や日常会話的な言葉である。
【0017】
例えば、発話の状況が、文章を読み上げている状況である場合、話者の発話スタイルは、文章を書く際に使われる書き言葉になる可能性が高い。また、発話の状況が、話者同士が親しい間柄という状況である場合、話者の発話スタイルは、くだけた話し言葉になる可能性が高い。また、発話の状況が、話者同士が初対面という状況である場合、話者の発話スタイルは、話し言葉になる可能性が高い。
【0018】
本実施形態の情報処理装置200は、例えば、映像データが示す発話の状況から、話者の発話スタイルが書き言葉を用いた発話である可能性が高いと推定された場合、書き言葉と対応する言語モデルを用いた音声認識を行う。
【0019】
本実施形態の端末装置300は、例えば、音声データを含む映像データを情報処理装置200に送信するものであり、スマートフォンやタブレット端末等であってよい。また、端末装置300は、例えば、映像データを取得する撮像装置であってもよいし、撮像装置そのものであってもよい。
【0020】
また、本実施形態の端末装置300は、全天球型の撮像装置であってもよく、例えば、会話の場の中心に設置されてもよい。このように、全天球型の撮像装置を端末装置300とすることで、会話に参加している話者全員の映像データを撮像することができる。
【0021】
このように、本実施形態の情報処理装置200では、映像データが示す発話の状況から、話者の発話スタイルを推定し、発話スタイルに応じた言語モデルを用いて音声認識を行う。また、本実施形態の情報処理装置200は、音声認識の対象となる発話の前後の状況等を考慮した時系列の情報である映像データを用いて、音声認識を行う。
【0022】
このため、例えば、本実施形態では、同一の人物が、異なる状況で発話を行っていた場合等であっても、発話が行われた状況に適した言語モデルで音声認識を行うことができ、音声認識の精度を向上させることができる。
【0023】
なお、図1の例では、情報処理システム100に含まれる端末装置300を1台としているが、これに限定されない。情報処理システム100は、端末装置300が複数有し、音声データを情報処理装置200に送信する端末装置300と、情報処理装置200から出力されたテキストデータを受信する端末装置300と、をそれぞれ別々の端末装置としてもよい。
【0024】
また、本実施形態では、端末装置300から音声データを受信し、情報処理装置200の有する表示装置にテキストデータを出力してもよい。また、本実施形態では、情報処理装置200に対して直接音声データし、テキストデータを端末装置300に出力してもよい。また、本実施形態では、情報処理装置200に対して直接音声データを入力し、テキストデータを情報処理装置200の有する表示装置に出力してもよい。
【0025】
また、図1の例では、情報処理装置200が音声認識処理部220を有するものとしたが、これに限定されない。音声認識処理部220は、複数の情報処理装置200で実現されてもよい。
【0026】
次に、図2図3を参照して、情報処理装置200と端末装置300のハードウェア構成について説明する。図2は、情報処理装置のハードウェア構成の一例を示す図である。
【0027】
情報処理装置200は、コンピュータによって構築されており、図2に示されているように、CPU201、ROM202、RAM203、HD204、HDD(Hard Disk Drive)コントローラ205、ディスプレイ206、外部機器接続I/F(Interface)208、ネットワークI/F209、バスラインB1、キーボード211、ポインティングデバイス212、DVD-RW(Digital Versatile Disk Rewritable)ドライブ214、メディアI/F216を備えている。
【0028】
これらのうち、CPU201は、情報処理装置200全体の動作を制御する。ROM202は、IPL等のCPU201の駆動に用いられるプログラムを記憶する。RAM203は、CPU201のワークエリアとして使用される。HD204は、プログラム等の各種データを記憶する。HDDコントローラ205は、CPU201の制御にしたがってHD204に対する各種データの読み出し又は書き込みを制御する。
【0029】
ディスプレイ(表示装置)206は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F208は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F209は、通信ネットワークを利用してデータ通信をするためのインターフェースである。バスラインB1は、図2に示されているCPU201等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0030】
また、キーボード211は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス212は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ214は、着脱可能な記録媒体の一例としてのDVD-RW213に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F216は、フラッシュメモリ等の記録メディア215に対するデータの読み出し又は書き込み(記憶)を制御する。
【0031】
図3は、端末装置のハードウェア構成の一例を示す図である。本実施形態の端末装置300は、CPU301、ROM302、RAM303、EEPROM304、CMOSセンサ305、撮像素子I/F306、加速度・方位センサ307、メディアI/F309、GPS受信部311を備えている。
【0032】
これらのうち、CPU301は、端末装置300全体の動作を制御する演算処理装置である。ROM302は、CPU301やIPL等のCPU301の駆動に用いられるプログラムを記憶する。RAM303は、CPU301のワークエリアとして使用される。EEPROM304は、CPU301の制御にしたがって、スマートフォン用プログラム等の各種データの読み出し又は書き込みを行う。ROM302、RAM303、EEPROM304は、端末装置300の記憶装置の一例である。
【0033】
CMOS(Complementary Metal Oxide Semiconductor)センサ305は、CPU301の制御に従って被写体(主に自画像)を撮像して動画データを得る内蔵型の撮像手段の一種である。なお、CMOSセンサではなく、CCD(Charge Coupled Device)センサ等の撮像手段であってもよい。
【0034】
撮像素子I/F306は、CMOSセンサ305の駆動を制御する回路である。加速度・方位センサ307は、地磁気を検知する電子磁気コンパスやジャイロコンパス、加速度センサ等の各種センサである。メディアI/F309は、フラッシュメモリ等の記録メディア308に対するデータの読み出し又は書き込み(記憶)を制御する。GPS受信部311は、GPS衛星からGPS信号を受信する。
【0035】
また、端末装置300は、遠距離通信回路312、遠距離通信回路312のアンテナ312a、CMOSセンサ313、撮像素子I/F314、マイク(集音装置)315、スピーカ316、音入出力I/F317、ディスプレイ(表示装置)318、外部機器接続I/F(Interface)319、近距離通信回路320、近距離通信回路320のアンテナ320a、及びタッチパネル321を備えている。
【0036】
これらのうち、遠距離通信回路312は、通信ネットワークを介して、他の機器と通信する回路である。CMOSセンサ313は、CPU301の制御に従って被写体を撮像して動画データを得る内蔵型の撮像手段の一種である。撮像素子I/F314は、CMOSセンサ313の駆動を制御する回路である。マイク315は、音を電気信号に変える内蔵型の回路である。スピーカ316は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力I/F317は、CPU301の制御に従ってマイク315及びスピーカ316との間で音信号の入出力を処理する回路である。
なお、CMOSセンサ305、CMOSセンサ313は、何れか一方がディスプレイ318の近傍に配置され、他方が端末装置300の背面に配置されてもよい。
【0037】
ディスプレイ318は、被写体の画像や各種アイコン等を表示する液晶や有機EL(Electro Luminescence)などの表示手段の一種である。外部機器接続I/F319は、各種の外部機器を接続するためのインターフェースである。近距離通信回路320は、NFC(Near Field Communication)やBluetooth(登録商標)等の通信回路である。タッチパネル321は、利用者がディスプレイ318を押下することで、端末装置300を操作する入力手段の一種である。ディスプレイ318は、端末装置300の有する表示部の一例である。
【0038】
なお、本実施形態では、端末装置300は、スマートフォンやタブレット端末としたが、これに限定されない。端末装置300は、図2に示す情報処理装置200と同様のハードウェア構成を有する一般的なコンピュータであってもよい。
【0039】
次に、図4を参照して、本実施形態の情報処理装置200の機能について説明する。図4は、第一の実施形態の情報処理装置の機能を説明する図である。
【0040】
本実施形態の情報処理装置200は、音声認識処理部220、入力受付部230、発話区間検出部231、音声取得部232、発話スタイル推定部233を有する。
【0041】
また、音声認識処理部220は、音声認識部221、言語モデル提供部222、言語モデル記憶部223、出力テキスト生成部224を含む。
【0042】
言語モデル記憶部223は、複数の言語モデルが格納されている。具体的には、言語モデル記憶部223には、第一の言語モデル241、第二の言語モデル242、第三の言語モデル243が格納されている。
【0043】
第一の言語モデル241は、書き言葉に対応した言語モデルであり、第二の言語モデル242は、話し言葉に対応した言語モデルであり、第三の言語モデル243は、くだけた話し言葉に対応した言語モデルである。
【0044】
本実施形態の第一の言語モデル241、第二の言語モデル242、第三の言語モデル243のそれぞれは、音声認識部221が出力する音声認識の結果を入力とし、次に現れる音素、もしくは文字、もしくは音声認識部221の処理単位毎の単語の出現確率を言語モデル提供部222に対して出力する。
【0045】
入力受付部230は、外部から送信される映像データの入力を受け付ける。なお、本実施形態の映像データは、音声データと動画データとを含む。
【0046】
発話区間検出部231は、入力された映像データに含まれる音声データに基づき、映像データにおいて、発話が行われている区間を検出する。また、発話区間検出部231は、検出した発話区間毎の音声データを音声取得部232に出力し、動画データを発話スタイル推定部233に出力する。
【0047】
音声取得部232は、発話区間検出部231から出力された音声データを取得し、音声データから音声特徴量を抽出して、音声認識処理部220の音声認識部221に対して出力する。つまり、音声取得部232は、発話区間とされた所定期間において取得された音声データを音声認識部221に対して出力する。
【0048】
音声特徴量としてはMFCCが知られているが、LPC(Linear Predictive Coding)、FBANK(Log Mel-Filterbank Coefficients)等を使用してよい。
【0049】
発話スタイル推定部233は、発話区間検出部231から出力された動画データから、話者による発話が行われた状況を判別し、発話の状況に基づき話者の発話スタイルを推定する。そして、発話スタイル推定部233は、推定結果を示す発話スタイル推定情報を生成し、音声認識処理部220の言語モデル提供部222に対し、発話スタイル推定情報を出力する。つまり、発話スタイル推定部233は、発話区間とされた所定期間毎に、発話スタイル推定情報を生成し、言語モデル提供部222に対して出力する。発話スタイル推定情報の詳細は後述する。
【0050】
音声認識部221は、音声取得部232から入力された音声特徴量と、言語モデル提供部222によって選択された言語モデルとに基づき、音声認識を行い、認識結果を出力する。具体的には、音声認識部221は、発話区間毎に、音声認識を行った結果であるテキストデータを、出力テキスト生成部224と、言語モデル記憶部223に格納された各言語モデルとに対し、順次出力する。
【0051】
本実施形態の音声認識部221における音声認識の処理単位は、音素、文字、単語等であってよい。また、音声認識部221における音声認識の処理単位と、言語モデル記憶部223に格納された第一の言語モデル241、第二の言語モデル242、第三の言語モデル243の処理単位は同じものである。
言語モデル提供部222は、発話スタイル推定部233から入力された発話スタイル推定情報に基づき、言語モデル記憶部223に格納された複数の言語モデルから、話者の発話スタイルと対応する言語モデルを選択する。そして、言語モデル提供部222は、音声認識部221に選択した言語モデルを提供する。
【0052】
なお、本実施形態では、言語モデル提供部222に対して、言語モデル選択信号を入力することで、予め提供する言語モデルを特定しておくことができる。具体的には、例えば、映像データに登場する話者の発話スタイルが予め特定されている場合等には、事前に言語モデル選択信号によって、音声認識部221に提供する言語モデルを特定しておいてもよい。言語モデル選択信号は、例えば、情報処理システム100の利用者等によって予め入力されていてもよい。
【0053】
このようにすることで、発話スタイル推定部233の推定結果に影響されることなく、特定された言語モデルを用いた音声認識を行うことができる。
【0054】
出力テキスト生成部224は、音声認識部221から出力される音素、文字、単語といった、処理単位の音声認識の結果であるテキストデータを時系列につなげて、出力用テキストデータを生成する。そして、出力テキスト生成部224は、生成した出力用テキストデータを端末装置300に対して出力する。
【0055】
ここで、発話スタイル推定部233について説明する。本実施形態の発話スタイル推定部233は、動画データを入力データとし、動画中の話者の発話スタイル(話者の発話における言葉遣い)を正解データとする学習データのペアにより事前に機械学習されたものである。
【0056】
言い換えれば、本実施形態の発話スタイル推定部233は、動画データを入力データとし、複数の発話スタイルについて、各発話スタイルが動画中の話者の発話スタイルと合致する確率を含む発話スタイル推定情報を出力データとする学習済みのモデルである。
【0057】
本実施形態において、例えば、学習データに含まれる入力データを、発表者が発表資料が投影されたスクリーンを用いたプレゼンテーションを多数の聴講者に対して行っている様子を撮像した映像データとする。この場合、映像データのうち、発表者が聴講者に向かって話している時間帯の映像データ(入力データ)に対する正解データは、話し言葉の発話スタイルとなる。また、映像データのうち、発表者がスクリーンや手元の資料を読み上げている時間帯の映像データに対する正解データは、書き言葉の発話スタイルとなる。また、映像データのうち、聴講者の中の一人が立ち上がり発話している時間帯の映像データに対する正解データは、話し言葉の発話スタイルとなる。
【0058】
また、本実施形態において、例えば、学習データに含まれる入力データを、会議室等において少人数が参加している会議の様子を撮像した映像データとする。この場合、映像データのうち、発話者が資料を読み上げている時間帯の映像データに対する正解データは、書き言葉の発話スタイルとなり、畏まった雰囲気の時間帯の映像データに対する正解データは、話し言葉の発話スタイルとなる。また、映像データのうち、同僚と気軽な雰囲気で会話をしている時間帯の映像データと対応する正解データは、くだけた話し言葉の発話スタイルとなる。
【0059】
また、会議の参加者に上長が含まれる場合には、会議を撮像した映像データのうち、上長が発言している時間帯の映像データと対応する正解データは、くだけた話し言葉の発話スタイルなる。また、上長以外の参加者が上長に対して発話している時間帯の映像データと対応する正解データは、話し言葉の発話スタイルとなる。
【0060】
また、本実施形態では、入力データとなる映像データに登場する話者が限定的である場合、例えば、ある会社のある部署メンバーのみ)、メンバー個々を認識し、各人の発話のくせや人間関係も含めた学習がなされてもよい。このように発話スタイル推定部233を学習すれば、話者の発話スタイルの推定精度を向上させることができる。
【0061】
次に、本実施形態の発話スタイル推定情報について説明する。
【0062】
本実施形態の発話スタイル推定情報は、複数の発話スタイル毎の確率を示す情報を含む。具体的には、例えば、発話スタイル推定情報は、入力された映像データに対して、書き言葉を用いた発話スタイル(第一の発話スタイル)となる確率と、話し言葉を用いた発話スタイル(第二の発話スタイル)となる確率と、くだけた話し言葉を用いた発話スタイル(第三の発話スタイル)となる確率とを含む。
【0063】
なお、発話スタイル毎の確率とは、複数の発話スタイルと、動画における話者の発話スタイルと合致する確率である。複数の発話スタイルは、予め決められていてもよい。
【0064】
発話スタイル推定情報の一例としては、例えば、「第一の発話スタイルの確率が5%、第二の発話スタイルの確率が70%、第三の発話スタイルの確率が25%」等がある。この場合、動画における話者の発話スタイルが、話し言葉を用いた発話スタイル(第二の発話スタイル)である可能性が最も高いことがわかる。
【0065】
なお、図4の例では、情報処理装置200に、入力受付部230、発話区間検出部231、音声取得部232、音声認識処理部220が設けられるものとしたが、これに限定されない。こられの各部の一部又は全部は、情報処理装置200と通信が可能な情報処理装置200以外の装置に設けられていてもよい。言い換えれば、情報処理装置200は、複数の情報処理装置によって実現されてもよい。
【0066】
次に、図5を参照して、端末装置300の機能構成について説明する。図5は、第一の実施形態の端末装置の機能構成を説明する図である。
【0067】
本実施形態の端末装置300は、映像データ取得部330、出力部340、通信部350を含む。
【0068】
映像データ取得部330は、映像データを取得する。具体的には、映像データ取得部330は、端末装置300が有する撮像装置等によって撮像された映像データを取得する。
【0069】
出力部340は、端末装置300からの各種の情報の出力を行う。具体的には、出力部340は、ディスプレイ318に、情報処理装置200から受信したテキストデータを表示させる。
【0070】
通信部350は、端末装置300と情報処理装置200との通信を制御する。具体的には、通信部350は、端末装置300から情報処理装置200へ、映像データを送信し、情報処理装置200からテキストデータを受信する。
【0071】
次に、図6を参照して、本実施形態の情報処理装置200の処理について説明する。図6は、第一の実施形態の情報処理装置の処理を説明するフローチャートである。
【0072】
本実施形態の情報処理装置200は、入力受付部230により、端末装置300から映像データの入力を受け付ける(ステップS601)。続いて、情報処理装置200は、発話区間検出部231により、映像データから発話区間を検出する(ステップS602)。
【0073】
具体的には、例えば、発話区間検出部231は、あるタイミングからあるタイミングまでの第一の期間を第一の話者の発話区間として検出し、第一の期間に続く第二の期間を第二の話者の発話区間として検出する。
【0074】
続いて、情報処理装置200は、発話区間検出部231により、映像データから音声データと動画データとを抽出し、音声データを音声認識部221へ出力し、動画データを発話スタイル推定部233に出力する(ステップS603)。
【0075】
情報処理装置200は、ステップS603に続いて、音声認識部221により、音声データから音声特徴量を抽出し(ステップS604)、後述するステップS607へ進む。
【0076】
また、情報処理装置200は、ステップS603に続いて、動画データを発話スタイル推定部233へ入力し、発話スタイル推定情報を取得する(ステップS605)。
【0077】
続いて、情報処理装置200は、発話スタイル推定情報を言語モデル提供部222へ入力し、言語モデル記憶部223に格納された言語モデルから、音声認識部221に提供する言語モデルを選択し、音声認識部221へ提供する(ステップS606)。
【0078】
具体的には、言語モデル提供部222は、発話スタイル推定情報に含まれる言語モデル毎の確率を参照し、言語モデル記憶部223に格納された言語モデルのうち、確率が最も高い言語モデルを選択し、音声認識部221に提供する。
【0079】
続いて、情報処理装置200は、通知された言語モデルと、音声特徴量とに基づき、音声認識部221で処理単位で音声認識を行い、処理単位のテキストデータを出力テキスト生成部224に対して出力する(ステップS607)。
【0080】
続いて、情報処理装置200は、出力テキスト生成部224により、処理単位のテキストデータをまとめた出力用テキストデータを生成し、端末装置300に出力する(ステップS608)。
【0081】
本実施形態では、このように、話者を撮像した動画データに基づき、話者の発話の状況に応じた発話スタイルを推定し、推定された発話スタイルと対応する言語モデルを選択して音声認識に用いる。
【0082】
したがって、本実施形態によれば、音声認識の対象となる発話の前後の状況等を考慮した時系列の情報(映像データ)に基づき、話者の発話スタイルを推定することができる。したがって、話者が発話を行った状況に応じた発話スタイルを音声認識に用いることができ、音声認識の精度を向上させることができる。
【0083】
以下に、図7及び図8を参照して、本実施形態の情報処理装置200の処理について、具体的に説明する。図7は、第一の実施形態の情報処理装置の処理を説明する第一の図である。
【0084】
図7において、入力受付部230が受け付けた映像データG1は、比較的親しい関係にある2人の人物P1と人物P2とが飲食をしながら会話を楽しんでいる状態を撮像したものである。
【0085】
発話区間検出部231は、この映像データG1から、人物P1の発話区間と、人物P2の発話区間とを検出し、検出された区間の音声データを音声取得部232に出力し、動画データを発話スタイル推定部233に出力する。
【0086】
発話スタイル推定部233は、話者が人物P1である発話区間の動画データが入力されると、発話区間における発話スタイル推定情報を出力する。
【0087】
図7の例では、人物P1と人物P2とは、比較的親しい関係である。このため、発話スタイル推定部233は、第三の言語モデル243となる確率が最も高く、次に第二の言語モデル242となる確率が高く、第一の言語モデル241となる確率が最も低くなる発話スタイル推定情報を生成し、言語モデル提供部222に出力する。
【0088】
言語モデル提供部222は、この発話スタイル推定情報が入力されると、最も確率の高い第三の言語モデル243を音声認識部221に提供する。
【0089】
音声認識部221は、人物P1の音声データの音声特徴量と、第三の言語モデル243とに基づき、音声認識を行った結果のテキストデータを出力する。
【0090】
次に、発話スタイル推定部233は、話者が人物P2である発話区間の動画データが入力されると、発話区間における発話スタイル推定情報を出力する。このとき、発話スタイル推定部233は、人物P1のときと同様に、第三の言語モデル243となる確率が最も高く、次に第二の言語モデル242となる確率が高く、第一の言語モデル241となる確率が最も低くなる発話スタイル推定情報を生成し、言語モデル提供部222に出力する。
【0091】
言語モデル提供部222は、この発話スタイル推定情報が入力されると、最も確率の高い第三の言語モデル243を音声認識部221に提供する。
【0092】
音声認識部221は、人物P2の音声データの音声特徴量と、第三の言語モデル243とに基づき、音声認識を行った結果のテキストデータを出力する。
【0093】
続いて、情報処理装置200は、2つのテキストデータをまとめた出力用テキストデータを生成し、端末装置300に表示させる。
【0094】
図7に示す画面71は、端末装置300に出力用テキストデータが表示された画面の例である。
【0095】
画面71は、表示領域72、73を含む。表示領域72には、人物P1の音声データに第三の言語モデル243を用いて音声認識を行った結果であるテキストデータT1が表示されている。また、表示領域73には、人物P2の音声データに対して第三の言語モデル243を用いて音声認識を行った結果であるテキストデータT2が表示されている。
【0096】
つまり、本実施形態では、画面71に、音声認識を行った結果のテキストデータが、話者毎に表示されている。
【0097】
画面71において、テキストデータT1は、「このお菓子、おいしいね」であり、くだけた話し言葉となっている。また、画面71において、テキストデータT2は、「やっぱりおいしいよね」であり、くだけた話し言葉となっている。
【0098】
図8は、第一の実施形態の情報処理装置の処理を説明する第二の図である。図8において、入力受付部230が受け付けた映像データG2は、人物P3が、ディスプレイ85に表示された資料を表示させて、プレゼンテーションを行っている状態を撮像したものである。
【0099】
発話区間検出部231は、この映像データG2から、人物P3の発話区間を検出し、検出された区間の音声データを音声取得部232に出力し、動画データを発話スタイル推定部233に出力する。
【0100】
発話スタイル推定部233は、話者が人物P3である発話区間の動画データが入力されると、発話区間における発話スタイル推定情報を出力する。
【0101】
図8の例では、人物P3は、ディスプレイ85に表示された文章を読んでいる状態である。このため、発話スタイル推定部233は、第一の言語モデル241となる確率が最も高く、次に第二の言語モデル242となる確率が高く、第三の言語モデル243となる確率が最も低くなる発話スタイル推定情報を生成し、言語モデル提供部222に出力する。
【0102】
言語モデル提供部222は、この発話スタイル推定情報が入力されると、最も確率の高い第一の言語モデル241を音声認識部221に提供する。
【0103】
音声認識部221は、人物P3の音声データの音声特徴量と、第一の言語モデル241とに基づき、音声認識を行った結果のテキストデータを出力する。
【0104】
図8に示す画面81は、端末装置300に出力用テキストデータが表示された画面の例である。
【0105】
画面81には、人物P3の音声データに対して、第一の言語モデルを用いて音声認識を行った結果であるテキストデータT3が表示される。
【0106】
画面81において、テキストデータT3は、「この場合、このような結果になります。」であり、書き言葉となっている。
【0107】
このように、本実施形態では、話者が発話をしている状況を撮像した映像データ(動画データ)に基づき、話者の発話における言葉遣いや話し方を示す発話スタイルを推定し、発話スタイルに応じた言語モデルを用いて音声認識を行う。
【0108】
したがって、例えば、図7の人物P1と図8の人物P3とが同一人物であったとしても、発話が行われた状況に応じた発話スタイルに応じた言語モデルを用いて、音声認識を行うことができ、音声認識の精度を向上させることができる。
【0109】
また、本実施形態では、例えば、音声認識を行った結果であるテキストデータを表示させる際に、音声認識に用いた言語モデルと対応する発話スタイルを端末装置300に表示させてもよい。
【0110】
具体的には、例えば、図7に示す画面71では、テキストデータT1、T2と対応付けて、「くだけた話し言葉と対応した言語モデルを用いました」等という情報を表示させてもよい。
【0111】
このような情報を表示させることで、画面71を閲覧しているユーザに対して、発話スタイルの推定結果を提示することができる。
【0112】
また、本実施形態では、発話スタイル推定部233は、複数の発話スタイル毎の確率を含む情報を発話スタイル推定情報として出力するものとしたが、これに限定されない。発話スタイル推定部233は、例えば、最も確率の高い発話スタイルのみを発話スタイル推定情報として出力してもよい。
【0113】
(第二の実施形態)
以下に、図面を参照して第二の実施形態について説明する。第二の実施形態は、発話スタイル推定情報と、言語モデル記憶部223に格納された複数の言語モデルとを用いて、音声認識部221に提供する言語モデルを生成する点が、第一の実施形態と相違する。以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態の同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の部号を付与し、その説明を省略する。
【0114】
図9は、第二の実施形態の情報処理装置の処理を説明するフローチャートである。図9のステップS901からステップS905の処理は、図6のステップS601からステップS605の処理と同様であるから、説明を省略する。
【0115】
図9のステップS904に続いて、情報処理装置200は、言語モデル提供部222により、発話スタイル推定部233から出力された発話スタイル推定情報に基づき、音声認識部221に提供する言語モデルを生成する(ステップS906)。
【0116】
以下に、本実施形態の言語モデル提供部222の処理について説明する。
【0117】
本実施形態の言語モデル提供部222は、発話スタイル推定情報の入力を受け付けて、発話スタイル推定情報に含まれる各発話スタイルの確率と、各発話スタイルと対応する言語モデルとを用いて新たな言語モデルを生成し、音声認識部221へ提供する。
【0118】
具体的には、例えば、言語モデル提供部222に対し、発話区間の発話スタイルが、書き言葉を用いた発話スタイル(第一の発話スタイル)である確率が5%、話し言葉を用いた発話スタイル(第二の発話スタイル)である確率が70%、くだけた話し言葉を用いた発話スタイル(第三の発話スタイル)である確率が25%であることを示す発話スタイル推定情報が入力されたとする。
【0119】
この場合において、例えば、第一の言語モデル241に対して、音声認識部221の処理単位の単語の音声認識の結果であるテキストデータが入力された場合に、次の処理単位に単語Aが出現する出現確率が5%であったとする。また、同様に、このテキストデータが第二の言語モデル242に対して入力された場合に、次の処理単位に単語Aが出現する出現確率が10%であり、このテキストデータが第三の言語モデル243に対して入力された場合に、次の処理単位に単語Aが出現する出現確率が20%であったとする。
【0120】
この場合、本実施形態の言語モデル提供部222は、発話スタイル推定情報に含まれる各発話スタイルの確率と、各発話スタイルと対応する言語モデルにおける単語Aの出現確率とを乗算した結果を加算する。そして、言語モデル提供部222は、次の処理単位に単語Aが出現する出現確率が、演算した結果の値となるような言語モデルを生成し、音声認識部221に提供する。
【0121】
この場合、言語モデル提供部222は、次の処理単位に単語Aが出現する出現確率が、
第一の発話スタイルである確率5%×第一の言語モデル241での出現確率5%+
第二の発話スタイルである確率70%×第二の言語モデル242での出現確率10%+
第三の発話スタイルである確率25%×第三の言語モデル243での出現確率20%
=12.25%
となるような言語モデルを生成し、音声認識部221に提供する。
【0122】
本実施形態の情報処理装置200は、ステップS906に続いて、ステップS907へ進む。ステップS907とステップS908は、図6のステップS607とステップS608と同様であるから、説明を省略する。
【0123】
本実施形態では、このように、発話スタイル推定情報に含まれる各発話スタイルの確率と、各言語モデルにおける処理単位の単語の出現確率とに基づいて生成した言語モデルを音声認識に用いる。このため、本実施形態では、発話スタイル推定部233による推定結果に誤りがあった場合であっても、誤りによる影響を抑えることができる。
【0124】
また、本実施形態では、例えば、各発話スタイルと対応した言語モデル毎の単語の出現確率が反映された言語モデルを用いて音声認識を行う。このため、本実施形態では、発話スタイル推定情報に含まれる複数の発話スタイルの確率のそれぞれが近い値であり、発話スタイルの推定が困難な場合等であっても、音声認識の精度を向上させることができる。
【0125】
(第三の実施形態)
以下に、図面を参照して第三の実施形態について説明する。第三の実施形態は、情報処理装置に対する設定に応じて、言語モデルを選択するか、又は、言語モデルを生成する点が、第一の実施形態と相違する。以下の第三の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態の同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の部号を付与し、その説明を省略する。
【0126】
本実施形態の情報処理装置200は、言語モデル提供部222に対し、言語モデル記憶部223に格納された言語モデルを発話スタイル推定情報の推定結果に応じて選択するか、又は、新たに言語モデルを生成するか、設定することができる。
【0127】
本実施形態の言語モデル提供部222は、発話スタイル推定部233から発話スタイル推定情報が入力されると、設定に応じて言語モデルの選択、又は、言語モデルの生成を行う。また、本実施形態の言語モデル提供部222は、言語モデルの選択も言語モデル生成も設定されていない場合には、言語モデル選択信号によって指定された言語モデルを音声認識部221に提供する。
【0128】
図10は、第三の実施形態の情報処理装置の処理を説明するフローチャートである。図10のステップS1001からステップS1003の処理は、図6のステップS601からステップS603の処理と同様であるから、説明を省略する。
【0129】
本実施形態の情報処理装置200において、言語モデル提供部222は、発話スタイル推定情報が入力されると、言語モデルを選択する設定が行われているか否かを判定する(ステップS1004)。
【0130】
ステップS1004において、言語モデルを選択する設定が行われている場合、情報処理装置200は、図6のステップS604、605へ進む。
【0131】
ステップS1004において、言語モデルを選択する設定が行われておらず、言語モデルを生成する設定が行われていた場合、情報処理装置200は、図9のステップS904、905へ進む。
【0132】
ステップS1005において、言語モデルを生成する設定が行われていない場合、音声認識処理部220は、言語モデル選択信号に応じて、言語モデル記憶部223に格納されている複数の言語モデルから、言語モデルを選択する(ステップS1006)。
【0133】
続いて、情報処理装置200は、音声取得部232により、発話区間検出部231から出力された音声データの音声特徴量を抽出し(ステップS1007)、ステップS1008へ進む。
【0134】
図10のステップS1008とステップS1009の処理は、図6のステップS607とステップS608の処理と同様であるから、説明を省略する。
【0135】
このように、本実施形態では、言語モデルを発話スタイル推定情報に含まれる各発話スタイルの確率に応じて選択するか、又は、言語モデルを発話スタイル推定情報を用いて新たに生成するか、設定することができる。
【0136】
また、本実施形態では、例えば、発話スタイル推定情報に含まれる各発話スタイルの確率に対して所定の閾値を設定してもよい。そして、本実施形態では、発話スタイル推定情報に含まれる各発話スタイルの確率と、所定の閾値との関係に応じて、言語モデルを選択する設定が行われているか否かを判定してもよい。
【0137】
具体的には、本実施形態では、発話スタイル推定情報に含まれる各発話スタイルの確率のうち、最も高い値が所定の閾値以上である場合に、言語モデルを選択する設定が行われているものと判定してもよい。
【0138】
言い換えれば、本実施形態では、発話スタイル推定情報に含まれる各発話スタイルの確率のうち、最も高い値が所定の閾値未満である場合は、新たな言語モデルを生成する。所定の閾値は、例えば、50%としてもよい。
【0139】
本実施形態では、このようにすることで、発話スタイル推定情報に含まれる各発話スタイルの確率が、それぞれ近い値である場合には、各発話スタイルに応じた言語モデルにおける単語の出現確率を反映させた言語モデルを音声認識に用いることができる。したがって、本実施形態によれば、音声認識の精度を向上させることができる。
【0140】
(第四の実施形態)
以下に、図面を参照して、第四の実施形態について説明する。第四の実施形態では、第一乃至第三の実施形態の情報処理システムの具体的な利用シーンの一例を示している。
【0141】
図11は、第四の実施形態のシステム構成の一例を示す図である。図11では、第一乃至第三の実施形態のいずれか一つを、遠隔会議システムに利用した場合を示している。
【0142】
本実施形態の遠隔会議システム100Aは、情報処理装置200、半天球型撮像装置400、電子黒板500を含み、それぞれがネットワークを介して接続されている。
【0143】
本実施形態では、半天球型撮像装置400と、電子黒板500とは、それぞれが、地理的に離れた場所に設置されていてもよい。具体的には、例えば、半天球型撮像装置400は、A県A市に所在する事業所の会議室に設置されており、電子黒板500は、B県B市に所在する事業所の会議室に設置されていてもよい。
【0144】
半天球型撮像装置400は、会議室内の半天球画像データを撮像する。また、半天球型撮像装置400は、集音装置を有しており、会議室内で行われた発話の音声データを取得する。また、半天球型撮像装置400は、半天球画像データと音声データとを含む映像データを情報処理装置200へ送信する通信装置とを含んでもよい。
【0145】
電子黒板500は、例えば、タッチパネル付大型ディスプレイを有し、ユーザが指示した盤面の座標を検出し座標を接続してストロークを表示するものであり、表示装置の一例である。なお、電子黒板500は、電子情報ボード、電子ホワイトボードと呼ばれる場合もある。
【0146】
本実施形態の情報処理装置200は、音声認識処理部220を有し、例えば、半天球型撮像装置400が設置された会議室で取得された映像データに基づき、会議に参加していた話者毎の発話をテキストデータに変換して電子黒板500に表示させる。なお、電子黒板500には、テキストデータと共に、半天球型撮像装置400が取得した映像データが表示されてもよい。
【0147】
本実施形態では、このように情報処理装置200を用いることで、例えば、立場の異なる複数の人物が発話している会議等において、発話した人物の立場に応じた発話スタイルと対応する言語モデルを用いて音声認識を行うことができる。
【0148】
したがって、本実施形態によれば、例えば、電子黒板500において、音声認識の結果であるテキストデータのみが表示された場合であっても、テキストデータに話者毎の発話スタイルが反映される。このため、本実施形態では、例えば、電子黒板500の閲覧者に対して、話者の立場や、人間関係を把握させることができる。
【0149】
なお、図11では、映像データを半天球型撮像装置400により撮像するものとしたが、これに限定されない。映像データは、一般的な撮像装置や、全天球型撮像装置等によって取得されてもよい。
【0150】
(第五の実施形態)
以下に、図面を参照して、第五の実施形態について説明する。第五の実施形態では、第一乃至第三の実施形態の情報処理システムの具体的な利用シーンの一例を示している。
【0151】
図12は、第五の実施形態のシステム構成の一例を示す図である。図12では、第一乃至第三の実施形態の何れか一つを、カウンセリング支援システムに利用した場合を示している。
【0152】
本実施形態のカウンセリング支援システム100Bは、例えば、臨床心理士等のカウンセラによるカウンセリングが行われる場所に導入されてもよい。本実施形態のカウンセリング支援システム100Bは、情報処理装置200、撮像装置700、端末装置800を含み、それぞれがネットワークを介して接続されている。
【0153】
撮像装置700は、例えば、カウンセリングが行われるカウンセリングルーム等に設定されてもよく、カウンセリングを受ける人物を含む映像データを取得する。言い換えれば、撮像装置700は、カウンセリングを受けている人物の動画と音声を含む映像データを取得する。そして、撮像装置700は、取得した映像データを情報処理装置200へ送信する。以下の説明では、カウンセリングを受けている人物を相談者と表現する場合がある。
【0154】
なお、撮像装置700により取得される映像データには、カウンセラの画像やカウンセラの発話を示す音声データが含まれてもよい。
【0155】
本実施形態の端末装置800は、例えば、カウンセラが所持している端末装置であってよい。端末装置800は、例えば、タブレット型の端末装置であってもよくもディスプレイを有するものである。
【0156】
情報処理装置200は、撮像装置700から取得した映像データを取得すると、カウンセリング中の相談者の画像から、相談者の発話スタイルを推定し、相談者の音声データをテキストデータに変換する。そして、情報処理装置200は、端末装置800からの映像データの再生要求等を受け付けた場合に、映像データに、テキストデータを重ねて、端末装置800に表示させる。
【0157】
カウンセリング中における相談者の発話スタイルには、相談者の心理状態が反映される可能性が高い。例えば、相談者の音声データから変換されたテキストデータが、書き言葉である場合には、相談者は緊張した状態であることがわかる。また、例えば、相談者の音声データから変換されたテキストデータが、話し言葉である場合には、相談者は比較的リラックスした状態であることがわかる。
【0158】
また、例えば、相談者の音声データから変換されたテキストデータが、話し言葉から書き言葉に変化した場合には、カウンセリングでの話題が、相談者を緊張させるような話題に変化したことがわかる。
【0159】
本実施形態では、カウンセリング中の相談者の音声データを、相談者の発話スタイルに応じたテキストデータに変換して、カウンセラに提示することで、カウンセラによる、相談者の心理状態の把握を支援することができる。また、本実施形態では、カウンセリング中の相談者の心理状態をカウンセラに把握させることで、カウンセラに対して、適切な話題の選択等が行われていたかを学習させることができる。
【0160】
なお、本実施形態では、カウンセリング支援システム100Bを、臨床心理士等によるカウンセリングに適用したものとしたが、これに限定されない。カウンセリング支援システム100Bは、例えば、学生や求職者に対する就職相談や、企業等の組織内での面談等に用いられてもよい。
【0161】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0162】
また、実施形態に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。
【0163】
ある実施形態では、情報処理装置200は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。同様に、情報処理装置200は、互いに通信するように構成された複数のコンピューティングデバイスを含むことができる。
【0164】
さらに、情報処理装置200は、開示された処理ステップを様々な組み合わせで共有するように構成できる。例えば、情報処理装置200によって実行されるプロセスは、他の情報処理装置によって実行され得る。同様に、情報処理装置200の機能は、他の情報処理装置によって実行することができる。また、情報処理装置と他の情報処理装置の各要素は、1つの情報処理装置にまとめられていても良いし、複数の装置に分けられていても良い。
【0165】
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。
【符号の説明】
【0166】
100 音声認識システム
200 情報処理装置
220 音声認識処理部
221 音声認識部
222 言語モデル提供部
223 言語モデル記憶部
224 出力テキスト生成部
230 入力受付部
231 発話区間検出部
232 音声取得部
233 発話スタイル推定部
300 端末装置
【先行技術文献】
【特許文献】
【0167】
【特許文献1】特開2004-333738号公報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12