IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7571867情報処理装置、情報処理方法、及びプログラム
<>
  • 特許-情報処理装置、情報処理方法、及びプログラム 図1
  • 特許-情報処理装置、情報処理方法、及びプログラム 図2
  • 特許-情報処理装置、情報処理方法、及びプログラム 図3
  • 特許-情報処理装置、情報処理方法、及びプログラム 図4
  • 特許-情報処理装置、情報処理方法、及びプログラム 図5
  • 特許-情報処理装置、情報処理方法、及びプログラム 図6
  • 特許-情報処理装置、情報処理方法、及びプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-15
(45)【発行日】2024-10-23
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20241016BHJP
   G10L 15/24 20130101ALI20241016BHJP
【FI】
G10L15/22 470Z
G10L15/24 Q
【請求項の数】 5
(21)【出願番号】P 2023512548
(86)(22)【出願日】2021-04-06
(86)【国際出願番号】 JP2021014619
(87)【国際公開番号】W WO2022215162
(87)【国際公開日】2022-10-13
【審査請求日】2023-08-23
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】東海林 佳昭
(72)【発明者】
【氏名】小笠原 志朗
(72)【発明者】
【氏名】柴田 朋子
【審査官】大野 弘
(56)【参考文献】
【文献】特開2007-018290(JP,A)
【文献】国際公開第2020/075358(WO,A1)
【文献】特開2009-152650(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
第1音声に基づいて、互いに異なる複数の第1単語を認識する音声認識部と、
第1画像に基づいて、互いに異なる複数の第2単語を認識する画像認識部と、
前記複数の第1単語に含まれかつ前記複数の第2単語に含まれない第3単語、及び前記複数の第2単語に含まれかつ前記複数の第1単語に含まれない第4単語の少なくとも1つを抽出する抽出部と、
前記第3単語を第2画像に変換する第1変換部と、
前記第2画像に類似する第3画像を前記第1画像から検索し、前記第3画像に対応する単語を第5単語として前記複数の第2単語から検索する第1検索部と、
記第5単語を、前記第3単語に補正する第1補正部と、
前記第4単語を第2音声に変換する第2変換部と、
前記第2音声に類似する第3音声を前記第1音声から検索し、前記第3音声に対応する単語を第6単語として前記複数の第1単語から検索する第2検索部と、
記第6単語を、前記第4単語に補正する第2補正部と、
を備え、
前記複数の第1単語及び前記複数の第2単語は、時間に関して独立である、
情報処理装置。
【請求項2】
前記第1検索部は、
前記第1画像、及び第2画像の各々の特徴量を算出し、
前記第2画像との類似度が閾値以上の特徴量を有する前記第1画像の部分を前記第3画像として抽出する、
請求項記載の情報処理装置。
【請求項3】
前記第2検索部は、
前記第1音声、及び第2音声の各々の特徴量を算出し、
前記第2音声との類似度が閾値以上の特徴量を有する前記第1音声の部分を前記第3音声として抽出する、
請求項記載の情報処理装置。
【請求項4】
第1音声に基づいて、互いに異なる複数の第1単語を認識することと、
第1画像に基づいて、互いに異なる複数の第2単語を認識することと、
前記複数の第1単語に含まれかつ前記複数の第2単語に含まれない第3単語、及び前記複数の第2単語に含まれかつ前記複数の第1単語に含まれない第4単語の少なくとも1つを抽出することと、
前記第3単語を第2画像に変換することと、
前記第2画像に類似する第3画像を前記第1画像から検索し、前記第3画像に対応する単語を第5単語として前記複数の第2単語から検索することと、
記第5単語を、前記第3単語に補正することと、
前記第4単語を第2音声に変換することと、
前記第2音声に類似する第3音声を前記第1音声から検索し、前記第3音声に対応する単語を第6単語として前記複数の第1単語から検索することと、
記第6単語を、前記第4単語に補正することと、
を備え、
前記複数の第1単語及び前記複数の第2単語は、時間に関して独立である、
情報処理方法。
【請求項5】
コンピュータを、請求項1乃至請求項のいずれか1項に記載の情報処理装置が備える各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
端末の操作によって蓄積されたログを活用する技術が知られている。例えば、ペアリング技術は、蓄積されたログに基づいて、相談者に対する最適な被相談者をペアリングする。
【0003】
ログを蓄積する技術として、音声認識技術及び画像認識技術が知られている。音声認識技術は、音声に含まれる単語をログとして抽出する。画像認識技術は、画像に含まれる単語をログとして抽出する。音声認識技術及び画像認識技術により、異なる形式の情報から抽出された単語を、共通の形式で取り扱うことができる。
【0004】
例えば、同時入力される音声及びペン入力を処理することにより、単語の認識精度を向上させる手法が提案されている。
【先行技術文献】
【非特許文献】
【0005】
【文献】渡邉 康司、外4名、「音声とペン入力の同時入力に対する認識方式の検討」、電子情報通信学会技術研究報告、音声、2006年6月16日、vol.106、no.123、p.49-54
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、オンライン会議等のネットワーク通信では、共通の単語を含む音声及び画像が同時に入力されない場合が多い。そして、同時入力されない音声及び画像を組み合わせることによって単語の認識精度を向上させるための手法は、少ない。
【0007】
本発明は、上記事情に着目してなされたもので、その目的とするところは、音声及び画像からの単語の認識精度を向上させる手段を提供することにある。
【課題を解決するための手段】
【0008】
一態様の情報処理装置は、音声認識部と、画像認識部と、抽出部と、第1変換部と、第1検索部と、第1補正部と、第2変換部と、第2検索部と、第2補正部と、を備える。上記音声認識部は、第1音声に基づいて、互いに異なる複数の第1単語を認識する。上記画像認識部は、第1画像に基づいて、互いに異なる複数の第2単語を認識する。上記抽出部は、上記複数の第1単語に含まれかつ上記複数の第2単語に含まれない第3単語、及び上記複数の第2単語に含まれかつ上記複数の第1単語に含まれない第4単語の少なくとも1つを抽出する。上記第1変換部は、上記第3単語を第2画像に変換する。上記第1検索部は、上記第2画像に類似する第3画像を上記第1画像から検索し、上記第3画像に対応する単語を第5単語として上記複数の第2単語から検索する。上記第1補正部は、上記第5単語を、上記第3単語に補正する。上記第2変換部は、上記第4単語を第2音声に変換する。上記第2検索部は、上記第2音声に類似する第3音声を上記第1音声から検索し、上記第3音声に対応する単語を第6単語として上記複数の第1単語から検索する。上記第2補正部は、上記第6単語を、上記第4単語に補正する。上記複数の第1単語及び上記複数の第2単語は、時間に関して独立である。
【発明の効果】
【0009】
実施形態によれば、音声及び画像からの単語の認識精度を向上させる手段を提供することができる。
【図面の簡単な説明】
【0010】
図1図1は、実施形態に係る情報処理システムの構成の一例を示すブロック図である。
図2図2は、実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
図3図3は、実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。
図4図4は、実施形態に係る情報処理装置における補正動作の一例を示すフローチャートである。
図5図5は、実施形態に係る情報処理装置における音声ベース単語情報の補正動作の一例を示すフローチャートである。
図6図6は、実施形態に係る情報処理装置における画像ベース単語情報の補正動作の一例を示すフローチャートである。
図7図7は、実施形態に係る情報処理装置における補正動作の適用範囲を示す図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して実施形態について説明する。なお、以下の説明において、同一の機能及び構成を有する構成要素については、共通する参照符号を付す。
【0012】
1. 実施形態
1.1 構成
1.1.1 情報処理システム
まず、実施形態に係る情報処理システムの構成について説明する。図1は、実施形態に係る情報処理システムの構成の一例を示すブロック図である。
【0013】
図1に示すように、情報処理システム1は、ネットワークNWを介して接続されたコンピュータネットワークである。ネットワークNWは、WAN(Wide Area Network)、LAN(Local Area Network)、又はインターネットである。情報処理システム1は、情報処理装置100、並びに端末200及び300を含む。
【0014】
情報処理装置100は、例えば、データサーバである。情報処理装置100は、ネットワークNWを介して、端末200と端末300との間で共有されるメディア情報を保存する。メディア情報は、例えば、音声情報及び画像情報を含む。
【0015】
端末200及び300は、例えば、パーソナルコンピュータ又はスマートフォンである。端末200及び300は、ネットワークNWを介して情報を共有する。
【0016】
1.1.2 情報処理装置
次に、実施形態に係る情報処理装置の内部構成について説明する。
(ハードウェア構成)
図2は、実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。図2に示すように、情報処理装置100は、制御回路11、ストレージ12、通信モジュール13、及びドライブ14を含む。
【0017】
制御回路11は、情報処理装置100の各構成要素を全体的に制御する回路である。制御回路11は、CPU(Central Processing Unit)、RAM(Random Access Memory)、及びROM(Read Only Memory)等を含む。
【0018】
ストレージ12は、情報処理装置10の補助記憶装置である。ストレージ12は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又はメモリカード等である。ストレージ12は、端末200及び300から受信したメディア情報を記憶する。また、ストレージ12は、プログラムを記憶してもよい。
【0019】
通信モジュール13は、ネットワークNWを介したメディア情報の送受信に使用される回路である。通信モジュール13は、端末200及び300から受信したメディア情報をストレージ12に転送する。
【0020】
ドライブ14は、記憶媒体15に記憶されたソフトウェアを読み込むための機器である。ドライブ14は、例えば、CD(Compact Disk)ドライブ、及びDVD(Digital Versatile Disk)ドライブ等を含む。
【0021】
記憶媒体15は、ソフトウェアを、電気的、磁気的、光学的、機械的又は化学的作用によって記憶する媒体である。記憶媒体15は、プログラムを記憶してもよい。
(機能構成)
図3は、実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。
【0022】
制御回路11のCPUは、ストレージ12又は記憶媒体15に記憶されたプログラムをRAMに展開する。そして、制御回路11のCPUは、RAMに展開されたプログラムを解釈及び実行する。これにより、情報処理装置100は、音声受信部21、画像受信部22、音声認識部23、画像認識部24、抽出部25、音声化部26、画像化部27、音声検索部28、画像検索部29、音声ベース単語情報補正部30、及び画像ベース単語情報補正部31を備えるコンピュータとして機能する。
【0023】
音声受信部21は、ネットワークNWを介して音声情報Vaを受信する。音声受信部21は、音声情報Vaを音声認識部23及び音声検索部28に送信する。
【0024】
音声情報Vaは、音声を含むメディア情報である。音声情報Vaは、音声が複数の単語を意味する場合であっても、複数の単語を識別する情報を含まない。
【0025】
画像受信部22は、ネットワークNWを介して画像情報Iaを受信する。画像受信部22は、画像情報Iaを画像認識部24及び画像検索部29に送信する。
【0026】
画像情報Iaは、画像を含むメディア情報である。画像情報Iaは、画像が複数の単語を意味する場合であっても、複数の単語を識別する情報を含まない。
【0027】
音声認識部23は、音声情報Vaに基づき、音声ベース単語情報WVaを生成する。具体的には、音声認識部23は、音声認識処理により、音声情報Va内の音声を文字列に変換する。音声認識処理には、例えば、音響分析や音響モデル等、種々の手法が適用され得る。また、音声認識部23は、形態素解析により、文字列を複数の単語に分類する。音声認識部23は、音声情報Vaに基づく複数の単語を、音声ベース単語情報WVaとして抽出部25に送信する。すなわち、音声ベース単語情報WVaは、音声情報Va内の音声が意味する複数の単語を識別する。
【0028】
画像認識部24は、画像情報Iaに基づき、画像ベース単語情報WIaを生成する。具体的には、画像認識部24は、画像認識処理により、画像情報Ia内の画像を文字列に変換する。画像認識処理には、例えば、光学文字認識(OCR:Optical Character Recognition)等、種々の手法が適用され得る。また、画像認識部24は、形態素解析により、文字列を複数の単語に分類する。画像認識部24は、画像情報Iaに基づく複数の単語を、画像ベース単語情報WIaとして抽出部25に送信する。すなわち、画像ベース単語情報WIaは、画像情報Ia内の画像が意味する複数の単語を識別する。
【0029】
抽出部25は、音声ベース単語情報WVa及び画像ベース単語情報WIaに基づき、抽出画像ベース単語情報WIb、抽出音声ベース単語情報WVb、及び共通単語情報Wを生成する。具体的には、抽出部25は、画像ベース単語情報WIaに含まれ、かつ音声ベース単語情報WVaに含まれない単語を、抽出画像ベース単語情報WIbとして抽出する。抽出部25は、抽出画像ベース単語情報WIbを音声化部26に送信する。また、抽出部25は、音声ベース単語情報WVaに含まれ、かつ画像ベース単語情報WIaに含まれない単語を、抽出音声ベース単語情報WVbとして抽出する。抽出部25は、抽出音声ベース単語情報WVbを画像化部27に送信する。また、抽出部25は、音声ベース単語情報WVa及び画像ベース単語情報WIaのいずれにも含まれる単語を、共通単語情報Wとしてストレージ12に記憶させる。
【0030】
なお、音声ベース単語情報WVa及び画像ベース単語情報WIaは、時間に関して独立した情報である。このため、抽出部25における抽出処理は、音声ベース単語情報WVa及び画像ベース単語情報WIaが同時に入力されることを要しない。
【0031】
音声化部26は、抽出画像ベース単語情報WIbに基づき、画像ベース音声情報Vbを生成する。具体的には、音声化部26は、抽出画像ベース単語情報WIb内の単語を音声に変換する。音声化部26は、変換された音声を画像ベース音声情報Vbとして音声検索部28に送信する。
【0032】
画像化部27は、抽出音声ベース単語情報WVbに基づき、音声ベース画像情報Ibを生成する。具体的には、画像化部27は、抽出音声ベース単語情報WVb内の単語を画像に変換する。画像化部27は、変換された画像を音声ベース画像情報Ibとして画像検索部29に送信する。
【0033】
音声検索部28は、音声ベース単語情報WVaから補正対象音声ベース単語情報WVcを検索する。具体的には、例えば、音声検索部28は、画像ベース音声情報Vb内の音声の特徴量、及び音声情報Va内の音声の特徴量をそれぞれ算出する。音声検索部28は、画像ベース音声情報Vb内の音声の特徴量に対する類似度が閾値以上となる特徴量を有する音声を、類似音声として音声情報Vaから抽出する。そして、音声検索部28は、類似音声に対応する単語を、音声ベース単語情報WVaから抽出する。音声検索部28は、類似音声に対応する単語を、補正対象音声ベース単語情報WVcとして音声ベース単語情報補正部30に送信する。
【0034】
画像検索部29は、画像ベース単語情報WIaから補正対象画像ベース単語情報WIcを検索する。具体的には、例えば、画像検索部29は、音声ベース画像情報Ib内の画像の特徴量、及び画像情報Ia内の画像の特徴量をそれぞれ算出する。画像検索部29は、音声ベース画像情報Ib内の画像の特徴量に対する類似度が閾値以上となる特徴量を有する画像を、類似画像として画像情報Iaから抽出する。そして、画像検索部29は、類似画像に対応する単語を、画像ベース単語情報WIaから抽出する。画像検索部29は、類似画像に対応する単語を、補正対象画像ベース単語情報WIcとして画像ベース単語情報補正部31に送信する。
【0035】
音声ベース単語情報補正部30は、補正対象音声ベース単語情報WVc内の単語を、抽出画像ベース単語情報WIbに基づいて補正する。音声ベース単語情報補正部30は、補正された単語を、共通単語情報Wとしてストレージ12に記憶させる。
【0036】
画像ベース単語情報補正部31は、補正対象画像ベース単語情報WIc内の単語を、抽出音声ベース単語情報WVbに基づいて補正する。画像ベース単語情報補正部31は、補正された単語を、共通単語情報Wとしてストレージ12に記憶させる。
【0037】
以上のように構成することにより、情報処理装置100は、音声情報Va及び画像情報Iaによって相補的に補正された単語を、共通単語情報W内に更に含ませることができる。
【0038】
1.2. 動作
次に、実施形態に係る情報処理装置の動作について説明する。
【0039】
1.2.1 補正動作の概要
まず、実施形態に係る情報処理装置における補正動作の概要について説明する。図4は、実施形態に係る情報処理装置における補正動作の一例を示すフローチャートである。図4の例では、音声情報Va及び画像情報Iaは、共通の議題に関して端末200及び300の間で共有されたメディア情報である場合を想定する。
【0040】
図4に示すように、音声情報Va及び画像情報Iaを受信すると(開始)、音声認識部23は、音声情報Vaに基づいて、音声ベース単語情報WVaを生成する(S10)。
【0041】
画像認識部24は、画像情報Iaに基づいて、画像ベース単語情報WIaを生成する(S20)。
【0042】
抽出部25は、S20の処理で生成された画像ベース単語情報WIaに含まれ、かつS10の処理で生成された音声ベース単語情報WVaに含まれない単語があるか否かを判定する(S30)。
【0043】
画像ベース単語情報WIaに含まれ、かつ音声ベース単語情報WVaに含まれない単語がない場合(S30;no)、S50の処理に進む。
【0044】
画像ベース単語情報WIaに含まれ、かつ音声ベース単語情報WVaに含まれない単語がある場合(S30;yes)、抽出部25、音声化部26、音声検索部28、及び音声ベース単語情報補正部30は、音声ベース単語情報WVaの補正動作を実行する(S40)。S40の処理の結果、補正された単語が共通単語情報Wとしてストレージ12に記憶される。音声ベース単語情報WVaの補正動作の詳細については、後述する。
【0045】
抽出部25は、S10の処理で生成された音声ベース単語情報WVaに含まれ、かつS20の処理で生成された画像ベース単語情報WIaに含まれない単語があるか否かを判定する(S50)。
【0046】
音声ベース単語情報WVaに含まれ、かつ画像ベース単語情報WIaに含まれない単語がない場合(S50;no)、補正動作は終了となる(終了)。
【0047】
音声ベース単語情報WVaに含まれ、かつ画像ベース単語情報WIaに含まれない単語がある場合(S50;yes)、抽出部25、画像化部27、画像検索部29、及び画像ベース単語情報補正部31は、画像ベース単語情報WIaの補正動作を実行する(S60)。S60の処理の結果、補正された単語が共通単語情報Wとしてストレージ12に記憶される。画像ベース単語情報WIaの補正動作の詳細については、後述する。
【0048】
S60の処理が終了すると、補正動作は終了となる(終了)。
【0049】
なお、図4の例では、S10の処理の後にS20の処理が実行される場合について説明したが、これに限られない。例えば、S20の処理は、S10の処理の前に実行されてもよい。また、図4の例では、S30及びS40の処理の後にS50及びS60の処理が実行される場合について説明したが、これに限られない。例えば、S50及びS60の処理は、S30及びS40の処理の前に実行されてもよい。
【0050】
1.2.2 音声ベース単語情報の補正動作の詳細
次に、実施形態に係る情報処理装置における音声ベース単語情報の補正動作の詳細について説明する。
(フローチャート)
図5は、実施形態に係る情報処理装置における音声ベース単語情報の補正動作の一例を示すフローチャートである。図5に示されるS41、S42、S43、S44、及びS45の処理は、図4に示されるS40の処理に含まれる。
【0051】
図5に示すように、画像ベース単語情報WIaに含まれ、かつ音声ベース単語情報WVaに含まれない単語がある場合(開始)、抽出部25は、音声ベース単語情報WVaに含まれない単語を画像ベース単語情報WIaから抽出する(S41)。抽出部25は、抽出された単語を抽出画像ベース単語情報WIbとして音声化部26に送信する。
【0052】
音声化部26は、S41の処理で抽出された単語を音声化する(S42)。音声化部26は、S42の処理によって得られた音声を画像ベース音声情報Vbとして音声検索部28に送信する。
【0053】
音声検索部28は、S42の処理で得られた音声に類似する音声(類似音声)が音声情報Va内にあるか否かを判定する(S43)。
【0054】
類似音声が音声情報Va内にない場合(S43;no)、音声ベース単語情報の補正動作は終了となる(終了)。
【0055】
類似音声が音声情報Va内にある場合(S43;yes)、音声検索部28は、類似音声に対応する単語を音声ベース単語情報WVaから抽出する。音声検索部28は、抽出された単語を補正対象音声ベース単語情報WVcとして音声ベース単語情報補正部30に送信する。
【0056】
音声ベース単語情報補正部30は、類似音声に対応する単語を補正する(S44)。具体的には、音声ベース単語情報補正部30は、補正対象音声ベース単語情報WVc内の単語を、抽出画像ベース単語情報WIb内の対応する単語に一致させる。
【0057】
音声ベース単語情報補正部30は、補正された単語を共通単語情報Wとしてストレージ12に記憶させる(S45)。
【0058】
S45の処理が終了すると、音声ベース単語情報の補正動作は終了となる(終了)。
(具体例A)
以下では、音声ベース単語情報の補正動作の具体例Aを示す。
【0059】
具体例Aでは、音声ベース単語情報WVaは、「本日」、「天気」、「晴天」、「晴朗」、「波」、及び「高い」の6つの単語を含む。画像ベース単語情報WIaは、「本日」、「天気」、「晴天」、「晴朗」、「浪」、及び「高し」の6つの単語を含む。
【0060】
この場合、抽出部25は、画像ベース単語情報WIaに含まれ、かつ音声ベース単語情報WVaに含まれない「浪」及び「高し」の2つの単語を、抽出画像ベース単語情報WIbとして抽出する。また、抽出部25は、音声ベース単語情報WVa及び画像ベース単語情報WIaに共通する「本日」、「天気」、「晴天」、及び「晴朗」の4つの単語を共通単語情報Wとしてストレージ12に記憶させる。
【0061】
音声化部26は、「浪」及び「高し」の2つの単語を音声化することにより、画像ベース音声情報Vbを生成する。
【0062】
音声検索部28は、「浪」及び「高し」と類似する音声が音声情報Va内にあるか否かを判定する。上述の通り、音声情報Va内には、「波」及び「高い」に対応する音声がある。このため、音声検索部28は、「高し」と「高い」に共通する「たか」という音に着目することにより、「高し」に対応する音声が、音声情報Va内の「高い」に対応する音声と類似すると判定する。一方、音声検索部28は、「浪(ろう)」と「波(は)」に共通する音がないことにより、「浪」に対応する音声に類似する音声が音声情報Va内にないと判定する。以上により、音声検索部28は、「高し」に類似する「高い」という単語を、補正対象音声ベース単語情報WVcとして抽出する。
【0063】
音声ベース単語情報補正部30は、「高い」を「高し」に補正する。これにより、音声ベース単語情報補正部30は、「高し」という単語を共通単語情報Wとしてストレージ12に更に記憶させることができる。
【0064】
1.2.3 画像ベース単語情報の補正動作の詳細
次に、実施形態に係る情報処理装置における画像ベース単語情報の補正動作の詳細について説明する。
(フローチャート)
図6は、実施形態に係る情報処理装置における画像ベース単語情報の補正動作の一例を示すフローチャートである。図6に示されるS61、S62、S63、S64、及びS65の処理は、図4に示されるS60の処理に含まれる。
【0065】
図6に示すように、音声ベース単語情報WVaに含まれ、かつ画像ベース単語情報WIaに含まれない単語がある場合(開始)、抽出部25は、画像ベース単語情報WIaに含まれない単語を音声ベース単語情報WVaから抽出する(S61)。抽出部25は、抽出された単語を抽出音声ベース単語情報WVbとして画像化部27に送信する。
【0066】
画像化部27は、S61の処理で抽出された単語を画像化する(S62)。画像化部27は、S62の処理によって得られた画像を音声ベース画像情報Ibとして画像検索部29に送信する。
【0067】
画像検索部29は、S62の処理で得られた画像に類似する画像(類似画像)が画像情報Ia内にあるか否かを判定する(S63)。
【0068】
類似画像が画像情報Ia内にない場合(S63;no)、画像ベース単語情報の補正動作は終了となる(終了)。
【0069】
類似画像が画像情報Ia内にある場合(S63;yes)、画像検索部29は、類似画像に対応する単語を画像ベース単語情報WIaから抽出する。画像検索部29は、抽出された単語を補正対象画像ベース単語情報WIcとして画像ベース単語情報補正部31に送信する。
【0070】
画像ベース単語情報補正部31は、類似画像に対応する単語を補正する(S64)。具体的には、画像ベース単語情報補正部31は、補正対象画像ベース単語情報WIc内の単語を、抽出音声ベース単語情報WVb内の対応する単語に一致させる。
【0071】
画像ベース単語情報補正部31は、補正された単語を共通単語情報Wとしてストレージ12に記憶させる(S65)。
【0072】
S65の処理が終了すると、画像ベース単語情報の補正動作は終了となる(終了)。
(具体例B)
以下では、画像ベース単語情報の補正動作の具体例Bを示す。
【0073】
具体例Bでは、音声ベース単語情報WVaは、「相談」、「技術」、「マッチング」、「経歴」、「背景」、及び「知識」の6つの単語を含む。画像ベース単語情報WIaは、「相談」、「技術」、「ペアリング」、「前職」、「背景」、及び「矢口識」の6つの単語を含む。
【0074】
この場合、抽出部25は、音声ベース単語情報WVaに含まれ、かつ画像ベース単語情報WIaに含まれない「マッチング」、「経歴」、及び「知識」の3つの単語を、抽出音声ベース単語情報WVbとして抽出する。また、抽出部25は、音声ベース単語情報WVa及び画像ベース単語情報WIaに共通する「相談」、「技術」、及び「背景」の3つの単語を共通単語情報Wとしてストレージ12に記憶させる。
【0075】
画像化部27は、「マッチング」、「経歴」、及び「知識」の3つの単語を画像化することにより、音声ベース画像情報Ibを生成する。
【0076】
画像検索部29は、「マッチング」、「経歴」、及び「知識」と類似する画像が画像情報Ia内にあるか否かを判定する。上述の通り、画像情報Ia内には、「ペアリング」、「前職」、及び「矢口識」に対応する画像がある。このため、画像検索部29は、「矢口識」と「知識」との間の形状の類似性に着目することにより、「知識」に対応する画像が、画像情報Ia内の「矢口識」に対応する画像と類似すると判定する。一方、画像検索部29は、類似する形状を有する画像がないことにより、「マッチング」及び「経歴」の各々に対応する画像に類似する画像が画像情報Ia内にないと判定する。以上により、画像検索部29は、「知識」に類似する「矢口識」という単語を、補正対象画像ベース単語情報WIcとして抽出する。
【0077】
画像ベース単語情報補正部31は、「矢口識」を「知識」に補正する。これにより、画像ベース単語情報補正部31は、「知識」という単語を共通単語情報Wとしてストレージ12に更に記憶させることができる。
【0078】
1.2.4 適用範囲
次に、本実施形態に係る相補的な補正動作の適用範囲について説明する。
【0079】
図7は、実施形態に係る情報処理装置における補正動作の適用範囲を示す図である。図7では、画像情報Ia及び音声情報Vaから認識される単語がそれぞれ画像ベース単語情報WIa及び音声ベース単語情報WVaに含まれるか否かに応じて16通りのパターンが示される。
【0080】
図7に示すように、画像情報Iaにおける単語の有無が画像ベース単語情報WIaにおける単語の有無と一致し、かつ音声情報Vaにおける単語の有無が音声ベース単語情報WVaにおける単語の有無と一致する場合には、補正動作は不要である。すなわち、本実施形態に係る相補的な補正動作は、16通りのパターンのうち、4通りのパターンに対して不要である。
【0081】
画像情報Iaから認識される単語と画像ベース単語情報WIaに含まれる単語は一致するが、音声情報Vaから認識される単語が音声ベース単語情報WVaに含まれない場合、本実施形態に係る音声ベース単語情報の補正動作が適用され得る。これに伴い、画像情報Iaから認識される単語と画像ベース単語情報WIaに含まれる単語は一致するが、音声情報Vaから認識されない単語が音声ベース単語情報WVaに含まれる場合が、間接的に解消し得る。また、音声情報Vaから認識される単語と音声ベース単語情報WVaに含まれる単語は一致するが、画像情報Iaから認識される単語が画像ベース単語情報WIaに含まれない場合、本実施形態に係る画像ベース単語情報の補正動作が適用され得る。これに伴い、音声情報Vaから認識される単語と音声ベース単語情報WVaに含まれる単語は一致するが、画像情報Iaから認識されない単語が画像ベース単語情報WIaに含まれる場合が、間接的に解消し得る。すなわち、本実施形態に係る相補的な補正動作は、16通りのパターンのうち、4通りのパターンに対して適用可能である。
【0082】
残りの8パターンについては、発生の可能性が低いパターン、及び補正不可のパターンであるため、本実施形態に係る相補的な補正動作の適用範囲外である。しかしながら、これら8つのパターンは、画像認識処理及び音声認識処理の単体での認識精度が向上することにより、上述した相補的な補正動作の適用可能なパターンへとシフトする可能性がある。このため、これら8つのパターンは、本実施形態に係る相補的な補正動作の潜在的な適用対象と言える。
【0083】
このように、本実施形態に係る相補的な補正動作は、画像情報Ia及び音声情報Vaからの単語の認識精度向上に広く寄与することが分かる。
【0084】
1.3 実施形態に係る効果
実施形態によれば、画像認識部24は、画像情報Iaから画像ベース単語情報WIaを認識する。音声認識部23は、音声情報Vaから音声ベース単語情報WVaを認識する。抽出部25は、音声情報Vaに基づく音声ベース単語情報WVaに含まれ、かつ画像情報Iaに基づく画像ベース単語情報WIaに含まれない単語を、抽出音声ベース単語情報WVbとして抽出する。抽出部25は、画像情報Iaに基づく画像ベース単語情報WIaに含まれ、かつ音声情報Vaに基づく音声ベース単語情報WVaに含まれない単語を、抽出画像ベース単語情報WIbとして抽出する。画像ベース単語情報補正部31は、画像ベース単語情報WIaのうち、抽出音声ベース単語情報WVbに対応する補正対象画像ベース単語情報WIcを、抽出音声ベース単語情報WVbに一致させるように補正する。音声ベース単語情報補正部30は、音声ベース単語情報WVaのうち、抽出画像ベース単語情報WIbに対応する補正対象音声ベース単語情報WVcを、抽出画像ベース単語情報WIbに一致させるように補正する。これにより、画像情報Iaからの文字認識結果と、音声情報Vaからの文字認識結果とを、相補的に補完することができる。このため、共通単語情報Wの認識率を向上させることができる。
【0085】
具体的には、画像化部27は、抽出音声ベース単語情報WVbを音声ベース画像情報Ibに変換する。画像検索部29は、音声ベース画像情報Ibの類似画像を画像情報Iaから検索する。これにより、画像認識処理において誤って認識された単語を、音声情報Vaに基づいて変換された画像との比較によって補正することができる。具体例Bに沿って説明すると、画像認識処理において「矢口識」と誤って認識された単語を、音声情報Vaに基づいて変換された画像との比較によって「知識」という正しい単語に補正することができる。このため、画像に基づく単語の認識精度を、音声を用いて向上させることができる。
【0086】
また、画像検索部29は、画像情報Ia及び音声ベース画像情報Ibの各々の特徴量を算出する。画像検索部29は、音声ベース画像情報Ibとの類似度が閾値以上の特徴量を有する画像情報Iaの部分を、補正対象画像ベース単語情報WIcとして抽出する。これにより、画像ベース単語情報WIa内の「矢口識」と、音声ベース画像情報Ib内の「知識」のように、画像として互いに類似する単語の組を、補正候補として抽出することができる。
【0087】
また、音声化部26は、抽出音声ベース単語情報WVbを音声ベース画像情報Ibに変換する。音声検索部28は、画像ベース音声情報Vbの類似音声を音声情報Vaから検索する。これにより、音声認識処理において誤って認識された単語を、画像情報Iaに基づいて変換された音声との比較によって補正することができる。具体例Aに沿って説明すると、音声認識処理において「高い」という単語を、画像情報Iaに基づいて変換された音声との比較によって「高し」という単語に補正することができる。このため、音声に基づく単語の認識精度を、画像を用いて向上させることができる。
【0088】
また、音声検索部28は、音声情報Va及び画像ベース音声情報Vbの各々の特徴量を算出する。音声検索部28は、画像ベース音声情報Vbとの類似度が閾値以上の特徴量を有する音声情報Vaの部分を、補正対象音声ベース単語情報WVcとして抽出する。これにより、音声ベース単語情報WVa内の「高い」と、画像ベース音声情報Vb内の「高し」のように、音声として互いに類似する単語の組を、補正候補として抽出することができる。
【0089】
また、情報処理装置100は、画像ベース単語情報WIa、及び音声ベース単語情報WVaを、時間に関して独立に使用する。これにより、音声情報Va及び画像情報Iaの同時入力を要することなく、単語の認識精度を向上させることができる。
【0090】
2. その他
なお、上述した実施形態には、種々の変形が適用可能である。
【0091】
例えば、上述した実施形態では、補正動作を実行するプログラムが、情報処理システム1内の情報処理装置100で実行される場合について説明したが、これに限られない。例えば、補正動作を実行するプログラムは、クラウド上の計算リソースで実行されてもよい。
【0092】
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【符号の説明】
【0093】
1…情報処理システム
11…制御回路
12…ストレージ
13…通信モジュール
14…ドライブ
15…記憶媒体
21…音声受信部
22…画像受信部
23…音声認識部
24…画像認識部
25…抽出部
26…音声化部
27…画像化部
28…音声検索部
29…画像検索部
30…音声ベース単語情報補正部
31…画像ベース単語情報補正部
100…情報処理装置
200,300…端末
図1
図2
図3
図4
図5
図6
図7