(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023162822
(43)【公開日】2023-11-09
(54)【発明の名称】情報処理方法、情報処理システムおよびプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20231101BHJP
【FI】
G10L15/22 453
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022073484
(22)【出願日】2022-04-27
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和4年度、総務省、「多言語翻訳技術の高度化に関する研究開発」研究開発委託、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】肥塚 真二
(72)【発明者】
【氏名】森口 翔太
(57)【要約】
【課題】音声認識により推定された文字列を適切な表記の文字列に補正する。
【解決手段】情報処理システムは、音声データに対する音声認識の結果である認識文字列Zを取得する音声認識部71と、認識文字列Zに含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求Qを情報検索システムに送信する要求送信部721と、検索要求Qに応じた検索結果Rを情報検索システムから受信する結果受信部722と、認識文字列Zにおける対象単語を検索結果に対応する代替単語に置換する単語置換部723とを具備する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
音声データに対する音声認識の結果である認識文字列を取得することと、
前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信することと、
前記検索要求に応じた検索結果を前記情報検索システムから受信することと、
前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換することとを含む
コンピュータシステムにより実現される情報処理方法。
【請求項2】
前記検索要求は、前記対象単語を含む
請求項1の情報処理方法。
【請求項3】
前記検索要求は、前記対象単語を含まない
請求項1の情報処理方法。
【請求項4】
前記対象単語は、人名であり、
前記代替単語は、前記対象単語と同音異字の関係にある人名である
請求項1から請求項3の何れかの情報処理方法。
【請求項5】
前記認識文字列における前記対象単語と前記対象単語以外の文字列とを相異なる態様で表示装置に表示すること、をさらに含み、
前記代替単語に置換することは、前記表示装置に表示された前記対象単語を前記代替単語に置換することを含む
請求項1から請求項3の何れかの情報処理方法。
【請求項6】
前記検索結果を取得することは、前記情報検索システムにより検索されて検索順位が設定された複数の検索情報を含む検索結果を取得することであり、
前記対象単語を置換することは、前記複数の検索情報のうち検索順位が最上位である検索情報に対応する前記代替単語に、前記対象単語を置換することを含む
請求項1から請求項3の何れかの情報処理方法。
【請求項7】
音声データに対する音声認識の結果である認識文字列を取得する文字列取得部と、
前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信する要求送信部と、
前記検索要求に応じた検索結果を前記情報検索システムから受信する結果受信部と、
前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換する単語置換部と
を具備する情報処理システム。
【請求項8】
音声データに対する音声認識の結果である認識文字列を取得する文字列取得部、
前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信する要求送信部、
前記検索要求に応じた検索結果を前記情報検索システムから受信する結果受信部、および、
前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換する単語置換部、
としてコンピュータシステムを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声データに対応する文字列を特定する技術に関する。
【背景技術】
【0002】
音声データに対応する文字列を推定する各種の音声認識技術が従来から提案されている。例えば特許文献1には、音声認識の認識結果に関する確信度に応じて、認識結果の各文字の強調度合を相違させる技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、例えば人名等の固有名詞については、同音異字の関係にある多数の文字列が存在する。同音異字の関係にある複数の文字列から適切な文字列を音声認識のみで特定することは実際には困難である。なお、以上においては同音異字の文字列を便宜的に例示したが、音声認識により適切な文字列を推定できない状況は、以上の例示に限定されない。以上の事情を考慮して、本開示のひとつの態様は、音声認識により推定された文字列を適切な表記の文字列に補正することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、音声データに対する音声認識の結果である認識文字列を取得することと、前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信することと、前記検索要求に応じた検索結果を前記情報検索システムから受信することと、前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換することとを含む。
【0006】
本開示のひとつの態様に係る情報処理システムは、音声データに対する音声認識の結果である認識文字列を取得する文字列取得部と、前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信する要求送信部と、前記検索要求に応じた検索結果を前記情報検索システムから受信する結果受信部と、前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換する単語置換部とを具備する。
【0007】
本開示のひとつの態様に係るプログラムは、音声データに対する音声認識の結果である認識文字列を取得する文字列取得部、前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信する要求送信部、前記検索要求に応じた検索結果を前記情報検索システムから受信する結果受信部、および、前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換する単語置換部、としてコンピュータシステムを機能させる。
【図面の簡単な説明】
【0008】
【
図1】第1実施形態における情報システムの構成を例示するブロック図である。
【
図2】端末装置の構成を例示するブロック図である。
【
図4】端末装置の機能的な構成を例示するブロック図である。
【
図6】制御処理の詳細な手順を例示するフローチャートである。
【
図7】第2実施形態において認識文字列を補正する動作の説明図である。
【
図8】第3実施形態における情報システムの構成を例示するブロック図である。
【
図9】制御システムの構成を例示するブロック図である。
【
図10】第4実施形態における情報システムの構成を例示するブロック図である。
【
図11】第4実施形態における端末装置の機能的な構成を例示するブロック図である。
【発明を実施するための形態】
【0009】
A:第1実施形態
図1は、第1実施形態における情報システム100のブロック図である。情報システム100は、端末装置30の利用者に各種の情報を提供するためのコンピュータシステムであり、情報検索システム10と配信システム20と端末装置30とを具備する。端末装置30は、例えば携帯電話機、スマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置である。端末装置30は、例えばインターネット等の通信網200を介して情報検索システム10および配信システム20の各々と通信する。なお、実際には多数の端末装置30が存在するが、以下の説明では1個の端末装置30に便宜的に着目する。
【0010】
情報検索システム10は、情報検索サービスを端末装置30に提供するコンピュータシステムである。情報検索サービスは、端末装置30からの要求(以下「検索要求」という)Qに応じた情報を検索する情報サービスである。具体的には、情報検索システム10は、例えば文書またはウェブページ等の各種の情報(以下「検索情報」という)が検索候補として登録された検索データベースを参照することで、検索要求Qにより指定される単語(以下「検索キーワード」という)に対応する複数の検索情報を検索する。例えば、検索キーワードに一致または類似する単語を含む検索情報が検索される。検索要求Qに応じた検索の結果(以下「検索結果」という)Rが情報検索システム10から端末装置30に送信される。
【0011】
配信システム20は、配信コンテンツCを端末装置30に配信するコンピュータシステムである。配信コンテンツCは、多数の利用者による視聴を目的として制作された情報である。具体的には、配信コンテンツCは、動画を表す動画データVと音声の波形を表す音声データAとを含むデジタルコンテンツである。
【0012】
端末装置30は、配信コンテンツCを再生する情報処理システムである。
図2は、端末装置30の構成を例示するブロック図である。端末装置30は、制御装置31と記憶装置32と通信装置33と表示装置34と放音装置35とを具備する。なお、端末装置30は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。
【0013】
制御装置31は、端末装置30の各要素を制御する単数または複数のプロセッサである。具体的には、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより、制御装置31が構成される。
【0014】
記憶装置32は、制御装置31が実行するプログラムと、制御装置31が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置32として利用される。なお、例えば、端末装置30に対して着脱される可搬型の記録媒体、または、制御装置31が通信網200を介してアクセス可能な記録媒体(例えばクラウドストレージ)が、記憶装置32として利用されてもよい。
【0015】
通信装置33は、通信網200を介して情報検索システム10および配信システム20の各々と通信する。例えば、通信装置33は、検索要求Qを情報検索システム10に送信し、当該検索要求Qに応じた検索結果Rを情報検索システム10から受信する。また、通信装置33は、配信システム20から配信コンテンツCを受信する。なお、通信装置33と通信網200との間の通信は有線通信および無線通信の何れでもよい。また、端末装置30とは別体の通信装置33が、端末装置30に対して有線または無線により接続されてもよい。
【0016】
表示装置34は、制御装置31による制御のもとで画像を表示する。例えば、液晶表示パネルまたは有機EL(Electroluminescence)パネル等の各種の表示パネルが、表示装置34として利用される。なお、端末装置30とは別体の表示装置34が、端末装置30に対して有線または無線により接続されてもよい。
【0017】
第1実施形態の表示装置34は、
図3の再生画面Gを表示する。再生画面Gは、動画Mと認識文字列Zとを含む。動画Mは、配信コンテンツCの動画データVが表す映像である。認識文字列Zは、配信コンテンツCを構成する音声の発話内容を表す文字列(すなわち字幕)である。したがって、配信コンテンツCの音声の聴取が困難な聴覚障碍者が配信コンテンツCを容易に視聴できる。
【0018】
図2の放音装置35は、制御装置31による制御のもとで音波を放射する。例えば、放音装置35は、配信コンテンツCの音声を再生する。放音装置35は、例えばスピーカまたはヘッドホンである。なお、端末装置30とは別体の放音装置35が、端末装置30に対して有線または無線により接続されてもよい。
【0019】
図4は、端末装置30の機能的な構成を例示するブロック図である。制御装置31は、記憶装置32に記憶されたプログラムを実行することで複数の機能(音声認識部71および補正処理部72)を実現する。
図5は、制御装置31の動作に関する説明図である。
【0020】
図4の音声認識部71は、配信コンテンツCの音声データAに対する音声認識により認識文字列Zを生成する。認識文字列Zは、音声データAに対する音声認識の結果であり、1個以上の単語の配列で表現される。認識文字列Zのうち漢字で表記可能な箇所は漢字で表現される。
図5には、「ABC社の守口裕紀さんに字幕システムについて聞きます」という認識文字列Zが例示されている。
【0021】
音声認識部71による音声認識には公知の技術が任意に採用される。例えば音声認識には、例えばHMM(Hidden Markov Model)等の音響モデルと、言語的な制約を表す言語モデルと、多数の単語が登録された単語辞書とが利用される。音声認識部71は、認識文字列Zに加えて、認識文字列Zを構成する各単語の品詞分類と平仮名表記とを含む。品詞分類は、各単語の品詞を指定する識別情報である。例えば人名または地名等の固有名詞が品詞分類として指定される。また、平仮名表記は、各単語を表現する平仮名の文字列である。以上の説明から理解される通り、音声認識部71は、認識文字列Zを取得する要素(文字列取得部)として機能する。
【0022】
音声認識により固有名詞の漢字表記まで正確に推定することは実際には困難である。すなわち、認識文字列Zの複数の単語のうち品詞分類が固有名詞(特に人名)である単語(以下「対象単語」という)Xについては、適正な文字列に対して同音異字の関係にある文字列が推定される可能性が高い。すなわち、対象単語Xの漢字表記は間違いである可能性がある。以上の事情を考慮して、
図4の補正処理部72は、認識文字列Zの対象単語Xを、当該対象単語Xと同音異字の関係にある単語(以下「代替単語」という)Yに置換する。すなわち、認識文字列Zの対象単語Xが、漢字表記が相違する代替単語Yに置換される。以下の説明においては、対象単語Xとして人名を想定する。したがって、代替単語Yは、対象単語Xと同音異字の関係にある人名である。
図5においては、「守口裕紀」という人名が対象単語Xとして例示され、当該対象単語Xとは漢字表記が相違する「森口優樹」という人名が代替単語Yとして例示されている。
【0023】
図4に例示される通り、補正処理部72は、要求送信部721と結果受信部722と単語置換部723とを含む。
【0024】
要求送信部721は、検索要求Qを通信装置33から情報検索システム10に送信する。検索要求Qは、当該検索要求Qにより指定される検索キーワードを含む検索情報の検索を要求するクエリである。検索要求Qは、認識文字列Zに含まれる対象単語Xと、当該認識文字列Zに含まれる1個以上の関連単語Wとを検索キーワードとして指定する。検索要求Qにおいては、
図5に例示される通り、平仮名表記の対象単語Xが指定される。したがって、対象単語Xの漢字表記に依存しない検索結果Rを取得できる。関連単語Wは、認識文字列Zを構成する複数の単語のうち対象単語X以外の単語である。認識文字列Zは、対象単語Xについて記述する文字列である可能性が高いから、関連単語Wは、対象単語Xに関連する単語である。例えば、対象単語Xの記述のために多用される単語が、関連単語Wとして指定される。例えば、対象単語Xが表す人物がいる場所の地名、当該人物に関連する人物または組織の名称、当該人物が関与する事物の名称等の固有名詞が、関連単語Wとして指定される。例えば、
図5においては、対象単語Xが表す人物が所属する「ABC社」と、対象単語Xの人物が関与する「字幕システム」とが、関連単語Wとして例示されている。なお、例えば対象単語Xに関する日時または場所が、関連単語Wとして指定されてもよい。例えば、対象単語Xの人物が参加するイベントの日時、または当該イベントが開催される場所が、関連単語Wとして例示される。
【0025】
情報検索システム10は、端末装置30から受信した検索要求Qに対応する複数の検索情報を検索データベースから検索する。具体的には、検索要求Qにより指定された検索キーワード(対象単語Xおよび関連単語W)を含む複数の検索情報が、検索データベースから検索される。情報検索システム10は、要求元の端末装置30に検索結果Rを送信する。
【0026】
検索結果Rは、検索データベースから検索された複数の検索情報を含む。検索結果Rに含まれる複数の検索情報には、検索順位が設定される。例えば、複数の検索情報が検索順位の順番で配列される。検索順位は、検索の結果としての優先度の順番である。例えば、検索キーワードとの関連性、検索情報が閲覧または検索された頻度、または検索情報が更新された日時等の複数の要素に応じて、各検索情報の検索順位が設定される。
【0027】
図4の結果受信部722は、検索要求Qに応じた検索結果Rを情報検索システム10から受信する。具体的には、結果受信部722は、情報検索システム10が送信した検索結果Rを通信装置33により受信する。
【0028】
単語置換部723は、認識文字列Zにおける対象単語Xを、検索結果Rに対応する代替単語Yに置換する。具体的には、単語置換部723は、検索結果Rに含まれる複数の検索情報のうち検索順位が最上位である検索情報に含まれる代替単語Yに、認識文字列Zの対象単語Xを置換する。例えば、単語置換部723は、検索順位が最上位である検索情報から対象単語Xに対応する代替単語Yを特定し、対象単語Xを当該代替単語Yに置換する。例えば検索情報に含まれる文字列のうち対象単語Xに類似または一致する単語が、代替単語Yとして特定される。以上の説明から理解される通り、例えば検索キーワードとの関連性、検索情報が閲覧された頻度、または検索情報が更新された日時等の複数の観点から優先すべき代替単語Yにより、対象単語Xが代替される。具体的には、単語置換部723は、表示装置34に表示された再生画面Gにおける認識文字列Zについて、対象単語Xを代替単語Yに置換する。
【0029】
図6は、制御装置31が実行する処理(以下「制御処理」という)のフローチャートである。例えば、音声データAに対応する認識文字列Z毎に制御処理が実行される。すなわち、音声データAの発話内容が複数文で構成される場合、認識文字列Z毎(1文毎)に制御処理が反復される。ただし、認識文字列Zの区切は1文に限定されない。例えば認識文字列Zの複数文を単位として制御処理が実行されてもよい。制御処理は、配信システム20による配信コンテンツCの配信に並行して実時間的に実行される。
【0030】
制御処理が開始されると、制御装置31(音声認識部71)は、音声データAに対する音声認識により認識文字列Zを特定する(S1)。制御装置31(音声認識部71)は、認識文字列Zを表示装置34に表示する(S2)。具体的には、制御装置31は、認識文字列Zにおける対象単語Xと対象単語X以外の文字列とを相異なる態様で表示する。
図5においては、対象単語Xが下線により強調表示された状態が例示されている。なお、対象単語Xの表示態様は以上の例示に限定されない。例えば、対象単語Xの文字の表示色、種類(フォント)、サイズ、装飾(例えば網掛)等の各種の態様が、対象単語X以外の文字列とは相違する。
【0031】
制御装置31(要求送信部721)は、対象単語Xと関連単語Wとを含む検索要求Qを、通信装置33から情報検索システム10に送信する(S3)。そして、制御装置31(結果受信部722)は、情報検索システム10から送信された検索結果Rを通信装置33により受信する(S4)。
【0032】
制御装置31(単語置換部723)は、認識文字列Zにおける対象単語Xを、検索結果Rに対応する代替単語Yに置換する(S5)。すなわち、認識文字列Zの対象単語Xが、検索順位が最上位である検索情報に含まれる代替単語Yに置換される。具体的には、制御装置31は、
図5に例示される通り、表示装置34に表示された対象単語Xを代替単語Yに置換する。なお、代替単語Yが対象単語Xに一致する場合、対象単語Xの置換は実行されない。
【0033】
以上に説明した通り、第1実施形態においては、認識文字列Z内の固有名詞である対象単語Xと1以上の関連単語Wとを含む検索要求Qが情報検索システム10に送信され、検索結果Rに対応する代替単語Yに認識文字列Zの対象単語Xが置換される。したがって、音声認識部71による音声認識において誤推定された対象単語Xを適切な代替単語Yに置換することが可能である。すなわち、認識文字列Zを適切な標記の文字列に補正できる。また、検索要求Qには対象単語X以外の関連単語Wが含まれるから、例えば対象単語Xのみを含む検索要求Qが情報検索システム10に送信される形態と比較して、対象単語Xが置換されるべき適切な代替単語Yが検索される可能性が高いという利点もある。
【0034】
ところで、固有名詞のうち人名は、適正な文字列に対して同音異字の関係にある文字列が音声認識により推定される可能性が特に高い。第1実施形態においては、対象単語Xと同音異字の関係にある人名が代替単語Yとして対象単語Xに置換される。したがって、音声認識において同音異字で誤推定された対象単語Xを適切な代替単語Yに置換することが可能である。
【0035】
また、第1実施形態においては、対象単語Xを含む認識文字列Zが表示装置34に暫定的に表示され、検索結果Rが取得された段階で、表示装置34に表示された対象単語Xが代替単語Yに置換される。したがって、例えば検索結果Rが取得された段階で、対象単語Xを代替単語Yに置換した認識文字列Zの表示が開始される構成と比較して、利用者が認識文字列Zを迅速に把握できる。なお、対象単語Xを含む認識文字列Zの表示は省略されてよい。すなわち、対象単語Xを代替単語Yに置換した認識文字列Zのみが表示装置34に表示されてもよい。
【0036】
第1実施形態においては、検索要求Qに応じて検索された複数の検索情報のうち、検索順位が最上位である検索情報に対応する代替単語Yに、対象単語Xが置換される。したがって、例えば過去の検索の傾向等の多様な観点から優先度が高い単語を、優先的に代替単語Yとして適用できる。
【0037】
B:第2実施形態
第2実施形態を説明する。なお、以下に例示する各態様において機能が第1実施形態と同様である要素については、第1実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。
【0038】
図7は、第2実施形態における制御装置31の動作に関する説明図である。第2実施形態の制御装置31は、記憶装置32に記憶されたプログラムを実行することで、第1実施形態と同様の要素(音声認識部71および補正処理部72)を実現する。
【0039】
第1実施形態の要求送信部721が送信する検索要求Qは、対象単語Xと1個以上の関連単語Wとを含む。他方、第2実施形態の要求送信部721が送信する検索要求Qは、第1実施形態と同様の1個以上の関連単語Wを検索キーワードとして指定するが、対象単語Xを含まない。すなわち、要求送信部721は、対象単語Xを含まない検索要求Qを通信装置33から情報検索システム10に送信する。検索要求Qの内容以外の構成および動作は、第1実施形態と同様である。
【0040】
情報検索システム10は、端末装置30から受信した検索要求Qに対応する複数の検索情報を検索データベースから検索する。具体的には、検索要求Qにより検索キーワードとして指定された1個以上の関連単語Wを含む複数の検索情報が、検索データベースから検索される。情報検索システム10は、検索結果Rを要求元の端末装置30に送信する。結果受信部722は、第1実施形態と同様に、情報検索システム10が送信した検索結果Rを通信装置33により受信する。
【0041】
1個以上の関連単語Wを含む検索情報は、対象単語Xに関連する可能性が高い。検索順位が高い検索情報は特に、対象単語Xを含む可能性が高い。単語置換部723は、検索順位が最上位である検索情報から対象単語Xに対応する代替単語Yを特定し、対象単語Xを当該代替単語Yに置換する。例えば検索情報に含まれる文字列のうち対象単語Xに類似または一致する単語が代替単語Yとして特定される。単語置換部723が対象単語Xを含む認識文字列Zを表示装置34に表示する動作(S2)、および、当該対象単語Xを代替単語Yに置換する動作(S5)は、第1実施形態と同様である。
【0042】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態においては、対象単語X自体を含まない検索要求Qが情報検索システム10に送信されるから、対象単語X以外の単語が代替単語Yとして検索される可能性が高い。例えば、対象単語Xに対して同音異字の関係にあり、かつ、関連単語Wに付随して使用される場合が多い単語が、代替単語Yとして検索される。すなわち、第2実施形態によれば、対象単語Xが置換されるべき適切な代替単語Yが検索される可能性が高いという利点がある。
【0043】
他方、第1実施形態においては、検索要求Qが対象単語Xを含むから、対象単語Xを含む検索情報が検索され易い。すなわち、第1実施形態によれば、対象単語Xとの関連性が低い検索情報が検索される可能性を低減できるという利点がある。
【0044】
C:第3実施形態
図8は、第3実施形態における情報システム100のブロック図である。
図8に例示される通り、第3実施形態の情報システム100は、第1実施形態と同様の要素に加えて制御システム40を具備する。第1実施形態においては、検索要求Qの送信(S3)と検索結果Rの受信(S4)と認識文字列Zの補正(S5)とを端末装置30が実行する形態を例示した。第3実施形態の制御システム40は、以上に説明した処理を実行するコンピュータシステムである。
【0045】
図9は、制御システム40の構成を例示するブロック図である。制御システム40は、制御装置41と記憶装置42と通信装置43とを具備する。なお、制御システム40は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。
【0046】
制御装置41は、制御システム40の各要素を制御する単数または複数のプロセッサである。具体的には、例えばCPU、GPU、SPU、DSP、FPGA、またはASIC等の1種類以上のプロセッサにより、制御装置41が構成される。
【0047】
記憶装置42は、制御装置41が実行するプログラムと、制御装置41が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置42として利用される。なお、例えば、制御システム40に対して着脱される可搬型の記録媒体、または、制御装置41が通信網200を介してアクセス可能な記録媒体(例えばクラウドストレージ)が、記憶装置42として利用されてもよい。
【0048】
通信装置43は、通信網200を介して情報検索システム10および配信システム20の各々と通信する。例えば、通信装置43は、検索要求Qを情報検索システム10に送信し、当該検索要求Qに応じた検索結果Rを情報検索システム10から受信する。また、通信装置43は、配信システム20から配信コンテンツCを受信する。なお、通信装置43と通信網200との間の通信は有線通信および無線通信の何れでもよい。また、制御システム40とは別体の通信装置43が、制御システム40に対して有線または無線により接続されてもよい。
【0049】
第3実施形態の制御装置41は、記憶装置42に記憶されたプログラムを実行することで、
図4に例示した第1実施形態と同様の機能(音声認識部71および補正処理部72)を実現する。音声認識部71は、第1実施形態と同様に、配信コンテンツCの音声データAに対する音声認識により認識文字列Zを生成する。要求送信部721は、検索要求Qを通信装置43から情報検索システム10に送信し、結果受信部722は、検索結果Rを通信装置43により情報検索システム10から受信する。
【0050】
単語置換部723は、認識文字列Zにおける対象単語Xを、検索結果Rに対応する代替単語Yに置換する。単語置換部723は、置換後の認識文字列Zと配信コンテンツCとを通信装置43から端末装置30に送信する。端末装置30は、配信コンテンツCと認識文字列Zとを第1実施形態と同様に再生する。例えば、配信コンテンツCの動画Mと、対象単語Xが代替単語Yに置換された認識文字列Zとを含む再生画面Gが、端末装置30の表示装置34に表示される。なお、第1実施形態と同様に、対象単語Xを含む認識文字列Zが表示装置34に暫定的に表示され、検索結果Rの生成後に、表示済の対象単語Xが代替単語Yに置換されてもよい。例えば、単語置換部723は、対象単語Xを含む認識文字列Zを端末装置30に表示させ、検索結果Rの取得後に、対象単語Xを代替単語Yに置換する指示を、通信装置43から端末装置30に送信してもよい。
【0051】
第3実施形態においても第1実施形態と同様の効果が実現される。なお、検索要求Qが対象単語Xを含まない第2実施形態の構成は、第3実施形態にも同様に適用される。第1実施形態の端末装置30と第3実施形態の制御システム40とは、認識文字列Zの対象単語Xを代替単語Yに置換する情報処理システムとして包括的に表現される。なお、検索要求Qにおける対象単語Xの有無は、第3実施形態において不問である。
【0052】
D:第4実施形態
図10は、第4実施形態における情報システム100のブロック図である。第4実施形態の情報システム100は、第1実施形態と同様の要素(情報検索システム10、配信システム20および端末装置30)に加えて音声認識システム50を具備する。音声認識システム50は、第1実施形態の音声認識部71と同様に、配信コンテンツCの音声データAに対する音声認識により認識文字列Zを生成する。
【0053】
図11は、第4実施形態における端末装置30の機能的な構成を例示するブロック図である。第4実施形態の制御装置31は、第1実施形態の音声認識部71に代えて認識要求部73として機能する。認識要求部73は、配信コンテンツCの音声データAに対する音声認識を音声認識システム50に要求する。具体的には、認識要求部73は、音声データAを含む認識要求を通信装置33から音声認識システム50に送信する。
【0054】
音声認識システム50は、端末装置30から受信した音声データAに対する音声認識により認識文字列Zを生成する。音声認識の方法は第1実施形態と同様である。音声認識システム50は、音声認識により特定された認識文字列Zを要求元の端末装置30に送信する。認識要求部73は、音声認識システム50から送信された認識文字列Zを通信装置33により受信する。認識文字列Zを利用した制御処理(S2~S5)は、第1実施形態と同様である。
【0055】
第4実施形態においても第1実施形態と同様の効果が実現される。第4実施形態においては、端末装置30が音声認識を実行する必要がないから、制御装置31の処理負荷が軽減されるという利点がある。以上の説明から理解される通り、第1実施形態の音声認識部71と第4実施形態の認識要求部73とは、音声データAに対する音声認識の結果である認識文字列Zを取得する要素(文字列取得部)として包括的に表現される。すなわち、認識文字列Zの取得は、第1実施形態の音声認識部71が音声データAに対する音声認識で認識文字列Zを生成する動作と、第4実施形態の認識要求部73が音声認識システム50から認識文字列Zを受信する動作との双方を包含する。
【0056】
なお、検索要求Qが対象単語Xを含まない第2実施形態の構成は、第4実施形態にも同様に適用される。また、検索要求Qの送信(S3)と検索結果Rの受信(S4)と認識文字列Zの補正(S5)とを制御システム40が実行する第3実施形態の構成も、第4実施形態に同様に適用される。すなわち、音声データAに対する音声認識は、制御システム40から音声認識システム50に要求されてもよい。また、端末装置30(音声認識部71)が音声認識により生成した認識文字列Zを、制御システム40の制御装置41(認識要求部73)が通信装置43により当該端末装置30から受信してもよい。端末装置30が音声認識システム50から受信した認識文字列Zを、制御システム40の制御装置41が通信装置43により当該端末装置30から受信してもよい。
【0057】
E:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。前述の実施形態および以下に例示する変形例から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
【0058】
(1)前述の各形態においては、認識文字列Zの各対象単語Xについて検索要求Qの送信(S3)と検索結果Rの受信(S4)とを含む動作(以下「検索動作」という)を実行したが、配信コンテンツCにおいて対象単語Xが反復的に使用される場合には、全部の対象単語Xについて検索動作を実行する必要はない。
【0059】
例えば、特定の対象単語Xについて代替単語Yが特定された場合、制御装置31(単語置換部723)は、当該代替単語Yを記憶装置32に格納し、認識文字列Zに以後に登場する対象単語Xについては、記憶装置32に記憶された代替単語Yに置換してもよい。すなわち、第2回目以降の対象単語Xについては、検索動作が省略されてもよい。
【0060】
代替単語Yを特定すべき頻度は、配信コンテンツCの種類にも依存する。例えば、全編にわたり1個の主題に関連する配信コンテンツCについては、配信コンテンツCの全体にわたり、対象単語Xは共通の代替単語Yに置換されてよい。他方、相異なる主題に関する多数の区間を含む配信コンテンツC(例えばニュース番組)については、配信コンテンツCのなかで代替単語Yを変更すべき場合がある。例えば、同音異字の関係にある複数の単語の各々が順次に使用される状況では、代替単語Yを逐次的に特定する必要がある。
【0061】
以上の事情を考慮すると、対象単語Xの発生毎に検索動作(S3,S4)を実行する第1動作モードと、記憶装置32に記憶された検索済の代替単語Yを対象単語Xの置換に使用する第2動作モードと、を含む複数の動作モードの何れかを、制御装置31が選択する形態が例示される。第1動作モードにおいては、同音異字の関係にある複数の単語が交互に使用される状況でも、各対象単語Xを適切な代替単語Yに置換できる。他方、第2動作モードにおいては、第2回目以降の対象単語Xについて検索動作が省略される。したがって、制御装置31(単語置換部723)の処理負荷が軽減される。
【0062】
動作モードは、例えば配信コンテンツCの種別に応じて選択される。例えば、配信コンテンツCが、相異なる主題の複数の区間を含む傾向がある第1種別に該当する場合、制御装置31は、第1動作モードを選択する。他方、配信コンテンツCが、主題が変化しない傾向がある第2種別に該当する場合、制御装置31は、第2動作モードを選択する。以上の形態によれば、第1動作モードによる利点と第2動作モードによる利点とを両立できる。
【0063】
なお、以上の説明においては端末装置30が検索動作を実行する形態を想定したが、制御システム40が検索動作を実行する第3実施形態にも同様の構成が適用される。
【0064】
(2)前述の各形態においては、検索結果Rが複数の検索情報を含む形態を例示したが、検索結果Rが1個の検索情報を含む形態も想定される。例えば、情報検索システム10は、検索要求Qに応じて検索された複数の検索情報のうち、検索順位が最上位である1個の検索情報を含む検索結果Rを送信する。単語置換部723は、認識文字列Zの対象単語Xを、検索結果Rの検索情報に含まれる代替単語Yに置換する。
【0065】
(3)前述の各形態においては人名を対象単語Xとして例示したが、対象単語Xは以上の例示に限定されない。例えば、団体名、地名または国名等の固有名詞が、対象単語Xとして指定されてもよい。
【0066】
(4)前述の各形態においては、検索結果Rに含まれる複数の検索情報のうち検索順位が最上位である検索情報に含まれる代替単語Yを、対象単語Xの置換に使用したが、代替単語Yの抽出対象となる検索情報を複数の検索情報から選択する方法は、検索順位を利用する以上の例示に限定されない。各検索情報が生成または更新された最新の日時(以下「更新日時」という)が検索結果Rの各検索情報に含まれる形態においては、更新日時が現在時刻に最も近い検索情報から、代替単語Yが抽出されてもよい。また、例えば、複数の検索情報のうち検索回数が多い検索情報から、代替単語Yが抽出されてもよい。検索順位、更新日時および検索回数等の複数の要素を総合的に加味して、検索情報が選択されてもよい。
【0067】
(5)前述の各形態においては、情報検索システム10が情報検索サービスを提供する形態を例示したが、情報検索システム10が提供する情報サービスは、情報検索サービスに限定されない。例えば、利用者が所望の情報を投稿および閲覧するソーシャルメディアサービス(SNS: Social networking service)を管理するコンピュータシステムが、前述の各形態における情報検索サービスとして利用されてもよい。検索要求Qを受信した情報検索システム10は、対象単語Xを含む多数の検索情報のうち、現在時刻までの所定長の期間における投稿数または閲覧数が多い単語(いわゆるトレンドワードまたは急上昇ワード)を含む投稿情報を、検索結果Rとして送信する。
【0068】
(6)前述の各形態においては、対象単語Xの置換前および置換後の認識文字列Zが表示装置34に表示される形態を例示したが、認識文字列Zの出力の方法は以上の例示に限定されない。例えば、制御装置31(単語置換部723)は、記憶装置32に記憶された認識文字列Zの対象単語Xを代替単語Yに置換し、置換後の認識文字列Zを通信装置33から他の情報装置に送信してもよい。すなわち、認識文字列Z(置換前または置換後)の表示は省略されてもよい。
【0069】
(7)前述の各形態においては、例えば文書またはウェブページ等の情報を検索情報として例示したが、検索情報の内容は以上の例示に限定されない。例えば、各種の情報の所在を表す所在情報を含む検索結果Rを、情報提供システムが送信してもよい。所在情報は、例えばURL(Uniform Resource Locator)である。単語置換部723は、検索情報のURLが表すシステムにアクセスすることで文書等の情報を取得し、対象単語Xに対応する代替単語Yを当該情報から抽出する。
【0070】
(8)前述の各形態においては、音声認識の対象となる音声データAが配信システム20から配信される形態を例示したが、音声データAの提供元は配信システム20に限定されない。例えば、周囲の音響の収音により音声データAを生成する収音装置(マイクロホン)から、端末装置30が音声データAを取得してもよい。端末装置30に有線または無線で接続された各種の音響機器から、端末装置40が音声データAを取得してもよい。他の通信装置から送信された音声データAを、端末装置30が通信網200を介して受信してもよい。また、音声データAは、動画データVとともに配信コンテンツCを構成するデータである必要はない。例えば、音声データAが単独で配信されてもよい。
【0071】
(9)前述の各形態に係る端末装置30の機能は、前述の通り、制御装置31を構成する単数または複数のプロセッサと、記憶装置32に記憶されたプログラムとの協働により実現される。また、第3実施形態に係る制御システム40の機能は、前述の通り、制御装置41を構成する単数または複数のプロセッサと、記憶装置42に記憶されたプログラムとの協働により実現される。
【0072】
以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。
【0073】
F:付記
以上に例示した形態から、例えば以下の構成が把握される。
【0074】
本開示のひとつの態様(態様1)に係る情報処理方法は、音声データに対する音声認識の結果である認識文字列を取得することと、前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信することと、前記検索要求に応じた検索結果を前記情報検索システムから受信することと、前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換することとを含む。
【0075】
以上の態様によれば、認識文字列内の固有名詞である対象単語以外の1以上の関連単語を含む検索要求が情報検索システムに送信され、当該検索要求に応じた検索結果に対応する代替単語に認識文字列の対象単語が置換される。したがって、音声認識において誤推定された対象単語を適切な代替単語に置換することが可能である。すなわち、認識文字列を適切な表記の文字列に補正できる。また、検索要求には対象単語以外の関連単語が含まれるから、例えば対象単語のみを含む検索要求が情報検索システムに送信される形態と比較して、対象単語が置換されるべき適切な代替単語が検索される可能性が高いという利点もある。
【0076】
音声認識は、情報処理方法を実現する情報処理システム自身、および情報処理システムが通信可能な音声認識システムにより実現され得る。すなわち、「認識文字列を取得すること」は、情報処理システム自身が音声認識により認識文字列を推定する動作と、外部の音声認識システムが推定した認識文字列を情報処理システムが受信する動作と、の双方を包含する。
【0077】
「対象単語」は、認識文字列に含まれる固有名詞である。例えば人物または地名等の各種の事物の名称(称呼)が「対象単語」として例示される。対象単語は、1個の単語で構成されてもよいし相互に連結された複数の単語で構成されてもよい。
【0078】
「関連単語」は、認識文字列における対象単語以外の単語である。例えば、対象単語が表す事物に関連する単語が「関連単語」として例示される。例えば、対象単語が表す事物が所在する場所を表す固有名詞(例えば名称)が「関連単語」の一例である。
【0079】
認識文字列を構成する各単語は、「対象単語」および「関連単語」に何れにも該当し得る。例えば、認識文字列に第1単語と第2単語とが含まれる場合を想定すると、第1単語を対象単語とした場合には第2単語が関連単語に該当し、第2単語を対象単語とした場合には第1単語が関連単語に該当する。
【0080】
情報検索システムは、情報サービスを提供するコンピュータシステムである。情報サービスは、外部装置からの検索要求に対して情報を検索および提供するサービスである。例えば、検索要求で指定された単語を含むウェブサイトまたはファイル等の各種の情報を検索する情報検索サービス、または各利用者から投稿された情報を多数の利用者に提供するソーシャルメディアサービス(SNS:Social networking service)等の各種の情報サービスを提供するコンピュータシステムが「情報検索システム」として例示される。
【0081】
「検索結果」は、例えば検索要求で指定された単語を含むウェブサイトのURL、または当該単語を含むテキストデータ等の形態で情報処理システムに提供される。情報検索システムは、例えば多数の利用者が注目している情報を優先的に検索結果として提供する。例えば、情報検索サービスにおける検索回数が多い情報、またはSNSサービスにおける投稿数または閲覧数が多い情報が、優先的に検索結果として提供される。
【0082】
「代替単語」は、対象単語が置換されるべき代替的な単語である。例えば、代替単語は、対象単語に対して同音異義の関係にある単語である。検索結果に対応する代替単語は、例えば検索結果から特定可能な単語である。具体的には、検索結果がウェブサイトのURLとして提供される形態では、当該ウェブサイトに含まれる単語が代替単語として例示される。また、例えば検索結果がテキストデータ等のデータとして提供される形態では、当該テキストに含まれる単語が代替単語として例示される。認識文字列における対象単語は代替単語に置換される。ただし、対象単語が代替単語に置換されない場合があってもよい。
【0083】
態様1の具体例(態様2)において、前記検索要求は、前記対象単語を含む。以上の態様においては、対象単語と関連単語との双方を含む検索要求が情報検索システムに送信されるから、対象単語が置換されるべき適切な代替単語が情報検索システムにより検索される可能性が向上される。
【0084】
態様1の具体例(態様3)において、前記検索要求は、前記対象単語を含まない。以上の態様においては、対象単語を含まない検索要求が情報検索システムに送信されるから、対象単語以外の単語が代替単語として検索される可能性が高い。例えば、対象単語に対して同音異字の関係にあり、かつ、関連単語に付随して使用される場合が多い単語が、代替単語として検索される。
【0085】
態様1から態様3の何れかの具体例(態様4)において、前記対象単語は、人名であり、前記代替単語は、前記対象単語と同音異字の関係にある人名である。固有名詞のうち人名は、適正な文字列に対して同音異字の関係にある文字列が音声認識により推定される可能性が特に高い。対象単語と同音異字の関係にある人名が代替単語として対象単語に置換される構成によれば、音声認識において同音異字で誤推定された対象単語を適切な代替単語に置換することが可能である。なお、「同音異字」とは、称呼(呼び名)は共通するけれども表記(特に漢字)が相違する関係を意味する。
【0086】
態様1から態様4の何れかの具体例(態様5)において、前記認識文字列における前記対象単語と前記対象単語以外の文字列とを相異なる態様で表示装置に表示すること、をさらに含み、前記代替単語に置換することは、前記表示装置に表示された前記対象単語を前記代替単語に置換することを含む。以上の態様においては、対象単語を含む認識文字列が表示装置に暫定的に表示され、検索結果が取得された段階で、表示装置に表示された対象単語が当該検索結果に対応する代替単語に置換される。したがって、例えば検索結果が取得された段階で、対象単語を代替単語に置換した認識文字列の表示が開始される構成と比較して、利用者が認識文字列を迅速に把握できる。
【0087】
表示装置に表示される「態様」は、観察者が視覚的に弁別可能な画像の特性を意味する。例えば、文字列または背景の表示色、模様(図柄)、サイズまたは形状が、「態様」の概念には包含される。なお、「表示色」は、色相(色調),彩度または明度(階調)により規定される。
【0088】
態様1から態様5の何れかの具体例(態様6)において、前記検索結果を取得することは、前記情報検索システムにより検索されて検索順位が設定された複数の検索情報を含む検索結果を取得することであり、前記対象単語を置換することは、前記複数の検索情報のうち検索順位が最上位である検索情報に対応する前記代替単語に、前記対象単語を置換することを含む。以上の態様においては、情報検索システムが検索した複数の検索情報のうち検索順位が最上位である検索情報に対応する代替単語に、対象単語が置換される。したがって、過去の検索の傾向等の多様な観点から優先度が高い単語を、優先的に代替単語として適用できる。
【0089】
「検索順位」は、複数の検索結果について所定の条件のもとで決定された順位である。具体的には、例えば多数の利用者が注目している情報が検索順位の上位に位置付けられる。例えば、情報検索サービスにおける検索回数が多い情報、またはソーシャルメディアサービスにおける投稿数または閲覧数が多い情報が、検索順位の上位に位置する。
【0090】
本開示のひとつの態様(態様7)に係る情報処理システムは、音声データに対する音声認識の結果である認識文字列を取得する文字列取得部と、前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信する要求送信部と、前記検索要求に応じた検索結果を前記情報検索システムから受信する結果受信部と、前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換する単語置換部とを具備する。
【0091】
本開示のひとつの態様(態様8)に係るプログラムは、音声データに対する音声認識の結果である認識文字列を取得する文字列取得部、前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信する要求送信部、前記検索要求に応じた検索結果を前記情報検索システムから受信する結果受信部、および、前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換する単語置換部、としてコンピュータシステムを機能させる。
【符号の説明】
【0092】
100…情報システム、200…通信網、10…情報検索システム、20…配信システム、30…端末装置、31…制御装置、32…記憶装置、33…通信装置、34…表示装置、35…放音装置、40…制御システム、41…制御装置、42…記憶装置、43…通信装置、50…音声認識システム、71…音声認識部、72…補正処理部、721…要求送信部、722…結果受信部、723…単語置換部、73…認識要求部。