IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通クライアントコンピューティング株式会社の特許一覧

特開2022-28436情報処理装置および情報処理プログラム
<>
  • 特開-情報処理装置および情報処理プログラム 図1
  • 特開-情報処理装置および情報処理プログラム 図2
  • 特開-情報処理装置および情報処理プログラム 図3
  • 特開-情報処理装置および情報処理プログラム 図4
  • 特開-情報処理装置および情報処理プログラム 図5
  • 特開-情報処理装置および情報処理プログラム 図6
  • 特開-情報処理装置および情報処理プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022028436
(43)【公開日】2022-02-16
(54)【発明の名称】情報処理装置および情報処理プログラム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20220208BHJP
【FI】
G10L15/22 460Z
G10L15/22 470F
【審査請求】有
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2020131827
(22)【出願日】2020-08-03
(11)【特許番号】
(45)【特許公報発行日】2021-02-24
(71)【出願人】
【識別番号】518133201
【氏名又は名称】富士通クライアントコンピューティング株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】大櫃 敏郎
(57)【要約】
【課題】音声認識の際に発生しうる不明瞭語を適切に処理する。
【解決手段】本開示の一例としての情報処理装置は、音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの音声認識の確からしさを示す認識率とともに取得する取得処理部と、認識率が閾値を下回る形態素から、発音が他の語と類似している不明瞭語が特定された場合、不明瞭語から、不明瞭語と同一の意味を持つ語として予め設定された変換語を取得する変換処理部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの前記音声認識の確からしさを示す認識率とともに取得する取得処理部と、
前記認識率が閾値を下回る前記形態素から、発音が他の語と類似している不明瞭語が特定された場合、前記不明瞭語から、前記不明瞭語と同一の意味を持つ語として予め設定された変換語を取得する変換処理部と、
を備える、情報処理装置。
【請求項2】
前記変換語が取得された場合、前記変換語を前記不明瞭語の代替として用いて、前記音声データに対する応答を出力する応答処理部をさらに備える、
請求項1に記載の情報処理装置。
【請求項3】
前記変換処理部は、前記変換語が取得された場合、前記変換語を補足する語として予め設定された補足語をさらに取得し、
前記応答処理部は、前記変換語に加えて前記補足語をさらに用いて、前記応答を出力する、
請求項2に記載の情報処理装置。
【請求項4】
前記不明瞭語と、前記変換語と、前記補足語と、前記不明瞭語の発音を示す所定の音声データと、の対応関係が予め設定された変換データベースをさらに備え、
前記変換処理部は、前記変換データベースを参照し、前記音声データのうち前記認識率が閾値を下回る前記形態素を示す不明瞭区間と、前記変換データベースに設定された前記所定の音声データと、の類似度に基づいて、前記不明瞭区間に対応した前記不明瞭語を特定し、前記不明瞭語に対応した前記変換語および前記補足語を取得する、
請求項3に記載の情報処理装置。
【請求項5】
前記不明瞭語と、前記不明瞭語のユーザごとの発音を示すユーザ音声データと、の対応関係が予め設定されたユーザ音声データベースをさらに備え、
前記変換処理部は、前記不明瞭区間と前記ユーザ音声データとの類似度に基づいて前記不明瞭語を特定するように前記変換データベースに先立って前記ユーザ音声データベースを参照し、前記ユーザ音声データベースから前記不明瞭語が特定された場合、前記ユーザ音声データベースから特定された前記不明瞭語に基づいて、前記変換データベースから前記変換語および前記補足語を取得する、
請求項4に記載の情報処理装置。
【請求項6】
音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの前記音声認識の確からしさを示す認識率とともに取得することと、
前記認識率が閾値を下回る前記形態素から、発音が他の語と類似している不明瞭語が特定された場合、前記不明瞭語から、前記不明瞭語と同一の意味を持つ語として予め設定された変換語を取得することと、
をコンピュータに実行させるための、情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置および情報処理プログラムに関する。
【背景技術】
【0002】
従来から、ユーザの発話内容を示す音声データに音声認識による解析を実行し、当該解析の結果に応じて、ユーザの発話内容に対する応答を出力する技術について検討されている。このような従来の技術として、話題の一貫性または単語のつながりを考慮して適切な応答の出力を図る構成が知られている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2019/162242号
【特許文献2】特開2014-145842号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した音声認識による解析の結果として得られる形態素には、発音が他の語と類似している不明瞭語が含まれる場合がある。この点に関して、上述した従来の技術では、話題の一貫性または単語のつながりに問題が無ければ、たとえ不明瞭語が誤認識されている場合であっても、誤認識された不明瞭語に基づいて応答が出力される。このため、不明瞭語の誤認識を抑制するように、不明瞭語を適切に処理することが望まれている。
【0005】
そこで、本開示の課題の一つは、音声認識の際に発生しうる不明瞭語を適切に処理することが可能な情報処理装置および情報処理プログラムを提供することである。
【課題を解決するための手段】
【0006】
本開示の一例としての情報処理装置は、音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの音声認識の確からしさを示す認識率とともに取得する取得処理部と、認識率が閾値を下回る形態素から、発音が他の語と類似している不明瞭語が特定された場合、不明瞭語から、不明瞭語と同一の意味を持つ語として予め設定された変換語を取得する変換処理部と、を備える。
【発明の効果】
【0007】
本開示の一例としての情報処理装置によれば、音声認識の際に発生しうる不明瞭語を適切に処理することができる。
【図面の簡単な説明】
【0008】
図1図1は、実施形態にかかる情報処理システムの構成を示した例示的かつ模式的なブロック図である。
図2図2は、実施形態にかかる変換データベースの例を例示的かつ模式的な図である。
図3図3は、実施形態にかかるユーザ音声データベースの例を示した例示的かつ模式的な図である。
図4図4は、実施形態にかかるサーバ装置が端末装置からの音声データの受信に応じて実行する一連の処理を示した例示的なフローチャートである。
図5図5は、実施形態において端末装置のユーザとサーバ装置との間で実行される会話の一例を示した例示的かつ模式的な図である。
図6図6は、実施形態において端末装置のユーザとサーバ装置との間で実行される会話の図5とは異なる他の一例を示した例示的かつ模式的な図である。
図7図7は、実施形態にかかるサーバ装置を構成するコンピュータのハードウェア構成の例を示した例示的かつ模式的なブロック図である。
【発明を実施するための形態】
【0009】
以下、本開示の実施形態を図面に基づいて説明する。以下に記載する実施形態の構成、ならびに当該構成によってもたらされる作用および効果は、あくまで一例であって、以下の記載内容に限られるものではない。
【0010】
図1は、実施形態にかかる情報処理システムの構成を示した例示的かつ模式的なブロック図である。
【0011】
ここで、実施形態にかかる情報処理システムは、ユーザの発話内容を示す音声データに音声認識による解析を実行し、当該解析の結果に応じて、ユーザの発話内容に対する応答を出力する技術に適用される。このような技術を実施するための構成として、従来、話題の一貫性または単語のつながりを考慮して、適切な応答の出力を図る構成が知られている。
【0012】
しかしながら、上述した音声認識による解析の結果として得られる形態素には、発音が他の語と類似している不明瞭語が含まれる場合がある。この点に関して、上述した従来の技術では、話題の一貫性または単語のつながりに問題が無ければ、たとえ不明瞭語が誤認識されている場合であっても、誤認識された不明瞭語に基づいて応答が出力される。このため、不明瞭語の誤認識を抑制するように、不明瞭語をより適切に処理することが望まれている。
【0013】
そこで、実施形態にかかる情報処理システムは、以下に説明するような構成および処理により、音声認識の際に発生しうる不明瞭語をより適切に処理することを実現する。
【0014】
図1に示されるように、実施形態にかかる情報処理システムは、端末装置100と、サーバ装置200と、を備えている。端末装置100およびサーバ装置200は、ネットワーク(不図示)を介して互いに通信可能に接続されている。サーバ装置200は、本開示の「情報処理装置」の一例である。
【0015】
端末装置100は、通信処理部110と、入力処理部120と、出力処理部130と、を備えている。
【0016】
通信処理部110は、端末装置100と他の装置(図1に示される例ではサーバ装置200)との間で実行されうる通信を司る。
【0017】
入力処理部120は、端末装置100のユーザの発話に応じた音声データの入力を受け付け、当該音声データのサーバ装置200への送信を通信処理部110に実行させる。
【0018】
出力処理部130は、サーバ装置200が音声データに応じて作成した応答が通信処理部110により受信された場合に、当該応答を端末装置100のユーザに音声または画像で通知する。
【0019】
また、サーバ装置200は、通信処理部210と、解析処理部220と、解析データベース(DB)221と、変換処理部230と、変換データベース231と、ユーザ音声データベース232と、応答処理部240と、検索処理部250と、を備えている。解析処理部220は、本開示の「取得処理部」の一例である。
【0020】
通信処理部210は、サーバ装置200と他の装置(図1に示される例では端末装置100)との間で実行されうる通信を司る。
【0021】
解析処理部220は、通信処理部210が端末装置100から受信した音声データに音声認識による解析を実行する。より具体的に、解析処理部220は、音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの音声認識の確からしさを示す認識率とともに取得する。実施形態は、解析の手法として、従来から知られている形態素解析の手法を利用しうる。このような解析に必要な各種のデータは、解析データベース221に予め設定されている。
【0022】
変換処理部230は、上記の認識率が閾値を下回る形態素から、発音が他の語と類似している不明瞭語を特定する。そして、変換処理部230は、不明瞭語が特定された場合、特定された不明瞭語から、当該不明瞭語と同一の意味を持つ語として予め設定された変換語を取得する。さらに、変換処理部230は、変換語が取得された場合、変換語を補足する語として予め設定された補足語をさらに取得する。
【0023】
不明瞭語の特定と、当該不明瞭語に応じた変換語および補足語の取得とは、次の図2に示されるような変換データベース231に基づいて実行される。
【0024】
図2は、実施形態にかかる変換データベース231の例を例示的かつ模式的な図である。
【0025】
図2に示されるように、変換データベース231には、「No」と「カテゴリ」と「不明瞭語」と「変換語」と「補足語」と「誤変換語」と「音声データ」との対応関係が予め設定されている。なお、図2に示される例において、「No」と「カテゴリ」と「不明瞭語」と「変換語」と「補足語」と「誤変換語」と「音声データ」との各欄に設定された情報は、あくまで一例である。したがって、実施形態では、変換データベース231の各欄に図2に示される例とは異なる情報が設定されていてもよい。
【0026】
「不明瞭語」の欄には、サーバ装置200を運用する事業者などにより予め決められた不明瞭語が設定される。図2に示される例では、「不明瞭語」の欄に、4つの不明瞭語が設定されている。
【0027】
また、「変換語」の欄には、「不明瞭語」の欄に設定された不明瞭語と同一の意味を持つ語としてサーバ装置200を運用する事業者などにより予め決められた変換語が設定される。図2に示される例では、「不明瞭語」の欄に、上記の4つの不明瞭語に対応した4つの変換語が設定されている。図2に示されるように、実施形態では、不明瞭語と変換語とが同一の語であってもよい。
【0028】
なお、図2に示される例では、不明瞭語と変換語とが1対1で設定されているが、実施形態では、1つの不明瞭語に対して複数の変換語が設定されていてもよい。この場合、変換処理部230は、複数の変換語を、たとえば予め決められた優先順位に従って1つずつ使用しうる。
【0029】
また、「補足語」の欄には、「変換語」を補足する語としてサーバ装置200を運用する事業者などにより予め決められた補足語が設定される。図2に示されるように、実施形態では、特定の語を示すデータのみならず、補足語の有無を表すだけのデータも、補足語として設定されうる。
【0030】
また、「音声データ」の欄には、不明瞭語の典型的な発音を示す所定の音声データが設定される。実施形態において、変換処理部230は、サーバ装置200が端末装置100から取得する音声データのうち認識率が閾値を下回る形態素に対応した不明瞭区間と、「音声データ」の欄に設定された所定のデータと、の類似度に応じて、不明瞭区間に対応した不明瞭語を特定しうる。
【0031】
また、「誤変換語」の欄には、「不明瞭語」の欄に設定された不明瞭語と発音が類似する語としての誤変換語が設定される。誤変換語は、たとえば、「変換語」の欄に設定された変換語に基づいて出力される応答が誤っているとユーザに判定された場合に、次の応答の作成時に変換語に代えて使用されうる。
【0032】
なお、「No」の欄には、便宜上割り当てられた管理番号が設定される。また、「カテゴリ」の欄には、「不明瞭語」の欄に設定された不明瞭語の品詞が設定される。
【0033】
このように、実施形態において、変換処理部230は、解析処理部220により解析された音声データが不明瞭区間を含む場合、変換データベース231を参照することで、不明瞭区間に対応した不明瞭語の特定と、当該不明瞭語に対応した変換語および補足語を特定する。すなわち、変換処理部230は、解析処理部220により解析された音声データが不明瞭区間を含む場合、変換データベース231を参照し、不明瞭区間と所定の音声データとの類似度に基づいて、不明瞭区間に対応した不明瞭語を特定し、不明瞭語に対応した変換語および補足語を取得する。
【0034】
ここで、実施形態において、変換処理部230は、変換データベース231を用いた上記の処理の負担を軽減するために、変換データベース231に先立って、次の図3に示されるようなユーザ音声データベース232を参照しうる。
【0035】
図3は、実施形態にかかるユーザ音声データベース232の例を示した例示的かつ模式的な図である。
【0036】
図3に示されるように、ユーザ音声データベース232には、「ユーザID」と「音声データ」と「不明瞭語」との対応関係が予め設定されている。なお、図3に示される例において、「ユーザID」と「音声データ」と「不明瞭語」との各欄に設定された情報は、あくまで一例である。したがって、実施形態では、ユーザ音声データベース232の各欄に図3に示される例とは異なる情報が設定されていてもよい。
【0037】
「ユーザID」の欄には、端末装置100のユーザを識別するための情報としてのユーザIDが設定される。ユーザIDは、ユーザごとに適宜割り当てられる。
【0038】
「不明瞭語」の欄には、「ユーザID」の欄に設定されたユーザIDで識別されるユーザが過去に発話した不明瞭語が設定される。図3に示される例では、「不明瞭語」の欄に、4つの不明瞭語が設定されている。
【0039】
また、「音声データ」の欄には、不明瞭語のユーザごとの発音を示すユーザ音声データが設定される。ユーザ音声データは、変換データベース231に予め設定された所定の音声データと異なり、ユーザの発話履歴に基づいている。
【0040】
実施形態において、変換処理部230は、解析処理部220により解析された音声データが不明瞭区間を含む場合、変換データベース231を用いた不明瞭語の特定に先立って、上記のようなユーザ音声データベース232を用いた不明瞭語の特定を試みる。すなわち、変換処理部230は、解析処理部220により解析された音声データが不明瞭区間を含む場合、不明瞭区間とユーザ音声データとの類似度に基づいて不明瞭語を特定するように、変換データベース231に先立ってユーザ音声データベース232を参照する。そして、変換処理部230は、ユーザ音声データベース232から不明瞭語が特定された場合、ユーザ音声データベース232から特定された不明瞭語に基づいて、変換データベース231から変換語および補足語を取得する。
【0041】
図1に戻り、応答処理部240は、変換処理部230により変換語が取得された場合、当該変換語を不明瞭語の代替として用いて、サーバ装置200が端末装置100から受信した音声データに対する応答を出力する。また、応答処理部240は、変換処理部230により変換語とともに補足語も取得された場合、変換語に加えて補足語をさらに用いて、応答を出力する。
【0042】
なお、検索処理部250は、応答処理部240が応答を出力するために必要な情報を検索する。検索処理部250による検索の結果に基づいて応答処理部240により出力された応答は、通信処理部210によって端末装置100に送信される。
【0043】
以上の構成に基づき、実施形態にかかるサーバ装置200は、端末装置100からの音声データの受信に応じて、次の図4に示されるような一連の処理を実行する。
【0044】
図4は、実施形態にかかるサーバ装置200が端末装置100からの音声データの受信に応じて実行する一連の処理を示した例示的なフローチャートである。
【0045】
図4に示されるように、実施形態では、まず、S401において、解析処理部220は、通信処理部210が端末装置100から受信した音声データを取得する。
【0046】
そして、S402において、解析処理部220は、S401で取得された音声データに対して解析データベース221を用いた解析を実行し、音声データのうち認識率が閾値を下回る形態素を示す不明瞭区間が存在するか否かを判定する。なお、不明瞭区間は、複数存在しうる。
【0047】
S402において、不明瞭区間が存在しないと判定された場合、そのまま処理が終了する。しかしながら、S402において、不明瞭区間が存在すると判定された場合、S403に処理が進む。
【0048】
そして、S403において、変換処理部230は、不明瞭区間に基づいてユーザ音声データベース232を参照する。
【0049】
そして、S404において、変換処理部230は、不明瞭区間と類似した、すなわち不明瞭区間との類似度が一定以上のユーザ音声データがユーザ音声データベース232内に存在するか否かを判定する。
【0050】
S404において、不明瞭区間と類似したユーザ音声データがユーザ音声データベース232内に存在すると判定された場合、S405に処理が進む。そして、S405において、変換処理部230は、不明瞭区間と類似したユーザ音声データに対応した不明瞭語をユーザ音声データベース232から特定する。
【0051】
一方、S404において、不明瞭区間と類似したユーザ音声データがユーザ音声データベース232内に存在しないと判定された場合、S406に処理が進む。そして、S406において、変換処理部230は、ユーザ音声データをユーザ音声データベース232に新たに追加するように、ユーザ音声データベース232を更新する。
【0052】
S405またはS406の処理が完了すると、S407に処理が進む。そして、S407において、変換処理部230は、S405またはS406の処理の結果に基づいて、変換データベース231を参照する。
【0053】
そして、S408において、変換処理部230は、該当する不明瞭語が変換データベース231内に存在するか否かを判定する。より具体的に、変換処理部230は、S405を経たS408においては、S405で特定された不明瞭語と一致する不明瞭語が変換データベース231内に存在するか否かを判定し、S406を経たS408においては、不明瞭区間と類似した音声データに対応した不明瞭語が変換データベース231内に存在するか否かを判定する。
【0054】
S408において、該当する不明瞭語が存在しないと判定された場合、S401で取得された音声データの意味を適切に解釈できないので、端末装置100に適切な応答を返すことができない。したがって、この場合、応答処理部240は、ユーザの再発話を促す通知を端末装置100への応答として出力する。応答は、通信処理部210を介して端末装置100に送信され、端末装置100の出力処理部130を介してユーザに出力される。そして、処理が終了する。
【0055】
一方、S408において、該当する不明瞭語が存在すると判定された場合、S401で取得された音声データの意味を適切に解釈できるので、端末装置100に適切な応答を返すことができると見込まれる。したがって、この場合、そのまま処理が終了することなく、S410に処理が進む。
【0056】
そして、S410において、変換処理部230は、該当する不明瞭語に対応した変換語および補足語を変換データベース231から取得する。
【0057】
そして、S411において、変換処理部230は、全ての不明瞭区間に対応した全ての不明瞭語が特定済みであるか否かを判定する。
【0058】
S411において、一部の不明瞭語が特定されていない判定された場合、次の不明瞭語の特定のため、S403に処理が戻る。しかしながら、S411において、全ての不明瞭語が特定済みであると判定された場合、S412に処理が進む。
【0059】
そして、S412において、応答処理部240は、S410で取得された変換語および補足語を用いて、S401で取得された音声データに対する応答を出力する。より具体的に、応答処理部240は、変換語を不明瞭語の代替語として用いるとともに、変換語を補足語の付け足しとして用いることで、応答を出力する。このとき、応答処理部240は、必要に応じて検索処理部250に検索を実行させ、当該検索の結果を利用して応答を出力しうる。なお、応答処理部240により出力された応答は、通信処理部210を介して端末装置100に送信され、端末装置100の出力処理部130を介してユーザに出力される。
【0060】
そして、S413において、応答処理部240は、S412で出力された応答に対する端末装置100のユーザからの訂正の要求が通信処理部210を介して受信されたか否かを判定する。
【0061】
S413において、訂正の要求が受信されたと判定された場合、S414に処理が進む。そして、S414において、応答処理部240は、たとえば変換データベース231の「誤認識語」の欄などを参照し、ユーザの訂正に応じた次の応答を出力する。そして、S413に処理が戻る。
【0062】
一方、S413において、訂正の要求が受信されなかったと判定された場合、S415に処理が進む。そして、S415において、変換処理部230は、現在の応答の作成に用いた不明瞭語とユーザ音声データとに基づいて、ユーザ音声データベース415を更新する。そして、処理が終了する。
【0063】
以上の処理に基づき、実施形態では、端末装置100のユーザとサーバ装置200との間で、たとえば次の図5に示されるような会話が実行されうる。
【0064】
図5は、実施形態において端末装置100のユーザとサーバ装置200との間で実行される会話の一例を示した例示的かつ模式的な図である。
【0065】
図5に示される例では、まず、端末装置100のユーザにより、「1月の祝日をおしえて」という発話が実行される。この発話は、「1月」という、不明瞭語となりうる不明瞭区間を含んでいる。
【0066】
ここで、サーバ装置200が「1月」という上記の不明瞭区間が「いちがつ」という不明瞭語であると特定した場合を考える。この場合、サーバ装置200は、変換データベース231(図2参照)に基づいて、「いちがつ」という変換語と、「睦月」という補足語とを取得する。したがって、この場合、サーバ装置200は、「1月睦月の祝日は元日と成人式です」という応答(「1月」は「いちがつ」と発音)を実行する。なお、「元日」および「成人式」という情報は、検索処理部250による検索の結果に基づいて取得される。
【0067】
図5に示される例は、サーバ装置200の最初の解釈が正しい例に該当する。したがって、この場合、ユーザは、無応答(承認を示す何らかの応答であってもよい)により、会話に違和感が無い旨をサーバ装置200に示す。そして、会話が終了する。
【0068】
一方、実施形態では、次の図6に示される例のような、サーバ装置200の最初の解釈が正しくない例も想定される。
【0069】
図6は、実施形態において端末装置100のユーザとサーバ装置200との間で実行される会話の図5とは異なる他の一例を示した例示的かつ模式的な図である。
【0070】
図6に示される例では、まず、端末装置100のユーザにより、「1月の祝日をおしえて」という発話が実行される。この発話は、「1月」という不明瞭区間を含んでいる。ここまでは図5に示される例と同様である。
【0071】
ここで、図6に示される例では、図5に示される例と異なり、「1月」という不明瞭区間が、「しちがつ」という不明瞭語であると特定される。この場合、サーバ装置200は、変換データベース231(図2参照)に基づいて、「なながつ」という変換語と、「文月」という補足語とを取得する。したがって、この場合、サーバ装置200は、「7月文月の祝日は海の日とスポーツの日です」という応答(「7月」は「なながつ」と発音)を実行する。なお、「元日」および「成人式」という情報は、検索処理部250による検索の結果に基づいて取得される。
【0072】
上記の会話において、ユーザが発話したのは「1月」であり、「7月」ではない。したがって、この場合、ユーザは、「7月は違う」というような、サーバ装置200の解釈が正しくないことを示す発話と行い、サーバ装置200に応答の訂正を要求する。
【0073】
すると、サーバ装置200は、変換データベース231(図2参照)に基づいて、「いちがつ」という誤変換語を取得する。そして、サーバ装置200は、当該誤変換語を不明瞭語として用いて、変換データベース231から変換語および補足語を取得する。これにより、サーバ装置200は、「申し訳ありませんでした。1月睦月の祝日は元日と成人式です。」という応答を(「1月」は「いちがつ」と発音)を実行する。なお、「元日」および「成人式」という情報は、検索処理部250による検索の結果に基づいて取得される。
【0074】
上記の会話において、サーバ装置200が再度行った応答は正しい。したがって、この場合、ユーザは、無応答(承認を示す何らかの応答であってもよい)により、会話に違和感が無い旨をサーバ装置200に示す。そして、会話が終了する。
【0075】
最後に、実施形態にかかるサーバ装置200のハードウェア構成について説明する。実施形態にかかるサーバ装置200は、たとえば次の図7に示されるようなハードウェア構成を有するコンピュータ700として構成される。
【0076】
図7は、実施形態にかかるサーバ装置200を構成するコンピュータ700のハードウェア構成の例を示した例示的かつ模式的なブロック図である。
【0077】
図7に示されるように、コンピュータ700は、プロセッサ710と、メモリ720と、ストレージ730と、入出力インターフェース(I/F)740と、通信インターフェース(I/F)750と、を備えている。これらのハードウェアは、バス760に接続されている。
【0078】
プロセッサ710は、たとえばCPU(Central Processing Unit)として構成され、コンピュータ700の各部の動作を統括的に制御する。
【0079】
メモリ720は、たとえばROM(Read Only Memory)およびRAM(Random Access Memory)を含み、プロセッサ710により実行されるプログラムなどの各種のデータの揮発的または不揮発的な記憶、およびプロセッサ710がプログラムを実行するための作業領域の提供などを実現する。
【0080】
ストレージ730は、たとえばHDD(Hard Disk Drive)またはSSD(Solid State Drive)を含み、各種のデータを不揮発的に記憶する。
【0081】
入出力インターフェース740は、たとえばキーボードおよびマウスなどのような入力装置(不図示)からコンピュータ700へのデータの入力と、たとえばコンピュータ700からディスプレイおよびスピーカなどのような出力装置(不図示)へのデータの出力と、を制御する。
【0082】
通信インターフェース750は、コンピュータ700が他の装置と通信を実行することを可能にする。
【0083】
実施形態において、サーバ装置200が有する図1に示される各構成は、プロセッサ710がメモリ720またはストレージ730などに記憶された情報処理プログラムを実行した結果として、ハードウェアとソフトウェアとの協働による機能モジュールとして実現される。ただし、実施形態では、図1に示される機能モジュール群のうち少なくとも一部が、専用のハードウェアのみによって実現されてもよい。
【0084】
なお、上述した実施形態にかかる情報処理プログラムは、必ずしもメモリ720またはストレージ730に予め記憶されている必要はない。たとえば、上述した実施形態にかかる情報処理プログラムは、フレキシブルディスク(FD)のような各種の磁気ディスク、またはDVD(Digital Versatile Disk)のような各種の光ディスクなどといった、コンピュータで読み取り可能な記録媒体にインストール可能な形式または実行可能な形式で記録されたコンピュータプログラムプロダクトとして提供されてもよい。
【0085】
また、上述した実施形態にかかる情報処理プログラムは、インターネットなどのネットワーク経由で提供または配布されてもよい。すなわち、上述した実施形態にかかる情報処理プログラムは、インターネットなどのネットワークに接続されたコンピュータ上に格納された状態で、ネットワーク経由でのダウンロードを受け付ける、といった形で提供されてもよい。
【0086】
なお、実施形態では、端末装置100も、サーバ装置200と同様に、図7に示されるようなハードウェア構成を有してコンピュータ700として構成されうる。したがって、実施形態の変形例として、サーバ装置200の機能モジュールの少なくとも一部が端末装置100に実装された構成も考えられる。したがって、実施形態の変形例として、端末装置100が本開示の「情報処理装置」に該当する例も考えられるし、端末装置100とサーバ装置200との組み合わせとしての情報処理システムが本開示の「情報処理装置」に該当する例も考えられる。
【0087】
以上説明したように、実施形態にかかるサーバ装置200は、解析処理部220と、変換処理部230と、を備えている。解析処理部220は、端末装置100から受信された音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの音声認識の確からしさを示す認識率とともに取得する。変換処理部230は、認識率が閾値を下回る形態素から、発音が他の語と類似している不明瞭語が特定された場合、不明瞭語から、不明瞭語と同一の意味を持つ語として予め設定された変換語を取得する。
【0088】
上記のような構成によれば、不明瞭語と同一の意味を持つ変換語を用いて、音声認識の際に発生しうる不明瞭語を適切に処理することができる。
【0089】
ここで、実施形態にかかるサーバ装置200は、変換語が取得された場合、変換語を不明瞭語の代替として用いて、音声データに対する応答を出力する応答処理部240をさらに備えている。このような構成によれば、変換語に基づく適切な応答を出力することができる。
【0090】
また、実施形態において、変換処理部230は、変換語が取得された場合、変換語を補足する語として予め設定された補足語をさらに取得する。そして、応答処理部240は、変換語に加えて補足語をさらに用いて、応答を出力する。このような構成によれば、変換語および補足語の両方に基づくさらに適切な応答を出力することができる。
【0091】
より具体的に、実施形態にかかるサーバ装置200は、不明瞭語と、変換語と、補足語と、不明瞭語の発音を示す所定の音声データと、の対応関係が予め設定された変換データベース231を備えている。そして、変換処理部230は、変換データベース231を参照し、端末装置100から受信された音声データのうち認識率が閾値を下回る形態素を示す不明瞭区間と、変換データベース231に設定された所定の音声データと、の類似度に基づいて、不明瞭区間に対応した不明瞭語を特定し、不明瞭語に対応した変換語および補足語を取得する。このような構成によれば、変換データベース231に基づいて、不明瞭語の特定および不明瞭語に対応した変換語および補足語の取得を容易に実行することができる。
【0092】
また、実施形態にかかるサーバ装置200は、不明瞭語と、不明瞭語のユーザごとの発音を示すユーザ音声データと、の対応関係が予め設定されたユーザ音声データベース232をさらに備えている。そして、変換処理部230は、不明瞭区間とユーザ音声データとの類似度に基づいて不明瞭語を特定するように変換データベース231に先立ってユーザ音声データベース232を参照する。そして、変換処理部230は、ユーザ音声データベース232から不明瞭語が特定された場合、ユーザ音声データベース232から特定された不明瞭語に基づいて、変換データベース231から変換語および補足語を取得する。このような構成によれば、変換データベース231とユーザ音声データベース232との2種類のデータベースに基づいて、不明瞭語の特定および不明瞭語に対応した変換語および補足語の取得をさらに容易に実行することができる。
【0093】
以上、本開示の実施形態を説明したが、上述した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上述した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上述した実施形態およびその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0094】
200 サーバ装置(情報処理装置)
220 解析処理部(取得処理部)
230 変換処理部
231 変換データベース
232 ユーザ音声データベース
240 応答処理部
図1
図2
図3
図4
図5
図6
図7
【手続補正書】
【提出日】2020-11-06
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの前記音声認識の確からしさを示す認識率とともに取得する取得処理部と、
前記認識率が閾値を下回る前記形態素から、発音が他の語と類似している不明瞭語が特定された場合、前記不明瞭語から、前記不明瞭語と同一の意味を持つ語として予め設定された変換語を取得し、前記変換語が取得された場合、前記変換語を補足する語として予め設定された補足語をさらに取得する変換処理部と、
前記変換語が取得された場合、前記変換語を前記不明瞭語の代替として用いると共に、前記変換語に加えて前記補足語をさらに用いて、前記音声データに対する応答を出力する応答処理部と、
前記不明瞭語と、前記変換語と、前記補足語と、前記不明瞭語の発音を示す所定の音声データと、の対応関係が予め設定された変換データベースと、を備え、
前記変換処理部は、前記変換データベースを参照し、前記音声データのうち前記認識率が閾値を下回る前記形態素を示す不明瞭区間と、前記変換データベースに設定された前記所定の音声データと、の類似度に基づいて、前記不明瞭区間に対応した前記不明瞭語を特定し、前記不明瞭語に対応した前記変換語および前記補足語を取得する、
情報処理装置。
【請求項2】
前記不明瞭語と、前記不明瞭語のユーザごとの発音を示すユーザ音声データと、の対応関係が予め設定されたユーザ音声データベースをさらに備え、
前記変換処理部は、前記不明瞭区間と前記ユーザ音声データとの類似度に基づいて前記不明瞭語を特定するように前記変換データベースに先立って前記ユーザ音声データベースを参照し、前記ユーザ音声データベースから前記不明瞭語が特定された場合、前記ユーザ音声データベースから特定された前記不明瞭語に基づいて、前記変換データベースから前記変換語および前記補足語を取得する、
請求項1に記載の情報処理装置。
【請求項3】
音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの前記音声認識の確からしさを示す認識率とともに取得することと、
前記認識率が閾値を下回る前記形態素から、発音が他の語と類似している不明瞭語が特定された場合、前記不明瞭語から、前記不明瞭語と同一の意味を持つ語として予め設定された変換語を取得し、前記変換語が取得された場合、前記変換語を補足する語として予め設定された補足語をさらに取得することと、
前記変換語が取得された場合、前記変換語を前記不明瞭語の代替として用いると共に、前記変換語に加えて前記補足語をさらに用いて、前記音声データに対する応答を出力することと、
前記不明瞭語と、前記変換語と、前記補足語と、前記不明瞭語の発音を示す所定の音声データと、の対応関係が予め設定された変換データベースを参照し、前記音声データのうち前記認識率が閾値を下回る前記形態素を示す不明瞭区間と、前記変換データベースに設定された前記所定の音声データと、の類似度に基づいて、前記不明瞭区間に対応した前記不明瞭語を特定し、前記不明瞭語に対応した前記変換語および前記補足語を取得することと、
をコンピュータに実行させるための、情報処理プログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0006
【補正方法】変更
【補正の内容】
【0006】
本開示の一例としての情報処理装置は、音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの音声認識の確からしさを示す認識率とともに取得する取得処理部と、認識率が閾値を下回る形態素から、発音が他の語と類似している不明瞭語が特定された場合、不明瞭語から、不明瞭語と同一の意味を持つ語として予め設定された変換語を取得し、変換語が取得された場合、変換語を補足する語として予め設定された補足語をさらに取得する変換処理部と、変換語が取得された場合、変換語を不明瞭語の代替として用いると共に、変換語に加えて補足語をさらに用いて、音声データに対する応答を出力する応答処理部と、不明瞭語と、変換語と、補足語と、不明瞭語の発音を示す所定の音声データと、の対応関係が予め設定された変換データベースと、を備え、変換処理部は、変換データベースを参照し、音声データのうち認識率が閾値を下回る形態素を示す不明瞭区間と、変換データベースに設定された所定の音声データと、の類似度に基づいて、不明瞭区間に対応した不明瞭語を特定し、不明瞭語に対応した変換語および補足語を取得する。