(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-02
(45)【発行日】2024-02-13
(54)【発明の名称】端末装置、送信方法、送信プログラム及び情報処理システム
(51)【国際特許分類】
G10L 15/22 20060101AFI20240205BHJP
G10L 15/06 20130101ALI20240205BHJP
G10L 15/30 20130101ALI20240205BHJP
【FI】
G10L15/22 453
G10L15/06 300Z
G10L15/30
(21)【出願番号】P 2021132964
(22)【出願日】2021-08-17
【審査請求日】2023-03-15
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】磯 健一
【審査官】大野 弘
(56)【参考文献】
【文献】特開2010-139843(JP,A)
【文献】米国特許出願公開第2015/0287401(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/22
G10L 15/30
G10L 15/06
(57)【特許請求の範囲】
【請求項1】
ユーザに利用され、自装置で音声認識を行う端末装置であって、
前記ユーザが発話した音声と前記発話の前記音声認識による認識結果とを対応付けて自装置内の記憶部に収集する収集部と、
前記収集部により収集された前記音声が所定の条件を満たす場合、前記ユーザの許諾に応じて、前記音声に関する情報をサーバ装置に送信する送信部と、
を備えることを特徴とする端末装置。
【請求項2】
前記送信部は、
前記音声のデータを前記サーバ装置に送信する
ことを特徴とする請求項1に記載の端末装置。
【請求項3】
前記送信部は、
前記音声の波形データを前記サーバ装置に送信する
ことを特徴とする請求項1または請求項2に記載の端末装置。
【請求項4】
前記送信部は、
前記音声のデータを圧縮したデータを前記サーバ装置に送信する
ことを特徴とする請求項1~3のいずれか1項に記載の端末装置。
【請求項5】
前記送信部は、
前記音声から抽出した特徴情報を前記サーバ装置に送信する
ことを特徴とする請求項1~4のいずれか1項に記載の端末装置。
【請求項6】
前記送信部は、
前記収集部により収集された前記音声の数が所定数以上である場合、前記許諾に応じて前記音声に関する情報を前記サーバ装置に送信する
ことを特徴とする請求項1~5のいずれか1項に記載の端末装置。
【請求項7】
前記送信部は、
前記収集部により収集された前記音声の前記音声認識に関するスコアが所定の条件を満たす場合、前記許諾に応じて前記音声に関する情報を前記サーバ装置に送信する
ことを特徴とする請求項1~6のいずれか1項に記載の端末装置。
【請求項8】
前記送信部は、
前記収集部により収集された前記音声がノイズに関する条件を満たす場合、前記許諾に応じて前記音声に関する情報を前記サーバ装置に送信する
ことを特徴とする請求項1~7のいずれか1項に記載の端末装置。
【請求項9】
前記送信部は、
前記収集部により収集された前記音声に対応する発話が所定の内容を含む場合、前記許諾に応じて前記音声に関する情報を前記サーバ装置に送信する
ことを特徴とする請求項1~8のいずれか1項に記載の端末装置。
【請求項10】
前記送信部は、
前記サーバ装置により指定された前記所定の条件を満たす場合、前記許諾に応じて前記音声に関する情報を前記サーバ装置に送信する
ことを特徴とする請求項1~9のいずれか1項に記載の端末装置。
【請求項11】
前記ユーザによる前記許諾を受け付ける受付部、
を備えることを特徴とする請求項1~10のいずれか1項に記載の端末装置。
【請求項12】
前記送信部は、
前記受付部により前記ユーザの前記許諾が受け付けられた後、所定のタイミングで前記音声に関する情報を前記サーバ装置に送信する
ことを特徴とする請求項11に記載の端末装置。
【請求項13】
前記送信部は、
通信環境が所定の通信条件を満たしている間に、前記音声に関する情報を前記サーバ装置に送信する
ことを特徴とする請求項12に記載の端末装置。
【請求項14】
前記送信部は、
前記ユーザによる前記端末装置の利用率が低いタイミングで、前記音声に関する情報を前記サーバ装置に送信する
ことを特徴とする請求項12または請求項13に記載の端末装置。
【請求項15】
前記サーバ装置へ送信する候補となる前記音声に関する情報を前記ユーザに通知する通知部、
をさらに備えることを特徴とする請求項1~14のうちいずれか1つに記載の端末装置。
【請求項16】
前記送信部は、
前記通知部により通知された前記候補のうち、前記ユーザが許諾した前記音声に関する情報を前記サーバ装置に送信する
ことを特徴とする請求項15に記載の端末装置。
【請求項17】
前記通知部は、
前記音声に関する情報が前記サーバ装置へ送信された場合に前記ユーザに提供されるインセンティブを示す情報を通知する
ことを特徴とする請求項15または請求項16に記載の端末装置。
【請求項18】
ユーザに利用され、自装置で音声認識を行う端末装置が実行する送信方法であって、
前記ユーザが発話した音声と前記発話の前記音声認識による認識結果とを対応付けて自装置内の記憶部に収集する収集工程と、
前記収集工程により収集された前記音声が所定の条件を満たす場合、前記ユーザの許諾に応じて、前記音声に関する情報をサーバ装置に送信する送信工程と、
を含むことを特徴とする送信方法。
【請求項19】
ユーザに利用され、自装置で音声認識を行う端末装置が実行する送信プログラムであって、
前記ユーザが発話した音声と前記発話の前記音声認識による認識結果とを対応付けて自装置内の記憶部に収集する収集手順と、
前記収集手順により収集された前記音声が所定の条件を満たす場合、前記ユーザの許諾に応じて、前記音声に関する情報をサーバ装置に送信する送信手順と、
を端末装置に実行させることを特徴とする送信プログラム。
【請求項20】
ユーザに利用され、自装置で音声認識を行う端末装置と、
サーバ装置と、
を有し、
前記サーバ装置は、
前記端末装置に情報送信を要求する音声を指定する所定の条件を示す情報を、前記端末装置に送信し、
前記端末装置は、
前記サーバ装置から受信した前記所定の条件を満たす音声に関する情報を、前記ユーザの許諾に応じて、前記サーバ装置に送信する
ことを特徴とする情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、端末装置、送信方法、送信プログラム及び情報処理システムに関する。
【背景技術】
【0002】
ユーザが発話した音声を認識する音声認識が様々なサービスで利用されている。例えば、発話情報とその発話情報の示す発話内容とを用いた学習により作成されたモデルを用いて、音声認識を行う技術が提供されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術では、ユーザが発話した音声に関する情報を取得することが難しい場合がある。例えば、上記の従来技術では、ユーザの発話(音声)をサーバ装置で音声認識を行い、その認識結果をユーザが利用する端末装置へ送信する構成であるため、必然的にサーバ装置はユーザの発話(音声)データを取得することができる。一方で、端末装置自体で音声認識が行われる、いわゆるオンデバイス型の音声認識が行われる場合、端末装置からサーバ装置へユーザの発話(音声)データを送信することなく、音声認識が完了するため、ユーザが発話した音声に関する情報を、ユーザが利用する端末装置以外の装置であるサーバ装置等の他の装置が収集することが難しい。
【0005】
本願は、上記に鑑みてなされたものであって、端末装置が音声認識を行う場合であっても、端末装置で収集される音声に関する情報を他の装置へ適切に送信することを目的とする。
【課題を解決するための手段】
【0006】
本願に係る端末装置は、ユーザに利用され、自装置で音声認識を行う端末装置であって、前記ユーザが発話した音声と前記発話の前記音声認識による認識結果とを対応付けて自装置内の記憶部に収集する収集部と、前記収集部により収集された前記音声が所定の条件を満たす場合、前記ユーザの許諾に応じて、前記音声に関する情報をサーバ装置に送信する送信部と、を備えることを特徴とする。
【発明の効果】
【0007】
実施形態の一態様によれば、端末装置が音声認識を行う場合であっても、端末装置で収集される音声に関する情報を他の装置へ適切に送信することができる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る情報処理の概要を示す説明図である。
【
図2】
図2は、実施形態に係る情報処理システムの構成例を示す図である。
【
図3】
図3は、実施形態に係る端末装置の構成例を示す図である。
【
図4】
図4は、モデル情報記憶部の一例を示す図である。
【
図5】
図5は、収集情報記憶部の一例を示す図である。
【
図6】
図6は、実施形態に係るサーバ装置の構成例を示す図である。
【
図7】
図7は、モデル情報記憶部の一例を示す図である。
【
図8】
図8は、学習用データ情報記憶部の一例を示す図である。
【
図9】
図9は、実施形態に係る処理手順を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下に、本願に係る端末装置、送信方法、送信プログラム及び情報処理システムを実施するための形態(以下、「実施形態」と記載する)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る端末装置、送信方法、送信プログラム及び情報処理システムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
(実施形態)
〔1.情報処理〕
まず、
図1を参照し、実施形態に係る情報処理システム1が行う情報処理の概要について説明する。
図1は、実施形態に係る情報処理の概要を示す説明図である。
図1では、サーバ装置100が端末装置10に情報送信を要求する音声を指定する条件の情報を端末装置10に送信し、端末装置10は、サーバ装置100から受信した条件を満たす音声に関する情報をサーバ装置100に送信する場合を一例として説明する。なお、端末装置10からサーバ装置100が音声に関する情報を取得可能であれば、サーバ装置100が条件を指定することなく、端末装置10は予め設定された条件を基にサーバ装置100に音声に関する情報を送信してもよい。
【0011】
また、以下では、端末装置10をユーザと表記する場合がある。すなわち、以下では、ユーザを端末装置10と読み替えることもできる。なお、
図1では、端末装置10がスマートフォンである場合を一例として説明するが、端末装置10は、ユーザが発話した音声を収集し、サーバ装置100へ送信可能であれば、スマートフォンに限らず任意の装置(機器)であってもよいが、この点についての詳細は後述する。また、
図1では、端末装置10が音声に関する情報として、音声データをサーバ装置100へ送信する場合を一例として説明するが、端末装置10がサーバ装置100へ送信する音声に関する情報は、音声データに限らず、様々な情報であってもよいが、この点についての詳細は後述する。
【0012】
以下、
図1を用いて、情報処理の一例を説明する。なお、
図1では説明のため、1つの発話を対象として送信を行う場合を示すが、端末装置10は、収集した発話(音声)の数が一定の閾値(例えば50、100等)を超えた場合に、ユーザの送信許諾を得て、送信を行ってもよい。
【0013】
図1では、ユーザがユーザID「U1」により識別されるユーザ(以下、「ユーザU1」とする場合がある)である場合を示す。ユーザU1が利用する端末装置10は、音声認識モデルであるモデルM1を用いて、自装置内で音声認識を行い、音声認識の結果に応じたサービスをユーザU1に提供する。
図1では、説明のためにモデルM1がユーザの発話の音声情報を文字に変換する場合を一例とするが、モデルM1は音声認識に関する処理を行うものであれば、発話をしたユーザ(話者)を識別する機能など、様々な機能を実行する音声認識モデルであってもよい。
【0014】
まず、サーバ装置100は、端末装置10に提供を要求する音声を指定する条件CN1を示す情報を端末装置10に送信する(ステップS11)。端末装置10は、受信した条件CN1を示す情報を記憶部120(
図3参照)に記憶する。例えば、端末装置10は、記憶部120に記憶した条件CN1と、音声に関する情報とを比較し、音声が条件CN1を満たすか否かを判定し、条件CN1を満たす音声データをサーバ装置100へ送信する。なお、以下では説明を簡単にするために条件CN1が特定の単語(以下「新語NX」とする)を含むことであるものとして説明し、他の条件の例示については後述する。
【0015】
まず、ユーザU1が「XXXX」と発話する。なお、「XXXX」は具体的な内容を含む発話であるものとする。端末装置10は、ユーザU1の発話PAを検知し、ユーザU1の発話PAである「XXXX」の音声データを入力として受け付ける(ステップS12)。
【0016】
そして、端末装置10は、入力として受け付けた「XXXX」の音声データと、モデルM1とを利用して音声認識の処理を行う(ステップS13)。端末装置10は、「XXXX」の音声データをモデルM1に入力し、モデルM1に文字データを出力させることにより、音声を文字に変換する処理(音声認識処理)を行う。
図1では、「XXXX」の音声データが入力されたモデルM1は、「XXXX」の文字データを出力する。なお、モデルM1は、入力された音声に対する文字とともに、その音声認識の確度を示すスコアを出力してもよい。また、「XXXX」の文字データには、新語NXが含まれるものとする。
【0017】
そして、端末装置10は、ユーザが発話した音声と発話の音声認識による認識結果とを対応付けて記憶部DBに収集する(ステップS14)。
図1では、端末装置10は、ユーザU1が発話した発話PAと発話PAの認識結果とを対応付けて記憶部120に収集する。例えば、端末装置10は、発話PAである「XXXX」の音声データと、その音声データの認識結果である「XXXX」の文字データとを対応付けて自装置内の収集情報記憶部142(
図3参照)に格納する。
【0018】
そして、端末装置10は、収集した音声が条件を満たすか否かを判定し、条件を満たすと判定した場合、ユーザに通知する(ステップS15)。
図1では、端末装置10は、収集した発話PAが条件CN1を満たすか否かを判定する。例えば、端末装置10は、発話PAの文字データと、条件CN1とを比較し、発話PAが条件CN1を満たすか否かを判定する。このように、端末装置10は、内容に関する条件(「内容条件」ともいう)である条件CN1を用いて発話PAが所定の内容を含むか否かを判定する。端末装置10は、収集した発話PAの文字データには新語NXが含まれるため、条件CN1を満たすと判定する。
【0019】
そのため、端末装置10は、発話PAをサーバ装置100へ送信する候補となる情報としてユーザU1に通知する。例えば、端末装置10は、発話PAをサーバ装置100へ送信する候補として表示する。例えば、端末装置10は、文字列「XXXX」及びそれが候補であることを示す説明を画面に表示する。この場合、端末装置10は、発話PAが候補であることを示す情報とともに、ユーザU1の許諾の可否を示す情報を受け付けるための情報を表示してもよい。例えば、端末装置10は、発話PAが候補であることを示す情報とともに、その送信可否をユーザが指定するためのボタンを表示する。例えば、端末装置10は、発話PAが候補であることを示す情報とともに、「送信を許諾する」等と記載された許諾ボタン及び「送信を許諾しない」等と記載された拒絶ボタンを表示してもよい。このように、端末装置10は、条件を満たした場合にユーザに許諾を確認する。
【0020】
この場合、端末装置10は、許諾ボタンにより、発話PAをサーバ装置100へ送信することに対するユーザU1の許諾を受け付ける。例えば、端末装置10は、許諾ボタンをユーザU1が選択した場合、発話PAをサーバ装置100に送信することをユーザU1が許諾したと判定する。また、端末装置10は、拒絶ボタンをユーザU1が選択した場合、発話PAをサーバ装置100に送信することをユーザU1が許諾しなかったと判定する。なお、上記は一例に過ぎず、端末装置10は、表示による通知や許諾の受付けに限らず、様々な態様(モーダル)により通知や許諾の受付けを行ってもよい。例えば、端末装置10は、音声により発話PAをサーバ装置100へ送信する候補であることをユーザU1に対して通知(出力)してもよい。また、端末装置10は、音声により発話PAをサーバ装置100へ送信することに対するユーザU1の許諾の可否を受け付けてもよい。
【0021】
端末装置10は、発話PAをサーバ装置100へ送信することに対するユーザU1の許諾を受け付ける。(ステップS16)。例えば、端末装置10は、ユーザU1が許諾ボタンを選択する操作により、発話PAをサーバ装置100へ送信することに対するユーザU1の許諾を受け付ける
【0022】
そして、端末装置10は、ユーザU1が送信を許諾した発話PAに関する情報をサーバ装置100へ送信する(ステップS17)。
図1では、端末装置10は、発話PAの音声データ及びその認識結果をサーバ装置100へ送信する。すなわち、端末装置10は、発話PAである「XXXX」の音声データと、その音声データの認識結果である「XXXX」の文字データとをサーバ装置100へ送信する。なお、上記は一例に過ぎず、端末装置10は、発話PAの音声データのみをサーバ装置100へ送信してもよい。
【0023】
サーバ装置100は、端末装置10から受信した音声に関する情報を学習に用いるデータに追加する(ステップS18)。
図1では、端末装置10から発話PAである「XXXX」の音声データと、その音声データの認識結果である「XXXX」の文字データとの組合せ(以下「新規データPDT」ともいう)を受信したサーバ装置100は、受信した新規データPDTを学習用データセットであるデータセットDS1に追加する。例えば、サーバ装置100は、発話PAである「XXXX」の音声データに、「XXXX」の文字データをラベルとして対応付けた新規データPDTを、データセットDS1のデータとして学習用データ情報記憶部122(
図8参照)に格納する。
【0024】
そして、サーバ装置100は、新規データPDTが追加されたデータセットDS1を用いて、モデルM1を学習する(ステップS19)。サーバ装置100は、データセットDS1を用いて、モデルM1の重み等のパラメータを学習(更新)する。モデルM1の学習処理には、任意の手法が採用可能である。
【0025】
例えば、サーバ装置100は、モデルM1が出力した文字データが、モデルM1に入力した音声データに対応する正解データ(ラベル)に近づくように、バックプロパゲーション(誤差逆伝播法)等の手法により学習処理を行う。例えば、サーバ装置100は、学習処理によりノード間で値が伝達する際に考慮される重み(すなわち、接続係数)の値を調整する。このように、サーバ装置100は、モデルM1における出力と、入力に対応する正解データとの誤差が少なくなるようにパラメータ(接続係数)を補正するバックプロパゲーション等の処理によりモデルM1を学習する。例えば、サーバ装置100は、所定の損失(ロス)関数を最小化するようにバックプロパゲーション等の処理を行うことによりモデルM1を生成する。これにより、サーバ装置100は、モデルM1のパラメータを学習する学習処理を行うことができる。
【0026】
上述したように、情報処理システム1は、端末装置10が音声認識を行う場合であっても、端末装置10で収集される音声に関する情報をサーバ装置100へ適切に送信することができる。したがって、情報処理システム1は、端末装置10が音声認識を行う場合であっても、モデルを学習するために必要なデータを収集することができる。
【0027】
例えば、情報処理システム1は、ユーザがオンデバイス音声認識を搭載したアプリケーション(単に「アプリ」ともいう)を端末装置10で使用したときに、発話した音声と認識結果を端末装置10内に保存(蓄積)する。例えば、情報処理システム1は、例えばカーナビアプリ、ショッピングアプリ等の任意のアプリがインストールされた端末装置10でアプリを使用したときに、発話した音声と認識結果を端末装置10内に保存(蓄積)する。そして、情報処理システム1は、蓄積(収集)された発話が所定の基準を満たしたら、ユーザにサーバ装置100への送信許諾を確認し、ユーザの許諾が得られた場合に、許諾が得られた情報を端末装置10からサーバ装置100へ送信する。このような処理により、情報処理システム1は、端末装置10が音声認識を行う場合であっても、端末装置10で収集される音声に関する情報をサーバ装置100へ適切に送信することができる。
【0028】
〔1-1.他の例〕
なお、
図1に示した処理は一例に過ぎず、情報処理システム1は、様々な条件を用いて、様々な情報を端末装置10からサーバ装置100へ送信してもよい。この点について、以下各要素についての例示を記載する。
【0029】
〔1-1-1.送信する情報〕
図1では、端末装置10からサーバ装置100へ音声データが送信される場合を一例として説明したが、端末装置10からサーバ装置100へ送信される情報は、音声に関する情報であればどのような情報であってもよい。
【0030】
端末装置10は、音声のデータをサーバ装置100に送信してもよい。端末装置10は、音声の波形データをサーバ装置100に送信してもよい。端末装置10は、音声のデータを圧縮したデータをサーバ装置100に送信してもよい。端末装置10は、音声から抽出した特徴情報をサーバ装置100に送信してもよい。
【0031】
上述のように、端末装置10からサーバ装置100へ送信する情報は、音声波形またはその圧縮したもの等の様々な情報であってもよい。端末装置10からサーバ装置100へ送信する情報は、音声波形から抽出した特徴量であってもよい。ここでいう特徴量とは、例えば元となる音声データよりもサイズが小さいデータであり、個人性に関する情報を極力含まないスペクトル情報などであってもよい。また、端末装置10からサーバ装置100へ送信する情報は、発話内容を検聴確認可能なレベルで不可逆圧縮してサイズを極力小さくした音声等の圧縮音声のデータであってもよい。
【0032】
〔1-1-2.情報の条件〕
図1では、音声が特定の単語を含むか否かである条件CN1を一例と説明したが、サーバ装置100へ送信する情報の条件(送信情報条件)は、音声が特定の単語を含むか否かに限らず、様々な条件であってもよい。
【0033】
送信情報条件は、収集した発話(音声)の数に関する条件(「数条件」ともいう)であってもよい。例えば、送信情報条件は、収集した発話(音声)の数が一定の閾値を超えたことであってもよい。この場合、端末装置10は、収集した音声の数が所定数(例えば50、100等)以上であるか否かを判定する。例えば、端末装置10は、収集した音声の数が所定数以上になった場合、条件を満たしたと判定し、ユーザの許諾に応じて音声に関する情報をサーバ装置100に送信する。
【0034】
例えば、送信情報条件は、収集した発話(音声)の音声認識に関するスコアが所定の条件(「スコア条件」ともいう)を満たすことであってもよい。この場合、端末装置10は、収集した音声の音声認識に関するスコアが所定の閾値(例えば0.5、0.7等)以上であるか否かを判定する。例えば、端末装置10は、収集した音声の音声認識に関するスコアが所定の閾値以上である場合、条件を満たしたと判定し、ユーザの許諾に応じて音声に関する情報をサーバ装置100に送信する。
【0035】
また、例えば、端末装置10は、収集した音声の音声認識に関するスコアが所定の閾値(例えば0.5、0.7等)未満であるか否かを判定する。例えば、端末装置10は、収集した音声の音声認識に関するスコアが所定の閾値未満である場合、条件を満たしたと判定し、ユーザの許諾に応じて音声に関する情報をサーバ装置100に送信する。
【0036】
また、例えば、送信情報条件は、収集した音声がノイズに関する条件(「ノイズ条件」ともいう)を満たすことであってもよい。この場合、端末装置10は、収集した音声の信号対雑音比(SN比)が所定値以上であるか否かを判定する。例えば、端末装置10は、収集した音声のSN比が所定値以上である場合、条件を満たしたと判定し、ユーザの許諾に応じて音声に関する情報をサーバ装置100に送信する。
【0037】
また、例えば、端末装置10は、収集した音声の信号対雑音比(SN比)が所定値未満であるか否かを判定する。例えば、端末装置10は、収集した音声のSN比が所定値未満である場合、条件を満たしたと判定し、ユーザの許諾に応じて音声に関する情報をサーバ装置100に送信する。
【0038】
なお、上記は一例に過ぎず、情報処理システム1は、様々な条件を適宜用いてもよい。送信情報条件は、端末装置10の種別であってもよい。例えば、情報処理システム1は、カーナビでのユーザの発話(音声)が不足している場合、端末装置10の種別が「カーナビ」であることを条件(端末条件)としてもよい。送信情報条件は、ユーザの属性であってもよい。例えば、情報処理システム1は、子どもの発話(音声)が不足している場合、話者が「子ども」であることまたは音声(声)の基本周波数が所定値以上であることを条件(話者条件)としてもよい。なお、上記は一例に過ぎず、情報処理システム1は、子どもの発話(音声)を収集する場合、「成人・子供」や「年齢年代」の判別器を用いて、子どもの発話(音声)を収集してもよい。この場合、情報処理システム1は、特徴量として基本周波数だけでなくスペクトル情報なども利用する判別器を用いて、子どもの発話(音声)を収集してもよい。
【0039】
また、例えば、情報処理システム1は、上述した条件などを組み合わせて用いてもよい。例えば、端末装置10は、内容条件、スコア条件、またはノイズ条件の少なくとも1つを満たす音声の数が数条件を満たす場合に、ユーザの許諾に応じて音声に関する情報をサーバ装置100に送信してもよい。例えば、端末装置10は、内容条件、スコア条件、またはノイズ条件の少なくとも1つを満たす音声を該当音声として収集する。そして、端末装置10は、該当音声の数が所定の数(例えば30や150等)に達した場合、ユーザの許諾に応じて音声に関する情報をサーバ装置100に送信してもよい。
【0040】
このように、端末装置10は、収集した音声(ユーザ発話)のうち、音声認識エンジンの改良に資すると判断される発話を選んで、それが一定数を超えた場合に送信許諾を得てもよい。例えば、音声認識エンジンの改良に資すると判定する基準として、音声認識エンジンが発話ごとに付与するスコアを利用してもよい。音声認識エンジンの改良に資すると判定する基準として、発話ごとの信号対雑音比(SNR:signal-to-noise ratio)を利用してもよい。例えば、音声認識エンジンの改良に資すると判定する基準として、発話ごとの認識結果テキストを利用してもよい。例えば、情報処理システム1は、音声認識エンジンの改良のために欲しい単語を含んでいるような発話を選んでもよい。
【0041】
〔1-1-3.送信タイミング〕
図1では、ユーザの許諾が得られたタイミングで情報を送信する場合を一例と説明したが、サーバ装置100へ送信するタイミングは、任意のタイミングが採用可能である。
【0042】
端末装置10は、音声についてユーザの許諾を受け付けた後、その音声に関する情報を所定のタイミングでサーバ装置100に送信する。端末装置10は、音声についてユーザの許諾を受け付けた後、通信環境が所定の通信条件を満たしている間に、その音声に関する情報をサーバ装置100に送信する。例えば、端末装置10は、音声についてユーザの許諾を受け付けた後、Wi-Fi(登録商標)(Wireless Fidelity)による通信を行っている間に、その音声に関する情報をサーバ装置100に送信する。
【0043】
また、端末装置10は、音声についてユーザの許諾を受け付けた後、端末装置10の利用率が低いタイミングで、その音声に関する情報をサーバ装置100に送信する。例えば、端末装置10は、音声についてユーザの許諾を受け付けた後、端末装置10のプロセッサの利用率が所定の閾値未満となったタイミングで、その音声に関する情報をサーバ装置100に送信する。例えば、端末装置10は、音声についてユーザの許諾を受け付けた後、端末装置10が充電されている間に、その音声に関する情報をサーバ装置100に送信する。
【0044】
上記のように、端末装置10は、ユーザの送信許諾を得た後、Wi-Fi接続されている場合、またはユーザの端末装置10の利用率が低いタイミング(CPU負荷が所定値以下や深夜自宅充電時など)にサーバ装置100へ情報を送信する。
【0045】
また、端末装置10は、各音声の価値に応じて、価値が高い音声に関する情報の優先送信を行ってもよい。端末装置10は、音声認識のスコアに応じて優先度(順位)付けを行い、優先度が高い音声に関する情報から順に、サーバ装置100へ送信する。例えば、端末装置10は、音声認識のスコアが高い方から順に高い優先度(順位)を付して、優先度が高い音声に関する情報から順に、サーバ装置100へ送信する。
【0046】
〔1-1-4.ユーザによる選択〕
上述したように、端末装置10は、ユーザに通知した候補のうち、ユーザが許諾した音声に関する情報のみサーバ装置100に送信する。例えば、端末装置10は、ユーザに送信許諾を得る際に、送信する発話リスト(認識結果テキストと発話へのリンクなど)をユーザに提示して、ユーザが送信したくない発話を選択した場合、ユーザが選択した発話を送信対象から除外する。
【0047】
〔1-1-5.インセンティブ〕
情報処理システム1は、ユーザに送信許諾を得るために、ユーザにインセンティブを提供してもよい。例えば、情報処理システム1は、ユーザが音声の送信を許諾した場合、許諾した音声に応じた、電子マネー、ポイント、クーポン等の様々種別のインセンティブをユーザに提供してもよい。
【0048】
例えば、端末装置10は、音声に関する情報がサーバ装置100へ送信された場合にユーザに提供されるインセンティブを示す情報をユーザに通知してもよい。例えば、端末装置10は、音声の価値が高い方がより良いインセンティブをユーザに提供することをユーザに通知してもよい。例えば、端末装置10は、音声のスコアが高い方が多いポイントをユーザに提供することをユーザに通知してもよい。
【0049】
例えば、端末装置10は、音声にユーザがラベル(正解)を付した場合に、インセンティブをユーザに提供することをユーザに通知してもよい。例えば、端末装置10は、スコアが所定の閾値未満である音声の認識結果をユーザが確認し、誤っている場合に修正した場合に、インセンティブをユーザに提供することをユーザに通知してもよい。
【0050】
〔2.情報処理システムの構成例〕
次に、
図2を用いて、実施形態に係るサーバ装置100が含まれる情報処理システム1の構成について説明する。
図2は、実施形態に係る情報処理システム1の構成例を示す図である。
図2に示すように、実施形態に係る情報処理システム1は、複数の端末装置10とサーバ装置100とを含む。これらの各種装置は、ネットワークNを介して、有線又は無線により通信可能に接続される。ネットワークNは、例えば、LAN(Local Area Network)や、インターネット等のWAN(Wide Area Network)である。
【0051】
また、
図2に示す情報処理システム1に含まれる各装置の数は図示したものに限られない。例えば、
図2では、図示の簡略化のため、端末装置10-1、10-2、10-3の3台のみを示したが、これはあくまでも例示であって限定されるものではなく、4台以上であってもよい。
【0052】
端末装置10は、ユーザにより利用され、自装置内での音声認識によりユーザに音声認識に基づくサービスを提供する情報処理装置(コンピュータ)である。端末装置10は、LTE(Long Term Evolution)、4G(4th Generation)、5G(5th Generation:第5世代移動通信システム)等の無線通信網や、Bluetooth(登録商標)、無線LAN(Local Area Network)等の近距離無線通信を介してネットワークNに接続し、サーバ装置100と通信することができる。
【0053】
図2では、端末装置10-1は、ユーザにより利用されるスマートフォンである。なお、端末装置10-1は、ユーザにより利用されるデバイスであれば、タブレット端末等のスマートデバイス、フィーチャーフォン、PC(Personal Computer)、PDA(Personal Digital Assistant)、カーナビゲーションシステム、スマートウォッチやヘッドマウントディスプレイ等のウェアラブルデバイス(Wearable Device)、スマートグラス等であってもよい。
【0054】
図2では、端末装置10-2は、ユーザにより利用されるスマートスピーカである。なお、端末装置10-2は、ユーザにより利用されるデバイスであれば、テレビ、冷蔵庫等の任意のIoT(Internet of Things)であってもよい。
【0055】
図2では、端末装置10-3は、カーナビゲーション(カーナビ)機能が搭載された自動車等の車両等の移動体である。なお、端末装置10-3は、移動体に配置されたカーナビゲーション機能を提供するカーナビ装置であってもよい。
【0056】
サーバ装置100は、端末装置10から音声に関する情報を取得する情報処理装置(コンピュータ)である。また、サーバ装置100は、取得した音声に関する情報を用いた機械学習により、音声認識に用いられるモデルを学習する学習装置である。また、サーバ装置100は、端末装置10にモデルを送信する。また、サーバ装置100は、端末装置10に送信してほしいデータを指定する条件を示す情報を端末装置10に送信する。なお、サーバ装置100は、端末装置10から音声に関する情報を取得し、取得した情報を蓄積する機能のみを有してもよい。この場合、情報処理システム1には、サーバ装置100が蓄積した情報を用いてモデルの学習を行う装置(学習装置)が含まれてもよい。すなわち、情報処理システム1において、端末装置10から音声データ等の音声に関する情報を受信して蓄積する装置(例えばサーバ装置100)と、音声認識モデルを保持して収集したデータで学習または更新行い、端末装置10に送信(配布)する装置(例えば学習装置)とは別体であってもよい。この場合、学習装置は、音声認識モデルを保持し、サーバ装置100から取得したデータを用いてモデルの学習や更新を行い、ユーザが利用する端末装置10へモデルを送信してもよい。例えば、情報処理システム1では、サーバ装置100が収集した音声データ等の音声に関する情報を、別途、人手で検聴して正解テキストを付与したり、機械的に選別して、新しい音声認識モデルを学習したり、更新したりしてもよい。また、情報処理システム1では、モデルの配布は、アプリのバイナリに添付して、アプリストア等、アプリケーションのダウンロードサービスを経由して、ユーザが利用する端末装置10にバージョンアップとして配信されてもよい。なお、情報処理システム1の構成は、サーバ装置100が端末装置10から音声に関する情報を取得する構成であれば、上記に限らず任意の構成が採用可能である。
【0057】
〔3.端末装置の構成例〕
次に、
図3を用いて、端末装置10の構成について説明する。
図3は、端末装置10の構成例を示す図である。
図3に示すように、端末装置10は、通信部11と、入力部12と、出力部13と、記憶部14と、制御部15と、センサ部16とを有する。なお、端末装置10は、データを収集し、サーバ装置100へ提供可能な構成であれば、どのような装置構成であってもよい。例えば、端末装置10は、サーバ装置100と通信する通信部11と、データを収集する処理を行う制御部15とを有すれば、その他の構成は任意であってもよい。端末装置10の種別によっては、例えば、端末装置10は、入力部12や出力部13や記憶部14やセンサ部16のいずれかを有しなくてもよい。
【0058】
なお、端末装置10は、どのような実現態様であるかに応じて、上記に限らず任意の構成を有してもよい。例えば、端末装置10が移動体である場合、端末装置10は、駆動部(モータ)等の移動を実現するための機構を有する構成であってもよい。
【0059】
(通信部11)
通信部11は、例えば、NICや通信回路等によって実現される。通信部11は、ネットワークN(インターネット等)と有線又は無線で接続され、ネットワークNを介して、サーバ装置100等の他の装置等との間で情報の送受信を行う。
【0060】
(入力部12)
入力部12は、各種入力を受け付ける。入力部12は、ユーザの操作を受け付ける。例えば、入力部12は、音声によるユーザの入力をマイク等の音声センサ161を介して受け付ける。入力部12は、ユーザの発話による各種操作を受け付ける。
【0061】
また、入力部12は、ユーザの発話(音声)以外による端末装置10への操作(ユーザ操作)をユーザによる操作入力として受け付けてもよい。入力部12は、通信部11を介して、リモコン(リモートコントローラー:remote controller)を用いたユーザの操作に関する情報を受け付けてもよい。また、入力部12は、端末装置10に設けられたボタンや、端末装置10に接続されたキーボードやマウスを有してもよい。
【0062】
例えば、入力部12は、リモコンやキーボードやマウスと同等の機能を実現できるタッチパネルを有してもよい。この場合、入力部12は、ディスプレイ(出力部13)を介して各種情報が入力される。入力部12は、各種センサにより実現されるタッチパネルの機能により、表示画面を介してユーザから各種操作を受け付ける。すなわち、入力部12は、端末装置10のディスプレイ(出力部13)を介してユーザから各種操作を受け付ける。例えば、入力部12は、端末装置10のディスプレイ(出力部13)を介してユーザの操作を受け付ける。
【0063】
(出力部13)
出力部13は、各種情報を出力する。出力部13は、情報を表示する機能を有する。出力部13は、端末装置10に設けられ各種情報を表示する。出力部13は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現される。出力部13は、音声を出力する機能を有してもよい。例えば、出力部13は、音声を出力するスピーカーを有する。
【0064】
(記憶部14)
記憶部14は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14は、データの収集に必要な各種情報を記憶する。記憶部14は、モデル情報記憶部141と収集情報記憶部142とを有する。
【0065】
(モデル情報記憶部141)
実施形態に係るモデル情報記憶部141は、モデル(ネットワーク)の構造を示す情報(モデルデータ)を記憶する。
図4は、モデル情報記憶部の一例を示す図である。
図4に示した例では、モデル情報記憶部141は、「モデルID」、「用途」、「モデルデータ」といった項目が含まれる。
【0066】
「モデルID」は、モデルを識別するための識別情報を示す。「用途」は、対応するモデルの用途を示す。「モデルデータ」は、モデルのデータを示す。
図4では「モデルデータ」に「MDT1」といった概念的な情報が格納される例を示したが、実際には、モデルに含まれるネットワークに関する情報や関数等、そのモデルを構成する種々の情報が含まれる。
【0067】
図4に示す例では、モデルID「M1」により識別されるモデル(モデルM1)は、用途が「音声認識」であることを示す。モデルM1は、音声認識に用いられるモデルであることを示す。また、モデルM1のモデルデータは、モデルデータMDT1であることを示す。
【0068】
なお、モデル情報記憶部141は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、モデル情報記憶部141は、学習処理により学習(生成)されたモデルのパラメータ情報を記憶する。
【0069】
(収集情報記憶部142)
実施形態に係る収集情報記憶部142は、端末装置10が収集したユーザの発話(音声)に関する情報を記憶する。
図5は、収集情報記憶部の一例を示す図である。
図5に示した例では、収集情報記憶部142は、「音声ID」、「音声」、「認識結果」といった項目が含まれる。
【0070】
「音声ID」は、収集した音声を識別するための識別情報を示す。「音声」は、収集した音声を示す。
図5では「音声」に「ADT1」といった概念的な情報が格納される例を示したが、実際には、収集した音声データ、例えば音声の波形データ等、音声に関する種々の情報が含まれる。「認識結果」は、対応する音声の認識結果を示す。
図5では「認識結果」に「RS1」といった概念的な情報が格納される例を示したが、実際には、音声の認識結果、例えば、音声データを文字データ(文字列)に変換した結果や、音声に含まれる内容等を示す情報が含まれる。
【0071】
図5に示す例では、音声ID「AD1」により識別される音声(音声AD1)の認識結果が、認識結果RS1あることを示す。
【0072】
なお、収集情報記憶部142は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、収集情報記憶部142は、各音声にその音声がどのような状況で検知されたかを示す情報が対応付けて記憶する。例えば、収集情報記憶部142は、各音声にその音声のSN比を対応付けて記憶する。
【0073】
(制御部15)
図3に戻り、説明を続ける。制御部15は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、端末装置10内部に記憶されたプログラム(例えば、に係る送信プログラム等の情報処理プログラム)がRAM等を作業領域として実行されることにより実現される。また、制御部15は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
【0074】
図3に示すように、制御部15は、受信部151と、音声認識部152と、収集部153と、通知部154と、受付部155と、判定部156と、送信部157とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、
図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
【0075】
(受信部151)
受信部151は、各種情報を受信する。受信部151は、外部の情報処理装置から各種情報を受信する。受信部151は、サーバ装置100等の他の情報処理装置から各種情報を受信する。
【0076】
受信部151は、サーバ装置100が情報提供を要求する音声に関する条件を示す情報をサーバ装置100から受信する。
【0077】
受信部151は、サーバ装置100が学習したモデルをサーバ装置100から受信する。受信部151は、サーバ装置100から音声認識モデルを受信する。受信部151は、サーバ装置100からモデルM1を受信する。
【0078】
(音声認識部152)
音声認識部152は、音声認識に関する各種処理を実行する。音声認識部152は、記憶部14に記憶された情報を用いて、音声認識処理を実行する。音声認識部152は、音声認識モデルを用いて、音声認識処理を実行する。音声認識部152は、受信部151が受信した音声認識モデルを用いて、音声認識処理を実行する。音声認識部152は、受信部151が受信したモデルM1を用いて、音声認識処理を実行する。例えば、音声認識部152は、モデル情報記憶部141に記憶されたモデルM1を用いて、音声認識処理を実行する。
【0079】
音声認識部152は、モデルM1を用いて、ユーザの発話(音声)を文字情報(文字データ)に変換することにより、ユーザ発話の音声をテキスト化する。また、音声認識部152は、ユーザの発話の内容を分析する。音声認識部152は、種々の従来技術を適宜用いて、ユーザの発話を分析することにより、ユーザの発話の内容を推定する。例えば、音声認識部152は、自然言語理解(NLU:Natural Language Understanding)や自動音声認識(ASR:Automatic Speech Recognition)の機能により、ユーザの発話の内容を分析してもよい。
【0080】
(収集部153)
収集部153は、各種情報を収集する。収集部153は、各種情報の収集を決定する。収集部153は、外部の情報処理装置からの情報に基づいて、各種情報を収集する。収集部153は、記憶部14に記憶された情報に基づいて、各種情報を収集する。収集部153は、モデル情報記憶部141に記憶されたモデルM1を用いたセンシングによりデータを収集する。
【0081】
収集部153は、ユーザが発話した音声と発話の音声認識による認識結果とを対応付けて自装置内の記憶部14に収集する。収集部153は、音声とその音声の認識結果とを対応付けて収集情報記憶部142に格納する。収集部153は、ユーザが発話した音声と音声認識部152による音声認識の結果とを対応付けて収集情報記憶部142に登録する。
【0082】
(通知部154)
通知部154は、ユーザへの通知に関する処理を実行する。通知部154は、ユーザへの情報の通知を行う。通知部154は、出力部13を介してユーザへの情報の通知を行う。
【0083】
通知部154は、サーバ装置100へ送信する候補となる音声に関する情報をユーザに通知する。通知部154は、サーバ装置100へ送信する候補の一覧情報を出力部13に表示する。
【0084】
通知部154は、音声に関する情報がサーバ装置100へ送信された場合にユーザに提供されるインセンティブを示す情報を通知する。通知部154は、音声に関する情報がサーバ装置100へ送信された場合にユーザに提供されるインセンティブを示す情報を出力部13に表示する。
【0085】
(受付部155)
受付部155は、各種情報を受け付ける。受付部155は、ユーザによる各種操作を受け付ける。例えば、受付部155は、入力部12を介してユーザによる各種操作を受け付ける。
【0086】
受付部155は、ユーザによる許諾を受け付ける。受付部155は、通知部154により通知されたサーバ装置100へ送信する候補に対する、ユーザによる許諾を受け付ける。
【0087】
(判定部156)
判定部156は、各種情報を判定する。例えば、判定部156は、受信部151により外部装置から受信された各種情報に基づいて、各種情報を判定する。例えば、判定部156は、記憶部14に記憶された情報に基づいて、各種情報を判定する。例えば、判定部156は、記憶部14に記憶されたデータの収集に関する条件を示す情報を用いて、判定を行う。
【0088】
判定部156は、サーバ装置100へ送信する情報に関する判定を行う。判定部156は、音声がサーバ装置100へ送信する情報に関する条件を満たすか否かを判定する。判定部156は、サーバ装置100へ情報を送信するタイミングを判定する。
【0089】
判定部156は、収集部153により収集された音声が所定の条件を満たすか否かを判定する。判定部156は、収集部153により収集された音声の数が所定数以上であるか否かを判定する。判定部156は、収集部153により収集された音声の音声認識に関するスコアが所定の条件を満たすか否かを判定する。判定部156は、収集部153により収集された音声がノイズに関する条件を満たすか否かを判定する。判定部156は、収集部153により収集された音声に対応する発話が所定の内容を含むか否かを判定する。
【0090】
判定部156は、サーバ装置100により指定された所定の条件を満たすか否かを判定する。判定部156は、サーバ装置100から受信した所定の条件を満たすであるか否かを判定する。
【0091】
判定部156は、通知部154により通知された候補のうち、ユーザが許諾した音声に関する情報をサーバ装置100に送信する。判定部156は、サーバ装置100へ情報を送信するタイミングであるか否かを判定する。判定部156は、通信環境が所定の通信条件を満たしているか否かを判定する。判定部156は、ユーザによる端末装置の利用率が低いタイミングであるか否かを判定する。
【0092】
(送信部157)
送信部157は、外部の情報処理装置へ各種情報を送信する。例えば、送信部157は、サーバ装置100等の他の情報処理装置へ各種情報を送信する。送信部157は、記憶部14に記憶された情報を送信する。
【0093】
送信部157は、サーバ装置100等の他の情報処理装置からの情報に基づいて、各種情報を送信する。送信部157は、記憶部14に記憶された情報に基づいて、各種情報を送信する。
【0094】
送信部157は、判定部156による判定結果に応じて、サーバ装置100に情報を送信する。送信部157は、判定部156により情報送信の条件をみたすと判定された場合、サーバ装置100に情報を送信する。送信部157は、収集部153により収集された音声が所定の条件を満たす場合、ユーザの許諾に応じて、音声に関する情報を音声認識に関するモデルを学習するサーバ装置100に送信する。
【0095】
送信部157は、音声のデータをサーバ装置100に送信する。送信部157は、音声の波形データをサーバ装置100に送信する。送信部157は、音声のデータを圧縮したデータをサーバ装置100に送信する。送信部157は、音声から抽出した特徴情報をサーバ装置100に送信する。
【0096】
送信部157は、収集部153により収集された音声の数が所定数以上である場合、許諾に応じて音声に関する情報をサーバ装置100に送信する。送信部157は、収集部153により収集された音声の音声認識に関するスコアが所定の条件を満たす場合、許諾に応じて音声に関する情報をサーバ装置100に送信する。送信部157は、収集部153により収集された音声がノイズに関する条件を満たす場合、許諾に応じて音声に関する情報をサーバ装置100に送信する。送信部157は、収集部153により収集された音声に対応する発話が所定の内容を含む場合、許諾に応じて音声に関する情報をサーバ装置100に送信する。送信部157は、サーバ装置100により指定された所定の条件を満たす場合、許諾に応じて音声に関する情報をサーバ装置100に送信する。
【0097】
送信部157は、通知部154により通知された候補のうち、ユーザが許諾した音声に関する情報をサーバ装置100に送信する。送信部157は、受付部155によりユーザの許諾が受け付けられた後、所定のタイミングで音声に関する情報をサーバ装置100に送信する。送信部157は、通信環境が所定の通信条件を満たしている間に、音声に関する情報をサーバ装置100に送信する。送信部157は、ユーザによる端末装置の利用率が低いタイミングで、音声に関する情報をサーバ装置100に送信する。送信部157は、サーバ装置100から受信した所定の条件を満たす音声に関する情報を、ユーザの許諾に応じて、サーバ装置100に送信する。
【0098】
(センサ部16)
センサ部16は、様々なセンサ情報を検知するセンサを有する。
図3の例では、センサ部16は、音声センサ161を有する。
【0099】
(音声センサ161)
音声センサ161は、例えばマイク等であり、音声を検知する。例えば、音声センサ161は、ユーザの発話を検知する。なお、音声センサ161は、処理に必要なユーザの発話情報を検知可能であれば、どのような構成であってもよい。
【0100】
なお、センサ部16は、上記に限らず、種々のセンサを有してもよい。センサ部16は、画像センサ、位置センサ、加速度センサ、ジャイロセンサ、温度センサ、湿度センサ、照度センサ、圧力センサ、近接センサ、ニオイや汗や心拍や脈拍や脳波等の生体情報を受信のためのセンサ等の種々のセンサを有してもよい。また、センサ部16における上記の各種情報を検知するセンサは共通のセンサであってもよいし、各々異なるセンサにより実現されてもよい。
【0101】
〔4.サーバ装置の構成例〕
次に、
図6を用いて、実施形態に係るサーバ装置100の構成について説明する。
図6は、実施形態に係るサーバ装置100の構成例を示す図である。
図6に示すように、サーバ装置100は、通信部110と、記憶部120と、制御部130とを有する。
【0102】
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。また、通信部110は、ネットワークN(
図2参照)と有線又は無線で接続される。
【0103】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。
図6に示すように、記憶部120は、モデル情報記憶部121と、学習用データ情報記憶部122とを有する。なお、記憶部120は、上記に限らず、様々な情報を記憶する。記憶部120は、情報の送信に関する様々な条件を示す情報を記憶する。例えば、記憶部120は、サーバ装置100へ送信する情報の条件を示す情報(情報条件情報)を記憶する。例えば、記憶部120は、サーバ装置100へ送信するタイミングの条件を示す情報(タイミング条件情報)を記憶する。
【0104】
(モデル情報記憶部121)
実施形態に係るモデル情報記憶部121は、モデルに関する情報を記憶する。例えば、モデル情報記憶部121は、ユーザやコミュニティを対象として学習した共通モデル(グローバルモデル)を記憶する。
図7は、実施形態に係るモデル情報記憶部の一例を示す図である。
図7に示すモデル情報記憶部121は、「モデルID」、「用途」、「モデルデータ」といった項目が含まれる。
【0105】
「モデルID」は、モデルを識別するための識別情報を示す。「用途」は、対応するモデルの用途を示す。「モデルデータ」は、モデルのデータを示す。
図7では「モデルデータ」に「MDT1」といった概念的な情報が格納される例を示したが、実際には、モデルに含まれるネットワークに関する情報や関数等、そのモデルを構成する種々の情報が含まれる。
【0106】
図7に示す例では、モデルID「M1」により識別されるモデル(モデルM1)は、用途が「音声認識」であることを示す。モデルM1は、音声認識に用いられるモデルであることを示す。また、モデルM1のモデルデータは、モデルデータMDT1であることを示す。
【0107】
なお、モデル情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、モデル情報記憶部121は、学習処理により学習(生成)されたモデルのパラメータ情報を記憶する。なお、モデルの学習を他の装置(学習装置等)が行う場合は、サーバ装置100は、モデル情報記憶部121を有しなくてもよい。
【0108】
(学習用データ情報記憶部122)
実施形態に係る学習用データ情報記憶部122は、学習に用いるデータに関する各種情報を記憶する。学習用データ情報記憶部122は、学習に用いるデータセットを記憶する。
図8は、実施形態に係る学習用データ情報記憶部の一例を示す図である。例えば、学習用データ情報記憶部122は、学習に用いる学習用データや精度評価(算出)に用いる評価用データ等の種々のデータに関する各種情報を記憶する。
図8に、実施形態に係る学習用データ情報記憶部122の一例を示す。
図8の例では、学習用データ情報記憶部122は、「データセットID」、「データID」、「データ」、「ラベル」、「日時」といった項目が含まれる。
【0109】
「データセットID」は、データセットを識別するための識別情報を示す。「データID」は、データを識別するための識別情報を示す。また、「データ」は、データIDにより識別されるデータに対応するデータを示す。
【0110】
「ラベル」は、対応するデータに付されるラベル(正解ラベル)を示す。例えば、「ラベル」は、対応するデータ(音声)の認識結果を示す情報(正解情報)であってもよい。例えば、「ラベル」は、ユーザの発話を示す音声データを文字データ(文字列)に変換した結果を示す正解情報である。
【0111】
また、「日時」は、対応するデータに関する時間(日時)を示す。なお、
図8の例では、「DA1」等で図示するが、「日時」には、「2021年8月8日15時52分14秒」等の具体的な日時であってもよいし、「バージョンXXもモデル学習から使用開始」等、そのデータがどのモデルの学習から使用が開始されたかを示す情報が記憶されてもよい。
【0112】
図8の例では、データセットID「DS1」により識別されるデータセット(データセットDS1)には、データID「DID1」、「DID2」、「DID3」等により識別される複数のデータが含まれることを示す。例えば、データID「DID1」、「DID2」、「DID3」等により識別される各データ(学習用データ)は、モデルの学習に用いられる音声情報(音声データ)等である。
【0113】
例えば、データID「DID1」により識別されるデータDT1は、ラベルLB1が付されたラベル有りデータであり、日時DA1でのモデルの学習から使用が開始されたことを示す。また、例えば、データID「DID4」により識別されるデータDT4は、ラベル無しデータとして取集され、予測ラベルであるラベルLB4が付されたデータであり、日時DA4でのモデルの学習から使用が開始されたことを示す。
【0114】
なお、学習用データ情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、学習用データ情報記憶部122は、各データが学習用データであるか、評価用データであるか等を特定可能に記憶してもよい。例えば、学習用データ情報記憶部122は、学習用データと評価用データとを区別可能に記憶する。学習用データ情報記憶部122は、各データが学習用データや評価用データであるかを識別する情報を記憶してもよい。サーバ装置100は、学習用データとして用いられる各データと正解情報とに基づいて、モデルを学習する。サーバ装置100は、評価用データとして用いられる各データと正解情報とに基づいて、モデルの精度を算出する。サーバ装置100は、評価用データを入力した場合にモデルが出力する出力結果と、正解情報とを比較した結果を収集することにより、モデルの精度を算出する。
【0115】
(制御部130)
図6に戻り、説明を続ける。制御部130は、コントローラ(Controller)であり、例えば、CPU、MPU、ASIC、FPGA等によって、サーバ装置100の内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAM等の記憶領域を作業領域として実行されることにより実現される。
【0116】
図6に示す例では、制御部130は、取得部131と、決定部132と、学習部133と、送信部134とを有する。なお、制御部130の内部構成は、
図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
【0117】
(取得部131)
取得部131は、通信部110を介して、外部の情報処理装置から各種情報を受信する。取得部131は、端末装置10から各種情報を受信する。取得部131は、端末装置10から受信した音声に関する情報を記憶部120へ格納する。取得部131は、端末装置10から受信した音声に関する情報を、モデルの学習に用いるデータ(学習データ)として学習用データ情報記憶部122に登録する。
【0118】
取得部131は、各種情報を取得する。取得部131は、記憶部120から各種情報を取得する。取得部131は、モデル情報記憶部121や学習用データ情報記憶部122から各種情報を取得する。
【0119】
(決定部132)
決定部132は、各種情報を決定する。例えば、決定部132は、取得部131により外部装置から取得された各種情報に基づいて、各種情報を決定する。例えば、決定部132は、端末装置10から取得された各種情報に基づいて、各種情報を決定する。
【0120】
決定部132は、端末装置10に提供を要求する情報に関する条件を決定する。例えば、決定部132は、記憶部120に記憶された情報に基づいて、端末装置10に提供を要求する情報に関する条件を決定する。
【0121】
(学習部133)
学習部133は、各種情報を学習する。学習部133は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を学習する。学習部133は、学習用データ情報記憶部122に記憶された情報に基づいて、各種情報を学習する。学習部133は、学習により生成したモデルをモデル情報記憶部121に格納する。学習部133は、学習により更新したモデルをモデル情報記憶部121に格納する。
【0122】
学習部133は、学習処理を行う。学習部133は、各種学習を行う。学習部133は、取得部131により取得された情報に基づいて、各種情報を学習する。学習部133は、モデルを学習(生成)する。学習部133は、モデル等の各種情報を学習する。学習部133は、学習によりモデルを生成する。学習部133は、種々の機械学習に関する技術を用いて、モデルを学習する。例えば、学習部133は、モデル(ネットワーク)のパラメータを学習する。学習部133は、種々の機械学習に関する技術を用いて、モデルを学習する。
【0123】
学習部133は、モデルM1を生成する。学習部133は、ネットワークのパラメータを学習する。例えば、学習部133は、モデルM1のネットワークのパラメータを学習する。
【0124】
学習部133は、学習用データ情報記憶部122に記憶された学習用データ(教師データ)に基づいて、学習処理を行う。学習部133は、学習用データ情報記憶部122に記憶された学習用データを用いて、学習処理を行うことにより、モデルM1を生成する。例えば、学習部133は、音声認識に用いられるモデルを生成する。学習部133は、モデルM1のネットワークのパラメータを学習することにより、モデルM1を生成する。
【0125】
学習部133による学習の手法は特に限定されないが、例えば、ラベルとデータ(画像)とを紐づけた学習用データを用意し、その学習用データを多層ニューラルネットワークに基づいた計算モデルに入力して学習してもよい。また、例えばCNN(Convolutional Neural Network)、3D-CNN等のDNN(Deep Neural Network)に基づく手法が用いられてもよい。学習部133は、音声等のような時系列データを対象とする場合、再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)やRNNを拡張したLSTM(Long Short-Term Memory units)に基づく手法を用いてもよい。なお、モデルの学習を他の装置(学習装置等)が行う場合は、サーバ装置100は、学習部133を有しなくてもよい。
【0126】
(送信部134)
送信部134は、通信部110を介して、各種情報を端末装置10へ送信する。送信部134は、端末装置10が自装置内で音声認識を行うために用いる音声認識モデルを端末装置10へ送信する。送信部134は、モデルM1を端末装置10に提供する。
【0127】
送信部134は、端末装置10に情報送信を要求する音声を指定する所定の条件を示す情報を、端末装置10に送信する。送信部134は、決定部132により決定された条件を示す情報を、端末装置10に送信する。送信部134は、他の装置(学習装置等)に収集したデータを送信してもよい。
【0128】
〔5.処理手順〕
次に、
図9を用いて実施形態に係る端末装置10による処理手順について説明する。
図9は、実施形態に係る処理手順を示すフローチャートである。
【0129】
図9に示すように、端末装置10は、ユーザが発話した音声と発話の音声認識による認識結果とを対応付けて自装置内の記憶部120に収集する(ステップS101)。
【0130】
そして、端末装置10は、収集した音声が所定の条件を満たす場合、ユーザの許諾に応じて、音声に関する情報をサーバ装置100に送信する(ステップS102)。
【0131】
〔6.効果〕
上述してきたように、本願に係る端末装置10は、ユーザに利用され、自装置で音声認識を行う端末装置10であり、収集部153と、送信部157とを有する。収集部153は、ユーザが発話した音声と発話の音声認識による認識結果とを対応付けて自装置内の記憶部14に収集する。送信部157は、収集部153により収集された音声が所定の条件を満たす場合、ユーザの許諾に応じて、音声に関する情報をサーバ装置100に送信する。
【0132】
このように、端末装置10は、自装置内でユーザの発話の音声の音声認識行い、その音声に関する情報を、条件を満たしかつユーザが許諾した場合にサーバ装置100に送信する。これにより、端末装置10は、端末装置10が音声認識を行う場合であっても、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0133】
また、端末装置10において、送信部157は、音声のデータをサーバ装置100に送信する。このように、端末装置10は、音声のデータをサーバ装置100へ送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0134】
また、端末装置10において、送信部157は、音声の波形データをサーバ装置100に送信する。このように、端末装置10は、音声の波形データをサーバ装置100へ送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0135】
また、端末装置10において、送信部157は、音声のデータを圧縮したデータをサーバ装置100に送信する。このように、端末装置10は、音声のデータを圧縮したデータをサーバ装置100へ送信することにより、通信量の増大を抑制しつつ、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0136】
また、端末装置10において、送信部157は、音声から抽出した特徴情報をサーバ装置100に送信する。このように、端末装置10は、音声のデータを圧縮したデータをサーバ装置100へ送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0137】
また、端末装置10において、送信部157は、収集部153により収集された音声の数が所定数以上である場合、許諾に応じて音声に関する情報をサーバ装置100に送信する。このように、端末装置10は、収集した音声の数が所定数以上になった場合に、サーバ装置100へ音声に関する情報を送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0138】
また、端末装置10において、送信部157は、収集部153により収集された音声の音声認識に関するスコアが所定の条件を満たす場合、許諾に応じて音声に関する情報をサーバ装置100に送信する。このように、端末装置10は、収集した音声の音声認識に関するスコアが所定の条件を満たす場合に、サーバ装置100へ音声に関する情報を送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0139】
また、端末装置10において、送信部157は、収集部153により収集された音声がノイズに関する条件を満たす場合、許諾に応じて音声に関する情報をサーバ装置100に送信する。このように、端末装置10は、収集した音声がノイズに関する条件を満たす場合に、サーバ装置100へ音声に関する情報を送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0140】
また、端末装置10において、送信部157は、収集部153により収集された音声に対応する発話が所定の内容を含む場合、許諾に応じて音声に関する情報をサーバ装置100に送信する。このように、端末装置10は、音声に対応する発話が所定の内容を含む場合に、サーバ装置100へ音声に関する情報を送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0141】
また、端末装置10において、送信部157は、サーバ装置100により指定された所定の条件を満たす場合、許諾に応じて音声に関する情報をサーバ装置100に送信する。このように、端末装置10は、サーバ装置100により指定された条件を満たす場合に、サーバ装置100へ音声に関する情報を送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0142】
また、端末装置10は、受付部155を有する。受付部155は、ユーザによる許諾を受け付ける。このように、端末装置10は、ユーザによる許諾を受け付けることにより、ユーザの許諾があった場合にのみ音声に関する情報を送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0143】
また、端末装置10において、送信部157は、受付部155によりユーザの許諾が受け付けられた後、所定のタイミングで音声に関する情報をサーバ装置100に送信する。このように、端末装置10は、ユーザの許諾後の所定のタイミングで、サーバ装置100へ音声に関する情報を送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切なタイミングで送信することができる。
【0144】
また、端末装置10において、送信部157は、通信環境が所定の通信条件を満たしている間に、音声に関する情報をサーバ装置100に送信する。このように、端末装置10は、通信環境が所定の通信条件を満たしている間に、サーバ装置100へ音声に関する情報を送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切なタイミングで送信することができる。
【0145】
また、端末装置10において、送信部157は、ユーザによる端末装置の利用率が低いタイミングで、音声に関する情報をサーバ装置100に送信する。このように、端末装置10は、ユーザによる端末装置10の利用率が低いタイミングで、サーバ装置100へ音声に関する情報を送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切なタイミングで送信することができる。
【0146】
また、端末装置10は、通知部154を有する。通知部154は、サーバ装置100へ送信する候補となる音声に関する情報をユーザに通知する。このように、端末装置10は、サーバ装置100へ送信する候補となる音声に関する情報をユーザに通知することにより、ユーザにどのような情報がサーバ装置100へ送信されるのかを認識させることができる。
【0147】
また、端末装置10において、送信部157は、通知部154により通知された候補のうち、ユーザが許諾した音声に関する情報をサーバ装置100に送信する。このように、端末装置10は、ユーザに候補を通知し、その中でユーザが許諾した音声について、サーバ装置100へ音声に関する情報を送信することにより、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0148】
また、端末装置10において、通知部154は、音声に関する情報がサーバ装置100へ送信された場合にユーザに提供されるインセンティブを示す情報を通知する。このように、端末装置10は、情報提供の対価としてユーザに提供されるインセンティブをユーザに知らせることにより、ユーザが情報提供を行う動機づけを与えることができ、端末装置10から他の装置へ送信される情報量を増大させることができる。
【0149】
上述してきたように、本願に係る情報処理システム1は、ユーザに利用され、自装置で音声認識を行う端末装置10と、サーバ装置100と、を有する。サーバ装置100は、端末装置10に情報送信を要求する音声を指定する所定の条件を示す情報を、端末装置10に送信する。端末装置10は、サーバ装置100から受信した所定の条件を満たす音声に関する情報を、ユーザの許諾に応じて、サーバ装置100に送信する。
【0150】
このように、情報処理システム1は、ユーザが利用する端末装置10が自装置内でユーザの発話の音声の音声認識行い、サーバ装置100から指定された条件を満たす音声に関する情報を、端末装置10がサーバに送信する。これにより、情報処理システム1は、端末装置10が音声認識を行う場合であっても、端末装置10で収集される音声に関する情報を他の装置へ適切に送信することができる。
【0151】
〔7.ハードウェア構成〕
また、上述した実施形態に係る端末装置10やサーバ装置100は、例えば
図10に示すような構成のコンピュータ1000によって実現される。以下、サーバ装置100を例に挙げて説明する。
図10は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力I/F(Interface)1060、入力I/F1070、ネットワークI/F1080がバス1090により接続された形態を有する。
【0152】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置1030は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等により実現される。
【0153】
一次記憶装置1040は、RAM(Random Access Memory)等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等により実現される。二次記憶装置1050は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置1050は、USBメモリやSD(Secure Digital)メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置1050は、クラウドストレージ(オンラインストレージ)やNAS(Network Attached Storage)、ファイルサーバ等であってもよい。
【0154】
出力I/F1060は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインターフェイスであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力I/F1070は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置1020から情報を受信するためのインターフェイスであり、例えば、USB等により実現される。
【0155】
また、出力I/F1060及び入力I/F1070はそれぞれ出力装置1010及び入力装置1020と無線で接続してもよい。すなわち、出力装置1010及び入力装置1020は、ワイヤレス機器であってもよい。
【0156】
また、出力装置1010及び入力装置1020は、タッチパネルのように一体化していてもよい。この場合、出力I/F1060及び入力I/F1070も、入出力I/Fとして一体化していてもよい。
【0157】
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。
【0158】
ネットワークI/F1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
【0159】
演算装置1030は、出力I/F1060や入力I/F1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0160】
例えば、コンピュータ1000がサーバ装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器から取得したプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。
【0161】
〔8.その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
【0162】
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0163】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
【0164】
例えば、上述したサーバ装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。
【0165】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0166】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0167】
1 情報処理システム
10 端末装置
11 通信部
12 入力部
13 出力部
14 記憶部
141 モデル情報記憶部
142 収集情報記憶部
15 制御部
151 受信部
152 音声認識部
153 収集部
154 通知部
155 受付部
156 判定部
157 送信部
16 センサ部
161 音声センサ
100 サーバ装置
110 通信部
120 記憶部
121 モデル情報記憶部
122 学習用データ情報記憶部
130 制御部
131 取得部
132 決定部
133 学習部
134 送信部