(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024169378
(43)【公開日】2024-12-05
(54)【発明の名称】情報処理装置、出力方法、及び出力プログラム
(51)【国際特許分類】
G10L 15/10 20060101AFI20241128BHJP
G06F 40/279 20200101ALI20241128BHJP
【FI】
G10L15/10 500T
G06F40/279
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2024083371
(22)【出願日】2024-05-22
(31)【優先権主張番号】PCT/JP2023/019496
(32)【優先日】2023-05-25
(33)【優先権主張国・地域又は機関】WO
(71)【出願人】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100116964
【弁理士】
【氏名又は名称】山形 洋一
(74)【代理人】
【識別番号】100120477
【弁理士】
【氏名又は名称】佐藤 賢改
(74)【代理人】
【識別番号】100135921
【弁理士】
【氏名又は名称】篠原 昌彦
(74)【代理人】
【識別番号】100203677
【弁理士】
【氏名又は名称】山口 力
(72)【発明者】
【氏名】斉藤 辰彦
(57)【要約】
【課題】ユーザが容易に理解可能な情報を出力すること。
【解決手段】情報処理装置100は、取得部120と、音声認識実行部130と、生成部140と、出力部150とを有する。取得部120は、音声データを取得する。音声認識実行部130は、音声データを用いて、音声認識を実行する。生成部140は、音声認識により得られたデータの中のキーワード、又はデータに基づく単語ベクトルを用いて、音声データの要約文を生成する。出力部150は、要約文を出力する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
音声データを取得する取得部と、
前記音声データを用いて、音声認識を実行する音声認識実行部と、
前記音声認識により得られたデータの中のキーワード、又は前記データに基づく単語ベクトルを用いて、前記音声データの要約文を生成する生成部と、
前記要約文を出力する出力部と、
を有する情報処理装置。
【請求項2】
前記生成部は、前記データの中から前記キーワードを抽出し、前記キーワードを当てはめるためのテンプレートを検出し、前記キーワードを前記テンプレートに当てはめることで、前記要約文を生成する、
請求項1に記載の情報処理装置。
【請求項3】
前記生成部は、前記データの中から前記キーワードを抽出し、前記キーワードを用いて、前記キーワードに適合する過去事例を検索し、検索により得られた前記過去事例を、前記要約文として生成し、
前記過去事例は、過去に要約文として出力された情報である、
請求項1に記載の情報処理装置。
【請求項4】
前記取得部は、学習済モデルを取得し、
前記生成部は、前記データの中から前記キーワードを抽出し、前記キーワードと前記学習済モデルとを用いて、前記要約文を生成する、
請求項1に記載の情報処理装置。
【請求項5】
前記取得部は、学習済モデルを取得し、
前記生成部は、前記データと前記学習済モデルとを用いて、前記要約文を生成する、
請求項1に記載の情報処理装置。
【請求項6】
前記生成部は、複数の音声データが結合されたデータであり、かつ意味の繋がりのある内容が結合されたデータである結合データを用いて、前記要約文を生成する、
請求項1又は2に記載の情報処理装置。
【請求項7】
前記取得部は、音声認識により得られた前記データに関する補足情報を取得し、
前記生成部は、音声認識により得られた前記データと前記補足情報とを用いて、前記要約文を生成する、
請求項1又は2に記載の情報処理装置。
【請求項8】
音声認識により得られた前記データを用いて、前記データの内容が、緊急度が高い内容であるか否か、又は前記データの内容に対応する緊急度を解析する解析部をさらに有し、
前記生成部は、解析により得られた情報である、緊急度が高いか否かを示す情報又は前記緊急度を用いて、前記要約文を生成する、
請求項1又は2に記載の情報処理装置。
【請求項9】
前記解析部は、前記データの内容に対応する緊急度を解析する場合、前記音声データを解析することにより得られたパラ言語を考慮して、前記データの内容に対応する緊急度を解析する、
請求項8に記載の情報処理装置。
【請求項10】
前記生成部は、前記要約文を変形、又は前記要約文の一部を省略し、
前記出力部は、変形された前記要約文、又は省略された前記要約文を出力する、
請求項8に記載の情報処理装置。
【請求項11】
省略制御部と、
カメラと、
ディスプレイと、
をさらに有し、
前記カメラは、前記情報処理装置の前に存在するユーザ、又は前記ユーザが有する端末の画面を撮影し、
前記取得部は、前記ユーザ又は前記画面を撮影することにより得られた画像を前記カメラから取得し、
前記省略制御部は、前記画像を用いて、ユーザ認証を行うことにより、前記ユーザを特定し、前記ユーザが既に知っている情報を取得し、前記要約文の中から、前記ユーザが既に知っている情報を省略し、
前記出力部は、前記ユーザが既に知っている情報が省略された要約文を、前記ディスプレイに出力する、
請求項1又は2に記載の情報処理装置。
【請求項12】
情報処理装置が、
音声データを取得し、
前記音声データを用いて、音声認識を実行し、
前記音声認識により得られたデータの中のキーワード、又は前記データに基づく単語ベクトルを用いて、前記音声データの要約文を生成し、
前記要約文を出力する、
出力方法。
【請求項13】
コンピュータに、
音声データを取得し、
前記音声データを用いて、音声認識を実行し、
前記音声認識により得られたデータの中のキーワード、又は前記データに基づく単語ベクトルを用いて、前記音声データの要約文を生成し、
前記要約文を出力する、
処理を実行させる出力プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、出力方法、及び出力プログラムに関する。
【背景技術】
【0002】
音声認識技術が知られている。例えば、特許文献1には、音声認識技術に関する技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
発話が音声認識され、音声認識の結果が、表示又は音声出力される場合がある。ここで、発話の内容には、次のような特徴が存在する場合がある。内容が冗長である。同じ言葉が繰り返される。内容が文法上適切な話し言葉でない。発話の内容には、このような特徴が存在する場合がある。そのため、このような特徴が存在している発話が音声認識され、音声認識の結果が、表示又は音声出力された場合、ユーザは、情報を理解することが困難な場合がある。
【0005】
本開示の目的は、ユーザが容易に理解可能な情報を出力することである。
【課題を解決するための手段】
【0006】
本開示の一態様に係る情報処理装置が提供される。情報処理装置は、音声データを取得する取得部と、前記音声データを用いて、音声認識を実行する音声認識実行部と、前記音声認識により得られたデータの中のキーワード、又は前記データに基づく単語ベクトルを用いて、前記音声データの要約文を生成する生成部と、前記要約文を出力する出力部と、を有する。
【発明の効果】
【0007】
本開示によれば、ユーザが容易に理解可能な情報を出力することができる。
【図面の簡単な説明】
【0008】
【
図1】(A),(B)は、実施の形態1の提供システムを示す図である。
【
図2】実施の形態1の情報処理装置が有するハードウェアを示す図である。
【
図3】実施の形態1の情報処理装置の機能を示すブロック図である。
【
図4】実施の形態1の情報処理装置が実行する処理の例を示すフローチャートである。
【
図5】実施の形態1の要約文生成処理の例を示すフローチャートである。
【
図6】実施の形態1の管理テーブルの例を示す図である。
【
図7】実施の形態1の変形例1の要約文生成処理の例を示すフローチャートである。
【
図8】実施の形態1の変形例2の要約文生成処理の例を示すフローチャートである。
【
図9】実施の形態1の変形例3の要約文生成処理の例を示すフローチャートである。
【
図10】実施の形態2の情報処理装置の機能を示すブロック図である。
【
図11】実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。
【
図12】実施の形態3の提供システムを示す図である。
【
図13】実施の形態3の情報処理装置が実行する処理の例を示すフローチャートである。
【
図14】実施の形態4の情報処理装置の機能を示すブロック図である。
【
図15】実施の形態4の情報処理装置が実行する処理の例を示すフローチャートである。
【
図16】実施の形態4の管理テーブルの例を示す図である。
【
図17】実施の形態5の情報処理装置の機能を示すブロック図である。
【発明を実施するための形態】
【0009】
以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
【0010】
実施の形態1.
図1(A),(B)は、実施の形態1の提供システムを示す図である。
図1(A)は、提供システムを示している。提供システムは、マイク10、ディスプレイ20、スピーカ30、カメラ40、及び情報処理装置100を含む。マイク10、ディスプレイ20、スピーカ30、カメラ40、及び情報処理装置100は、ネットワークを介して接続する。なお、ネットワークは、有線ネットワーク又は無線ネットワークである。
【0011】
情報処理装置100は、出力方法を実行する装置である。例えば、情報処理装置100は、サーバである。情報処理装置100の処理を簡単に説明する。情報処理装置100は、音声データをマイク10から取得する。例えば、音声データの音は、電車内又は駅構内の音声アナウンス、観光地又は商業施設の音声アナウンスなどである。情報処理装置100は、音声データに基づいて、音声データの要約文を生成する。情報処理装置100は、要約文をディスプレイ20に出力してもよい。情報処理装置100は、要約文の音信号をスピーカ30に出力してもよい。これにより、要約文が、ユーザに提供される。また、情報処理装置100は、要約文を翻訳してもよい。情報処理装置100は、翻訳された要約文をディスプレイ20に出力してもよいし、翻訳された要約文の音信号をスピーカ30に出力してもよい。
【0012】
ここで、提供システムには、出力制御装置200が含まれてもよい。
図1(B)は、出力制御装置200がディスプレイ20、スピーカ30、及び情報処理装置100と接続することを示している。情報処理装置100は、出力制御装置200を介して、要約文又は要約文の音信号をディスプレイ20及びスピーカ30に出力してもよい。また、出力制御装置200は、翻訳機能を有してもよい。出力制御装置200が翻訳機能を有している場合、出力制御装置200は、入力された要約文を翻訳する。出力制御装置200は、翻訳された要約文をディスプレイ20に出力する。また、出力制御装置200は、翻訳された要約文の音信号をスピーカ30に出力する。
【0013】
図1(A)は、マイク10、ディスプレイ20、スピーカ30、及びカメラ40が、情報処理装置100の外部に存在する場合を示している。マイク10、ディスプレイ20、スピーカ30、及びカメラ40のうちの少なくとも1つは、情報処理装置100に含まれてもよい。例えば、マイク10、ディスプレイ20、スピーカ30、及びカメラ40のうちの少なくとも1つを有する情報処理装置100は、サイネージである。
【0014】
次に、情報処理装置100が有するハードウェアを説明する。
図2は、実施の形態1の情報処理装置が有するハードウェアを示す図である。情報処理装置100は、コンピュータである。情報処理装置100は、プロセッサ101、揮発性記憶装置102、及び不揮発性記憶装置103を有する。
【0015】
プロセッサ101は、情報処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。また、情報処理装置100は、処理回路を有してもよい。
【0016】
揮発性記憶装置102は、情報処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、情報処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)である。
【0017】
次に、情報処理装置100が有する機能を説明する。
図3は、実施の形態1の情報処理装置の機能を示すブロック図である。情報処理装置100は、記憶部110、取得部120、音声認識実行部130、生成部140、及び出力部150を有する。
【0018】
記憶部110は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現してもよい。
取得部120、音声認識実行部130、生成部140、及び出力部150の一部又は全部は、処理回路によって実現してもよい。また、取得部120、音声認識実行部130、生成部140、及び出力部150の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、出力プログラム又は出力プログラム製品とも言う。例えば、出力プログラムは、記録媒体に記録されている。
【0019】
記憶部110は、様々な情報を記憶する。
取得部120、音声認識実行部130、生成部140、及び出力部150の機能は、後で詳細に説明する。
【0020】
次に、情報処理装置100が実行する処理を、フローチャートを用いて、説明する。
図4は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャートである。
(ステップS11)取得部120は、音声データを取得する。例えば、取得部120は、音声データをマイク10から取得する。また、取得部120は、外部装置を介して、音声データをマイク10から取得してもよい。外部装置は、情報処理装置100の外部に存在する装置である。例えば、外部装置は、クラウドサーバである。なお、外部装置の図は、省略されている。また、音声データは、音声信号と呼んでもよい。
【0021】
(ステップS12)音声認識実行部130は、音声データを用いて、音声認識を実行する。これにより、情報処理装置100は、文字列であるデータを得る。
(ステップS13)情報処理装置100は、要約文生成処理を実行する。例えば、生成部140は、音声認識により得られた当該データの中のキーワード、又は当該データに基づく単語ベクトルを用いて、音声データの要約文を生成する。
(ステップS14)出力部150は、要約文を出力する。例えば、出力部150は、要約文をディスプレイ20に出力する。また、例えば、出力部150は、音信号の要約文をスピーカ30に出力する。また、例えば、出力部150は、要約文を出力制御装置200に出力する。
【0022】
次に、要約文生成処理の一例を示す。
図5は、実施の形態1の要約文生成処理の例を示すフローチャートである。例えば、
図5の処理は、ステップS13に対応する。
(ステップS21)生成部140は、音声認識により得られたデータの中から、キーワードを抽出する。抽出処理を説明する。例えば、生成部140は、キーワードを示すルールベースを用いて、当該データの中から、キーワードを抽出する。例えば、ルールベースを用いる方法とは、辞書を用いた方法、正規表現を用いた方法などである。また、例えば、生成部140は、学習済モデルを用いて、当該データの中からキーワードを抽出する。詳細には、生成部140が学習済モデルに当該データを入力した場合、学習済モデルは、キーワードを出力する。
なお、学習済モデルは、例えば、DNN(Deep Neural Network)などの機械学習により作成することができる。例えば、機械学習では、大量の文字列が入力データとして用意される。入力データの文字列に対応するキーワードを正解ラベルとする教師データが用意される。そして、入力データと教師データとを用いて、学習済モデルの出力データであるキーワードが正解ラベルに一致するように機械学習することで、学習済モデルが作成される。
【0023】
(ステップS22)生成部140は、抽出されたキーワードを当てはめるためのテンプレートを検出する。テンプレートの検出処理を、図を用いて説明する。
【0024】
図6は、実施の形態1の管理テーブルの例を示す図である。例えば、管理テーブル111は、記憶部110に格納されている。管理テーブル111は、項番、キーワード、及びテンプレートの項目を有する。
例えば、キーワードが“運転再開”である場合、生成部140は、項番1のレコードのテンプレートを検出する。
【0025】
また、管理テーブル111は、外部装置に格納されていてもよい。管理テーブル111が外部装置に格納されている場合、生成部140は、取得部120を介して、管理テーブル111を外部装置から取得する。
【0026】
また、生成部140は、学習済モデルを用いて、テンプレートを検出してもよい。具体的には、生成部140がキーワードを学習済モデルに入力した場合、学習済モデルは、管理テーブル111の項番を出力する。例えば、学習済モデルは、“項番1”を出力する。生成部140は、出力された項番のテンプレートを、キーワードを当てはめるためのテンプレートとして検出する。
なお、学習済モデルは、例えば、DNNなどの機械学習により作成することができる。例えば、機械学習では、大量のキーワードが入力データとして用意される。入力データのキーワードに対応するテンプレートを正解ラベルとする教師データが用意される。そして、入力データと教師データとを用いて、学習済モデルの出力データであるテンプレートが正解ラベルに一致するように機械学習することで、学習済モデルが作成される。
【0027】
(ステップS23)生成部140は、キーワードをテンプレートに当てはめることで、要約文を生成する。例えば、生成部140は、要約文“電車の運転再開が見込まれています。”を生成する。
【0028】
ここで、発話の内容には、次のような特徴が存在する場合がある。内容が冗長である。同じ言葉が繰り返される。発話が文法上適切な話し言葉でない。発話の内容には、このような特徴が存在する場合がある。そのため、このような特徴が存在している発話が音声認識され、音声認識の結果が、表示又は音声出力された場合、ユーザは、情報を理解することが困難な場合がある。
【0029】
実施の形態1によれば、情報処理装置100は、発話の内容に基づいて、要約文を生成し、要約文を出力する。これにより、発話の内容に上記の特徴が存在している場合でも、情報処理装置100は、ユーザが容易に理解可能な情報を出力することができる。
【0030】
実施の形態1の変形例1.
実施の形態1の変形例1では、要約文が異なる方法で生成される場合を説明する。
図7は、実施の形態1の変形例1の要約文生成処理の例を示すフローチャートである。例えば、
図7の処理は、ステップS13に対応する。
【0031】
(ステップS31)生成部140は、音声認識により得られたデータの中から、キーワードを抽出する。
【0032】
(ステップS32)生成部140は、キーワードを用いて、当該キーワードに適合する過去事例を検索する。なお、過去事例は、過去に要約文として出力された情報である。ここで、記憶部110又は外部装置は、複数の過去事例を格納している。例えば、記憶部110が複数の過去事例を格納している場合、生成部140は、記憶部110が格納している複数の過去事例の中から、当該キーワードに適合する過去事例を検索する。また、例えば、外部装置が複数の過去事例を格納している場合、生成部140は、外部装置にアクセスし、外部装置が格納している複数の過去事例の中から、当該キーワードに適合する過去事例を検索する。
【0033】
(ステップS33)生成部140は、検索により得られた過去事例を、要約文として生成する。また、この文は、次のように表現してもよい。生成部140は、検索された過去事例を、要約文として出力する。
【0034】
実施の形態1の変形例1によれば、情報処理装置100は、ユーザが容易に理解可能な情報を出力することができる。
【0035】
実施の形態1の変形例2.
実施の形態1の変形例2では、要約文が異なる方法で生成される場合を説明する。
図8は、実施の形態1の変形例2の要約文生成処理の例を示すフローチャートである。例えば、
図8の処理は、ステップS13に対応する。
【0036】
(ステップS41)生成部140は、音声認識により得られたデータの中から、キーワードを抽出する。
(ステップS42)取得部120は、学習済モデルを記憶部110又は外部装置から取得する。
(ステップS43)生成部140は、キーワードと学習済モデルとを用いて、要約文を生成する。詳細には、生成部140がキーワードを学習済モデルに入力した場合、学習済モデルは、要約文を出力する。
なお、学習済モデルは、例えば、DNNなどの機械学習により作成することができる。例えば、機械学習では、大量のキーワードが入力データとして用意される。入力データのキーワードに対応する要約文を正解ラベルとする教師データが用意される。そして、入力データと教師データとを用いて、学習済モデルの出力データである要約文が正解ラベルに一致するように機械学習することで、学習済モデルが作成される。
【0037】
実施の形態1の変形例2によれば、情報処理装置100は、ユーザが容易に理解可能な情報を出力することができる。
【0038】
実施の形態1の変形例3.
実施の形態1の変形例3では、要約文が異なる方法で生成される場合を説明する。
図9は、実施の形態1の変形例3の要約文生成処理の例を示すフローチャートである。例えば、
図9の処理は、ステップS13に対応する。
【0039】
(ステップS51)取得部120は、学習済モデルを記憶部110又は外部装置から取得する。
(ステップS52)生成部140は、音声認識により得られたデータと学習済モデルとを用いて、要約文を生成する。詳細には、生成部140が当該データを学習済モデルに入力した場合、学習済モデルは、要約文を出力する。
なお、学習済モデルは、例えば、DNNなどの機械学習により作成することができる。例えば、機械学習では、大量の文字列が入力データとして用意される。入力データの文字列に対応する要約文を正解ラベルとする教師データが用意される。そして、入力データと教師データとを用いて、学習済モデルの出力データである要約文が正解ラベルに一致するように機械学習することで、学習済モデルが作成される。
【0040】
実施の形態1の変形例3によれば、情報処理装置100は、ユーザが容易に理解可能な情報を出力することができる。
【0041】
実施の形態2.
次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
【0042】
まず、話者は、複数回に分けて、意味の繋がりのある話を行う場合がある。そのため、一話分の音声データに基づいて、要約文が生成されたとき、生成された要約文の正確性が低い場合がある。そこで、実施の形態2では、より正確な要約文が生成される場合を説明する。
【0043】
図10は、実施の形態2の情報処理装置の機能を示すブロック図である。情報処理装置100は、さらに判定部160及び結合部170を有する。判定部160及び結合部170の一部又は全部は、処理回路によって実現してもよい。また、判定部160及び結合部170の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。
判定部160及び結合部170の機能は、後で説明する。
【0044】
次に、情報処理装置100が実行する処理を、フローチャートを用いて説明する。
図11は、実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。
図11の処理は、ステップS11a,12a~12dが実行される点が
図4の処理と異なる。そのため、
図11では、ステップS11a,12a~12dを説明する。そして、ステップS11a,12a~12d以外の処理の説明は、省略する。
【0045】
(ステップS11a)取得部120は、一話分の音声データを取得する。
(ステップS12a)判定部160は、ステップS11aで取得された音声データが同じ人の最初の音声データであるか否かを判定する。取得された音声データが最初の音声データである場合、判定部160は、音声認識により得られたデータを記憶部110に格納する。そして、処理は、ステップS11aに進む。取得された音声データが同じ人の音声データである場合、処理は、ステップS12bに進む。なお、判定部160は、解析により、取得された音声データが同じ人の音声データであるか否かを判定できる。
【0046】
(ステップS12b)判定部160は、音声認識により得られたデータと、記憶部110に格納されているデータとが意味の繋がりがあるか否かを判定する。例えば、判定部160は、ルールベースを用いて、意味の繋がりがあるか否かを判定する。例えば、ルールベースを用いる方法とは、辞書を用いた方法、正規表現を用いた方法などである。また、例えば、判定部160は、音声認識により得られたデータと、記憶部110に格納されているデータとをベクトル化し、ベクトル化された2つのデータを比較することで、意味の繋がりがあるか否かを判定する。
意味の繋がりがある場合、処理は、ステップS12cに進む。意味の繋がりがない場合、処理は、ステップS12dに進む。
【0047】
(ステップS12c)結合部170は、音声認識により得られたデータと、記憶部110に格納されているデータとを結合する。結合部170は、結合されたデータを記憶部110に格納する。そして、処理は、ステップS11aに進む。
(ステップS12d)取得部120は、結合データを記憶部110から取得する。なお、結合データは、複数の音声データが結合されたデータであり、かつ意味の繋がりのある内容が結合されたデータである。
なお、記憶部110に結合データが格納されていない場合、生成部140は、一話分の音声データを用いる。
【0048】
生成部140は、結合データを用いて、要約文を生成する。例えば、ステップS21では、生成部140は、結合データの中から、キーワードを抽出する。ステップS22以降の処理は、
図5の処理と同じである。
【0049】
実施の形態2によれば、情報処理装置100は、意味の繋がりのある複数の発話に基づいて、要約文を生成する。そのため、情報処理装置100は、より正確な要約文を生成できる。
【0050】
また、話者が、話を倒置して、意味の繋がりのある複数の発話を発言する場合がある。話者がこのような話し方を行っている場合でも、実施の形態2は、有効である。
【0051】
ここで、外部装置は、ステップS11a,12,12a~12cを実行してもよい。外部装置が処理を実行する場合、ステップS12dでは、取得部120は、結合データを外部装置から取得する。
【0052】
実施の形態2は、実施の形態1の変形例1と組合せることができる。具体的には、ステップS31では、生成部140は、結合データの中から、キーワードを抽出する。ステップS32以降の処理は、
図7の処理と同じである。
【0053】
実施の形態2は、実施の形態1の変形例2と組合せることができる。具体的には、ステップS41では、生成部140は、結合データの中から、キーワードを抽出する。ステップS42以降の処理は、
図8の処理と同じである。
【0054】
実施の形態2は、実施の形態1の変形例3と組合せることができる。具体的には、ステップS52では、生成部140は、結合データと学習済モデルとを用いて、要約文を生成する。詳細には、生成部140が結合データを学習済モデルに入力した場合、学習済モデルは、要約文を出力する。
なお、学習済モデルは、例えば、DNNなどの機械学習により作成することができる。例えば、機械学習では、大量の結合データが入力データとして用意される。入力データの結合データに対応する要約文を正解ラベルとする教師データが用意される。そして、入力データと教師データとを用いて、学習済モデルの出力データである要約文が正解ラベルに一致するように機械学習することで、学習済モデルが作成される。
【0055】
実施の形態3.
次に、実施の形態3を説明する。実施の形態3では、実施の形態1と相違する事項を主に説明する。そして、実施の形態3では、実施の形態1と共通する事項の説明を省略する。
【0056】
図12は、実施の形態3の提供システムを示す図である。提供システムは、さらに、サーバ300を含む。情報処理装置100とサーバ300とは、ネットワークを介して、通信する。なお、ネットワークは、有線ネットワーク又は無線ネットワークである。
【0057】
サーバ300は、要約文を生成するときの補足情報を記憶する。補足情報は、有用な情報である。例えば、補足情報は、有用な情報の内容を示す文字列を含んでもよい。例えば、サーバ300には、SNS(Social Networking Service)の情報が格納される。例えば、電車に関する要約文が生成される場合、当該情報は、停車理由、遅延理由などの情報である。サーバ300は、フィルタリングを行い、SNSの情報の中から有用な情報を抽出する。これにより、サーバ300は、有用な情報である補足情報を記憶することができる。サーバ300は、定期的に補足情報を更新する。また、サーバ300は、定期的に補足情報を情報処理装置100に送信してもよい。情報処理装置100の取得部120は、補足情報を取得した場合、補足情報を記憶部110に格納する。
【0058】
次に、情報処理装置100が実行する処理を、フローチャートを用いて説明する。
図13は、実施の形態3の情報処理装置が実行する処理の例を示すフローチャートである。
図13の処理は、ステップS12eが実行される点が
図4の処理と異なる。そのため、
図13では、ステップS12eを説明する。そして、ステップS12e以外の処理の説明は、省略する。
【0059】
(ステップS12e)取得部120は、音声認識により得られたデータに関する補足情報を記憶部110又はサーバ300から取得する。この文章は、次のように表現してもよい。取得部120は、音声認識により得られたデータに含まれている単語に関する補足情報を記憶部110又はサーバ300から取得する。例えば、当該データに路線名が含まれている場合、取得部120は、路線名に関する補足情報を取得する。
【0060】
生成部140は、音声認識により得られたデータと補足情報とを用いて、要約文を生成する。例えば、ステップS21では、生成部140は、当該データと補足情報との中から、キーワードを抽出する。ステップS22以降の処理は、
図5の処理と同じである。
【0061】
ここで、例えば、発話の内容には、音声アナウンスの音声認識誤り、誤った発話などにより、一部の情報が欠けている場合がある。また、例えば、発話の内容には、発話の省略などにより、前提条件が欠けている場合がある。このような場合、発話の内容のみに基づいて、生成された要約文の正確性が低い場合がある。そこで、情報処理装置100は、補足情報を用いて、発話の内容に欠けていた内容を補足する。これにより、より正確な要約文が生成される。
【0062】
具体例を示す。音声認識により得られたデータには、“東海道線”が含まれている。発話の内容には、“東海道線”が遅延している原因が欠けているものとする。補足情報は、“東海道線”の遅延原因を示す。生成部140は、音声認識により得られたデータと補足情報とを用いて、要約文を生成する。生成部140は、要約文を生成する際、“東海道線”の遅延原因を補足して、要約文を生成する。これにより、より正確な要約文が生成される。
【0063】
よって、実施の形態3によれば、情報処理装置100は、より正確な要約文を生成できる。
【0064】
実施の形態3は、実施の形態1の変形例1と組合せることができる。具体的には、ステップS31では、生成部140は、音声認識により得られたデータと補足情報との中から、キーワードを抽出する。ステップS32以降の処理は、
図7の処理と同じである。
【0065】
実施の形態3は、実施の形態1の変形例2と組合せることができる。具体的には、ステップS41では、生成部140は、音声認識により得られたデータと補足情報との中から、キーワードを抽出する。ステップS42以降の処理は、
図8の処理と同じである。
【0066】
実施の形態3は、実施の形態1の変形例3と組合せることができる。具体的には、ステップS52では、生成部140は、音声認識により得られたデータと補足情報と学習済モデルとを用いて、要約文を生成する。詳細には、生成部140が当該データと補足情報とを学習済モデルに入力した場合、学習済モデルは、要約文を出力する。
なお、学習済モデルは、例えば、DNNなどの機械学習により作成することができる。例えば、機械学習では、大量の文字列と補足情報が入力データとして用意される。入力データの文字列と補足情報に対応する要約文を正解ラベルとする教師データが用意される。そして、入力データと教師データとを用いて、学習済モデルの出力データである要約文が正解ラベルに一致するように機械学習することで、学習済モデルが作成される。
【0067】
実施の形態3は、実施の形態2と組合せることができる。具体的には、生成部140は、結合データと補足情報とを用いて、要約文を生成する。
【0068】
実施の形態3は、実施の形態1又は実施の形態1の変形例1~3、及び実施の形態2と組合せることができる。
【0069】
実施の形態4.
次に、実施の形態4を説明する。実施の形態4では、実施の形態1と相違する事項を主に説明する。そして、実施の形態4では、実施の形態1と共通する事項の説明を省略する。
【0070】
図14は、実施の形態4の情報処理装置の機能を示すブロック図である。情報処理装置100は、さらに解析部180を有する。解析部180の一部又は全部は、処理回路によって実現してもよい。また、解析部180の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。
解析部180の機能は、後で説明する。
【0071】
次に、情報処理装置100が実行する処理を、フローチャートを用いて説明する。
図15は、実施の形態4の情報処理装置が実行する処理の例を示すフローチャートである。
図15の処理は、ステップS12fが実行される点が
図4の処理と異なる。そのため、
図15では、ステップS12fを説明する。そして、ステップS12f以外の処理の説明は、省略する。
【0072】
(ステップS12f)解析部180は、音声認識により得られたデータを用いて、当該データの内容が、緊急度が高い内容であるか否かを解析する。例えば、解析部180は、ルールベースを用いて、解析を行う。例えば、ルールベースを用いる方法とは、辞書を用いた方法、正規表現を用いた方法などである。また、例えば、解析部180は、学習済モデルを用いて、解析を行う。例えば、緊急度が高い内容とは、事故、火災、災害などが発生したことを示す内容である。例えば、解析部180は、当該データの内容が、事故、火災、災害などが発生したことを示す内容である場合、緊急度が高いことを示す情報を出力する。
なお、学習済モデルは、例えば、DNNなどの機械学習により作成することができる。例えば、機械学習では、大量のキーワードが入力データとして用意される。入力データのキーワードに対応する緊急度の高さを正解ラベルとする教師データが用意される。そして、入力データと教師データとを用いて、学習済モデルの出力データである緊急度の高さが正解ラベルに一致するように機械学習することで、学習済モデルが作成される。
【0073】
また、解析部180は、音声認識により得られたデータを用いて、当該データの内容に対応する緊急度を解析してもよい。例えば、当該データの内容に“地震”、“災害”などが含まれる場合、緊急度は、“最高”である。例えば、当該データの内容に“事故”、“故障”などが含まれる場合、緊急度は、“高い”である。また、例えば、当該データの内容に“混雑”、“遅延”などが含まれる場合、緊急度は、“中”である。また、緊急度は、“高い”などの程度ではなく、数値で表現してもよい。
【0074】
さらに、解析部180は、当該データの内容に対応する緊急度を解析する場合、パラ言語を考慮して、当該データの内容に対応する緊急度を解析してもよい。詳細に解析処理を説明する。解析部180は、取得部120により取得された音声データを用いて、パラ言語を解析する。これにより、情報処理装置100は、パラ言語を得ることができる。なお、例えば、パラ言語は、早口、上擦った話し方、音の区切り(すなわち、ポーズ)の長さ、所定時間あたりのポーズの回数、声の大きさなどである。解析部180は、音声データを解析することにより得られたパラ言語を考慮して、当該データの内容に対応する緊急度を解析する。具体例を説明する。当該データの内容に“事故”が含まれているものとする。パラ言語は、“早口”とする。解析部180は、当該データの内容に対応する緊急度が“最高”であると解析する。すなわち、話者が早口で事故の内容を話している場合、当該データの内容は、緊急度が最も高い内容と言える。そのため、解析部180は、当該データの内容に対応する緊急度が“最高”であると解析する。このように、情報処理装置100は、パラ言語を考慮することで、緊急度の解析精度を高めることができる。なお、緊急度は、数値で表現してもよい。
【0075】
上記では、解析部180がパラ言語を解析する場合を説明した。パラ言語の解析は、情報処理装置100の外部の装置が行ってもよい。例えば、情報処理装置100が音声データを当該装置に送信する。当該装置は、パラ言語を解析する。取得部120は、パラ言語を当該装置から取得する。そして、解析部180は、パラ言語を考慮して、当該データの内容に対応する緊急度を解析する。
【0076】
生成部140は、解析により得られた情報である、緊急度が高いか否かを示す情報を用いて、要約文を生成する。例えば、当該情報が、緊急度が高いことを示している場合、生成部140は、緊急度が高いことが考慮された要約文を生成する。また、当該情報が、緊急度が低いことを示している場合、生成部140は、緊急度が低いことが考慮された要約文を生成する。
【0077】
具体的に、生成処理を説明する。ステップS22では、生成部140は、抽出されたキーワードを当てはめるためのテンプレートを検出する。ここで、2つの管理テーブルが用意される。2つの管理テーブルを示す。
【0078】
図16は、実施の形態4の管理テーブルの例を示す図である。管理テーブル111aには、緊急度が高いときに用いられるテンプレートが登録されている。管理テーブル111bには、緊急度が低いときに用いられるテンプレートが登録されている。
なお、管理テーブル111a,111bは、記憶部110又は外部装置に格納されている。
【0079】
生成部140は、緊急度が高いか否かを示す情報を用いて、参照する管理テーブルを選択する。例えば、当該情報が、緊急度が高いことを示している場合、生成部140は、管理テーブル111aを選択する。そして、生成部140は、管理テーブル111aに基づいて、抽出されたキーワードを当てはめるためのテンプレートを検出する。また、例えば、当該情報が、緊急度が低いことを示している場合、生成部140は、管理テーブル111bを選択する。そして、生成部140は、管理テーブル111bに基づいて、抽出されたキーワードを当てはめるためのテンプレートを検出する。
【0080】
生成部140は、キーワードをテンプレートに当てはめることで、要約文を生成する。具体的には、例えば、キーワードが“人身事故”であるとする。緊急度が高いか否かを示す情報が、緊急度が高いことを示しているため、生成部140は、管理テーブル111aを選択する。そして、生成部140は、キーワードをテンプレートに当てはめることで、要約文“東海道線は、人身事故が発生したため運転を見合わせています。”を生成する。このように、要約文が生成される。
【0081】
また、緊急度が解析された場合、緊急度に応じた管理テーブルが用意される。緊急度に応じた管理テーブルは、記憶部110又は外部装置に格納されている。生成部140は、緊急度を用いて、要約文を生成する。具体的には、キーワードが抽出された後、生成部140は、緊急度に応じた管理テーブルを取得し、当該管理テーブルに基づいて、抽出されたキーワードを当てはめるためのテンプレートを検出する。生成部140は、キーワードをテンプレートに当てはめることで、要約文を生成する。このように、要約文が生成される。
【0082】
なお、生成部140は、キーワードをテンプレートに当てはめるだけでなく、要約文を変形してもよい。例えば、キーワードが“地震”である場合、生成部140は、要約文“東海道線は、地震が発生したため運転を見合わせています。”を、要約文“地震が発生したため、東海道線は運転を見合わせています。”に、変形してもよい。例えば、キーワードである“地震”を文頭に移動させることで、ユーザは、緊急度が高い情報をいち早く知ることができる。また、生成部140は、要約文の一部を省略してもよい。例えば、省略される文は、ユーザに伝える必要性が低い情報である。具体的には、例えば、キーワードが“地震”である場合、生成部140は、要約文“地震が発生したため、東海道線は運転を見合わせています。”を、要約文“地震発生、東海道線は運転を見合わせています。”のように一部を省略する。このように、生成部140は、ユーザに伝える必要性が低い情報を省略してもよい。出力部150は、変形された要約文、又は省略された要約文を出力する。
【0083】
実施の形態4によれば、情報処理装置100は、緊急度が高いか否かを示す情報を用いることで、緊急度が考慮された要約文を生成する。よって、情報処理装置100は、より正確な要約文を生成できる。
【0084】
実施の形態4は、実施の形態1の変形例1と組合せることができる。具体的には、ステップS32では、生成部140は、キーワードを用いて、当該キーワードに適合する過去事例を検索する。ここで、
図16のように、緊急度が高いときに用いられる複数の過去事例と、緊急度が低いときに用いられる複数の過去事例とが、用意される。緊急度が高いときに用いられる複数の過去事例と、緊急度が低いときに用いられる複数の過去事例とは、記憶部110又は外部装置に格納されている。生成部140は、緊急度が高いか否かを示す情報を用いて、参照する過去事例を選択する。例えば、当該情報が、緊急度が高いことを示している場合、生成部140は、緊急度が高いときに用いられる複数の過去事例を選択する。そして、生成部140は、選択された複数の過去事例の中から、当該キーワードに適合する過去事例を検索する。また、例えば、当該情報が、緊急度が低いことを示している場合、生成部140は、緊急度が低いときに用いられる複数の過去事例を選択する。そして、生成部140は、選択された複数の過去事例の中から、当該キーワードに適合する過去事例を検索する。生成部140は、検索された過去事例を、要約文として生成する。
【0085】
また、緊急度に応じた過去事例が、記憶部110又は外部装置に格納されてもよい。生成部140は、緊急度に応じた過去事例の中から、当該キーワードに適合する過去事例を検索してもよい。生成部140は、検索された過去事例を、要約文として生成する。
このように、実施の形態4は、実施の形態1の変形例1と組合せることができる。
【0086】
実施の形態4は、実施の形態1の変形例2と組合せることができる。具体的には、ステップS43では、生成部140は、緊急度が高いか否かを示す情報とキーワードと学習済モデルとを用いて、要約文を生成する。詳細には、生成部140が、緊急度が高いか否かを示す情報とキーワードとを学習済モデルに入力した場合、学習済モデルは、緊急度が考慮された要約文を出力する。このように、実施の形態4は、実施の形態1の変形例2と組合せることができる。
なお、学習済モデルは、例えば、DNNなどの機械学習により作成することができる。例えば、機械学習では、大量のキーワードと緊急度が高いが否かを示す情報とが入力データとして用意される。入力データのキーワードに対応する要約文を正解ラベルとする教師データが用意される。そして、入力データと教師データとを用いて、学習済モデルの出力データである要約文が正解ラベルに一致するように機械学習することで、学習済モデルが作成される。
【0087】
生成部140は、緊急度とキーワードと学習済モデルとを用いて、要約文を生成してもよい。詳細には、生成部140が、緊急度とキーワードとを学習済モデルに入力した場合、学習済モデルは、緊急度が考慮された要約文を出力する。
【0088】
実施の形態4は、実施の形態1の変形例3と組合せることができる。具体的には、ステップS52では、生成部140は、緊急度が高いか否かを示す情報と音声認識により得られたデータと学習済モデルとを用いて、要約文を生成する。詳細には、生成部140が、緊急度が高いか否かを示す情報と当該データとを学習済モデルに入力した場合、学習済モデルは、緊急度が考慮された要約文を出力する。このように、実施の形態4は、実施の形態1の変形例3と組合せることができる。
なお、学習済モデルは、例えば、DNNなどの機械学習により作成することができる。例えば、機械学習では、大量の文字列と緊急度が高いが否かを示す情報とが入力データとして用意される。入力データの文字列に対応する要約文を正解ラベルとする教師データが用意される。そして、入力データと教師データとを用いて、学習済モデルの出力データである要約文が正解ラベルに一致するように機械学習することで、学習済モデルが作成される。
【0089】
生成部140は、緊急度と音声認識により得られたデータと学習済モデルとを用いて、要約文を生成する。詳細には、生成部140が、緊急度と当該データとを学習済モデルに入力した場合、学習済モデルは、緊急度が考慮された要約文を出力する。
【0090】
実施の形態4は、実施の形態2と組合せることができる。具体的には、生成部140は、緊急度が高いか否かを示す情報と結合データとを用いて、要約文を生成する。このように、実施の形態4は、実施の形態2と組合せることができる。
【0091】
実施の形態4は、実施の形態1又は実施の形態1の変形例1~3、及び実施の形態2と組合せることができる。
【0092】
実施の形態5.
次に、実施の形態5を説明する。実施の形態5では、実施の形態1~4と相違する事項を主に説明する。そして、実施の形態5では、実施の形態1~4と共通する事項の説明を省略する。また、例えば、実施の形態5における情報処理装置100は、サイネージとする。
【0093】
図17は、実施の形態5の情報処理装置の機能を示すブロック図である。情報処理装置100は、さらに省略制御部190を有する。省略制御部190の一部又は全部は、処理回路によって実現してもよい。また、省略制御部190の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。
【0094】
カメラ40は、情報処理装置100の前に存在するユーザを撮影する。取得部120は、ユーザを撮影することにより得られた画像をカメラ40から取得する。省略制御部190は、画像を用いた顔認証により、ユーザ認証を行う。これにより、省略制御部190は、ユーザを特定することができる。なお、ユーザの特定方法は、顔認証に限らない。情報処理装置100は、ユーザの端末の画面に表示された認証コードにより、ユーザを特定することができる。認証コードは、ユーザに個別に配布されたものである。例えば、認証コードは、二次元バーコードなどである。取得部120は、ユーザの端末(例えば、スマートフォン)の画面に表示されている認証コードを撮影することにより得られた画像をカメラ40から取得する。省略制御部190は、画像が示す認証コードのコード認証を行い、ユーザ認証を行う。省略制御部190は、記憶部110又は外部装置から、ユーザが既に知っている情報を取得する。例えば、ユーザが過去に質問を行い、ユーザが当該質問の回答を得ている場合、ユーザが既に知っている情報は、当該回答である。また、例えば、ある情報が、ユーザの端末(例えば、スマートフォン)に提供されている場合、ユーザが既に知っている情報は、提供された当該情報である。さらに、例えば、ユーザが別の媒体を介して情報を取得している場合、ユーザが既に知っている情報は、取得された当該情報である。省略制御部190は、生成部140が生成した要約文の中から、ユーザが既に知っている情報を省略する。出力部150は、ユーザが既に知っている情報が省略された要約文をディスプレイ20に出力する。
【0095】
実施の形態5によれば、情報処理装置100は、既に知っている情報をユーザに提供しなくて済む。言い換えれば、情報処理装置100は、効率良く、情報をユーザに伝えることができる。
【0096】
以上に説明した各実施の形態及び各実施の形態の変形例における特徴は、互いに適宜組み合わせることができる。
【0097】
以上の各実施の形態は、本開示の情報処理装置による、電車の運行状況に関する要約文の生成について説明しているが、一例にすぎない。例えば、本開示の情報処理装置は、観光地又は商業施設などの営業状況に関する要約文を生成してもよい。
【0098】
また、各実施の形態に関し、さらに以下の付記を開示する。
(付記1)
音声データを取得する取得部と、
前記音声データを用いて、音声認識を実行する音声認識実行部と、
前記音声認識により得られたデータの中のキーワード、又は前記データに基づく単語ベクトルを用いて、前記音声データの要約文を生成する生成部と、
前記要約文を出力する出力部と、
を有する情報処理装置。
(付記2)
前記生成部は、前記データの中から前記キーワードを抽出し、前記キーワードを当てはめるためのテンプレートを検出し、前記キーワードを前記テンプレートに当てはめることで、前記要約文を生成する、
付記1に記載の情報処理装置。
(付記3)
前記生成部は、前記データの中から前記キーワードを抽出し、前記キーワードを用いて、前記キーワードに適合する過去事例を検索し、検索により得られた前記過去事例を、前記要約文として生成し、
前記過去事例は、過去に要約文として出力された情報である、
付記1に記載の情報処理装置。
(付記4)
前記取得部は、学習済モデルを取得し、
前記生成部は、前記データの中から前記キーワードを抽出し、前記キーワードと前記学習済モデルとを用いて、前記要約文を生成する、
付記1に記載の情報処理装置。
(付記5)
前記取得部は、学習済モデルを取得し、
前記生成部は、前記データと前記学習済モデルとを用いて、前記要約文を生成する、
付記1に記載の情報処理装置。
(付記6)
前記生成部は、複数の音声データが結合されたデータであり、かつ意味の繋がりのある内容が結合されたデータである結合データを用いて、前記要約文を生成する、
付記1から5のいずれか1項に記載の情報処理装置。
(付記7)
前記取得部は、音声認識により得られた前記データに関する補足情報を取得し、
前記生成部は、音声認識により得られた前記データと前記補足情報とを用いて、前記要約文を生成する、
付記1から6のいずれか1項に記載の情報処理装置。
(付記8)
音声認識により得られた前記データを用いて、前記データの内容が、緊急度が高い内容であるか否か、又は前記データの内容に対応する緊急度を解析する解析部をさらに有し、
前記生成部は、解析により得られた情報である、緊急度が高いか否かを示す情報又は前記緊急度を用いて、前記要約文を生成する、
付記1から6のいずれか1項に記載の情報処理装置。
(付記9)
前記解析部は、前記データの内容に対応する緊急度を解析する場合、前記音声データを解析することにより得られたパラ言語を考慮して、前記データの内容に対応する緊急度を解析する、
付記8に記載の情報処理装置。
(付記10)
前記生成部は、前記要約文を変形、又は前記要約文の一部を省略し、
前記出力部は、変形された前記要約文、又は省略された前記要約文を出力する、
付記8に記載の情報処理装置。
(付記11)
省略制御部と、
カメラと、
ディスプレイと、
をさらに有し、
前記カメラは、前記情報処理装置の前に存在するユーザ、又は前記ユーザが有する端末の画面を撮影し、
前記取得部は、前記ユーザ又は前記画面を撮影することにより得られた画像を前記カメラから取得し、
前記省略制御部は、前記画像を用いて、ユーザ認証を行うことにより、前記ユーザを特定し、前記ユーザが既に知っている情報を取得し、前記要約文の中から、前記ユーザが既に知っている情報を省略し、
前記出力部は、前記ユーザが既に知っている情報が省略された要約文を、前記ディスプレイに出力する、
付記1から10のいずれか1項に記載の情報処理装置。
(付記12)
情報処理装置が、
音声データを取得し、
前記音声データを用いて、音声認識を実行し、
前記音声認識により得られたデータの中のキーワード、又は前記データに基づく単語ベクトルを用いて、前記音声データの要約文を生成し、
前記要約文を出力する、
出力方法。
(付記13)
コンピュータに、
音声データを取得し、
前記音声データを用いて、音声認識を実行し、
前記音声認識により得られたデータの中のキーワード、又は前記データに基づく単語ベクトルを用いて、前記音声データの要約文を生成し、
前記要約文を出力する、
処理を実行させる出力プログラム。
【符号の説明】
【0099】
10 マイク、 20 ディスプレイ、 30 スピーカ、 40 カメラ、 100 情報処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 110 記憶部、 111 管理テーブル、 111a,111b 管理テーブル、 120 取得部、 130 音声認識実行部、 140 生成部、 150 出力部、 160 判定部、 170 結合部、 180 解析部、 190 省略制御部、 200 出力制御装置、 300 サーバ。