(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-16
(45)【発行日】2024-04-24
(54)【発明の名称】情報処理システム、情報処理方法、およびプログラム
(51)【国際特許分類】
G06F 40/56 20200101AFI20240417BHJP
G10L 15/10 20060101ALI20240417BHJP
G10L 17/00 20130101ALI20240417BHJP
G06F 40/279 20200101ALI20240417BHJP
【FI】
G06F40/56
G10L15/10 200W
G10L17/00 200C
G06F40/279
(21)【出願番号】P 2022139181
(22)【出願日】2022-09-01
【審査請求日】2022-09-01
(73)【特許権者】
【識別番号】394013002
【氏名又は名称】三菱電機インフォメーションシステムズ株式会社
(74)【代理人】
【識別番号】100161207
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100206081
【氏名又は名称】片岡 央
(74)【代理人】
【識別番号】100188673
【氏名又は名称】成田 友紀
(74)【代理人】
【識別番号】100188891
【氏名又は名称】丹野 拓人
(72)【発明者】
【氏名】清水 俊介
(72)【発明者】
【氏名】田口 進也
(72)【発明者】
【氏名】白浜 広彬
(72)【発明者】
【氏名】中村 伊知郎
(72)【発明者】
【氏名】鶴田 季丸
【審査官】松尾 真人
(56)【参考文献】
【文献】特開2021-179673(JP,A)
【文献】特開2021-047817(JP,A)
【文献】特開2020-035019(JP,A)
【文献】特開2022-055305(JP,A)
【文献】特開2020-067710(JP,A)
【文献】特開2020-071675(JP,A)
【文献】特開2019-204445(JP,A)
【文献】gagan3012/keytotext,GitHub,2021年10月05日,[2023年11月7日検索],インターネット<URL:https://github.com/gagan3012/keytotext/tree/deepsource-fix-9d924e52>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
G06Q 10/00-99/00
G10L 15/10
G10L 17/00
(57)【特許請求の範囲】
【請求項1】
設定情報を取得する設定情報取得部と、
前記設定情報に基づいて、音声認識によるテキストデータからキーワードを抽出するキーワード抽出部と、
抽出された前記キーワードを含む
複数の第1文章を生成する第1文章生成部と、
前記生成した複数の第1文章をそれぞれ提示する第1文章候補提示部と、
ユーザによる前記第1文章の選択結果に基づいて、前記第1文章を含む第2文章を生成する第2文章生成部と、
を備え、
前記第1文章生成部は、前記ユーザが選択した一又は複数のキーワードを入力として、少なくともベースモデルとカスタマイズモデルとのいずれかに基づく学習モデルによる機械学習により、前記第1文章を生成する、
情報処理システム。
【請求項2】
前記テキストデータから抽出された一又は複数のキーワードを提示するキーワード候補提示部、
をさらに備え、
前記第1文章生成部は、前記ユーザが選択した前記一又は複数のキーワードのすべてを含む複数の前記第1文章を生成する、
請求項1に記載の情報処理システム。
【請求項3】
前記音声認識は、発話者を認識する話者認識を含み、
前記設定情報は、発話者に対する重み付けに関する設定情報、単語の抽出に関連する辞書の設定情報、
および抽出するキーワード数に関する設定情報である、
請求項1に記載の情報処理システム。
【請求項4】
前記発話者に対する重み付けに関する設定情報は、発話者の発話時間および発話量の少なくともいずれかに応じた重み付けの設定情報である、
請求項
3に記載の情報処理システム。
【請求項5】
情報処理装置のコンピュータが、
設定情報を取得する設定情報取得過程と、
前記設定情報に基づいて、音声認識によるテキストデータからキーワードを抽出するキーワード抽出過程と、
抽出された前記キーワードを含む
複数の第1文章を生成する第1文章生成過程と、
前記生成した複数の第1文章をそれぞれ提示する第1文章候補提示過程と、
ユーザによる前記第1文章の選択結果に基づいて、前記第1文章を含む第2文章を生成する第2文章生成過程と、
を有し、
前記第1文章生成過程において、前記ユーザが選択した一又は複数のキーワードを入力として、少なくともベースモデルとカスタマイズモデルとのいずれかに基づく学習モデルによる機械学習により、前記第1文章を生成する、
情報処理方法。
【請求項6】
情報処理装置のコンピュータに、
設定情報を取得する設定情報取得ステップと、
前記設定情報に基づいて、音声認識によるテキストデータからキーワードを抽出するキーワード抽出ステップと、
抽出された前記キーワードを含む
複数の第1文章を生成する第1文章生成ステップと、
前記生成した複数の第1文章をそれぞれ提示する第1文章候補提示ステップと、
ユーザによる前記第1文章の選択結果に基づいて、前記第1文章を含む第2文章を生成する第2文章生成ステップと、
を実行させ、
前記第1文章生成ステップにおいて、前記ユーザが選択した一又は複数のキーワードを入力として、少なくともベースモデルとカスタマイズモデルとのいずれかに基づく学習モデルによる機械学習により、前記第1文章を生成する、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
特許文献1には、音声データから単語の出現頻度、その単語の発話者の音量、発言数が多い発話者がその単語の発言頻度により重み付けすることでキーワードを抽出することが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の技術は、ユーザが所望するキーワードと異なるキーワードであった場合、音声データから再度キーワード抽出する必要があり、ユーザの利便性が十分でなかった。また、抽出したキーワードに基づいて議事録を生成する場合、話し言葉から書き言葉への変換などの議事録としての体裁を整えるなどの作業が必要であり、工数がかかるという課題があった。
このように、効率的に議事録を生成することができないという課題があった。
【0005】
本発明は、上記の点に鑑みてなされたものであり、音声認識により生成されたテキストデータから効率的に議事録を生成することができる情報処理システム、情報処理方法、およびプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、設定情報を取得する設定情報取得部と、前記設定情報に基づいて、音声認識によるテキストデータからキーワードを抽出するキーワード抽出部と、抽出された前記キーワードを含む第1文章を生成する第1文章生成部と、を備える情報処理システムである。
【0007】
また、本発明の一態様は、情報処理装置のコンピュータが、設定情報を取得する設定情報取得過程と、前記設定情報に基づいて、音声認識によるテキストデータからキーワードを抽出するキーワード抽出過程と、抽出された前記キーワードを含む第1文章を生成する第1文章生成過程と、を有する情報処理方法である。
【0008】
また、本発明の一態様は、情報処理装置のコンピュータに、設定情報を取得する設定情報取得ステップと、前記設定情報に基づいて、音声認識によるテキストデータからキーワードを抽出するキーワード抽出ステップと、抽出された前記キーワードを含む第1文章を生成する第1文章生成ステップと、を実行させるためのプログラムである。
【発明の効果】
【0009】
本発明によれば、音声認識により生成されたテキストデータから効率的に議事録を生成することができる。
【図面の簡単な説明】
【0010】
【
図1】本発明の第1の実施形態に係る情報処理システムの構成の一例を示すシステム構成図である。
【
図2】本発明の第1の実施形態に係る変換装置の構成の一例を示すブロック図である。
【
図3】本発明の第1の実施形態に係るキーワード抽出装置の構成の一例を示すブロック図である。
【
図4】本発明の第1の実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。
【
図5】本発明の第1の実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
【
図6】本発明の第1の実施形態に係る情報処理システムにおける情報処理の一例を示すフローチャートである。
【
図7】本発明の第1の実施形態に係る情報処理装置における表示画面の一例を示す図である。
【発明を実施するための形態】
【0011】
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
<情報処理システムの構成>
まず、情報処理システムの構成について説明する。
図1は、本発明の第1の実施形態に係る情報処理システムの構成の一例を示すシステム構成図である。
情報処理システムは、変換装置1と、キーワード抽出装置2と、情報処理装置3と、を含んで構成される。変換装置1と、キーワード抽出装置2と、情報処理装置3とは、ネットワークNWを介して通信可能に相互接続される。
【0012】
変換装置1は、音声データをテキストデータに変換する機能を有する。変換装置1は、音声データが入力されると、音声認識により音声データをテキストデータに変換する。ここで、当該音声認識には、発話者を識別する話者認識も含まれる。変換装置1は、変換したテキストデータを、ネットワークNWを介してキーワード抽出装置2に送信する。
【0013】
キーワード抽出装置2は、テキストデータからキーワードを抽出する機能を有する。キーワード抽出装置2は、変換装置1からテキストデータを受信すると、設定情報に基づいて当該テキストデータからキーワードを抽出する。設定情報は、発話者に対する重み付けに関する設定情報、単語の抽出に関連する辞書の設定情報、抽出するキーワード数に関する設定情報などである。詳細は後述する。キーワード抽出装置2は、抽出したキーワードをキーワード候補として、ネットワークNWを介して情報処理装置3に送信する。
【0014】
情報処理装置3は、キーワード候補の中から選択されたキーワードを含む一または複数の文章を生成する機能を有する。当該キーワードを含む一または複数の文章には、キーワード候補の中から選択された一または複数のキーワードのすべてが含まれる。ここで、以下の説明では、当該キーワードを含む複数の文章を第1文章の候補と称して説明する。また、以下の説明では、第1文章の候補から選択された1つの文章を第1文章と称して説明する。
【0015】
なお、第1文章が1つの文章のみである場合には、当該1つの文章が第1文書の候補であり、また第1文章でもある。
【0016】
第1文章候補および第1文章は、テキストデータの所定分量ごとに生成される。所定分量は、例えば、一文ごと、複数文ごと、音声データの所定時間分に対応するテキストデータごと、テキストデータの所定文字数ごと、話者の発言ごとなどである。
【0017】
なお、情報処理装置3は、キーワードが変更された場合あるいは第1文章が選択された場合には、新たなキーワードを含む第1文章の候補を生成する。ここで、第1文章は、第2文章、例えば議事録を生成するための雛型となる雛型文章である。当該雛型文章は、選択されたキーワードを入力すると機械学習によって生成される文章である。
【0018】
情報処理装置3は、選択されたキーワードごとの第1文章を含む第2文章を生成する。換言すれば、情報処理装置3は、複数の第1文章の組み合わせによって第2文章を生成する。当該第2文章は、ユーザによって編集可能である。
【0019】
このように、本実施形態に係る情報処理システムは、設定情報を取得する。情報処理システムは、設定情報に基づいて、音声認識によるテキストデータからキーワードを抽出する。情報処理システムは、抽出されたキーワードを含む第1文章を生成する。
【0020】
これにより、設定情報に応じたキーワードを抽出することができる。また、情報処理システムは、機械学習による学習結果と、抽出されたキーワードとに基づいて、雛形となる第1文章を生成することができるため、効率的に議事録を生成することができる。
【0021】
<変換装置1の構成>
次いで、変換装置1について説明する。
図2は、本発明の第1の実施形態に係る変換装置1の構成の一例を示すブロック図である。
変換装置1は、通信部11と、制御部12と、記憶部13と、を含んで構成される。
【0022】
<通信部11>
通信部11は、ネットワークを介して他の装置と通信する機能を有する。通信部11は、他の装置から受信したデータを制御部12に出力する。また、通信部11は、制御部12から入力されるデータを、他の装置に送信する。
<記憶部13>
記憶部13は、各種データ、アプリケーション、プログラムを記憶する機能を有する。
【0023】
<制御部12>
制御部12は、変換装置1を制御する機能を有する。制御部12は、記憶部13に記憶された各種データ、アプリケーション、プログラムなどを読み出して変換装置1を制御する。
【0024】
より詳細に制御部12の処理について説明する。
制御部12は、音声データ取得部121と、音声認識部122と、テキストデータ出力部123と、を含んで構成される。
【0025】
<音声データ取得部121>
音声データ取得部121は、音声データを取得する機能を有する。音声データ取得部121は、音声データを、入力部(非図示)を介して取得する。なお、音声データは、通信部11を介して他の装置から送信された音声データを受信することで取得してもよいし、予め記憶部13に記憶された音声データを読み出すことで取得してもよい。音声データ取得部121は、取得した音声データを音声認識部122に出力する。
【0026】
<音声認識部122>
音声認識部122は、音声データを音声認識よりテキストデータに変換する機能を有する。音声認識は、音声認識エンジンによって実行される。また、当該音声認識には、発話者を認識する話者認識が含まれる。音声認識部122は、変換した(生成した)テキストデータを、テキストデータ出力部123に出力する。
【0027】
<テキストデータ出力部123>
テキストデータ出力部123は、音声認識部122が生成したテキストデータを出力する機能を有する。テキストデータ出力部123は、テキストデータを、通信部11を介してキーワード抽出装置2に送信する。
【0028】
<キーワード抽出装置2>
次いで、キーワード抽出装置2について説明する。
図3は、本発明の第1の実施形態に係るキーワード抽出装置2の構成の一例を示すブロック図である。
キーワード抽出装置2は、通信部21と、制御部22と、記憶部23と、を含んで構成される。
【0029】
<通信部21>
通信部21は、ネットワークを介して他の装置と通信する機能を有する。通信部21は、他の装置から受信したデータを制御部22に出力する。また、通信部21は、制御部22から入力されるデータを、他の装置に送信する。
【0030】
<記憶部23>
記憶部23は、各種データ、アプリケーション、プログラムを記憶する機能を有する。
記憶部23は、設定情報記憶部231を含んで構成される。
【0031】
<設定情報記憶部231>
設定情報記憶部231は、設定情報を記憶する。設定情報は、キーワード数設定情報と、重み情報と、単語辞書と、辞書設定情報と、設定履歴情報と、キーワードを抽出する対象となるテキストデータの所定分量の情報と、が含まれる。所定分量の情報は、抽出対象のテキストデータの分量を定義する情報である、所定分量は、例えば、一文、複数文、音声データの所定時間分に対応するテキストデータ、テキストデータの所定文字数、話者の発言ごとなどである。
設定情報記憶部231は、キーワード数設定情報記憶部2311と、重み情報記憶部2312と、単語辞書記憶部2313と、辞書設定情報記憶部2314と、設定履歴情報記憶部2315と、を含んで構成される。
【0032】
<キーワード数設定情報記憶部2311>
キーワード数設定情報記憶部2311は、キーワード数設定情報を記憶する。キーワード数設定情報は、テキストデータから抽出するキーワード数を定義する設定情報である。キーワード数設定情報は、抽出するキーワード数に関する設定情報とも称する。
【0033】
<重み情報記憶部2312>
重み情報記憶部2312は、重み情報を記憶する。重み情報は、発話者ごとに重み付けするための重み情報である。重み情報は、発話者に対する重み付けに関する設定情報とも称する。
【0034】
<単語辞書記憶部2313>
単語辞書記憶部2313は、キーワードを抽出するための複数の辞書情報を記憶する。辞書情報は、例えば、汎用辞書、カスタマイズ辞書などが含まれる。カスタマイズ辞書は、顧客、業種、分野、ジャンル、テーマ、部署、トレンドなどの各種専用辞書が含まれる。
【0035】
<辞書設定情報記憶部2314>
辞書設定情報記憶部2314は、辞書設定情報を記憶する。辞書設定情報は、いずれの辞書情報を用いるかを設定するための情報である。辞書設定情報は、単語の抽出に関連する辞書の設定情報とも称する。
【0036】
<設定履歴情報記憶部2315>
設定履歴情報記憶部2315は、設定履歴情報を記憶する。設定履歴情報は、キーワード数設定情報、重み情報、辞書設定情報などの設定値の履歴情報である。
【0037】
<制御部22>
制御部22は、キーワード抽出装置2を制御する機能を有する。制御部22は、記憶部23に記憶された各種データ、アプリケーション、プログラムなどを読み出してキーワード抽出装置2を制御する。より詳細に制御部22の処理について説明する。
制御部22は、テキストデータ取得部221と、設定情報取得部222と、テキスト抽出部223と、キーワード抽出部224と、キーワード出力部225と、を含んで構成される。
【0038】
<テキストデータ取得部221>
テキストデータ取得部221は、テキストデータを、通信部21を介して変換装置1から取得する機能を有する。テキストデータ取得部221は、取得したテキストデータをテキスト抽出部223に出力する。
【0039】
<設定情報取得部222>
設定情報取得部222は、記憶部23から設定情報を取得する機能を有する。設定情報取得部222は、設定情報を記憶部23から読み出す。設定情報取得部222は、読み出した設定情報をテキスト抽出部223、およびキーワード抽出部224に出力する。
【0040】
<テキスト抽出部223>
テキスト抽出部223は、テキストデータ取得部221が取得したテキストデータから所定分量ごとのテキストを抽出する機能を有する。テキスト抽出部223は、抽出した所定分量ごとのテキストに対応するテキストデータをキーワード抽出部224に出力する。また、テキスト抽出部223は、抽出した所定分量ごとのテキストに対応するテキストデータに含まれる発話者に応じた重みを、重み情報を参照して付加する。発話者に応じた重みは、例えば、発話者の発話時間、発話者の発話量に応じて、発話者が発話した発言に対するキーワードに対して付加される。発話時間は、テキストデータに対応する音声データにおける発話者の発話時間である。発話量は、発話者の発言に対応するテキストの文字数である。テキスト抽出部223は、重み情報を参照して発話時間または発話量の多い発話者に対する重みを、発話時間または発話量が少ない発話者に対する重みよりも重く設定する。
【0041】
なお、発話時間または発話量が少ない発話者に対する重みを、発話時間または発話量が多い発話者に対する重みよりも重くしてもよい。このようにすることで、発言数が多い発話者の発言に対する比重を大きくすることができるため、発話者の発言数を考慮した議事録を生成するためのキーワードを抽出することができる。
【0042】
<キーワード抽出部224>
キーワード抽出部224は、テキスト抽出部223から入力されたテキストデータから設定情報に基づいてキーワードを抽出する機能を有する。キーワード抽出部224は、テキストデータごとに設定情報で示されるキーワード数のキーワードを抽出する。当該抽出されるキーワードは、発話者ごとの重みが付加され、また、辞書情報を参照して抽出される。例えば、テキストデータから抽出されたキーワードは、設定情報で示されるキーワード数のキーワードであって、抽出されたいずれのキーワードも設定された辞書情報に登録された単語であって、各キーワードには発話者ごとの重みの合計値が付加されている。
キーワード抽出部224は、抽出したキーワードをキーワード出力部225に出力する。
【0043】
ここで、キーワード抽出部224によるキーワードの抽出には、term frequency-inverse document frequency(TF-IDF)やPositionRank、bidirectional encoder representations from transformers (BERT)などを用いる。TF-IDFは、文章内における単語の出現回数や出現頻度などに比例して増加する値であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを示す統計量(数値)である。PositionRankは、単語ごと重要度を算出し、高い重要度の単語を使ってキーフレーズを抽出するアルゴリズムである。BERTは、自然言語処理の事前学習用ためのTransformerベースの機械学習手法である。すなわち、キーワード抽出部224は、TF-IDFやPositionRankなどの単語の出現回数、単語の出現頻度に基づくキーワード抽出手段やBERTなどの前後の文脈から算出される単語の重要度に基づくキーワード抽出手段などを用いて、テキスト抽出部223から入力されたテキストデータごとに設定情報で示されるキーワード数のキーワードを抽出する。
なお、キーワード抽出手段は、一例であり、MultipartiteRank、TopicRank、YAKE、SGRank、sCAKEなど、一般的なその他のキーワード抽出手段を用いてもよい。
【0044】
<キーワード出力部225>
キーワード出力部225は、キーワードを出力する機能を有する。キーワード出力部225は、キーワード抽出部224から入力されたキーワードを、通信部21を介して情報処理装置3に送信する。
【0045】
<情報処理装置3>
次いで、情報処理装置3について説明する。
図4は、本発明の第1の実施形態に係る情報処理装置3の機能構成の一例を示すブロック図である。
情報処理装置3は、通信部31と、制御部32と、記憶部33と、を含んで構成させる。制御部32は、キーワード取得部321と、キーワード候補提示部322と、第1文章生成部323と、第1文章候補提示部324と、第2文章生成部325と、出力部326と、学習部327と、を含んで構成される。
【0046】
<通信部31>
通信部31は、ネットワークを介して他の装置と通信する機能を有する。通信部31は、他の装置から受信したデータを制御部32に出力する。また、通信部31は、制御部32から入力されるデータを、他の装置に送信する。
<記憶部33>
記憶部33は、各種データ、アプリケーション、プログラムを記憶する機能を有する。
【0047】
<制御部32>
制御部32は、情報処理装置3を制御する機能を有する。制御部32は、記憶部33に記憶された各種データ、アプリケーション、プログラムなどを読み出して情報処理装置3を制御する。
【0048】
<キーワード取得部321>
キーワード取得部321は、キーワードを取得する機能を有する。キーワード取得部321は、通信部31を介してキーワード抽出装置2から受信したキーワードを取得する。キーワード取得部321は、取得したキーワードを、キーワード候補として記憶部33に記憶させる。また、キーワード取得部321は、取得したキーワードをキーワード候補としてキーワード候補提示部322に出力する。
【0049】
<キーワード候補提示部322>
キーワード候補提示部322は、キーワード候補を提示してキーワードを選択させる機能を有する。キーワード候補提示部322は、キーワード取得部321から入力された一又は複数のキーワード候補を、出力部326を介してユーザに提示する。キーワード取得部321は、キーワードが複数存在する場合、それぞれのキーワードに付加された評価値を参照して、評価値が高い順にキーワードを提示する。
【0050】
なお、キーワード取得部321は、キーワードが複数存在する場合、キーワード抽出装置2によるキーワード抽出時のキーワードの重要度、キーワードの出現頻度、キーワードの出現回数などにより、キーワードの重要度が高い順、キーワードの出現頻度が高い順、或いはキーワードの出現回数が多い順にキーワードごとの順位付けを行い、順位の高いキーワードから高い順に所定数のキーワードを提示してもよい。所定数は、予め定められたキーワード数であってもよいし、キーワード候補として提示可能な数であってもよいし、キーワード候補すべてであってもよい。
【0051】
キーワード候補提示部322は、キーワード候補の提示に基づいて、ユーザによるキーワードの選択操作を受け付ける。キーワード候補提示部322は、提示したキーワード候補に対してユーザが一または複数のキーワードを選択したことに基づいて、選択されたキーワード候補を選択キーワードとして第1文章生成部323に出力する。キーワード候補提示部322は、ユーザによって選択キーワードが変更されたことに基づいて、選択キーワードを第1文章生成部323に出力する。
【0052】
なお、キーワード候補提示部322は、キーワード候補の他に、ユーザが入力した任意キーワードをキーワード候補として提示してもよい。
このようにすることで、任意キーワードを含むキーワード候補の中から選択キーワードを選択、変更可能であるため、従来のような発話(テキストデータ)内に出現する単語に限られず、ユーザの意図に沿った表現を用いることができる。そのため、効率的に議事録を生成することができる。
【0053】
<第1文章生成部323>
第1文章生成部323は、入力された選択キーワードに基づいて、選択キーワードを含む第1文章を生成する機能を有する。第1文章生成部323は、キーワード候補提示部322から入力された選択キーワードに基づいて、当該選択キーワードを含む第1文章を生成する。選択キーワードを含む第1文章は、選択キーワードのすべてを含む文章である。第1文章生成部323は、同じ選択キーワードを用いた異なる第1文章を複数種類生成する。第1文章生成部323は、生成した第1文章を、第1文章候補として第1文章候補提示部324に出力する。
【0054】
ここで、第1文章の生成は、生成型のTransformerモデルを用いて選択キーワードを含む第1文章を生成する。生成型のTransformerモデルは、例えばGenerative Pretrained Transformer (GPT)である。GPTは、Transformerと呼ばれる深層学習を用いて文章を自動生成する自己回帰言語モデルである。GPTは、ある単語の次に続く単語を学習データでの出現確率分布に基づいて繰り返し予測することで第1文章を生成する。GPTは、キーワードを入力とし、出力を第1文章とする学習モデルを用いる。当該学習モデルは、ベースモデルと呼ばれる汎用型学習モデルおよび、ファインチューニングと呼ばれる専用学習モデル(カスタマイズモデルともいう)の一方または両方である。カスタマイズモデルは、顧客、業種、部署、分野、テーマなどに適した専用学習モデルである。
【0055】
このようにすることで、従来は入力とする音声認識によるテキストデータと、出力となる議事録とを組みとして、大量の組を用いて学習することが必要であったが、入力とするキーワードと、出力となる第1文章とを対として学習すればよいため、効率的に機械学習させることができる。また、大量の組を用いて学習する場合、機密情報を含む議事録などを用いることが困難であったが、キーワードと第1文章との対を学習すればよいため、専用学習モデルを用いて学習することができる。そのため、ユーザが所望する分野に適した第1文章を生成することができる。
【0056】
<第1文章候補提示部324>
第1文章候補提示部324は、第1文章候補を提示し、その結果として第1文章の選択操作を受け付ける機能を有する。第1文章候補提示部324は、第1文章生成部323から入力された第1文章候補を、出力部326を介してユーザに提示する。第1文章候補提示部324は、第1文章候補の中からユーザが第1文章を選択したことに基づいて、選択された第1文章を第2文章生成部325に出力する。また、第1文章候補提示部324は、選択された第1文章を、当該第1文章に含まれるキーワードと対応付けて記憶部33に記憶させる。
【0057】
<第2文章生成部325>
第2文章生成部325は、選択された第1文章によって、当該第1文章を含む第2文章を生成する機能を有する。第2文章は、所定分量のテキストデータごとに選択された第1文章を含み、第1文章群によって生成される文章である。第2文章生成部325は、第2文章を出力部326に出力する。
【0058】
<出力部326>
出力部326は、キーワード候補提示部322、第1文章候補提示部324、第2文章生成部325から出力される各種情報を出力する機能を有する。出力部326は、表示装置を備え、当該表示装置にキーワード候補、第1文章候補、第2文章などを表示させる。
【0059】
<学習部327>
学習部327は、第1文章を生成するための学習モデルを学習する機能を有する。学習部327が用いる学習モデルは、ベースモデルおよびカスタマイズモデルによって、予め学習されているものとする。学習モデルは、キーワードを入力とし、出力として第1文章を得る学習モデルである。学習部327は、記憶部33に記憶されたキーワードと、当該キーワードを含む第1文章とを読み出して強化学習する。
【0060】
<ハードウェア構成>
次いで、情報処理装置3のハードウェア構成について説明する。なお、変換装置1、キーワード抽出装置2のハードウェア構成については、説明を省略する。
図5は、本発明の第1の実施形態に係る情報処理装置3のハードウェア構成の一例を示すブロック図である。
情報処理装置3は、CPU301と、記憶媒体インタフェース部302と、記憶媒体303と、入力装置304と、出力装置305と、ROM306(Read Only Memory)と、RAM307(Random Access Memory)と、補助記憶部308と、ネットワークインタフェース部309と、を備える。CPU301と、記憶媒体インタフェース部302と、入力装置304と、出力装置305と、ROM306と、RAM307と、補助記憶部308と、ネットワークインタフェース部309とは、バスを介して相互に接続される。
なお、ここで言うCPU301は、プロセッサ一般のことを示すものであって、狭義のいわゆるCPUと呼ばれるデバイスのことだけではなく、例えばGPUやDSP等も含む。また、ここで言うCPU301は、一つのプロセッサで実現されることに限られず、同じ、または異なる種類の複数のプロセッサを組み合わせることで実現されてもよい。
【0061】
<CPU301>
CPU301は、補助記憶部308、ROM306およびRAM307が記憶するプログラムを読み出して実行し、また、補助記憶部308、ROM306およびRAM307が記憶する各種データを読み出し、補助記憶部308、RAM307に対して各種データを書き込むことにより、情報処理装置3を制御する。また、CPU301は、記憶媒体インタフェース部302を介して記憶媒体303が記憶する各種データを読み出し、また、記憶媒体303に各種データを書き込む。
<記憶媒体303>
記憶媒体303は、光磁気ディスク、フレキシブルディスク、フラッシュメモリなどの可搬記憶媒体であり、各種データを記憶する。
【0062】
<記憶媒体インタフェース部302>
記憶媒体インタフェース部302は、記憶媒体303の読み書きを行うインタフェースである。
【0063】
<入力装置304>
入力装置304は、マウス、キーボード、タッチパネル、音量調整ボタン、電源ボタン、設定ボタン、赤外線受信部などの入力装置である。
【0064】
<出力装置305>
出力装置305は、表示部、スピーカなどの出力装置である。
【0065】
<ROM306、RAM307>
ROM306、RAM307は、情報処理装置3の各機能部を動作させるためのプログラムや各種データを記憶する。
【0066】
<補助記憶部308>
補助記憶部308は、ハードディスクドライブ、フラッシュメモリなどであり、情報処理装置3の各機能部を動作させるためのプログラム、各種データを記憶する。
【0067】
<ネットワークインタフェース部309>
ネットワークインタフェース部309は、通信インタフェースを有し、無線通信によりネットワークNWに接続される。
【0068】
例えば、情報処理装置3の機能構成における制御部32は、CPU301に対応し、記憶部33は、ROM306、またはRAM307、または補助記憶部308、またはそれらの何れかの組み合わせに対応し、出力部326は、出力装置305に対応し、通信部31は、ネットワークインタフェース部309に対応する。
【0069】
<フローチャート>
次いで、情報処理システムによる情報処理の一例について説明する。
図6は、本発明の第1の実施形態に係る情報処理システムにおける情報処理の一例を示すフローチャートである。
ステップS100において、変換装置1は、音声認識により音声データをテキストデータに変換する。また、変換装置1は、話者認識により、音声データ中の発言ごとの発話者を識別する。変換装置1は、テキストデータをキーワード抽出装置2に送信する。
ステップS102において、キーワード抽出装置2は、記憶部23に記憶された設定情報を取得する。
ステップS104において、キーワード抽出装置2は、設定情報に含まれる重み情報を参照して発話者ごとの発言に重み付けする。
ステップS106において、キーワード抽出装置2は、設定情報に基づいてテキストデータからキーワードを抽出する。具体的には、キーワード抽出装置2は、設定情報に含まれるキーワード数設定情報で定義されるキーワード数のキーワードを抽出する。キーワード抽出装置2は、抽出したキーワードを情報処理装置3に送信する。
【0070】
ステップS107において、情報処理装置3は、キーワード抽出装置2が抽出したキーワードをキーワード候補として取得する。
ステップS108において、情報処理装置3は、キーワード候補を、出力部326を介してユーザに提示する。
【0071】
ステップS109において、情報処理装置3は、提示したキーワード候補の中からユーザ操作によるキーワードの選択を受け付ける。
ステップS110において、情報処理装置3は、ユーザによるキーワード選択操作が完了したか否かを判定する。キーワードの選択操作が完了している場合(ステップS110:YES)、情報処理装置3は、ステップS112の処理を実行する。一方、キーワードの選択操作が完了していない場合(ステップS110:NO)、情報処理装置3は、ステップS108の処理を実行する。ここで、選択操作が完了しているか否かは、ユーザ操作による操作信号が入力されなくなってから所定時間の経過によって判定してもよいし、キーワード選択以降の処理が実行されていることに基づいて判定されてもよい。
【0072】
ステップS112において、情報処理装置3は、選択されたキーワードのすべてを含む第1文章を、複数種類生成する。
ステップS114において、情報処理装置3は、生成した複数種類の第1文章を第1文章候補として、出力部326を介してユーザに提示する。
ステップS116において、情報処理装置3は、第1文章候補の中から選択された第1文章によって第2文章を生成する。そして、情報処理装置3は、次の所定分量のテキストデータに対するキーワード候補に対してステップS104からステップS116までの処理を繰り返し実行する。情報処理装置3は、テキストデータに対する最後の第1文章を含む第2文章を生成すると
図6に係る処理を終了する。
【0073】
なお、ステップS109において、情報処理装置3は、提示したキーワード候補の中からユーザ操作によるキーワードの選択に加えて、または代えて、ユーザ操作により任意キーワードを入力させ、当該任意キーワードを選択キーワードとして用いてもよい。
【0074】
<表示画面例>
次いで、表示画面例について説明する。
図7は、本発明の第1の実施形態に係る情報処理装置の出力部に表示される表示画面例である。
図示する表示画面例は、第1画面G1と第2画面G2との2画面による表示画面例である。
第1画面G1には、キーワード候補を表す見出し語KWC「キーワード候補」と表示される。図示する例は、所定分量のテキストデータから抽出されたキーワードを用いて第1文章を生成し、選択された第1文章によって第2文章の部分Bを生成している場合の一例である。
キーワード候補のそれぞれは、表示ウインドウw1に表示される。一例として、キーワードKW1「機械学習」、キーワードKW2「逼迫」がキーワード候補として表示される。なお、このときのキーワード候補は、キーワード抽出部224により、設定情報に基づく発話者に対する重み付けなどを実施した上で抽出されている。
【0075】
ここで、キーワード候補を増加させる場合、チェックボックスCB「キーワードを増やす」に対して「レ」をマークすることにより、表示ウインドウw1に表示されるキーワード候補を増加させることが可能である。図示する例では、チェックボックスCBに対する「レ」をマークしたことに基づいて、表示ウインドウw1にキーワードKW3「データ収集」がキーワード候補として追加表示された場合の一例を示している。
【0076】
また、第1画面G1には、キーワード候補の中から選択されたキーワードを表す見出し語KWS「選択キーワード」が表示される。選択キーワードは、表示ウインドウw1に表示される。例えば、キーワード候補の中からキーワードを選択するには、表示ウインドウw1に表示された各キーワードを、表示ウインドウw2にドラッグ&ドロップさせる。表示ウインドウw2に移動されたキーワードが選択された選択キーワードであることを表す。
図示する例では、キーワードKW1「機械学習」、キーワードKW2「逼迫」が選択キーワードとして選択された場合を示す。
【0077】
また、第1画面G1には、第1文章候補を表す見出し語SNC「第1文章候補」と表示される。第1文章候補のそれぞれは、アイテムSN1,SN2、SN3として表示される。
アイテムSN1には、第1文章候補として、「候補A」「機械学習を活用したPoCを実施。懸念事項として、データ収集の対応工数が逼迫しており・・・・」と、選択キーワードに基づいて生成された第1文章が表示される。
アイテムSN2には、第1文章候補として、「候補B」「社員の業務が逼迫しているため、機械学習を活用したアプリケーションを導入することで効率化を・・・」と、選択キーワードに基づいて生成された別の第1文章が表示される。
ここで、「候補A」「候補B」とは、上述したように同じキーワードによって生成される異なる第1文章である。
【0078】
第2画面G2には、選択された第1文章を表す見出し語SNS「選択第1文章」と表示される。
第1文章候補の中から第1文章を選択するには、第1文章候補のそれぞれを表すアイテムSN1,SN2、SN3などを領域SNにドラッグ&ドロップさせる。
一例として、領域SNには、選択された第1文章として「候補A」「機械学習を活用したPoCを実施。懸念事項として、データ収集の対応工数が逼迫しており・・・・」が表示される。
【0079】
また、第2画面G2には、第2文章を表す見出し語SND「第2文章」と表示される。
それぞれの第1文章によって生成される第2文章は、表示ウインドウw3に表示される。
図示する例では、選択された第1文章が表示ウインドウw3における部分B「機械学習を活用したPoCを実施。懸念事項として、データ収集の対応工数が逼迫しており・・・・」SS2に表示される。
【0080】
なお、部分A「・・・・」SS1には、テキストデータのうち、部分Bのキーワードに対応するテキストデータよりも前の部分の所定分量のテキストデータによって生成された第1文章が表示される。また、部分Cには、テキストデータのうちの次の部分の所定分量のテキストデータから抽出されるキーワードに基づく第1文章が表示される。
ここで、第2文章は、例えば、部分A、部分B、部分Cの各部分の第1文章の順番を入れ替えることが可能である。例えば、部分C、部分B、部分Aの順番に変更するなど、第2文章の編集が可能である。
【0081】
なお、ユーザ操作により任意キーワードを入力させ、当該任意キーワードを選択キーワードとして用いてもよい。この場合、情報処理装置3は、例えば、表示ウインドウw2に、キーワードKW1「機械学習」、キーワードKW2「逼迫」、に加えて、ユーザによって入力された任意キーワードを選択キーワードとして表示させ、任意キーワードを含むすべての選択キーワードを含む第1の文章を生成すればよい。
【0082】
なお、上述した実施形態では、変換装置1、キーワード抽出装置2、情報処理装置3のようにそれぞれの装置によって構成される一例について説明したが、これらの装置の一部またはすべてを組み合わせた装置によって本発明の一態様を実現してもよい。
【0083】
このように、本実施形態に係る情報処理装置3は、設定情報を取得する設定情報取得部222と、設定情報に基づいて、音声認識によるテキストデータからキーワードを抽出するキーワード抽出部224と、抽出された前記キーワードを含む第1文章を生成する第1文章生成部323と、を備える。
【0084】
これにより、設定情報を容易に変更可能であるため、抽出されるキーワードを容易に変更することができる。そのため、キーワードに基づいて生成される議事録を効率的に生成することができる。
【0085】
また、情報処理装置3は、生成した第1文章の候補を複数提示する第1文章候補提示部324と、ユーザによる第1文章の選択結果に基づいて、第1文章を含む第2文章を生成する第2文章生成部325と、をさらに備える。
【0086】
同じキーワードから生成される複数種類の第1文章の中からユーザが意図する文章を選択することができるため、効率的に第2文章を生成することができる。そのため、効率的に議事録を生成することができる。
【0087】
また、情報処理装置3は、テキストデータから抽出された一又は複数のキーワードを提示するキーワード候補提示部322、をさらに備え、第1文章生成部323は、ユーザが選択した一又は複数のキーワードのすべてを含む第1文章を一または複数生成する。
【0088】
このようにすることで、ユーザが意図するキーワードを用いた第1文章を生成することができるため、効率的に第2文章を生成することができる。また、テキストデータから抽出されるキーワードが口語体であっても、文語体のキーワードに変更することも可能であるため、効率的に第2文章を生成することができる。また、ユーザの利便性を向上させることができる。
【0089】
また、第1文章生成部323は、取得した前記一又は複数のキーワードを入力として、少なくとも汎用モデルとカスタマイズモデルとのいずれかに基づく学習モデルによる機械学習により、第1文章を生成する。
【0090】
これにより、キーワードと、キーワードを含む文章との組のみを学習すればよいため、学習効率を向上させることができる。
【0091】
また、音声認識は、発話者を認識する話者認識を含み、設定情報は、発話者に対する重み付けに関する設定情報、単語の抽出に関連する辞書の設定情報、抽出するキーワード数に関する設定情報である。
【0092】
これにより、議事録の生成に用いられるキーワードの抽出精度を向上させることができるため、ユーザの利便性を向上させることができる。
【0093】
また、発話者に対する重み付けに関する設定情報は、発話者の発話時間および発話量の少なくともいずれかに応じた重み付けの設定情報である。
【0094】
これにより、より重要なキーワードを抽出することができるため、精度の高い(品質の高い)議事録を生成することができる。
【0095】
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【0096】
なお、本発明の一態様における変換装置1、キーワード抽出装置2、情報処理装置3で動作するプログラムは、本発明の一態様に関わる上記の各実施形態や変形例で示した機能を実現するように、1つ、または複数の、CPU(Central Processing Unit)等のプロセッサを制御するプログラム(コンピュータを機能させるプログラム)であっても良い。そして、これらの各装置で取り扱われる情報は、その処理時に一時的にRAM(Random Access Memory)に蓄積され、その後、フラッシュメモリやHDD(Hard Disk Drive)等の各種ストレージに格納され、必要に応じてCPU等によって読み出し、修正・書き込みが行われても良い。
【0097】
なお、上述した各実施形態や変形例における変換装置1、キーワード抽出装置2、情報処理装置3の一部又は全部を1つ、または複数のプロセッサを備えたコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータが読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。
【0098】
なお、ここでいう「コンピュータシステム」とは、変換装置1、キーワード抽出装置2、情報処理装置3に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0099】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0100】
また、上述した各実施形態や変形例における変換装置1、キーワード抽出装置2、情報処理装置3の一部、又は全部を典型的には集積回路であるLSIとして実現してもよいし、チップセットとして実現してもよい。また、上述した各実施形態や変形例における変換装置1、キーワード抽出装置2、情報処理装置3の各機能ブロックは個別にチップ化してもよいし、一部、又は全部を集積してチップ化してもよい。また、集積回路化の手法は、LSIに限らず専用回路、および/または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いることも可能である。
【0101】
以上、この発明の一態様として各実施形態や変形例に関して図面を参照して詳述してきたが、具体的な構成は各実施形態や変形例に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明の一態様は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態や変形例に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。
【符号の説明】
【0102】
1 変換装置
11 通信部
12 制御部
121 音声データ取得部
122 音声認識部
123 テキストデータ出力部
13 記憶部
2 キーワード抽出装置
21 通信部
22 制御部
221 テキストデータ取得部
222 設定情報取得部
223 テキスト抽出部
224 キーワード抽出部
225 キーワード出力部
23 記憶部
231 設定情報記憶部
2311 キーワード数設定情報記憶部
2312 重み情報記憶部
2313 単語辞書記憶部
2314 辞書設定情報記憶部
2315 設定履歴情報記憶部
3 情報処理装置
31 通信部
32 制御部
321 キーワード取得部
322 キーワード候補提示部
323 第1文章生成部
324 第1文章候補提示部
325 第2文章生成部
326 出力部
327 学習部
33 記憶部
301 CPU
302 記憶媒体インタフェース部
303 記憶媒体
304 入力装置
305 出力装置
306 ROM
307 RAM
308 補助記憶部
309 ネットワークインタフェース部