(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-01-23
(45)【発行日】2023-01-31
(54)【発明の名称】情報処理システム、プログラム及び情報処理方法
(51)【国際特許分類】
G10L 15/00 20130101AFI20230124BHJP
G10L 15/22 20060101ALI20230124BHJP
G06F 3/16 20060101ALI20230124BHJP
【FI】
G10L15/00 200U
G10L15/22 460Z
G06F3/16 610
(21)【出願番号】P 2021198172
(22)【出願日】2021-12-07
【審査請求日】2022-11-17
(31)【優先権主張番号】P 2021161664
(32)【優先日】2021-09-30
(33)【優先権主張国・地域又は機関】JP
【新規性喪失の例外の表示】特許法第30条第2項適用 令和3年6月1日に、「スマート書記リニューアル版FAQ」をhttps://help.smartshoki.com/、「スマート書記リニューアル版のサービスのアップデートやお知らせ」をhttps://news.smartshoki.com/にて発表 [刊行物等] 令和3年6月15日に、エピックベース株式会社内において、スマート書記リニューアル版のアップデートを配布にて発表 [刊行物等] 令和3年9月15日に、エピックベース株式会社内において、スマート書記リニューアル版の試供品を配布にて発表 [刊行物等] 令和3年9月15日に、エピックベース株式会社出版がスマート書記リニューアル版にて発表
【早期審査対象出願】
(73)【特許権者】
【識別番号】521428930
【氏名又は名称】エピックベース株式会社
(74)【代理人】
【識別番号】100218970
【氏名又は名称】大杉 肇
(72)【発明者】
【氏名】松田 崇義
(72)【発明者】
【氏名】笹山 麻里
(72)【発明者】
【氏名】入日 司
【審査官】中村 天真
(56)【参考文献】
【文献】国際公開第2016/043110(WO,A1)
【文献】特開2018-092365(JP,A)
【文献】特開2021-067830(JP,A)
【文献】特開2017-174161(JP,A)
【文献】特開2015-015632(JP,A)
【文献】国際公開第2016/163028(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
情報処理システムであって、
制御部を備え、
前記制御部は、次の各ステップを実行するように構成され、
表示制御ステップでは、文書作成領域とスクリプト表示領域とを含む、会議の議事録を作成するための入力画面を表示させ、ここで
前記文書作成領域は、1人以上のユーザによって行われる会議中に前記ユーザによる非音声入力の結果を表示可能に構成され、
前記スクリプト表示領域は、前記会議の音声に基づいて生成された前記会議のスクリプトを表示可能に構成され、
特定ステップでは、前記文書作成領域に表示された前記非音声入力に対する選択を受け付けた場合、前記非音声入力が入力された時間に対応する前記スクリプトの一部を特定し、
転写ステップでは、前記スクリプト表示領域に表示された前記スクリプトに対する選択を受け付けた場合、前記文書作成領域内に、選択された部分を
特定項目の記載として転写する、情報処理システム。
【請求項2】
請求項1に記載の情報処理システムにおいて、
前記非音声入力は、前記ユーザによる文字入力である、情報処理システム。
【請求項3】
請求項1又は請求項2に記載の情報処理システムにおいて、
前記特定ステップでは、前記スクリプトが一定範囲として特定される、情報処理システム。
【請求項4】
請求項
1に記載の情報処理システムにおいて、
前記制御部は、録音ステップを更に実行するように構成され、
前記録音ステップでは、前記会議の音声を録音データとして録音し、
前記スクリプト表示領域は、前記録音データに基づいて生成されるスクリプトを表示可能に構成される、情報処理システム。
【請求項5】
請求項
1に記載の情報処理システムにおいて、
前記制御部は、再生ステップを更に実行するように構成され、
前記再生ステップでは、特定ステップにより特定された前記スクリプトの一定範囲に対応する録音データを再生可能に構成される、情報処理システム。
【請求項6】
情報処理システムであって、
制御部を備え、
前記制御部は、次の各ステップを実行するように構成され、
表示制御ステップでは、文書作成領域とスクリプト表示領域とを含む、会議の議事録を作成するための入力画面を表示させ、ここで
前記文書作成領域は、1人以上のユーザによって行われる会議中に前記ユーザによる非音声入力の結果を表示可能に構成され、前記非音声入力は、チャットを介して入力された入力であり、
前記スクリプト表示領域は、前記会議の音声に基づいて生成された前記会議のスクリプトを表示可能に構成され、
特定ステップでは、前記文書作成領域に表示された前記非音声入力に対する選択を受け付けた場合、前記非音声入力が入力された時間に対応する前記スクリプトの一部を特定し、
転写ステップでは、前記スクリプト表示領域に表示された前記スクリプトに対する選択を受け付けた場合、前記文書作成領域内に、選択された部分を転写する、情報処理システム。
【請求項7】
プログラムであって、
コンピュータを、請求項1から請求項
6までのいずれか1項に記載の情報処理システムの制御部として機能させるためのプログラム。
【請求項8】
コンピュータが処理する情報処理方法であって、
請求項1から請求項
6までのいずれか1項に記載の情報処理システムの各ステップを備える、情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、プログラム及び情報処理方法に関する。
【背景技術】
【0002】
従来、会議中に発せられた人の発話から音声認識をするシステムが知られている。そして、音声認識により、会議の議事録作成を支援するシステムも同様に知られている。
【0003】
特許文献1には、音声を認識して議事録作成を支援する先行技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に開示される技術を含め、発話音声を認識し文字に変換しても、議事から記録に残しておきたい部分をうまく抽出することができない。
【0006】
本発明では上記事情に鑑み、文字認識を行うとともに、議事において要約、重要部分等の抽出を容易に行うことができる情報処理装置等を提供することとした。
【課題を解決するための手段】
【0007】
本発明の一態様によれば、情報処理システムが提供される。この情報処理システムは、制御部を備える。制御部は、次の各ステップを実行するように構成される。表示制御ステップでは、文書作成領域とスクリプト表示領域とを含む、会議の議事録を作成するための入力画面を表示させる。文書作成領域は、1人以上のユーザによって行われる会議中にユーザによる非音声入力の結果を表示可能に構成される。スクリプト表示領域は、会議の音声に基づいて生成された会議のスクリプトを表示可能に構成される。特定ステップでは、文書作成領域に表示された非音声入力に対する選択を受け付けた場合、非音声入力が入力された時間に対応するスクリプトの一部を特定する。転写ステップでは、スクリプト表示領域に表示されたスクリプトに対する選択を受け付けた場合、文書作成領域内に、選択された部分を転写する。
【0008】
これによれば、文字認識を行うとともに、議事において要約、重要部分等の抽出を容易に行うことができる。
【図面の簡単な説明】
【0009】
【
図1】情報処理システム1を表す構成図の一例である。
【
図2】サーバ2のハードウェア構成を示すブロック図の一例である。
【
図3】ユーザ端末3のハードウェア構成を示すブロック図の一例である。
【
図4】サーバ2の制御部23によって実現される機能を示すブロック図の一例である。
【
図5】情報処理システム1によって実行される情報処理の概略を示すアクティビティ図の一例である。
【
図6】実施形態1における会議終了直後かつ音声認識前にユーザ端末3の表示部34に表示される議事録の一例である。
【
図7】実施形態1における音声認識後のユーザ端末3の表示部34に表示される議事録の一例である。
【
図8】実施形態1におけるスクリプトの特定時のユーザ端末3の表示部34に表示される議事録の一例である。
【
図9】実施形態1におけるスクリプトの転写時のユーザ端末3の表示部34に表示される議事録の一例である。
【
図10】実施形態2におけるユーザ端末3の表示部34に表示される議事録の一例である。
【発明を実施するための形態】
【0010】
[実施形態]
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
【0011】
ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体(Non-Transitory Computer-Readable Medium)として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。
【0012】
また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。
【0013】
また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
【0014】
[実施形態1]
1.ハードウェア構成
第1節では、実施形態1のハードウェア構成について説明する。
【0015】
1.1 情報処理システム1
図1は、情報処理システム1を表す構成図の一例である。情報処理システム1は、サーバ2と、ユーザ端末3(例えば、ユーザ端末3-1、ユーザ端末3-2、・・・、ユーザ端末3-n)と、集音装置4(例えば、マイク4-1、マイク4-2、・・・、マイク4-n)と、撮影装置5(例えば、カメラ5-1、カメラ5-2、・・・、カメラ5-n)と、を備え、これらがネットワークを通じて接続されている。これらの構成要素について更に説明する。ここで、情報処理システム1に例示されるシステムとは、1つ又はそれ以上の装置又は構成要素からなるものである。
【0016】
1.2 サーバ2
図2は、サーバ2のハードウェア構成を示すブロック図の一例である。サーバ2は、通信部21と、記憶部22と、制御部23とを有し、これらの構成要素がサーバ2の内部において通信バス20を介して電気的に接続されている。各構成要素について更に説明する。
【0017】
通信部21は、USB、IEEE1394、Thunderbolt、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、LTE/3G等のモバイル通信、Bluetooth(登録商標)通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。すなわち、サーバ2は、通信部21を介して、集音装置4及びユーザ端末3とネットワークを介して種々の情報を通信する。特に、サーバ2は、ユーザを含む音声データを集音装置4から受け付けるように構成される。これらの詳細は後述する。
【0018】
記憶部22は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部23によって実行されるサーバ2に係る種々のプログラム等を記憶するソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。また、これらの組合せであってもよい。特に、記憶部22は、音声データを録音データとして記憶する。記憶部22は、これ以外にも制御部23によって実行されるサーバ2に係る種々のプログラム等を記憶している。
【0019】
制御部23は、サーバ2に関連する全体動作の処理・制御を行う。制御部23は、例えば不図示の中央処理装置(Central Processing Unit:CPU)である。制御部23は、記憶部22に記憶された所定のプログラムを読み出すことによって、サーバ2に係る種々の機能を実現する。すなわち、記憶部22に記憶されているソフトウェアによる情報処理が、ハードウェアの一例である制御部23によって具体的に実現されることで、制御部23に含まれる各機能部として実行されうる。これらについては、次節において更に詳述する。なお、制御部23は単一であることに限定されず、機能ごとに複数の制御部23を有するように実施してもよい。またそれらの組合せであってもよい。
【0020】
1.3 ユーザ端末3
図3は、ユーザ端末3のハードウェア構成を示すブロック図の一例である。ユーザ端末3は、通信部31と、記憶部32と、制御部33と、表示部34と、入力部35とを有し、これらの構成要素がユーザ端末3の内部において通信バス30を介して電気的に接続されている。通信部31、記憶部32及び制御部33の説明は、サーバ2における通信部21、記憶部22及び制御部23と略同様のため省略する。
【0021】
表示部34は、例えば、ユーザ端末3の筐体に含まれてもよいし、外付けされてもよい。表示部34は、ユーザが操作可能なグラフィカルユーザインターフェース(Graphical User Interface:GUI)の画面を表示する。これは例えば、CRTディスプレイ、液晶ディスプレイ、有機ELディスプレイ及びプラズマディスプレイ等の表示デバイスを、ユーザ端末3の種類に応じて使い分けて実施することが好ましい。ここでは、表示部34は、ユーザ端末3の筐体に含まれるものとして説明する。
【0022】
入力部35は、ユーザ端末3の筐体に含まれてもよいし、外付けされてもよい。例えば、入力部35は、表示部34と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、QWERTYキーボード等を採用してもよい。すなわち、入力部35がユーザによってなされた操作入力を受け付ける。当該入力が命令信号として、通信バス30を介して制御部33に転送され、制御部33が必要に応じて所定の制御又は演算を実行しうる。
【0023】
1.4 集音装置4
集音装置4は、外界の音声を信号に変換可能に構成される、いわゆるマイクである。集音装置4は、集音装置4とサーバ2とを直接接続して設けられていてもよいが、たとえば、ユーザ端末3に備えられ又は接続される。
【0024】
集音装置4は、ユーザの発話を集音することで音声データを生成するように構成される。なお、音声データは、ユーザ端末3内のメモリ上に一時的に格納され、記憶部32に不揮発的に記憶されなくてもよい。集音装置4により生成された音声データは、ネットワークを介してサーバ2に転送可能に構成される。
【0025】
集音装置4は、特に限定されないが、少なくとも人の可聴領域の音声、20Hzから20,000Hzの間の周波数の音声を集音し電気的信号に変換する。音声はモノラルでもステレオ録音でもよい。音声データをデジタル処理する場合のサンプリングレートは、例えば、48000Hz、44100Hz、32000Hz、22050Hz、16000Hz、11025Hz、11000Hz、8000Hz等である。ここで例示した数値のいずれかの範囲内であってもよい。サンプリングレートを高くすることで、音声の時間的タイミングの離散化を精緻に行うことができ、音声認識の精度を向上させることができる。
【0026】
また、集音装置4により集音されたデータは、ユーザ端末3の制御部33により適宜圧縮処理がされてもよく、このときの圧縮フォーマットとは、MP3、AAC、WMA、Vorbis、AC3、MP2、FLAC、TAK等のいずれでもよい。圧縮により、ユーザ端末3からサーバ2へのデータ転送による通信トラフィックを低減することができる。
【0027】
1.5 撮影装置5
撮影装置5は、外界の情報を画像として取り出すことが可能に構成される、いわゆるカメラである。撮影装置5は、撮影装置5とサーバ2とを直接接続して設けられていてもよいが、たとえば、ユーザ端末3に備えられ又は接続される。
【0028】
撮影装置5は、細切れの画像を収集することで動画データを生成するように構成される。撮影装置5により生成された動画データは、ネットワークを介して、収集した動画データをサーバ2に転送可能に構成される。
【0029】
2.機能構成
本節では、実施形態1の機能構成について説明する。前述の通り、記憶部22に記憶されているソフトウェアによる情報処理がハードウェアの一例である制御部23によって具体的に実現されることで、制御部23に含まれる各機能部として実行されうる。
【0030】
図4は、サーバ2の制御部23によって実現される機能を示すブロック図の一例である。具体的には、情報処理システム1の一例であるサーバ2の制御部23は、受付部231と、表示制御部232と、出力部233と、時間記録部234と、録音部235と、音声認識部236と、特定部237と、転写部238と、再生部239と、を備える。
【0031】
受付部231は、ネットワークを介して、ユーザ端末3から送信される指示、音声データ、動画データ等のデータを受け付ける。なお、音声データは、サーバ2内のメモリ上に一時的に格納され、記憶部22には記録されない。
【0032】
表示制御部232は、ユーザ端末3の表示部34に表示する画面データを制御する。なお、画面データとは、画面、画像、アイコン、テキスト等といった、ユーザが視認可能な態様で生成された視覚情報そのものでもよいし、例えば各種端末に画面、画像、アイコン、テキスト等の視覚情報を表示させるためのレンダリング情報であってもよい。
【0033】
出力部233は、ネットワークを介して、ユーザ端末3へのデータの送信、議事録の記憶部22への保存等の出力に関する処理を行う。
【0034】
時間記録部234は、音声データの時間データと、スクリプトデータの時間データと、を紐付ける。なお、本実施形態において、時間データとは、会議の開始からカウントされる時間を表すデータである。他の実施形態において、時間データは、単に現在時刻を表すデータであってもよい。
【0035】
録音部235は、集音装置4を介して取得した音声データを録音データとして記憶部22に記憶させる。
【0036】
音声認識部236は、録音データを認識し、録音データをスクリプトデータに変換する。なお、スクリプトデータは、録音データを文字起こししたデータである。すなわち、スクリプトデータは、会議中の音声データを文字起こししたデータである。
【0037】
特定部237は、後述する文書作成領域、スクリプト表示領域内の情報の一部を特定する。
【0038】
転写部238は、後述する文書作成領域内の文書データをスクリプト表示領域に転写する。また、転写部238は、スクリプト表示領域内のスクリプトデータを文書作成領域に転写する。
【0039】
再生部239は、録音部235で録音した録音データを再生する。
【0040】
3.情報処理方法
3.1. 情報処理方法の概要
本節では、前述した情報処理システム1の情報処理方法の概要について説明する。
【0041】
図5は、情報処理システム1によって実行される情報処理の概略を示すアクティビティ図の一例である。
【0042】
まず、A1及びA5を参照しながら、会議前の処理について説明する。
A1において、ユーザ端末3の制御部33は、ユーザによる入力部35への操作を介して、ユーザID及びパスワードの入力並びに参加要求を受け付ける。制御部33は、参加要求を受け付けると、ユーザ端末3の通信部31及びネットワークを介して、ユーザID、パスワード及び参加要求をサーバ2に送信する。
【0043】
A2において、サーバ2の受付部231は、ネットワーク及びサーバ2の通信部21を介して、ユーザ端末3からユーザID、パスワード及び参加要求を取得する。受付部231は、ユーザID及びパスワードが記憶部22に保存されているアカウント情報と一致するか否かを判定し、一致していた場合は、ログイン認証を行う。ログイン認証ができたユーザは、会議の参加者として登録される。サーバ2の表示制御部232は、ログイン認証に成功し、そのユーザが会議に参加することができる旨が表示部34に表示されるよう画面データを制御する。その後、サーバ2の出力部233は、通信部21及びネットワークを介して、画面データをユーザ端末3に送信する。
【0044】
A3において、ユーザ端末3の制御部33は、ホストユーザによる入力部35の操作を介して、ホストユーザからの会議の開始要求を受け付ける。制御部33は、会議の開始要求を受け付けると、ホストユーザのユーザ端末3の通信部31及びネットワークを介して、会議の開始要求をサーバ2に送信する。
【0045】
A4において、サーバ2の受付部231は、ネットワーク及びサーバ2の通信部21を介して、ホストユーザのユーザ端末3から会議の開始要求を受け付ける。受付部231が会議の開始要求を受け付けると、オンライン会議を開始するための処理が行われる。具体的には、受付部231は、各ユーザ端末3から送信される音声データ、動画データ等のデータを受け付けられる状態にする。また、サーバ2の表示制御部232は、文書作成領域62とスクリプト表示領域63とを含む(文書作成領域62とスクリプト表示領域63については、後の
図6参照)、会議の議事録を作成するための入力画面が表示されるように画面データを制御することができる状態にする。ここで、文書作成領域62は、1人以上のユーザによって行われる会議中にユーザによる非音声入力の文書データを表示可能に構成される。また、スクリプト表示領域63は、会議の音声に基づいて生成された会議のスクリプトデータ635を表示可能に構成される(スクリプトデータ635については、後の
図7参照)。更に、サーバ2の出力部233は、画面データ、音声データ、動画データ等のデータを各ユーザ端末3に送信可能な状態にする。
【0046】
A5において、サーバ2の制御部23は、会議を開始する。具体的には、出力部233は、サーバ2の通信部21及びネットワークを介して、サーバ2の表示制御部232が制御した画面データについて、全てのユーザに送信を開始する。また、一のユーザの集音装置4又は撮影装置5が取得した音声データ又は動画データについて、他のユーザへの送信を開始する。
【0047】
次に、A6及びA7を参照しながら、会議中の処理について説明する。
A6において、各ユーザのユーザ端末3の制御部33は、会議中に、ユーザによる入力部35への操作を介して、議事録への文字入力を受け付ける。また、制御部33は、集音装置4を介して、各ユーザからの音声データを取得する。更に、制御部33は、撮影装置5を介して、動画データを取得する。制御部33は、通信部31及びネットワークを介して、サーバ2に文字入力のデータ、音声データ及び動画データを送信する。
【0048】
A7において、サーバ2の受付部231は、ネットワーク及びサーバ2の通信部21を介して、各ユーザ端末3から文字入力のデータ、音声データ及び動画データを受け付ける。サーバ2の時間記録部234及び表示制御部232は、後述する文書入力領域622及びタイムスタンプ表示領域623において、この文字入力のデータについて、適宜処理する。また、サーバ2の録音部235は、取得した音声データを録音データとして記憶部22に記憶させる。更に、サーバ2の出力部233は、通信部21及びネットワークを介して、表示制御部232が制御した画面データを全てのユーザへ送信してもよいし、一のユーザの集音装置4又は撮影装置5が取得した音声データ又は動画データを他のユーザへ送信してもよい。
【0049】
最後に、A8乃至A15を参照しながら、会議後の処理について説明する。
A8において、ユーザ端末3の制御部33は、入力部35を介して、ユーザからの音声認識要求を受け付ける。制御部33は、音声認識要求を受け付けると、ユーザ端末3の通信部31及びネットワークを介して、音声認識要求をサーバ2に送信する。
【0050】
A9において、サーバ2の受付部231は、ネットワーク及びサーバ2の通信部21を介して、音声認識要求を取得する。音声認識要求を受けたサーバ2の音声認識部236は、会議中の録音データを認識する。
【0051】
A10において、サーバ2の音声認識部236は、認識した録音データを基に、スクリプトデータ635を出力する。表示制御部232は、出力したスクリプトデータ635を表示部34に表示されるように画面データを制御する。出力部233は、サーバ2の通信部21及びネットワークを介して、画面データをユーザ端末3に送信する。A9及びA10については、
図6及び
図7を用いて説明する。
【0052】
A11において、ユーザ端末3の制御部33は、ネットワーク及びユーザ端末3の通信部31を介して、画面データを受信する。制御部33は、表示部34に画面データを表示させる。
【0053】
A12において、ユーザ端末3の制御部33は、ユーザによる入力部35の操作を介して、文字入力又は領域操作を受け付ける。制御部33は、文字入力又は領域操作を受け付けた場合、通信部31及びネットワークを介して、文字入力又は領域操作に関する情報をサーバ2に送信する。
【0054】
A13において、サーバ2の受付部231は、ネットワーク及びサーバ2の通信部21を介して、文字入力又は領域操作に関する情報を受け付ける。A13については、
図8及び
図9を用いて説明する。
【0055】
A14において、ユーザ端末3の制御部33は、通信部31及びネットワークを介して、保存指示をサーバ2に送信する。
【0056】
A15において、サーバ2の制御部23は、ネットワーク及びサーバ2の通信部21を介して、議事録を記憶部22に記憶させる。
A15の詳細については、
図6の保存ボタン602及び完成ボタン603に関する処理を参照されたい。
【0057】
3.2. 情報処理の詳細
本節では、前述した情報処理システム1の情報処理方法の詳細について説明する。
また、本設では、ユーザ端末3からサーバ2への指示等のデータの受付の処理、サーバ2からユーザ端末3への画面データ等のデータの送信及びサーバ2とユーザ端末3と間の通信に関する処理については、特に必要がない限り省略する。
【0058】
図6は、実施形態1における会議終了直後かつ音声認識前にユーザ端末3の表示部34に表示される議事録の一例である。
画面には、議事録領域6が表示されている。議事録領域6には、議題領域601と、保存ボタン602と、完成ボタン603と、レイアウトボタン604と、議事概要表示領域61と、文書作成領域62と、スクリプト表示領域63と、再生領域64が含まれる。議題領域601は、「営業本部定例会議」等の会議の議題が表示される領域である。
【0059】
保存ボタン602は、議事録を一時保存するためのボタンである。
すなわち、サーバ2の受付部231は、保存ボタン602の選択を受け付ける。保存ボタン602の選択を受け付けると、サーバ2の出力部233は、現在の議事録を記憶部22に記憶させる。
これにより、作成途中の議事録を一時的に保存することができる。
【0060】
完成ボタン603は、議事録を完成版にするためのボタンである。
すなわち、受付部231は、完成ボタン603の選択を受け付ける。完成ボタン603が操作された場合、サーバ2の出力部233は、現在の議事録を指定の保存先に、PDF等の任意の拡張子に変換して、記憶部22に記憶させる。その後、出力部233は、通信部21及びネットワークを介して、参加者、欠席者等の会議の関連メンバーのユーザ端末3に議事録を送信する。
これにより、完成した議事録について、任意の保存先に保存したり、任意の形式にしたり、任意のメンバーに共有したりすることができる。
【0061】
レイアウトボタン604は、議事録領域6のレイアウトを変更するためのボタンである。
すなわち、受付部231は、レイアウトボタン604の操作を受け付ける。レイアウトボタン604の操作がされた場合、表示制御部232は、ユーザ端末3の表示部34に表示するための議事録領域6のレイアウトを変更するように画面データを制御する。
これにより、議事録のレイアウトを自由に変更することができる。
【0062】
議事概要表示領域61は、議事の概要が表示される領域である。議事の概要には、「2022/4/23 10:00-11:00」等の会議が行われた日時、「https://meeting・・・」等の会議で使われた資料の格納先のURL、出席者、欠席者、議事録の作成者等のデータが含まれる。
すなわち、受付部231は、議事概要表示領域61への入力を受け付ける。議事概要表示領域61への入力がされた場合、表示制御部232は、議事概要表示領域61の記載を変更するように画面データを制御する。
これにより、議事録の概要を任意に編集することができる。
【0063】
また、文書作成領域62には、文書作成補助領域621、文書入力領域622、タイムスタンプ表示領域623、特定ボタン624等が含まれる。文書作成補助領域621は、「アジェンダ」等の文書作成領域62に表示されているデータが一言で表示可能に構成される。
【0064】
文書入力領域622は、1人以上のユーザによって行われる会議前、会議中及び会議後にユーザによる文字入力の結果が表示可能に構成される。ここで、文字入力は、非音声入力の一例である。
すなわち、受付部231は、文書入力領域622への文字入力を受け付ける。文書入力領域622への文字入力を受け付けた場合、表示制御部232は、ユーザ端末3に文字入力を文書データとして表示させるように画面データを制御する。
これにより、議事録を任意に編集することができる。
【0065】
タイムスタンプ表示領域623は、文書入力領域622に文字入力されたときの会議の経過時間に関する時間データを表示可能に構成される。
すなわち、受付部231は、文書入力領域622への文字入力を受け付ける。時間記録部234は、文書入力領域622に文字入力がされた時間について、タイムスタンプ表示領域623に時間データを記録する。その後、表示制御部232は、ユーザ端末3に表示させるための画面データを制御する。例えば、受付部231は、会議の開始から1分16秒が経過していたときに、文書入力領域622に文字入力を受け付けたとする。この場合、時間記録部234は、文字入力がされた箇所の横かつタイムスタンプ表示領域623内の箇所に「1:16」と時間データを記録する。
これにより、議事録への文字入力がされたときの時間を記録することができる。
【0066】
特定ボタン624は、文書入力領域622に入力された文書の一部を決定事項、ToDo事項、等の特定事項に反映させるためのボタンである。
すなわち、受付部231は、カーソルによるドラッグ等により文書入力領域622内の文書データの選択を受け付ける。特定部237は、選択された文書データを特定する。更に、受付部231は、特定ボタン624の選択を受け付ける。これらを受け付けた場合、表示制御部232は、特定された文書データが決定事項、ToDo事項等の特定事項を認識することができるようにユーザ端末3に表示させるための画面データを制御する。
これにより、任意の文書データを特定事項とすることができる。
【0067】
更に、スクリプト表示領域63には、スクリプト表示補助領域631と、スクリプト領域632と、検索領域633と、特定ボタン634と、が含まれる。スクリプト表示補助領域631は、「文字起こし」等のスクリプト領域632に表示されているデータが一言で表示可能に構成される。スクリプト領域632は、会議の音声に基づいて生成された会議のスクリプトデータ635を表示可能に構成される。なお、文書入力領域622及びスクリプト領域632の少なくとも一方は、ポップアップして表示されてもよい。
スクリプト領域632で行われる処理については、
図7を用いて詳述する。
【0068】
検索領域633は、スクリプト領域632内の任意のキーワードを検索するための領域である。
すなわち、受付部231は、検索領域633へのキーワードの入力を受け付ける。出力部233は、該当するキーワードが存在するか否かを判断する。該当するキーワードが存在する場合、表示制御部232は、スクリプト領域632内の該当のキーワードをハイライトして表示する。
これにより、スクリプト内の任意のデータを簡便に発見することができる。
【0069】
特定ボタン634は、スクリプト領域632に入力された文書の一部を決定事項、ToDo事項等に反映させるためのボタンである。特定ボタン634に関する処理については、
図9を用いて詳述する。
【0070】
再生領域64には、再生、停止等の録音データを再生するためのオブジェクトが表示されている。
【0071】
図7は、実施形態1における音声認識後のユーザ端末3の表示部34に表示される議事録の一例である。
図6と比較して、文字起こしが終了しスクリプトデータ635が生成されている点で異なる。スクリプトデータ635は、録音データを文字起こししたデータである。
【0072】
すなわち、会議中において、受付部231は、会議の音声データを受け付ける。録音部235は、会議の音声データを録音データとして記憶部22に記憶させる(録音する)。会議後において、サーバ2の受付部231は、ネットワーク及びサーバ2の通信部21を介して、音声認識要求を取得する。音声認識要求を受けたサーバ2の音声認識部236は、会議中の録音データを認識する。音声認識部236は、認識した録音データを基に、スクリプト領域632にスクリプトデータ635を出力する。表示制御部232は、出力したスクリプトデータ635を表示するようにスクリプト領域632を制御する。すなわち、スクリプト領域632は、録音データに基づいて生成されるスクリプトデータ635を表示可能に構成される。
これにより、録音データをスクリプトデータとして取り出すことができる。
【0073】
図8は、実施形態1におけるスクリプトデータ635の特定時のユーザ端末3の表示部34に表示される議事録の一例である。
図7と比較して、時間ハイライト領域625及びスクリプトハイライト領域636が表示されている点で異なる。時間ハイライト領域625は、タイムスタンプ表示領域623内のデータが選択されることにより表示される。例えば、時間ハイライト領域625は、「11:32」が選択されることにより、当該箇所の色が変わって表示される。スクリプトハイライト領域636は、タイムスタンプ表示領域623内のデータが選択されることにより表示される。例えば、スクリプトハイライト領域636は、「11:32」が選択されることにより、当該時間に該当するスクリプトの色が変わって表示される。なお、再生領域64のシークバーは、タイムスタンプ表示領域623内のデータの選択に合わせて、議題の開始時間である「11:32」に移動するように構成されることができる。
【0074】
すなわち、受付部231は、文書入力領域622又はタイムスタンプ表示領域623に表示された情報の選択を受け付ける。特定部237は、文書入力領域622又はタイムスタンプ表示領域623に表示された文書データ又は時間データに対する選択を受け付けた場合、文書データ又は時間データが入力された時間に対応するスクリプト領域632内のスクリプトデータ635を特定する。ここで、文書データ又は時間データは、非音声入力の一例である。また、スクリプトデータ635は一定範囲として特定される。表示制御部232は、選択された文書入力領域622内の文書データ又はタイムスタンプ表示領域623内の時間データ及びそれに対応するスクリプトデータ635をハイライトして表示するように画面データを制御する。
これにより、文書データ又はタイムスタンプ表示領域に対応するスクリプトデータを容易に参照することができる。
【0075】
更に、本実施形態において、録音データを再生するように構成することができる。このとき、議事録領域6には、録音データを再生するためのオブジェクトを設けてもよい。
すなわち、受付部231は、文書入力領域622又はタイムスタンプ表示領域623に表示された情報の選択を受け付ける。文書データ又は時間データに対する選択を受け付けた場合、特定部237は、文書データ又は時間データが入力された時間に対応するスクリプト領域632内のスクリプトデータ635を特定する。次に、受付部231は、再生するためのオブジェクトの操作を受け付ける。再生するためのオブジェクトの操作を受け付けることにより、再生部239は、特定部237により特定されたスクリプトデータ635の一定範囲に対応する録音データを再生する。
これにより、特定したスクリプトデータに対応する会議の録音データを再生することができる。
【0076】
図9は、実施形態1におけるスクリプトデータ635の転写時のユーザ端末3の表示部34に表示される議事録の一例である。
図7と比較して、文書ハイライト領域626及びスクリプトハイライト領域637が表示されている点で異なる。スクリプトハイライト領域637は、スクリプトデータ635内のデータをカーソルでドラッグ等することで表示される。例えば、スクリプトハイライト領域637は、「出席者に新企画のフィードバックをお願い」の部分をカーソルでドラッグすることにより、当該箇所の色が変わって表示される。また、文書ハイライト領域626は、スクリプトハイライト領域637を表示した状態で、特定ボタン634を操作することにより表示される。例えば、文書ハイライト領域626は、「出席者に新企画のフィードバックをお願い」をハイライトした状態で、特定ボタン634を操作することにより、決定事項、ToDo事項等の特定事項として転記される。なお、再生領域64のシークバーは、スクリプトデータ635の選択に合わせて、議題の開始時間である「11:32」に移動するように構成されることができる。
【0077】
受付部231は、スクリプト表示領域63のスクリプトの選択を受け付ける。転写部238は、スクリプト表示領域63に表示されたスクリプトに対する選択を受け付けた場合、文書作成領域62内に、選択された部分を転写する。このとき、決定事項、ToDo事項等の特定項目として転写することができる。すなわち、転写部238は、スクリプト表示領域63に表示されたスクリプトの少なくとも一部を、決定事項、ToDo事項等の特定項目の記載として転写する。表示制御部232は、転写したデータを表示するように画面データを制御する。
これにより、文字起こししたスクリプトデータについて、容易に決定事項等の特定事項とすることができる。
【0078】
[実施形態2]
実施形態1では、作成者が議事録の作成を行う例について説明した。実施形態2は、チャット形式で議事録が作成される例について説明する。
ハードウェア構成及び機能構成については、実施形態1と同様のため、省略する。また、本チャットは、既存のチャットサービスやチャットアプリと連携することで実現してもよい。
【0079】
図10は、実施形態2におけるユーザ端末3の表示部34に表示される議事録の一例である。
図10には、議事録領域7が表示されている。議事録領域7には、議題まとめ領域71と、要点まとめ領域72と、が含まれる。また、議事録領域7には、議事録のタイトルと、議事録の概要と、会議の決定事項と、会議のToDo事項と、が含まれてもよい。議題まとめ領域71には、議題情報領域711と、再生領域712と、が、含まれる。
【0080】
議題情報領域711には、投稿件数と、決定事項の件数と、ToDo事項件数と、議題に要した時間と、が議題毎に表示されている。また、再生領域712には、再生、停止等の録音データを再生するためのオブジェクトが表示されている。
すなわち、受付部231は、議題情報領域711の操作を受け付ける。議題情報領域711への操作がされた場合、特定部237は、議題に対応する録音データを特定する。更に、受付部231は、再生領域712の操作を受け付ける。再生領域712の操作を受け付けた場合、再生部239は、選択された議題情報領域711に対応する録音データを再生する。
これにより、特定した議題に対応する会議の録音データを再生することができる。
【0081】
要点まとめ領域72には、重要データ領域721と、見出しデータ領域722と、が含まれる。
重要データ領域721は、1人以上のユーザによって行われる会議中にユーザによるチャットを介して入力された入力の結果を表示可能に構成される。見出しデータ領域722は、会議の音声に基づいて音声認識部236が生成した会議の各議題に対応するスクリプトデータの一部を表示可能に構成される。ここで、重要データ領域721及び見出しデータ領域722は、文書作成領域及びスクリプト表示領域の一例である。また、ここで、チャットを介して入力された入力は、非音声入力の一例である。
【0082】
見出しデータ領域722は、選択されることにより、各議題に対応するスクリプト情報の全部を表示してもよい。
すなわち、受付部231は、見出しデータ領域722内の任意の議題の選択を受け付ける。議題の選択を受け付けた場合、表示制御部232は、その議題に対応するスクリプトデータの全部を表示するように画面データを制御する。
これにより、スクリプトデータの参照がスムーズに行うことができる。
【0083】
また、実施形態1と同様に、特定と転写を実行してもよい。
具体的には、表示制御部232は、重要データ領域721と見出しデータ領域722とを含む、会議の議事録を作成するための入力画面を表示ように画面データを制御する。特定部237は、重要データ領域721に対する選択を受け付けた場合、重要データ領域721が入力された時間に対応する見出しデータ領域722を特定しスクリプトデータを展開する。転写部238は、展開されたスクリプトデータに対する選択を受け付けた場合、重要データ領域721に、選択された部分を転写する。
これにより、文字起こししたスクリプトデータについて、容易に決定事項等の特定事項とすることができる。
【0084】
このような実施形態によれば、より効率的に議事録を作成することができる。すなわち、文字認識を行うとともに、議事において要約、重要部分等の抽出を容易に行うことができる。
【0085】
[その他]
本実施形態に係る情報処理システム1に関して、以下のような態様を採用してもよい。
【0086】
集音装置4は、ユーザ端末3を介することなく、サーバ2における通信部21とネットワークを介して直接接続され、集音した音声データをサーバ2に転送可能に構成されてもよい。この場合は、どの集音装置4から集音された音声データがどのユーザに紐づくかの記録がなされることが好ましい。音声データを複数のユーザと紐づけることもできるが、1ユーザに1つの集音装置4であれば、音声データがどのユーザの発言かを記録することが可能である。撮影装置5についても同様である。
【0087】
更に、次に記載の各態様で提供されてもよい。
前記情報処理システムにおいて、前記非音声入力は、前記ユーザによる文字入力である、情報処理システム。
前記情報処理システムにおいて、前記特定ステップでは、前記スクリプトが一定範囲として特定される、情報処理システム。
前記情報処理システムにおいて、前記転写ステップでは、前記スクリプト表示領域に表示された前記スクリプトの少なくとも一部を、特定項目の記載として転写する、情報処理システム。
前記情報処理システムにおいて、前記制御部は、録音ステップを更に実行するように構成され、前記録音ステップでは、前記会議の音声を録音データとして録音し、前記スクリプト表示領域は、前記録音データに基づいて生成されるスクリプトを表示可能に構成される、情報処理システム。
前記情報処理システムにおいて、前記制御部は、再生ステップを更に実行するように構成され、前記再生ステップでは、特定ステップにより特定された前記スクリプトの一定範囲に対応する録音データを再生可能に構成される、情報処理システム。
前記情報処理システムにおいて、前記非音声入力は、チャットを介して入力された入力である、情報処理システム。
プログラムであって、コンピュータを、前記情報処理システムの制御部として機能させるためのプログラム。
コンピュータが処理する情報処理方法であって、前記情報処理システムの各ステップを備える、情報処理方法。
もちろん、この限りではない。
【0088】
最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態及びその変形は、発明の範囲及び要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0089】
1 :情報処理システム
2 :サーバ
3 :ユーザ端末
3-1 :ユーザ端末
3-2 :ユーザ端末
3-n :ユーザ端末
4 :集音装置
4-1 :マイク
4-2 :マイク
4-n :マイク
5 :撮影装置
5-1 :カメラ
5-2 :カメラ
5-n :カメラ
6 :議事録領域
7 :議事録領域
20 :通信バス
21 :通信部
22 :記憶部
23 :制御部
30 :通信バス
31 :通信部
32 :記憶部
33 :制御部
34 :表示部
35 :入力部
61 :議事概要表示領域
62 :文書作成領域
63 :スクリプト表示領域
71 :領域
72 :領域
231 :受付部
232 :表示制御部
233 :出力部
234 :時間記録部
235 :録音部
236 :音声認識部
237 :特定部
238 :転写部
239 :再生部
601 :議題領域
602 :保存ボタン
603 :完成ボタン
604 :レイアウトボタン
621 :文書作成補助領域
622 :文書入力領域
623 :タイムスタンプ表示領域
624 :特定ボタン
625 :時間ハイライト領域
626 :文書ハイライト領域
631 :スクリプト表示補助領域
632 :スクリプト領域
633 :検索領域
634 :特定ボタン
635 :スクリプトデータ
636 :スクリプトハイライト領域
637 :スクリプトハイライト領域
711 :議題情報領域
712 :再生領域
721 :重要データ領域
722 :見出しデータ領域
【要約】 (修正有)
【課題】音声認識を行うとともに議事の要約や重要部分等の抽出を容易に行う情報処理システム、方法及びプログラムを提供する。
【解決手段】サーバと複数のユーザ端末とが、ネットワークを通じて接続する情報処理システムにおいて、サーバの制御部は、文書作成領域とスクリプト表示領域とを含む会議の議事録を作成するための入力画面を表示させる表示制御部を有する。文書作成領域は、1人以上のユーザによって行われる会議中にユーザによる非音声入力の結果を表示する。スクリプト表示領域は、会議の音声に基づいて生成された会議のスクリプトを表示する。制御部は、文書作成領域に表示された非音声入力に対する選択を受け付けた場合、非音声入力が入力された時間に対応するスクリプトの一部を特定する特定部と、スクリプト表示領域に表示されたスクリプトに対する選択を受け付けた場合、文書作成領域内に、選択された部分を転写する転写部と、をさらに有する。
【選択図】
図4