(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-15
(45)【発行日】2024-02-26
(54)【発明の名称】議事録作成支援装置、議事録作成支援方法及び議事録作成支援プログラム
(51)【国際特許分類】
G06Q 10/10 20230101AFI20240216BHJP
G06F 40/279 20200101ALI20240216BHJP
G10L 15/00 20130101ALI20240216BHJP
G10L 15/10 20060101ALI20240216BHJP
【FI】
G06Q10/10
G06F40/279
G10L15/00 200J
G10L15/10 500T
(21)【出願番号】P 2020197214
(22)【出願日】2020-11-27
【審査請求日】2022-12-01
(73)【特許権者】
【識別番号】000153443
【氏名又は名称】株式会社 日立産業制御ソリューションズ
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】花岡 駿介
(72)【発明者】
【氏名】和久井 一則
(72)【発明者】
【氏名】米田 知弘
【審査官】橋沼 和樹
(56)【参考文献】
【文献】特開2017-016566(JP,A)
【文献】特開2008-011272(JP,A)
【文献】特開2019-153205(JP,A)
【文献】特開2019-160259(JP,A)
【文献】特開2005-197867(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G06F 40/279
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
会議の参加者の音声から変換された発言テキストを学習済の発言タイプ推定モデルに入力し、前記発言テキストの意味上の類型である発言タイプを前記発言タイプ推定モデルから取得し、
前記発言タイプの推移及び発言者の推移を学習済の可視化情報推定モデルに入力し、必ずしも明確に言語化されていない発言の意図を言語化した可視化情報を前記可視化情報推定モデルから取得する議事録作成支援部と、
前記発言テキスト及び前記可視化情報を、会議の参加者の3次元画像とともに表示する出力処理部と、を備えること、
を特徴とする議事録作成支援装置。
【請求項2】
前記議事録作成支援部は、
ある発言テキストに対して組になる直後の発言テキストが存在しないことを検知することによって、又は、回答を求めるある発言テキストに対して組になる発言テキストが回答を含まないことを検出することによって、確からしさが確認できない箇所を画面に表示すること、
を特徴とする請求項1に記載の議事録作成支援装置。
【請求項3】
前記出力処理部は、
前記確からしさが確認できない箇所に対応する発言テキストを、ユーザによる画面操作に基づき、議事録情報から抽出したうえで出力装置に表示し、
前記議事録作成支援部は、
ユーザが表示された前記発言テキストを、入力装置を介して編集するのを受け付けること、
を特徴とする請求項2に記載の議事録作成支援装置。
【請求項4】
前記議事録作成支援部は、
前記参加者間の職務上の関係、及び、前記3次元画像内の前記参加者の動作に基づき、前
記可視化情報を補正すること、
を特徴とする請求項3に記載の議事録作成支援装置。
【請求項5】
前記議事録作成支援部は、
矢印としても、前記発言の意図を可視化すること、
を特徴とする請求項4に記載の議事録作成支援装置。
【請求項6】
議事録作成支援装置の議事録作成支援部は、
会議の参加者の音声から変換された発言テキストを学習済の発言タイプ推定モデルに入力し、前記発言テキストの意味上の類型である発言タイプを前記発言タイプ推定モデルから取得し、
前記発言タイプの推移及び発言者の推移を学習済の可視化情報推定モデルに入力し、必ずしも明確に言語化されていない発言の意図を言語化した可視化情報を前記可視化情報推定モデルから取得し、
前記議事録作成支援装置の出力処理部は、
前記発言テキスト及び前記可視化情報を、会議の参加者の3次元画像とともに表示すること、
を特徴とする議事録作成支援装置の議事録作成支援方法
【請求項7】
コンピュータを、
会議の参加者の音声から変換された発言テキストを学習済の発言タイプ推定モデルに入力し、前記発言テキストの意味上の類型である発言タイプを前記発言タイプ推定モデルから取得し、
前記発言タイプの推移及び発言者の推移を学習済の可視化情報推定モデルに入力し、必ずしも明確に言語化されていない発言の意図を言語化した可視化情報を前記可視化情報推定モデルから取得する議事録作成支援部と、
前記発言テキスト及び前記可視化情報を、会議の参加者の3次元画像とともに表示する出力処理部と、して機能させること、
を特徴とする議事録作成支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、議事録作成支援装置、議事録作成支援方法及び議事録作成支援プログラムに関する。
【背景技術】
【0002】
企業内の重要な会議においては、参加者のすべての発言が議事録として記録される。会議室内で取得された映像情報及び音声情報に基づいて、コンピュータが自動的に議事録を書き起こす技術が普及している。
【0003】
特許文献1の会議支援装置は、会議の参加者が注目している方向を判定し、多くの参加者に注目されている発言者の発言に対して高い重要度を付与する。そして、当該会議支援装置は、重要度が高い発言のテキストを書き起こし、発言者及び重要度に関連付けて表示する。さらに、当該会議支援装置は、テキストの書き起こしに失敗した箇所を、アクションアイテム(誰がいつまでに何を行うか)と対応させて表示する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
実際の会議においては、例えば、発言の背景にある意図は文言自身から省略されやすく、その発言が誰に対するものであるかも省略されやすい。これらの省略された内容を補ったうえで議事録が作成されるのが理想である。しかしながら、会議への参加者が多く、参加者間の関係が多岐にわたると、コンピュータが作成する議事録の質は落ち、人間による議事録の編集(修正)が必要となる。
【0006】
特許文献1の会議支援装置は、重要度が高い発言を特定し、そのテキストを表示することに焦点が当てられている。当該会議支援装置は、表示されたテキストが発言者の意図を正確に反映しており、かつ、その発言が特定の参加者に正確に向けられていることを前提としており、編集を必要とする具体的な判断基準を編集者に与えてはいない。
【0007】
仮に、編集者がコンピュータの書き起こした議事録を見ながら、会議の重要箇所を再生した映像を視認することができれば、編集者が議事録の内容を確認し必要に応じて編集する作業は大いに捗る。編集を要する箇所が示されれば、さらに作業は捗る。そこで、本発明は、会議の議事録を確認し修正する作業を効率的に行うことを目的とする。
【課題を解決するための手段】
【0008】
本発明の議事録作成支援装置は、会議の参加者の音声から変換された発言テキストを学習済の発言タイプ推定モデルに入力し、前記発言テキストの意味上の類型である発言タイプを前記発言タイプ推定モデルから取得し、前記発言タイプの推移及び発言者の推移を学習済の可視化情報推定モデルに入力し、必ずしも明確に言語化されていない発言の意図を言語化した可視化情報を前記可視化情報推定モデルから取得する議事録作成支援部と、前記発言テキスト及び前記可視化情報を、会議の参加者の3次元画像とともに表示する出力処理部と、を備えること、を特徴とする。
その他の手段については、発明を実施するための形態のなかで説明する。
【発明の効果】
【0009】
本発明によれば、会議の議事録を確認し修正する作業を効率的に行うことができる。
【図面の簡単な説明】
【0010】
【
図1】議事録作成支援装置の構成を説明する図である。
【
図8】単語ベクトルの加減による可視化情報の補正を説明する図である。
【
図10】話題の転換及び発言群を説明する図である。
【発明を実施するための形態】
【0011】
以降、本発明を実施するための形態(“本実施形態”という)を、図等を参照しながら詳細に説明する。本実施形態は、コンピュータが会議の議事録を作成するのを支援する例である。
【0012】
(議事録作成支援装置の構成)
図1は、議事録作成支援装置1の構成を説明する図である。議事録作成支援装置1は、一般的なコンピュータであり、中央制御装置11、キーボード、タッチパネル等の入力装置12、ディスプレイ等の出力装置13、主記憶装置14、補助記憶装置15、映像取得装置16及び音声取得装置17を備える。これらは、バスで相互に接続されている。映像取得装置16は、会議室等に配置されるカメラ(図示せず)に接続されている。音声取得装置17は、会議室等に配置されるマイクロフォン(図示せず)に接続されている。
【0013】
補助記憶装置15は、参加者情報31、音声情報32、映像情報33、議事録情報34、発言タイプ推定モデル35、発言タイプ学習データ36、可視化情報推定モデル37、可視化情報学習データ38及び3次元簡易画像39(詳細別紙)を備える。なお、補助記憶装置15は、議事録作成支援装置1から独立した構成であってもよい。
【0014】
主記憶装置14における入力処理部21、出力処理部22及び議事録作成支援部23は、プログラムである。中央制御装置11は、これらのプログラムを補助記憶装置15から読み出し主記憶装置14にロードすることによって、それぞれのプログラムの機能(詳細後記)を実現する。議事録作成支援装置1は、
図1に示したように単一の筐体として構成されていてもよいし、ネットワーク内で相互に接続された複数の筐体(いわゆる“クラウド”)として構成されていてもよい。
【0015】
(参加者情報)
図2は、参加者情報31の一例を示す図である。参加者情報31においては、参加者名欄101に記憶された参加者名に関連付けて、役職欄102には役職が、役割欄103には役割が、顔写真欄104には顔写真が記憶されている。
参加者名欄101の参加者名は、会議の参加者の名前である。
役職欄102の役職は、企業組織内での参加者の役職である。ここでの役職は、例えば上位者から順に、“取締役”>“部長”>“課長”>“なし”(平社員)となっている。
役割欄103の役割は、会議における参加者の職掌である。
顔写真欄104の顔写真は、参加者の顔写真に付された名前及び拡張子である。顔写真の画像データ自身は、補助記憶装置15に格納されていてもよいし、他の装置に格納されていてもよい。
【0016】
(音声情報)
図3は、音声情報32の一例を示す図である。音声情報32は、音声情報32a及び音声情報32bからなる。音声情報32aにおいては、発言者名欄111には発言者名が、発言回数欄112には発言回数が、発言テキスト欄113には発言テキストが、発言時間欄114には発言時間が記憶されている。
【0017】
発言者名欄111の発言者名は、参加者のうち発言をした者の名前である。発言者は、必ず参加者でもある。
発言回数欄112の発言回数は、その会議におけるその発言者の発言に対して1から順に振られた数である。数字が大きいほど、その発言は時間的に後である。
発言テキスト欄113の発言テキストは、会議室でマイクロフォンが取得した発言の音声波形(時間軸の波形)を自然言語に変換した後の文字列である。本実施形態においては、この変換を音声取得装置17が行ってもよし、他の装置が行ってもよい。
発言時間欄114の発言時間は、発言が始まった時刻の時分秒及び終了した時刻の時分秒である。
【0018】
音声情報32bにおいては、発言者名欄115には発言者名が、時刻欄116には時刻が、数値欄117には数値が記憶されている。音声情報32bは、参加者ごとに存在する。
発言者名欄115の発言者名は、発言者名欄111の発言者名と同じである。
時刻欄116の時刻は、音声波形の時間軸の時分秒である。
図3の例では、1秒ごとに数値が記憶される。
数値欄117の数値は、音声波形を特徴付ける任意の数値であり、振幅、周波数、特定の周波数成分の比率等である。ここでの数値は1次元であるが、多次元であってもよい。
【0019】
(映像情報)
図4は、映像情報33の一例を示す図である。映像情報33においては、時刻欄121の時刻に関連付けて、画像欄122には画像が記憶されている。
時刻欄121の時刻は、会議室内の映像(連続画像)の個々の画像(コマ)をカメラが撮像した時刻の時分秒である。
画像欄122の画像は、カメラが撮像したコマのデータである。画像は、複数の多次元ベクトルの集合である。各ベクトルは、会議室空間内の各ボクセルに対応している。ベクトルの成分のうち3つは、そのボクセルの空間位置を示す。他の成分は、そのボクセルの画素値である。カメラが白黒の画像を撮像する場合、画素値は、1次元のグレースケールであり、フルカラーの画像を撮像する場合、画素値は、3次元のRGB値である。
【0020】
(3次元画像の意義)
画像欄122の画像は、3次元空間に展開(レンダリング)され得る。さらに、この画像は、3次元空間内の任意の平面に対して投影され得る。時刻“10:00:00”の画像をある平面に投影したものが投影画像123である。時刻“10:05:00”の画像を当該平面に投影したものが投影画像124であり、時刻“10:10:00”の画像を当該平面に投影したものが投影画像125である。なお、投影画像123~125に現れている楕円形は、会議用テーブルである。
【0021】
本実施形態のカメラは、3次元画像を取得することができる。したがって、議事録作成支援装置1のユーザ(編集者)は、立体感のある再生画像を視認することができる。現実の会議室空間において、参加者Aさんは、自身の右側にいる参加者Bさんを指差したとする。そして、そのとき、参加者CさんがAさんの左側にいるとする。カメラが2次元画像しか撮像できない場合、ユーザが視認する投影画像において、CさんがAさんとBさんとの間に写り込む場合がある。この場合、編集者は、Aさんが指差した相手がBさんであるのか、それともCさんであるのかがわからなくなる。カメラが3次元画像を撮像する場合、このような問題は生じない。
【0022】
(議事録情報)
図5は、議事録情報34の一例を示す図である。議事録情報34の部分のうち、ある発言群(詳細後記)の時間帯に対応するものが議事録情報34aであり、他の発言群の時間帯に対応するものが議事録情報34bである。ここでは、分かりやすさのために2つの時間帯が記載されている。
議事録情報34a及び34bにおいては、発言者名欄131に記憶された発言者名に関連付けて、発言テキスト欄132には発言テキストが、発言時間欄133には発言時間が、発言タイプ欄134には発言タイプが記憶されている。
【0023】
発言者名欄131の発言者名は、
図3の発言者名と同じである。
発言テキスト欄132の発言テキストは、
図3の発言テキストと同じである。
発言時間欄133の発言時間は、
図3の発言時間と同じである。
発言タイプ欄134の発言タイプは、発言テキストの意味上の類型であり、ユーザが会議の内容に応じて決定する。ここでの発言タイプは、“意見要求”、“意見提供”、“情報要求”、“情報提供”、“承認”、“否認”、“語り要求”、“共感”、“根拠説明”等である。1つの発言テキストに複数の発言タイプが対応する場合もある。なお、“語り”とは、意見、情報等、限定的に列挙した以外の一般的な自由発言を示す。したがって、“語り要求”とは、ブレーンストーミング等における自由発言の要求(促し)を示す。
【0024】
(発言タイプと可視化情報)
繰り返しになるが、発言タイプとは、発言テキストの意味上の類型である。これとは別に、“可視化情報”とは、必ずしも明確に言語化されてはいないものの推定可能な発言の意図のうち、テキスト化することによってユーザ(編集者)に伝えるべきものである。その会議の参加者ではないユーザは、再生音声を聞いただけでは、発言の意図を正確に理解することは難しい。その会議の参加者であったユーザでも、時間が経過すると発言の意図を忘れてしまうことが多い。そして、発言の意図が、議事録を編集する際のキーポイントとなることが多い。
【0025】
議事録作成支援装置1は、明確には言語化され難い発言の意図を“可視化情報”として発言テキストの推移等から推定し、それをテキスト化又は図形化したうえでユーザに画面表示する。つまり、可視化情報とは、画像に重ねて表示される“テロップ”のようなものである。より具体的には、議事録作成支援装置1は、まず、個々の発言テキストに対して発言タイプを付す。次に、議事録作成支援装置1は、発言タイプの推移及び発言者の推移に基づき、可視化すべき発言の意図が発生したことを検出する。最後に、議事録作成支援装置1は、その意図をテキスト化した可視化情報を画面表示する。これらの処理を実現するために、議事録作成支援装置1は、発言タイプ推定モデル35及び可視化情報推定モデル37を使用する。
【0026】
(発言タイプ推定モデル)
発言タイプ推定モデル35とは、発言テキストを入力変数とし、発言タイプを出力変数とする数理モデル(関数)である。ユーザの指示に応じて、議事録作成支援装置1は、発言タイプ学習データ36を使用して、発言タイプ推定モデル35を学習する。
【0027】
(発言タイプ学習データ)
図6は、発言タイプ学習データ36の一例を示す図である。発言タイプ学習データ36においては、発言テキスト欄141に記憶された発言テキストに関連付けて、発言タイプ欄142には発言タイプが記憶されている。
発言テキスト欄141の発言テキストは、
図3の発言テキストと同じである。ここでの“〇”等の記号は、過去の発言例の任意の文字を省略的に示している(以下同様)。
発言タイプ欄142の発言タイプは、
図5の発言タイプと同じである。ここでの発言タイプは、ユーザが発言テキストに対して付したものである。
以上から明らかなように、発言タイプ学習データ36は、“教師付き学習データ”である。
【0028】
(可視化情報推定モデル)
可視化情報推定モデル37とは、発言タイプ推移及び発言者推移を入力変数とし、可視化情報を出力変数とする数理モデル(関数)である。ユーザの指示に応じて、議事録作成支援装置1は、可視化情報学習データ38を使用して、可視化情報推定モデル37を学習する。
【0029】
(可視化情報学習データ)
図7は、可視化情報学習データ38の一例を示す図である。可視化情報学習データ38においては、発言タイプ推移欄151に記憶された発言タイプ推移に関連付けて、発言者推移欄152には発言者推移が、可視化情報欄153には可視化情報が記憶されている。
発言タイプ推移欄151の発言タイプ推移は、発言タイプの時系列の推移である。例えば、“情報要求→語り”は、発言タイプ“情報要求”が付された発言テキストが発言された直後に、発言タイプ“語り”が付された発言テキストが発言されたことを示す。さらに、ここでの発言タイプ推移は、1つの矢印で結ばれた2つの発言タイプからなる“2連式”であるが、発言タイプ推移は、それ以上の多連式であってもよい。
【0030】
発言者推移欄152の発言者推移は、発言者の時系列の推移である。例えば“Aさん→Aさん”は、Aさんが発言した直後に、再度Aさんが発言したことを示す。さらに、ここでの発言者推移は、1つの矢印で結ばれた2つの発言者からなる“2連式”であるが、発言者推移は、それ以上の多連式であってもよい。
可視化情報欄153の可視化情報は、前記した可視化情報として画面表示される文字列である。ここでの可視化情報は、発言タイプ推移及び発言者推移の組合せに対してユーザが付したものである。
以上から明らかなように、可視化情報学習データ38もまた、“教師付き学習データ”である。
【0031】
(可視化情報の補正)
いま、説明の便宜上、発言タイプ推移及び発言者推移のある組合せに対して、可視化情報“依頼”が付されているとする。議事録作成支援装置1は、以下のように可視化情報“依頼”を他の可視化情報に補正することができる。
【0032】
〈1〉議事録作成支援装置1は、その発言がなされた時点における映像情報33を取得する。ここでは、“AさんがBさんに対して指を差している画像”が取得されたとする。
〈2〉議事録作成支援装置1は、参加者情報31(
図2)を参照して、AさんとBさんとの関係を取得する。
図2によれば、Aさんの役職は“課長”であり、役割は“プロジェクトリーダ”である。Bさんの役職は“なし”であり、役割は“データサイエンティスト”である。つまり、“Aさんは、Bさんの上司である”という関係が取得される。
〈3〉議事録作成支援装置1は、〈1〉で取得された画像及び〈2〉で取得された関係に基づき、可視化情報“依頼”に対して“強調”という補正を行うことを決定する。
【0033】
議事録作成支援装置1は、ある可視化情報に対して、どのような補正(強調、遠慮、示唆等)を行うかを、画像又は参加者間の関係に基づき決定する。例えば、可視化情報“依頼”及び補正“強調”が所与である場合、可視化情報“依頼”に対して補正“強調”を行った結果、“依頼”が具体的にどのような可視化情報となるかは、ユーザの設定次第である。以降に示すように、議事録作成支援装置1は、補正後の可視化情報を自動的に決定することも可能である。
【0034】
(単語ベクトルの加減による可視化情報の補正)
図8は、単語ベクトルの加減による可視化情報の補正を説明する図である。議事録作成支援装置1は、可視化情報を含む任意の単語を公知の単語ベクトルに変換することができる。細かい説明は省略するが、例えば、ある辞書1冊分の各単語が、同じ次元数の単語ベクトルに対応していれば、2つの単語ベクトルを加減することができる。さらに、その各成分が、特定の項目にその単語の意味が該当する程度を示していれば、例えば、加算後の単語ベクトルが対応する単語は、もとの2つの単語の意味を併せ持つことになる。すると、例えば「“国王”-“男”+“女”=“女王”」、「“茨城県”+“県庁”=“水戸市”」のような加減演算が可能になる。
【0035】
議事録作成支援装置1は、まず“依頼”を“(#,#,#,#,…)”に変換し、“強調”を“(♭,♭,♭,♭,…)”に変換する。議事録作成支援装置1は、次に、これらを加算し“(※,※,※,※,…)”を取得する。次いで、議事録作成支援装置1は、“(※,※,※,※,…)”を“命令”に変換する。“依頼”を“強調”した結果としての“命令”という単語をユーザが思い付かなくても、議事録作成支援装置1は、自動的に可視化情報“命令”を決定することができる。
【0036】
(3次元簡易画像)
図9は、3次元簡易画像41の一例を示す図である。議事録作成支援装置1は、映像情報33(
図4)のうち、可視化情報が付された発言があった時点の画像に、その発言テキスト42及び矢印43を加えて出力装置13に表示する。矢印43は、補正後の可視化情報を含んでいる。いま、AさんがBさんに対して指を差していることが画像上で確認されている。したがって、矢印の起点はAさんであり、終点はBさんである。矢印の大きさ、太さ、色等は、補正後の可視化情報に応じて、予めユーザが設定することができる。議事録作成支援装置1は、例えば“命令”に対する矢印よりも“再度命令”に対する矢印を太く表示する。
【0037】
3次元簡易画像41は、平面である出力装置13に表示される。しかしながら、3次元簡易画像41は、前記したように3次元空間の各ボクセルに対応した画素値を有する。したがって、3次元簡易画像41は、空間として(奥行がわかるように)表示される。そして、例えば、ユーザが3次元簡易画像41上の任意の2点を選択すると、議事録作成支援装置1は、その2点の3次元座標値、及び、その2点を対角線とする直方体を表示することができる。
【0038】
議事録作成支援装置1は、必要に応じて映像情報33(
図4)の解像度を落として3次元簡易画像41を作成してもよい。さらに、議事録作成支援装置1は、床面、壁面等の不要な部分を消去してもよいし、各参加者の部分をその参加者の同一性を失わない程度の簡略化した“アイコン”で置換してもよい。これらの“簡易化処理”が行われることが3次元“簡易”画像の命名理由である。議事録作成支援装置1は、解像度を落とす前の参加者の画像を顔写真(
図2の欄104)と比較することによって参加者名を取得し、取得した参加者名を簡略したアイコンに貼り付ける。
【0039】
(話題の転換及び発言群)
図10は、話題の転換及び発言群を説明する図である。1回の会議において、仮に参加者の入れ替わりがなくても、複数の話題について話し合われることがある。議事録作成支援装置1は、所定の長さを有する時間窓に含まれる発言テキスト51a~51eのそれぞれから、任意の方法で1又は複数の特徴語52aを抽出する。
【0040】
議事録作成支援装置1は、時間窓の長さを維持したままで時間窓を時間的に後に(
図10の下方向に)ずらしたうえで、このような処理を繰り返す。すると、発言テキスト51fを冒頭に含む時間窓において、特徴語52bが抽出される。特徴語52a及び52bは、“データ”以外に共通する特徴語を有さない。つまり、発言テキスト51aを冒頭に含む時間窓においては、“データの一覧”が話題になっていたのに対し、発言テキスト51fを冒頭に含む時間窓においては、“データのモデリング”が話題になっていた。そして、これら2つの時間窓の間の境界線53は、その時点で話題の転換があったことを示す。議事録作成支援装置1は、2本の境界線で挟まれた発言テキストの群を“発言群”として抽出する。各発言群は、1つの話題に対応している。
【0041】
(確からしさ)
議事録作成支援装置1又は他の装置が作成した発言テキストは、確からしさが担保されない限り、最終的な議事録として残され得ない。ここでの確からしさとは、ノイズを音声として聞き取っていないか、同音異義語を区別したか、等の情報処理レベルの確からしさではなく、参加者による勘違い、言い忘れ、表現のまずさ等に起因する人為的な不正確さがないという意味での確からしさである。
【0042】
図11は、確からしさを説明する図である。議事録作成支援装置1は、発言テキスト51a~51eからなる発言群を、対応関係に基づく複数の組に再構成する。
・発言テキスト51aに対し、発言テキスト51bの“わかりました。”が対応している。そこで、議事録作成支援装置1は、対応する発言テキスト61a及び61bを第1の組とする。組を構成するべき前後の発言テキストの発言タイプ(直前の“語り要求”に対して直後の“承認”等)が予め複数定義されているものとする(以下同様)。
・発言テキスト51bの“どの程度詳細に書きますか?”に対し、発言テキスト51cの“最低限、項目と単位が欲しい。”が対応している。そこで、議事録作成支援装置1は、対応する発言テキスト62a及び62bを第2の組とする。
【0043】
・発言テキスト51cの“可能であれば、型も推定して。”に対し、発言テキスト51dの“了解です。”が対応している。そこで、議事録作成支援装置1は、対応する発言テキスト63a及び63bを第3の組とする。
・発言テキスト51dの“期限とファイル型式はどうしますか?”に対し、発言テキスト51eが対応している。そこで、議事録作成支援装置1は、対応する発言テキスト64a及び64bを第4の組とする。
【0044】
図11の例では、分かりやすさのために、発言者ごとに発言テキストの長方形の線の太さを変えている。前記の例では、すべての発言テキストに対して、組になる直後の発言テキストが存在している。しかしながら、議事録作成支援装置1は、ある発言テキストに対して、組になる直後の発言テキストが存在しないケースを検出する場合がある。この場合、議事録作成支援装置1は、確からしさが担保されていない(整合性が不足している)と決定する。議事録作成支援装置1は、指示代名詞の誤解釈を検出した場合も整合性が不足していると決定する。
【0045】
図11の対応関係の発言テキスト64a及び64bの組に注目する。Bさんは、Aさんに対し“期限”及び“ファイル型式”を尋ねている。それに対し、Aさんは、期限が“7月24日”である旨回答しているが、ファイル型式については回答していない。議事録作成支援装置1は、このようなケースを検出した場合、確からしさが担保されていない(充足性が不足している)と決定する。
【0046】
(処理手順)
図12は、処理手順のフローチャートである。説明の途中で、適宜
図13を参照する。処理手順を開始する前提として、発言タイプ学習データ36(
図6)及び可視化情報学習データ38(
図7)が完成した状態で補助記憶装置15に格納されているものとする。そして、議事録作成支援装置1の議事録作成支援部23は、発言タイプ学習データ36を使用して発言タイプ推定モデル35を既に充分学習しているものとする。同様に、議事録作成支援部23は、可視化情報学習データ38を使用して可視化情報推定モデル37を既に充分学習しているものとする。
【0047】
ステップS201において、議事録作成支援装置1の入力処理部21は、参加者情報31(
図2)を取得する。具体的には、入力処理部21は、ユーザが入力装置12を介して参加者情報31を入力するのを受け付ける。このとき、入力処理部21は、ユーザがキーボードを介して
図2のようなデータを入力するのを受け付けてもよいし、予め完成している参加者情報31を他の装置から読み込んでもよい(ステップS202~S203においても同様)。
【0048】
ステップS202において、入力処理部21は、音声情報32(
図3)を取得する。具体的には、入力処理部21は、ユーザが入力装置12を介して音声情報32を入力するのを受け付ける。
【0049】
ステップS203において、入力処理部21は、映像情報33(
図4)を取得する。具体的には、入力処理部21は、ユーザが入力装置12を介して映像情報33を入力するのを受け付ける。
【0050】
ステップS204において、議事録作成支援装置1の議事録作成支援部23は、発言タイプを決定する。具体的には、第1に、議事録作成支援部23は、ステップS202において取得した音声情報32(32a)の発言回数欄112を削除し、新たに発言タイプ欄134(図示せず)を追加することによって、
図5の議事録情報34(34a)を作成する。
第2に、議事録作成支援部23は、ステップS204の“第1”において作成した議事録情報34のうち未処理の任意のレコード(以降、“対象議事録レコード”とも呼ばれる)の発言テキストを取得する。
【0051】
第3に、議事録作成支援部23は、対象議事録情報レコードから取得した発言テキストを、学習済の発言タイプ推定モデル35に対して入力し、発言タイプ推定モデル35から発言タイプを取得する。
第4に、議事録作成支援部23は、ステップS204の“第3”において取得した発言タイプを、対象議事録レコードの発言タイプ欄134に記憶する。
議事録作成支援部23は、ステップS204の“第2~第4”の処理を、未処理の対象議事録レコードについて繰り返し、発言時間の早い順に、レコードを並び替える。
【0052】
ステップS205において、議事録作成支援部23は、発言テキストを発言群に分ける。具体的には、議事録作成支援部23は、前記した方法で、議事録情報34(
図5)の発言テキストを複数の発言群に分ける。このとき、議事録作成支援部23は、議事録情報34に新たな発言群欄135(図示せず)を設け、発言群を特定する数字等を記憶してもよい。
【0053】
ステップS206において、議事録作成支援部23は、可視化情報を決定する。具体的には、第1に、議事録作成支援部23は、議事録情報34のうち、未処理の任意の発言群に属するレコード(以降、“対象発言群レコード”とも呼ばれる)を取得する。
第2に、議事録作成支援部23は、対象発言群レコードから、発言タイプ推移及び発言者推移を取得する。前記の2連式の場合、連続する2本のレコードから、1つの発言タイプ推移(“情報要求→語り要求”等)及び1つの発言者推移(“Aさん→Bさん”等)が取得される。
【0054】
第3に、議事録作成支援部23は、対象発言群レコードから取得した発言タイプ推移及び発言者推移を、学習済の可視化情報推定モデル37に対して入力し、可視化情報推定モデル37から可視化情報を取得する。
第4に、議事録作成支援部23は、ステップS206の“第3”において取得した可視化情報を発言タイプ推移(又は発言者推移)の起点となる発言テキストに関連付けて記憶する。このとき、議事録作成支援部23は、議事録情報34に新たな可視化情報欄136(図示せず)を設け、可視化情報を記憶してもよい。
【0055】
議事録作成支援部23は、ステップS206の“第2~第4”の処理を、連続する2本のレコードごとに繰り返す(内側ループ)。さらに議事録作成支援部23は、ステップS206の“第1~第4”の処理を、すべての対象発言群レコードごとに繰り返す(外側ループ)。
【0056】
ステップS207において、議事録作成支援部23は、可視化情報を補正する。具体的には、議事録作成支援部23は、前記した方法で、ステップS206の“第4”において記憶した可視化情報を補正する。議事録作成支援部23は、例えば“依頼”を“命令”に補正した場合、可視化情報欄136(図示せず)に記憶されている“依頼”を“命令”で更新する。
【0057】
ステップS208において、議事録作成支援部23は、確からしさを確認する。具体的には、議事録作成支援部23は、
図11において前記したように、発言群ごとに、発言テキストの整合性又は充足性が欠けている箇所を検出する。このような箇所が検出されない理想的な場合もある。議事録作成支援部23は、多くの場合、検出した箇所及び検出内容を一時的に主記憶装置14に記憶する。検出内容の例は以下の通りである。
・Bさんに対する回答として、期限が示されていない。
・Bさんに対する回答が全くなされないまま、別の質問をしている。
【0058】
ステップS209において、議事録作成支援部23は、3次元簡易画像を作成する。具体的には、議事録作成支援部23は、第1に、可視化情報が関連付けられた発言テキストが発言された時刻の画像(コマ)に対して、その発言テキスト、矢印、及び、可視化情報を加える。
第2に、議事録作成支援部23は、これらのデータが加えられた画像に対し簡易化処理を実行する。
【0059】
ステップS210において、議事録作成支援装置1の出力処理部22は、会議表示画面71(
図13)を表示する。具体的には、出力処理部22は、出力装置13に会議表示画面71を表示する。説明は一旦
図13に移る。
【0060】
図13は、会議表示画面71の一例である。会議表示画面71は、画像・テキスト欄72、議事録案欄73、不足情報欄74、シークバー75を有する。出力処理部22は、シークバー75上に、1又は複数の正方形76、1又は複数の円77及び1つの三角形78を表示する。シークバー75の横位置は、時間(会議の時刻)である。円77は、議事録情報34のその時刻に確からしさが確認できない(整合性又は充足性がない)箇所が存在し、かつ、その箇所がユーザによって未だ編集(修正)されていないことを示す。
【0061】
正方形76は、議事録情報34のその時刻に確からしさが確認できない箇所が存在したが、その箇所がユーザによって既に編集(修正)されたことを示す。三角形78は、現在画像・テキスト欄72に表示されている3次元簡易画像の時刻を示す。
【0062】
説明の便宜上、いま、時刻“10:20:00”に対応する円77をユーザが押下したとする。すると、出力処理部22は、“10:20:00”における3次元簡易画像を画像・テキスト欄72に表示する。ここでの3次元簡易画像は、発言テキスト、可視化情報及び矢印が加えられている。
【0063】
また、出力処理部22は、議事録情報34のうち当該時刻を含む発言群に属するレコードに含まれる発言者名及び発言テキストを議事録案欄73に表示する。出力処理部22は、そのうち、“10:20:00”における発言テキストを強調表示してもよい。さらに、出力処理部22は、その発言群において、確からしさが確認できていない(整合性又は充足性がない)箇所が検出されている場合、検出した内容を不足情報欄74に表示する。
【0064】
矢印として72aのみが表示されているときに、ユーザがBさんのアイコンをマウス等の入力装置12で選択すると。出力処理部22は、他の矢印72bを表示する。2本の矢印72a及び72bは、AさんとBさんとの間で発生しており、Cさん及びDさんは、それらの起点にも終点にもなっていない。これらを視認したユーザは、AさんがBさんに対して“命令”を下した直後に、BさんはAさんに対して“回答”していることがわかる。換言すれば、この発言の推移において、Cさん及びDさんは無関係であったこともわかる。そして、ユーザは、議事録案欄73に表示されている発言テキストを編集する必要性を感じる。いま、ユーザは、下線で示した追加テキスト、及び、括弧“( )”で示した補足説明(現時点では未表示)を書き加えることを考えている。説明は、
図12に戻る。
【0065】
ステップS211において、議事録作成支援装置1の議事録作成支援部23は、議事録の編集を受け付ける。具体的には、第1に、議事録作成支援部23は、議事録案欄73に、“Bさんに、”、“(命令)”、“(命令に対する回答)”、“(Aさんへの質問)”及び“(Bさんへの回答、期限につき要確認)”をユーザが書き加えるのを受け付ける。議事録作成支援部23は、ユーザが文字列の一部を削除すること、又は、変更することを受け付けてもよい。
第2に、議事録作成支援部23は、加除又は変更を受けた後の最新の発言テキストを発言テキスト欄113(
図3)に記憶する。
その後処理手順を終了する。
【0066】
(本実施形態の効果)
本実施形態の議事録作成支援装置の効果は以下の通りである。
(1)議事録作成支援装置は、立体感のある会議の再生画像を発言テキストとともに表示することができる。
(2)議事録作成支援装置は、発言の意図を可視化することができる。
(3)議事録作成支援装置は、議事録のうち編集を必要とする箇所を特定することができる。
(4)議事録作成支援装置は、ユーザが議事録を編集するのを受け付けることができる。
(5)議事録作成支援装置は、過去の体験に基づき発言の意図を決定することができる。
(6)議事録作成支援装置は、発言の意図をより的確なものに補正することができる。
(7)議事録作成支援装置は、発言の意図を文字又は矢印で可視化することができる。
【0067】
なお、本発明は前記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施例は、本発明を分かり易く説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【符号の説明】
【0068】
1 議事録作成支援装置
11 中央制御装置
12 入力装置
13 出力装置
14 主記憶装置
15 補助記憶装置
16 映像取得装置
17 音声取得装置
21 入力処理部
22 出力処理部
23 議事録作成支援部
31 参加者情報
32 音声情報
33 映像情報
34 議事録情報
35 発言タイプ推定モデル
36 発言タイプ学習データ
37 可視化情報推定モデル
38 可視化情報学習データ
39 3次元簡易画像