(58)【調査した分野】(Int.Cl.,DB名)
携帯端末によって音声情報を取得し、取得した前記音声情報を当該携帯端末にて音声認識、もしくは外部装置に送信して当該外部装置にて音声認識することで、テキスト化した文字列を前記携帯端末またはその他の表示装置に表示させる音声認識システムに用いる携帯端末の制御方法であって、
前記携帯端末に近接する物体の有無を判断し、
前記判断に応じて、前記表示装置への表示をするための処理を行うか否かを切り替え、
前記物体が有ると判断されている場合に、前記物体が無いと判断されている場合の背景表示とは異なる背景表示を前記携帯端末またはその他の表示装置に表示させ、
前記判断により物体が有ると判断されている間に取得された音声に関する第1の文字列と、前記判断により物体が無いと判断されている間に取得された音声に関する第2の文字列とを特定し、
前記第1の文字列の第1の表示形式と、前記第2の文字列の第2の表示形式とを決定し、前記第1の表示形式は、前記第2の表示形式と異なる、
携帯端末の制御方法。
【発明を実施するための形態】
【0008】
(発明の基礎となった知見)
通常、会議の議事録は議事録を作成する者が会議中に会議参加者の発話をノートやPC(パーソナルコンピュータ)に記録した後、その会議の要点や結論が明確となるように編集し記録をする。すなわち議事録とは、会議中のすべての発話を記録するだけのものではなく、編集して要点を整理した状態で記録することに本来の意義がある。
【0009】
従来の議事録システムでは、会議中の発話において最適な箇所のみを記録するので、会議中に不要と判断された発話は記録されないので、後に確認することが出来なかった。また記録した発話に対して容易に編集する方法について検討が不十分である。
【0010】
特許文献1には、「オフレコ」といった特定の単語を検出しその単語の後の発話を記録せず議事録を作成する方法が記載されている。ただしこの方法では、発話中の不必要な箇所を議事録としての記録から除外することはできても、会議の結論や要点が整理された議事録を記録することはできない。
【0011】
さらに特許文献1には、テキスト化をした後に編集する作業を容易にする方法についてはなんら開示されていない。よって、特許文献1に記載の方法を用いても結局議事録の編集をする者が記録されたテキストを再度見直して、不必要または必要な箇所の特定をする作業を行い編集する必要がある。
【0012】
さらに特許文献1に記載のシステムのように、特定のワードを検出する方法では、会議中必要なときにその特定ワードを毎回発話しなくてはならない。これは会議の進行の妨げにも繋がりかねない。
【0013】
特許文献1に記載の特定のワードを検出する方法以外の方法としては、特許文献2に議事録システムに付随した専用のスイッチを押している間に取得した音声は記録しないなどの方法が記載されている。
【0014】
しかし特許文献2に記載の技術ではそれ専用の特別な装置が必要となる。近年、特別な装置を用いるのではなく、各自が持ち寄った端末(スマートフォンなど)を用いて、各々の端末にて音声を取得し、どの場所でも気軽に議事録を生成するシステムが検討されている。このようなシステムにおいては、特許文献2のような特別な装置を使用することは本来の目的である「どの場所でも気軽に」議事を残せるという目的に相反することになる。
【0015】
本開示の音声認識テキスト化システムの制御方法は、音声情報を取得し、取得した前記音声情報を音声認識することでテキスト化する音声認識テキスト化システムの制御方法であって、前記テキスト化した文字列に、予め設定された所定の単語が含まれるか否かを判断し、前記所定の単語が含まれると判断された場合には、前記テキスト化した文字列のうち、前記所定の単語と関連付けられた文字列を、消去候補となる第1の文字列として特定し、前記第1の文字列を第1の表示形態で、前記第1の文字列以外の文字列である第2の文字列を第2の表示形態で、それぞれ表示端末に表示する制御を行う。
【0016】
また、前記第1の文字列は、前記テキスト化した文字列のうち、前記所定の単語の前もしくは後ろに位置する文字列であってもよい。
【0017】
また、前記所定の単語には、当該所定の単語の前の文字列を消去候補として特定する第1の単語と、当該所定の単語の後の文字列を消去候補として特定する第2の単語と、が含まれ、前記第1の文字列は、前記所定の単語が第1の単語である場合、前記所定の単語の前に位置する文字列であり、前記所定の単語が第2の単語である場合、前記所定の単語の後に位置する文字列であってもよい。
【0018】
また、前記第1の表示形態は、前記第2の表示形態で表示される第2の文字列の輝度値よりも低い輝度値で前記第1の文字列を表示する表示形態であってもよい。
【0019】
また、前記第1の表示形態は、前記第2の表示形態で表示される第2の文字列とは異なる色で前記第1の文字列を表示する表示形態であってもよい。
【0020】
また、前記表示端末における前記第1の文字列の表示領域を、選択することで前記第1の文字列の表示を削除してもよい。
【0021】
本開示の携帯端末の制御方法は、携帯端末によって音声情報を取得し、取得した前記音声情報を当該携帯端末にて音声認識、もしくは外部装置に送信して当該外部装置にて音声認識することで、テキスト化した文字列を前記携帯端末またはその他の表示装置に表示させる音声認識システムに用いる携帯端末の制御方法であって、前記携帯端末に近接する物体の有無を判断し、前記判断に応じて、前記表示装置への表示をするための処理を行うか否かを切り替えてもよい。
【0022】
また、前記物体が有ると判断されている間は、前記携帯端末の音声取得を停止させることで、前記表示をするための処理を行わず、前記物体が無いと判断されている間は、前記携帯端末の音声取得を開始させることで、前記表示をするための処理を行ってもよい。
【0023】
また、前記物体が無いと判断されている間は、前記携帯端末の音声取得を停止させることで、前記表示をするための処理を行わず、前記物体が有ると判断されている間は、前記携帯端末の音声取得を開始させることで、前記表示をするための処理を行ってもよい。
【0024】
また、前記物体が有ると判断されている間は、前記携帯端末にて取得した音声情報を前記外部装置に送信しないことで、前記表示をするための処理を行わず、前記物体が無いと判断されている間は、前記携帯端末にて取得した音声情報を前記外部装置に送信することで、前記表示をするための処理を行ってもよい。
【0025】
また、前記物体が有ると判断されている間は、前記携帯端末にて取得した音声情報に対して音声認識を行わないことで、前記表示をするための処理を行わず、前記物体が無いと判断されている間は、前記携帯端末にて取得した音声情報に対して音声認識行うことで、前記表示をするための処理を行ってもよい。
【0026】
本開示の携帯端末の制御方法は、携帯端末によって音声情報を取得し、取得した前記音声情報を当該携帯端末にて音声認識、もしくは外部装置に送信して当該外部装置にて音声認識することで、テキスト化した文字列を前記携帯端末またはその他の表示装置に表示させる音声認識システムに用いる携帯端末の制御方法であって、水平面に対する前記携帯端末の角度を検知し、前記検知した前記携帯端末の角度に応じて、前記表示装置への表示をするための処理を行うか否かを切り替えてもよい。
【0027】
また、前記携帯端末の角度が略水平ではないと検知されている間は、前記携帯端末の音声取得を停止させることで、前記表示をするための処理を行わず、前記携帯端末の角度が略水平と検知されている間は、前記携帯端末の音声取得を開始させることで、前記表示をするための処理を行ってもよい。
【0028】
また、前記携帯端末の角度が略水平と判断されている間は、(i)前記携帯端末のタッチパネル操作を無効とし、(ii)物体の前記携帯端末に近接する物体の有無を判断し、(iii)前記判断に応じて、前記表示装置への表示をするための処理を行うか否かを切り替える、ように制御してもよい。
【0029】
また、前記携帯端末の角度が略水平ではないと判断されている間は、(i)前記携帯端末のタッチパネル操作を有効とし、(ii)前記表示をするための処理を行わない、ように制御してもよい。
【0030】
(実施の形態1)
[システムの全体像]
図1A〜
図1Dには、本実施の形態における議事録作成システム(または、音声認識テキスト化システムを用いた議事録作成システム)の全体像を示す。本議事録作成システムを採用し得る全体像の例として、
図1A〜
図1Dまでの4つの例を示しているが、これに限られるものではない。以下、各システムについて説明する。
【0031】
図1Aの例では、会議の参加者A〜Dの全員がそれぞれ携帯端末2100を保有している。会議の参加者A〜Dの各々の携帯端末2100はインターネットを介して室外に配置されたサーバ装置2200と情報を送受信する。
図1Aに示す議事録システムが議事録を作成する方法について、以下に説明する。
【0032】
まず、会議の参加者A〜Dのそれぞれが保有する携帯端末2100にて会議の参加者の音声を取得する。そして、会議の参加者A〜Dのそれぞれが保有する携帯端末2100は取得した音声情報をリアルタイムでサーバ装置2200に送信する。サーバ装置2200は、会議の参加者A〜Dのそれぞれが保有する携帯端末2100から受信した音声情報をテキスト化する。またサーバ装置2200はテキスト化した各々の情報を、受信日時を基に統合し、議事録として作成する。ここで、議事録の作成方法の詳細については後述する。そしてサーバ装置2200は作成した議事録を各々の携帯端末2100に送信する。なお、携帯端末2100と記載したが、音声を取得しうる装置であればいかなる装置を採用してもかまわない。例えば、人体装着型の端末(ウェアラブル端末)でもよい。人体装着型の端末としては、腕時計型端末(スマートウォッチ)、眼鏡型端末(スマートグラス)または、クリップで衣服に装着したりストラップで首にかけるペンダント型端末などが考えられる。
【0033】
図1Bの例では、会議の参加者A〜Dの全員がそれぞれ携帯端末2100を保有している。会議の参加者A〜Dの各々の携帯端末2100は有線通信または無線通信によって、室内に配置されたサーバ装置2200と情報を送受信する。
図1Aと比較して、サーバ装置2200が室内に配置されている点が異なるが、それ以外は同様であるので説明を省略する。
図1Bの例で無線通信によってサーバ装置2200と情報を送受信する方法については、WifiやBluetooth(登録商標)などの無線規格を用いればよい。なお、携帯端末2100と記載したが、音声を取得しうる装置であればいかなる装置を採用してもかまわない。例えば、人体装着型の端末(ウェアラブル端末)でもよい。人体装着型の端末としては、腕時計型端末(スマートウォッチ)、眼鏡型端末(スマートグラス)または、クリップで衣服に装着したりストラップで首にかけるペンダント型端末などが考えられる。
【0034】
図1Cの例では、会議の参加者A〜D全員がそれぞれ携帯端末2100を保有している。また、会議の参加者A〜Dの各々の携帯端末2100は、それぞれインターネットを介して情報を送受信し合う。
図1Cに示す議事録システムが議事録を作成する方法について、以下に説明する。
【0035】
まず参加者A〜Dの各携帯端末2100にて会議参加者の音声を取得する。そして各携帯端末2100は取得した音声情報をリアルタイムで各携帯端末2100のうち一の携帯端末(以下ホスト端末と記載)に送信する。ホスト端末は各携帯端末2100から受信した音声情報をテキスト化する。またホスト端末はテキスト化した各々の情報を、受信日時を基に統合し、議事録として作成する。ここで、議事録の作成方法の詳細については後述する。そしてホスト端末は作成した議事録を各々の携帯端末2100に送信する。なお、携帯端末2100と記載したが、音声を取得しうる装置であればいかなる装置を採用してもかまわない。例えば、人体装着型の端末(ウェアラブル端末)でもよい。人体装着型の端末としては、腕時計型端末(スマートウォッチ)、眼鏡型端末(スマートグラス)または、クリップで衣服に装着したりストラップで首にかけるペンダント型端末などが考えられる。
【0036】
図1Dの例では、サーバ装置2200が音声取得から議事録作成のあらゆる手段を備えている。議事録を作成する方法については上で説明した例と同様なので説明を省略する。
【0037】
以下、各装置の構成や、議事録作成のための処理フローを説明するが、基本的には
図1Aのシステムを用いた場合の例を説明する。
【0038】
[各装置の構成]
図2Aを用いて、実施の形態1における議事録作成システムにおける各構成を説明する。ここでは、
図1Aにて説明したシステムにおける各装置の構成について説明するが、これに限られるものではなく、携帯端末2100が備える各構成・手段の一部または全部をサーバ装置2200が備えていてもよいし、サーバ装置2200が備える各構成・手段の一部または全部を携帯端末2100が備えていてもよい。
【0039】
携帯端末2100は、通信部2101、制御・処理部2102、記録部2103、音声取得部2104、表示部2105、操作部2106、音声再生部2107を備える。
【0040】
通信部2101は、例えば通信を行う処理回路(通信回路)を含んでもよい。通信部2101は、インターネットを介してサーバ装置2200や他の装置と情報を送受信する。ここで、インターネットを介してと記載したが、物理的に有線を接続することでサーバ装置2200と情報を送受信してもよい。
【0041】
制御・処理部2102は、取得したあらゆる情報を処理し、あらゆる構成を制御する。例えば後述する音声取得部2104が取得した音声情報を処理する。制御・処理部2102はいわゆるCPU(Central Processing Unit)またはマイコン(マイクロプロセッサともいう)と呼ばれる情報処理機能を有する処理回路を含む電子部品である。
【0042】
制御・処理部2102は、例えば図示しないメモリ、または記録部2103にプログラムを記録しており、CPUがプログラムを実行することにより機能するように構成している。
【0043】
または、上述のプログラムを実行することにより、実現される制御・処理部2102の機能をマイコンに組み込んで制御・処理部2102を構成してもよい。
【0044】
制御・処理部2102の具体的な機能構成については
図3を用いて後述する。
【0045】
記録部2103は、あらゆる情報を記録する。例えば音声取得部2104が取得した音声情報を記録部2103にて一時的または所定の期間記録しておく。記録部2103は、いわゆるメモリ、またはハードディスクなどの書き込み可能な記録媒体である。
【0046】
音声取得部2104は、音声情報を取得する。音声取得部2104は、例えば、取得した音声を処理する処理回路を含んでもよい。取得した音声情報は例えばAD変換処理が施され、記録部2103に記録され、または制御・処理部2102によって処理され、または通信部2101によってサーバ装置2200に送信される。音声取得部2104は、いわゆるマイクなどである。
【0047】
表示部2105は、あらゆる情報を表示する。表示部2105は、いわゆるディスプレイである。
【0048】
操作部2106は、使用者からの操作・入力を受け付けるインターフェースである。入力の方法は特に限定しない。タッチパネル式の入力方式であってもよいし、ボタン入力であってもよい。
【0049】
音声再生部2107は、音声を再生する。音声再生部2107は、いわゆるスピーカである。音声再生部2107は必須の構成ではない。
【0050】
サーバ装置2200は、通信部2201、制御・処理部2202、記録部2203を備える。
【0051】
通信部2201は、例えば通信を行う処理回路(通信回路)を含んでもよい。通信部2201は、各携帯端末2100が取得した音声情報を受信し、後述する制御・処理部2202が処理した情報を携帯端末2100に送信する。
【0052】
制御・処理部2202は取得した音声情報を処理する。
【0053】
制御・処理部2202はいわゆるCPUまたはマイコン等の情報処理機能を有する処理回路を含む電子部品である。制御・処理部2202は、例えば図示しないメモリ、または記録部2203にプログラムを記録しており、CPUがプログラムを実行することにより機能する。
【0054】
または、上述のプログラムを実行することにより、実現される制御・処理部2202の機能をマイコンに組み込んで制御・処理部2202を構成してもよい。
【0055】
制御・処理部2202が行う処理等については後述する。
【0056】
記録部2203は、あらゆる携帯端末から取得した情報(音声情報など)を記録する。記録部2203は、いわゆるメモリ、ハードディスクなどの書き込み可能な記録媒体である。
【0057】
以上が各装置の構成の説明となるが、上記した携帯端末2100およびサーバ装置2200は必ずしも
図2Aに記載するすべての構成を備えている必要はない。その一部の構成が欠けていてもよい。
【0058】
また
図2Bは、
図1Dに示すシステムにおけるサーバ装置2200の構成の一例を示す図である。
図1Dに示すようにこの場合、サーバ装置2200が議事録システム専用の装置となり、サーバ装置2200内にすべての構成が集約される。各構成は
図2Aと同様なので、同一の名称または符号を用いてその説明を省略する。
【0059】
[制御・処理部の機能構成]
図3は、制御・処理部2102または、制御・処理部2202の機能構成の一例を示す図である。以下
図3を用いて各構成について説明する。なお、制御・処理部2102が
図3の機能構成の一部を備えている場合には、制御・処理部2202が、
図3のうち制御・処理部2102が備えていない機能構成を備えていればよい。また、制御・処理部2202が
図3の全ての機能構成を備えている場合には、制御・処理部2102が
図3に記載する機能構成をひとつも備えていないことも考えられる。この場合は、携帯端末2100の音声取得部2104が取得した音声情報を、通信部2101がそのままサーバ装置2200に送信する。以下では、制御・処理部2202が
図3の全ての機能構成を備えている場合について説明するがこれに限られるわけではない。
【0060】
制御・処理部2202は、音声情報取得手段3001と、音声認識・テキスト統合手段3002と、特定語検出手段3003と、消去文章特定手段3004と、を備える。以下、各機能構成の動作および処理の流れを、
図4A及び
図4Bのフローチャートを用いて説明する。
【0061】
まずステップS4001にて、音声情報取得手段3001は、各携帯端末2100の音声取得部2104が取得した音声情報を、通信部2101および通信部2201を介して取得する。この際、記録部2103または記録部2203が記録している音声情報を取得してもよい。
図5には、取得する音声情報のイメージを示す。図において、会議の参加者A〜Dの各携帯端末2100において、取得する音声情報と時間との関係を示している。
【0062】
図5に示すように、会議の参加者A〜Dの各携帯端末2100からの音声情報は、時系列にサーバ装置2200に送信され、音声情報取得手段3001によって取得・保持される。ここでは、
図1Aに示す例において4人の会議の参加者A〜Dが保有するそれぞれの端末から音声情報を取得していることを示している。
【0063】
次にステップS4002にて、音声認識・テキスト統合手段3002は、音声情報取得手段3001が取得した各音声情報に対してそれぞれ音声認識を行い、テキスト化を行う。そして音声認識・テキスト統合手段3002は、各々のテキストを統合し、記録部2203に保持する。なお
図1Dで示すような、各携帯端末では音声の取得を行わず(携帯端末を用いない)、ひとつの装置のみで全ての処理を行うシステムの場合では、テキストの統合処理が不要となる。
【0064】
図6には、
図5で取得した各音声情報に対して音声認識した結果を表示している。また、
図7A〜
図7Cには、各々のテキストを統合し、記録部2203に記録した一例を示す。
図7Aに示すように、音声認識した文字列を時系列ごとにそのまま並べて統合した状態で保持してもよい。また、
図7Bに示すように、音声認識・テキスト統合手段3002は、テキスト化した情報を漢字変換する手段を備えており、各文章に対して漢字変換処理を施してから時系列ごとに記録部2203に保持してもよい。
【0065】
また、
図7Cに示すように、音声認識・テキスト統合手段3002は、どの携帯端末2100からどの音声情報が取得されたかということを識別することが出来るので、それぞれを区別した状態でテキスト化し、時系列ごとに記録部に保持していてもよい。このように各人の保有する携帯端末2100に関連付けて取得した音声情報をテキスト化しておくことで、後に議事録として管理しやすい。
【0066】
さらにここでは、
図1Aに示すように、各人が保有する携帯端末2100を各人の近くに置くことを想定しているので、ある携帯端末2100が取得する音声情報のうち、保有者の発話音声が最も高い音圧レベルを示すことが想定できる。よって音声認識・テキスト統合手段3002は、取得する音声情報のうち一定の音圧レベルに達している音声情報のみに対してテキスト化を行ってもよい。これによれば、音声認識・テキスト統合手段3002は、参加者Aが保有する携帯端末2100が取得した音声情報は、参加者Aの発話であると推定することとなる。
【0067】
また、各携帯端末2100の制御・処理部2102が、図示しない話者識別手段を備えていてもよい。話者識別手段は、各携帯端末2100にて取得した音声情報に対して話者識別を行い、当該携帯端末2100の保有者の発話音声を特定する。そして話者識別手段は特定した保有者の発話音声のみを通信部2101を介してサーバ装置2200の通信部2201に送信する。ここで各人の保有する携帯端末2100は、例えばスマートフォンなどの端末であるため、通話などによって各人の音声を事前に取得していることが多いので、持ち主の音声情報を保持しておくことは容易である。よって例えば参加者Aの携帯端末2100は事前に参加者Aの音声情報を保持しており、取得した音声情報と保持していた音声情報を照合することで、参加者Aの音声情報のみを特定してから、サーバ装置2200に送信する。これにより、例えばAの保有する携帯端末2100がBの発話音声を収音した場合であっても、Aの音声情報のみをサーバ装置2200に送信できる。すなわち、たとえAの保有する携帯端末2100およびBの保有する携帯端末2100両方に、Bの発話音声が入った場合でも、Aの携帯端末2100からはBの発話音声が送信されない。よってサーバ装置2200で音声情報をテキスト化した後に統合した際でも、同様のテキストが重複して文章化されるなどの不具合が生じない。
【0068】
次に、
図4Aに戻りステップS4003にて、特定語検出手段3003は、テキスト化した文章内の特定単語を検出する。
図8は、記録部2203が保持している特定単語と、消去候補の文章位置に関する情報を関連付けて管理しているテーブルである。当該テーブルは、サーバ装置2200が予め保持しているものであってもよいし、本議事録システムを利用するユーザが特定単語および消去候補文章位置情報を登録することで構築されたテーブルであってもよい。
【0069】
特定語検出手段3003が、テキスト化した文章の中に
図8のテーブルにおける特定単語を検出した際に、当該特定単語の位置と消去候補文章位置情報とを消去文章特定手段3004に出力する。
図7A〜
図7Cの例では、特定語検出手段3003は音声情報の中から「サッキノオフレコ」という文章を検出し、
図8のテーブルを参照し「サッキノオフレコ」という単語に関連付けられた消去候補文章位置情報である“b”を特定する。そして特定語検出手段3003は、「サッキノオフレコ」という特定単語の位置と、“b”という消去候補文章位置情報とを消去文章特定手段3004に出力する。
【0070】
消去文章特定手段3004は、特定単語の位置と消去候補文章位置情報とが特定語検出手段3003から出力された際に、ステップS4004にてそれらの情報に基づいて消去候補となる文字列を特定する。ここで消去文章特定手段3004は、特定語検出手段3003によって出力された特定単語に対する消去候補文章位置情報が“a”の場合は、当該特定単語の後に続く文章を消去文章として特定する。一方で、消去文章特定手段3004は、特定語検出手段3003によって出力された特定単語に対する消去候補文章位置情報が“b”の場合は、当該特定単語の前の文章を消去文章として特定する。
【0071】
図7A〜
図7Cの例においては、特定語検出手段3003より「サッキノオフレコ」という特定単語の位置と、“b”という消去候補文章位置情報と取得しているので、消去文章特定手段3004は消去文章として「パナソニックトノオンセイニンシキシステムキョウドウカイハツノケンデス」という文章を特定する。なお、消去文章特定手段3004が特定する消去文章としては上記した例のように直前(または直後)の文章のみを消去文章としてもよいし、これに限られない。ユーザが特定単語の前後どの程度の文章を消去対象とするか事前に設定することができてもよい。
【0072】
なお、ステップS4004では、特定した消去候補となる文章(文字列)に対してタグ情報を付加して管理してもよい。
【0073】
ステップS4004にて消去候補となる文字列を特定した後、ステップS4005の処理に進む。またステップS4003にて特定単語が検出されなかった場合は、ステップS4004の処理をせずにステップS4005の処理に進む。
【0074】
ステップS4005では、表示制御手段3005が表示コマンドを作成する。作成された表示コマンドは通信部2201および通信部2101を介して表示部2105にて表示される。
図9A〜
図9Cには、携帯端末2100の表示部2105にて表示される表示内容の一例を示す。
【0075】
例えば、ステップS4005では
図9Bに示すような表示をする旨の表示コマンドを作成する。以下に
図9A〜
図9Cに示す表示例について説明する。
【0076】
まずユーザが議事録システムの終了を指示した後、
図9Aのような確認画面を表示する。なお、議事録システムの終了の指示方法に関しては特に限定しない。ここでユーザが携帯端末2100の操作部2106を介して、議事録作成の終了を示すボタン表示901を選択した場合、システムは音声の取得を終了し、携帯端末2100が通信部2101を介して取得していた表示コマンドに従い
図9Bのように記録していた議事録本文の表示を行う。すなわち携帯端末2100の操作部2106はユーザによるボタン表示901の選択を受け付け、制御・処理部2102は表示部2105に議事録本文を表示する制御を行う。
【0077】
図9Bでは、記録していた議事録本文が、発話者に関する情報とともに表示されている。なお議事録本文の表示に関してはこれに限られない。また
図9Bではボタン表示902が表示されている。
【0078】
また、
図9BではステップS4004にて消去候補として特定されていた文章が、他の文章と異なる表示形式で表示されている。ここでは例えば、「パナソニックとの音声認識システム共同開発の件です」という文章が他の文章よりも薄く表示されている。消去候補として特定されていた文章の表示形式としてはこれに限られない。例えば消去候補として特定された文章を他の文章と異なる色で表示してもよい。また消去候補として特定された文章に関して他の文章より低い輝度値にて表示してもよい。
【0079】
そしてユーザは携帯端末2100の操作部2106を介して、作成した議事録のうち消去候補として特定していた箇所を消去することが出来る。ここでは
図9Bに示すように「全ての消去候補箇所を消す」というボタン表示902をユーザがタッチすることで、当該指示を受け付ける。すなわち携帯端末2100の操作部2106はユーザによるボタン表示902の選択を受け付け、制御・処理部2102は表示部2105に消去候補として特定していた文章の表示を消去する制御を行う。これにより、
図9Cのように消去する指示をした文章が消去された状態の表示画面が表示される。なお、ユーザは携帯端末2100の操作部2106を介して、消去候補として特定されている表示領域903をタッチすることで、当該タッチした箇所のみの表示を消去することができてもよい。
【0080】
図9Cでは、特定された文章の表示が消去された議事録本文および、ボタン表示904が表示される。なお、
図9Cには特定された文章の表示が消去され、代わりに消去されたことを示す表示(図中“−”)をしているが、これに限られない。すなわち特定された領域に関しては何も表示しなくてもよい。また、
図9Cの例では発話者を表示しているが、発話者の表示も同様に消去してもよい。
【0081】
ここでユーザはボタン表示904をタッチすることによって、表示消去した文章を再度表示させることも出来る。すなわち携帯端末2100の操作部2106はユーザによるボタン表示904の選択を受け付け、制御・処理部2102は表示部2105に消去候補として特定していた文章を再表示する制御を行う。
【0082】
なお、
図9Bでは、消去候補として特定された文章の表示形式を変えて表示する例を示したが、これに限られない。予め消去候補として特定された文章を表示せず、その他の文章のみを表示してもよい。この場合、ユーザが特定のボタン表示領域をタッチすることで、消去候補として特定されていた文章を表示することが出来るようにしてもよい。
【0083】
このように、ステップS4005では、サーバ装置2200の制御・処理部2202は、携帯端末2100が
図9Bのような表示をするための表示コマンドを作成する。
図4BはステップS4005の処理(表示コマンドの作成)の一例を示したフローチャートである。
【0084】
ステップS4010にて表示制御手段3005は、表示コマンド作成の対象となる文章(文字列)について、消去候補となる文章か否かを判断する。ここで、S4004において、特定した消去候補となる文章(文字列)に対してタグ情報が付加されていれば、タグ情報の有無を判断して消去候補となる文章か否かを判断すればよい。
【0085】
そしてステップS4010にて、消去候補となる文章であることが判断された場合、ステップS4011に進み、当該文章に対して、第1の表示形態にて表示する旨のコマンドを作成する。
【0086】
またステップS4010にて、消去候補となる文章ではないことが判断された場合、ステップS4012に進み、第1の表示形態とは異なる表示形態である第2の表示形態にて表示する旨のコマンドを作成する。
【0087】
以上、本実施の形態における議事録作成システムによれば、取得した音声を一度テキスト化した後、テキスト化された文章内の特定単語を検出することで、消去候補となる文章(文字列)を特定する。これにより、一度発話した後でも、過去の発話に遡って消去対象の文字を特定することが出来る。また、取得した音声を一度テキスト化しているので、たとえユーザが特定した消去候補の文章領域と、システムの認識した消去候補の文章領域が異なっていたとしても、後に再表示させることが出来るなど編集が容易である(
図9C)。
【0088】
従来の議事録システムでは特定の発話を検出した場合に音声の取得、もしくは音声認識、テキスト化を停止している。
【0089】
よって、本願のように一度発話してしまった後には消去候補とすることが出来ない。また本実施の形態では、消去候補となる文字列と、そうでない文字列に関して、それぞれ異なる表示形態にて表示している。従来技術では消去候補とした文章自体を確認すること、および一度消去候補と特定した後に再度表示させることは出来ない。
【0090】
なお、ステップS4004における消去候補となる文字列の特定だが、特定単語の直前や直後とは限らない。特定の単語を複数合わせて発話することで、消去候補の文字列を特定してもよい。例えば、「パナソニックを消して」という音声を特定語検出手段3003が検出した場合に、消去文章特定手段3004は、すでにテキスト化した文章(および/または以降にテキスト化した文章)のうち、「パナソニック」という単語全てまたは当該単語が含まれる文章全てを、消去対象の文章として特定してもよい。この場合、特定語検出手段3003は「消して」という単語を消去指示を示す第1特定単語として検出し、当該第1特定単語の直前にある「を」という単語を消去対象を指定するための第2特定単語として検出し、さらに当該第2特定単語の直前にある「パナソニック」という単語を第3特定単語として検出する。これによって、
図8に示した「今の消して」という特定単語を検出したときと、「パナソニックを消して」という特定単語を検出したときの処理を分けることができる。
【0091】
(実施の形態2)
[システムの全体像]
本実施の形態における議事録作成システムでも、
図1A〜
図1Dと同様のシステム構成を採用することができる。よってシステムの全体像については詳細な説明を省略する。ただし、以下の説明は
図1Aのシステムを採用した場合を主に説明していく。
【0092】
[各装置の構成]
図10を用いて、実施の形態2における議事録作成システムにおける各構成を説明する。本実施の形態における議事録作成システムは、携帯端末1010およびサーバ装置2200を含む。ここで、サーバ装置2200に関しては実施の形態1と同様の構成であるので、同様の符号を用いて詳細な説明を省略する。携帯端末1010に関しては実施の形態1にて説明した携帯端末2100と異なる構成を中心に説明する。また、
図10に示す携帯端末1010が備える各構成・手段の一部または全部をサーバ装置2200が備えていてもよいし、サーバ装置2200が備える各構成・手段の一部または全部を携帯端末1010が備えていてもよい。
【0093】
携帯端末1010は、通信部2101、制御・処理部2102、記録部2103、音声取得部2104、表示部2105、操作部2106、音声再生部2107、近接検知部2108、傾き検知部2109、を備える。ここで音声再生部2107、傾き検知部2109に関しては必須の構成ではない。携帯端末1010が、実施の形態1にて説明した携帯端末2100と異なる点は、近接検知部2108、傾き検知部2109を備える点である。以下に近接検知部2108、傾き検知部2109に関して説明する。また、携帯端末1010に関しても、これらの構成を備えるものであれば
図11に示すような、表示端末(スマートフォンなど)に限定するものではない。例えば、人体装着型の端末(ウェアラブル端末)でもよい。人体装着型の端末としては、腕時計型端末(スマートウォッチ)、眼鏡型端末(スマートグラス)または、クリップで衣服に装着したりストラップで首にかけるペンダント型端末などが考えられる。
【0094】
近接検知部2108は、携帯端末1010に近接する物体の有無を検知する。近接検知部2108は、いわゆる近接センサであり、非接触で検出対象が一定以上近づいたか否かを検知する。近接センサには磁界や電磁波、光、音波、などのエネルギー変化を検出するもの(誘導型、静電容量型、超音波型、電磁波型、赤外線型など)があるが、近接検知部2108にはそのいずれを採用してもよい。近接検知部2108が物体の有無を検知する所定の距離については特に限定しない。本実施の形態においては、例えば近接検知部2108から0cm(センチメートル)〜2cm等の、比較的近い距離内における物体の有無を検知することを想定している。
【0095】
図11には、近接検知部2108を備えた携帯端末1010の概観を示す。
図11に示すように、携帯端末1010は、操作部2106aと操作部2106bと近接検知部2108とを備えている。ここで操作部2106aはいわゆるタッチパネルであり、ユーザからのタッチ操作を受け付けることが出来る。また操作部2106bはボタンであり主に携帯端末1010において起動中のアプリケーションを終了させることに使用したり、もしくは起動中のアプリケーションを起動させたまま、待ち受け画面を表示させることに使用する。ここで待ち受け画面とは、携帯端末1010の電源を入れた後に表示されるトップ画面であり、あらゆるアプリケーションの起動を受け付ける状態の画面である。例えば、トップ画面には、単色(例えば、青色、黒色)の背景画像を含む画面が表示されている。
【0096】
トップ画面に含まれる背景画像は、単色の背景画像に限定されるものではない。背景画像は、例えば写真画像(図示せず)、グラフィックス画像(図示せず)を含んでもよい。また、トップ画面は、アイコン画像(図示せず)を含んでもよい。
【0097】
図11に示すように近接検知部2108は、操作部2106aを中心に操作部2106bと対向する位置に配置される。なお近接検知部2108は、
図11に示す位置以外に配置されていてもよい。例えば操作部2106bの付近に配置されていてもよい。
【0098】
傾き検知部2109は、携帯端末1010の傾き(角度)を検知する。傾き検知部2109は携帯端末1010自体の傾きを検知できるものなら何でもよく、慣性センサ(角速度センサ)などを採用することが出来る。
【0099】
以上が実施の形態1と異なる各構成の説明となるが、上記した携帯端末2100およびサーバ装置2200は必ずしも
図10に記載するすべての構成を備えている必要はない。その一部の構成が欠けていてもよい。
【0100】
[制御・処理部の機能構成]
図12には本実施の形態における、携帯端末1010の制御・処理部2102の構成を示す。
【0101】
携帯端末1010の制御・処理部2102は、物体有無取得手段1201と、音声取得制御手段1202と、送信情報制御手段1203と、表示制御手段1204と、端末角度取得手段1205を備える。
【0102】
サーバ装置2200の制御・処理部2202は、音声情報取得手段3001と、音声認識・テキスト統合手段3002と、表示制御手段3005とを備える。なお、制御・処理部2202が備える各機能構成は、実施の形態1にて
図3を用いて説明した各々の構成と同様の機能を有する。
【0103】
以下
図13のシーケンス図を用いて各機能構成を説明する。なお、以下各構成の処理ステップS1301からステップS1317まで説明するが、各ステップは一部順序が前後してもよいものとする。
【0104】
まず、ステップS1301にて携帯端末1010の音声取得部2104は、会議音声を取得する。なお、図示していないがステップS1301の前の段階にて既に、制御・処理部2102の音声取得制御手段1202が、音声取得部2104に対して音声取得を行う旨の指示をしているものとする。
【0105】
そしてステップS1302にて音声取得部2104は取得した音声情報を通信部2101に出力する。ここでステップS1302にて音声取得部2104は取得した音声情報をそのまま通信部2101に出力しているが、一時的なメモリ(図示せず)に保存してから通信部2101に出力することも考えられる。
【0106】
ステップS1303では、通信部2101がインターネットを介して通信部2201に音声情報を送信する。ここでは図示しないが、通信部2101は音声情報を送信するために情報を変換・圧縮していてもよい。また通信部2101が音声情報を通信部2201に送信するタイミングは特に限定しない。所定時間経過ごとに送信してもよいし、所定の情報量が蓄積されるごとに送信してもよい。
【0107】
そしてステップS1304にて通信部2201は、取得した音声情報を制御・処理部2202に出力する。ここで制御・処理部2202は音声情報取得手段3001にて音声情報を取得する。
【0108】
ステップS1305にて制御・処理部2202の音声認識・テキスト統合手段3002は、取得した音声情報に対してそれぞれ音声認識を行い、テキスト化を行う。また、各音声認識したテキストを統合する。そしてステップS1306にて制御・処理部2202の表示制御手段3005は表示コマンドを生成する。
【0109】
次にステップS1307以降にて、携帯端末1010の近接検知部2108が物体の近接を検知した際の処理について説明する。なおステップS1307以降の処理は、必ずしもステップS1301からS1306の処理の後の処理であるとは限らない。
【0110】
携帯端末1010の近接検知部2108にて物体の近接が検知されると、ステップS1307にて、制御・処理部2102の物体有無取得手段1201は物体の存在に関して“有”である旨の情報を取得(検出)する。ここでは例えば、会議中などに議事録として記録したくない内容を発する発話者が、意図的に近接検知部2108を手で覆うなどの動作をしたことで、近接検知部2108が物体の近接を検知した状況が考えられる。
【0111】
そしてステップS1308にて音声取得制御手段1202は、音声取得部2104に対して音声情報の取得を停止する旨の制御信号を出力する。
【0112】
そしてステップS1309にて、音声情報の取得を停止する旨の制御信号を受けた音声取得部2104は、音声の取得を停止する。音声情報を停止している間は通信部2101に音声情報は出力されない(出力する音声情報が無いので)ので、サーバ装置2200に音声情報が送信されることはない。
【0113】
そして、携帯端末1010の近接検知部2108にて物体の近接が検知されなくなった際に、ステップS1310にて制御・処理部2102の物体有無取得手段1201は、物体の存在に関して“無”である旨の情報を取得(検出)する。そしてステップS1311にて音声取得制御手段1202は、音声取得部2104に対して音声情報の取得を開始(再開)する旨の制御信号を出力する。
【0114】
そしてステップS1312にて、音声情報の取得を開始(再開)する旨の制御信号を受けた音声取得部2104は、音声の取得を開始(再開)する。さらに音声取得部2104はステップS1313にて取得した音声情報を通信部2101に出力する。
【0115】
以降ステップS1314〜S1317までの処理はステップS1304〜ステップS1306の処理と同様であるので、説明を省略する。
【0116】
以上のように、携帯端末1010の近接検知部2108が物体の近接を検知している間には、音声取得部2104は音声情報の取得を停止している。よって、会議参加者が議事録に残したくない内容の発話を、記録しない旨の操作を容易に行える。各自が端末(例えばスマートフォン)を持ち寄って各自の発話を取得するシステムにおいて、本実施の形態の方法を用いれば、容易に不必要な箇所を排除した(もしくは必要な箇所のみ記録した)議事録の作成ができる。
【0117】
特許文献2に記載の方法は専用のスイッチを押す方法であるので、それ専用の装置を用意する必要があった。また本実施の形態のように、各自が端末(スマートフォン)を持ち寄って音声を取得し議事録を作成するシステムの場合においては特許文献2の方法を採用することはできない。その理由を以下に記載する。
【0118】
スマートフォンのようにタッチパネル入力式の端末は、物理的なボタン(スイッチ)が少ない。また、このスマートフォンにおける数少ない専用の物理ボタンを押した際には、ホーム画面(待ち受け画面)に戻る仕様になっていることが多い。よって、専用のアプリを起動させた状態でこのボタンを、音声記録オフのスイッチに採用することは考え難い。そこでタッチパネル上の一部の表示領域に仮想的に音声記録オフの機能を有するスイッチを配置することも考えられるが、会議中、特に発話中にスマートフォンのような小さい画面の中の小さいボタン領域をタッチさせることは、会議の妨げに繋がりかねない。タッチパネルでは正しい位置を押したか否かの触感がないので、ユーザは画面を見て正しい位置をタッチすることになる。よってユーザの視界を奪い、会議・発話への集中力を損ねることになり、尚更スムーズな会議の進行を妨げる。
【0119】
この点、本実施の形態の方法では、近接センサ(近接検知部2108)を用いており、端末にユーザが手をかざすだけで、音声記録オフの切り替えができるので、ユーザの発話や会議の進行を妨げることなく必要な箇所のみ議事録として記録することができる。
【0120】
また、携帯端末1010に手をかざすという動作で音声取得部2104の音声取得を停止できるので、ユーザにとっても音声取得を停止するための操作が直感的に分かりやすい。よって操作性のよいユーザインターフェースを提供できる。なお、携帯端末1010が上で説明した人体装着型の端末の際も同様である。特に腕時計型端末(スマートウォッチ)の場合は、端末が小型になり手で覆いやすいため、より操作性のよいユーザインターフェースを提供できる。
【0121】
なお、本実施の形態では近接検知部2108が物体の近接を検知した際に音声の取得を停止し、近接検知部2108が物体の近接を検知していない際に音声の取得を行うように制御しているが、その逆の処理を行ってもよい。すなわち、近接検知部2108が物体の近接を検知した際に音声の取得を行い、近接検知部2108が物体の近接を検知していない際に音声の取得を停止するように制御する。これによれば、より議事録として残す文章を制約することができ、会議において重要な発話のみを議事録として残すことが容易となる。また、物体の近接を検知した際に音声の取得を停止するか否かに関して、ユーザが事前に選択(設定)出来るようにしてもよい。これにより、会議ごとに合った方法で議事録を作成できる。
【0122】
また、物体の近接の判断に際して、近接検知部2108を用いたが、操作部2106aの接触領域を検知することで同様の判断を行ってもよい。すなわち表示部である操作部2106aの面積のうち所定の割合以上の面積に対して接触を検知している場合に、物体が近接していると判断する。これによれば近接検知部2108を設けなくても同様の処理を行うことができる。特に人体装着型の端末である腕時計型端末(スマートウォッチ)などの場合は、装置が小型であるがゆえに多くのセンサを採用することが困難なため、当該手段で判断することが有効となる。
【0123】
次に本実施の形態の第1の変形例について
図14のシーケンス図を用いて説明する。
【0124】
ステップS1301からS1306までは
図13で説明した処理と同様であるので説明を省略する。
【0125】
携帯端末1010の近接検知部2108にて物体の近接が検知されると、ステップS1407にて、制御・処理部2102の物体有無取得手段1201は物体の存在に関して“有”である旨の情報を取得(検出)する。ここでは例えば、会議中などに議事録として記録したくない内容を発する発話者が、意図的に近接検知部2108を手で覆うなどの動作をしたことで、近接検知部2108が物体の近接を検知した状況が考えられる。
【0126】
そしてステップS1408にて、送信情報制御手段1203が、通信部2101に対し音声情報の(サーバ装置2200への)送信を停止する旨の制御信号を出力する。よって、当該制御信号が送信された際には通信部2101は音声取得部2104からの音声出力は継続している状態だが、当間に取得した音声情報は通信部2101にて送信されない状態が続く。
【0127】
そして携帯端末1010の近接検知部2108にて物体の近接が検知されなくなった際に、ステップS1409にて制御・処理部2102の物体有無取得手段1201は、物体の存在に関して“無”である旨の情報を取得(検出)する。そしてステップS1410にて音声取得制御手段1202は、通信部2101に対して音声情報の(サーバ装置2200への)送信を開始(再開)する旨の制御信号を出力する。
【0128】
以降のステップS1411〜S1414は、ステップS1303〜S1306の処理と同様であるのでその説明を省略する。
【0129】
以上
図14に示した本実施の形態の第1の変形例によれば、近接検知部2108によって物体の近接を検知している間には通信部2101が音声情報をサーバ装置2200に送信しない。よって、会議参加者が議事録に残したくない内容の発話を、記録しない旨の操作を容易に行える。
【0130】
また、本変形例によれば、近接検知部2108によって物体の近接を検知している際にも音声取得部2104は音声の取得を継続している。取得した音声に関しては携帯端末1010の記録部2103等に記録しておくようにしてもよい。これにより、近接検知部2108によって物体の近接を検知している間の発話は議事録としては残らないが、当該携帯端末1010には音声情報として残ることになる。よって当該携帯端末1010の保持者は会議後に議事録として残されていない発話を確認することができる。また、携帯端末1010に記録されているが議事録としては記録されていない発話を、再度サーバ装置2200に送信して、議事録を再度生成させるように指示をすることができてもよい。
【0131】
次に本実施の形態の第2の変形例について
図15・
図16を用いて説明する。
【0132】
図15は第2の変形例における携帯端末1010の制御・処理部2102、サーバ装置2200の制御・処理部2202の機能構成の一例を示す図である。
【0133】
携帯端末1010の制御・処理部2102は、物体有無取得手段1401と、送信情報制御手段1403と、表示制御手段1404とを備える。
【0134】
サーバ装置2200の制御・処理部2202は、音声情報取得手段3001と、音声認識・テキスト統合手段3002と、消去文章特定手段3004と、表示制御手段3005とを備える。なお、制御・処理部2202が備える各機能構成は、実施の形態1にて
図3を用いて説明した各々の構成と同様の機能を有する。
【0135】
以下
図16のシーケンス図を用いて各機能構成を説明する。
【0136】
ステップS1301からステップS1306までの処理は
図13に示した処理と同様であるのでその説明を省略する。
【0137】
携帯端末1010の近接検知部2108にて物体の近接が検知されると、ステップS1607にて、制御・処理部2102の物体有無取得手段1401は物体の存在に関して“有”である旨の情報を取得(検出)する。ここでは例えば、会議中などに議事録として記録したくない内容を発する発話者が、意図的に近接検知部2108を手で覆うなどの動作をしたことで、近接検知部2108が物体の近接を検知した状況が考えられる。そしてステップS1608にて、物体の存在に関して“有”である旨の情報が制御・処理部2102から通信部2101に出力される。
【0138】
そしてステップS1609にて送信情報制御手段1403は、音声取得部2104から取得した音声情報と、物体の存在に関して“有”である旨の情報とを、サーバ装置2200の通信部2201に送信する。
【0139】
サーバ装置2200の通信部2201は、音声情報と、物体の存在に関して“有”である旨の情報とを受信したら、ステップS1610にて制御・処理部2202に出力する。
【0140】
制御・処理部2202は音声情報取得手段3001にて通信部2201から音声情報と物体の存在に関して“有”である旨の情報とを取得し、ステップS1611にて音声認識・テキスト統合手段3002にて取得した音声に対して音声認識・テキスト化を行う。
【0141】
そしてステップS1612にて消去文章特定手段3004は、ステップS1611にてテキスト化した文章に対して消去候補の文章である旨のタグ情報を付加しておく。ここで、消去文章特定手段3004は、時刻に関する情報を用いて、テキスト化した文章のうち物体の存在“有”と検出されている時間に該当するテキストを特定する処理を行ってもよい。
【0142】
そしてステップS1613にて制御・処理部2202の表示制御手段3005は表示コマンドを生成する。ここで、表示制御手段3005は、ステップS1612にて消去文章特定手段3004によって、消去候補の文章である旨のタグ情報が付加された文章と、消去候補の文章である旨のタグ情報が付加されていない文章と、をそれぞれ異なる表示形態によって表示する旨の表示コマンドを作成する。
【0143】
ここでステップS1609にて、音声情報と、物体の存在に関して“有”である旨の情報とを受信した場合には、制御・処理部2202にて、音声認識・テキスト統合処理(S1611)、消去文章の特定処理(S1612)、表示コマンド作成処理(S1613)のいずれかもしくは全部の処理を行わない制御をしてもよい。この場合は、ステップS1607にて物体“有”を検出している間に取得した音声情報に関しては、表示コマンドが作成されないことになる。
【0144】
次に携帯端末1010の近接検知部2108にて物体の近接が検知されなくなった際に、ステップ1614にて制御・処理部2102の物体有無取得手段1201は、物体の存在に関して“無”である旨の情報を取得(検出)する。そしてステップS1615にて物体の存在に関して“無”である旨の情報が制御・処理部2102から通信部2101に出力される。
【0145】
そしてステップS1615にて制御・処理部2102の送信情報制御手段1403は、音声取得部2104から取得した音声情報と、物体の存在に関して“無”である旨の情報とを、サーバ装置2200の通信部2201に送信する。
【0146】
サーバ装置2200の通信部2201は、音声情報と、物体の存在に関して“無”である旨の情報とを受信したら、ステップS1617にて制御・処理部2202に出力する。
【0147】
制御・処理部2202は音声情報取得手段3001にて通信部2201から音声情報と物体の存在に関して“無”である旨の情報とを取得し、ステップS1618にて音声認識・テキスト統合手段3002にて取得した音声に対して音声認識・テキスト化を行う。
【0148】
そしてここでは制御・処理部2202は物体の存在に関して“無”である旨の情報を取得しているので、制御・処理部2202の消去文章特定手段3004が消去候補の文章である旨のタグ情報を付加する処理を行わずステップS1619に進む。ステップS1619にて制御・処理部2202の表示制御手段3005は表示コマンドを生成する。
【0149】
以上、第2の変形例にて作成された表示コマンドによれば、実施の形態1にて
図9A〜
図9Cを用いて説明した表示画面を生成することができる。すなわちサーバ装置2200は消去候補の文章を保持しているので、消去候補の文章に関してその他の文章と異なる表示形態にて表示することが可能である。すなわち本変形例においては、実施の形態2にて説明した効果に加えて、実施の形態1に記載した効果と同様の効果が得られる。
【0150】
以下に実施の形態2における携帯端末1010の制御・処理部2102の処理を示すフローチャートを
図17にて説明する。また実施の形態2の第1の変形例における携帯端末1010の制御・処理部2102の処理を示すフローチャートを
図18にて説明する。また実施の形態2の第2の変形例におけるサーバ装置2200の制御・処理部2202の処理を示すフローチャートを
図19にて説明する。また、上記の
図13・
図14・
図16では説明していないが、実施の形態2における第3の変形例および第4の変形例に関する携帯端末1010の制御・処理部2102の処理を示すフローチャートを
図20・
図22にて説明する。
【0151】
[実施の形態2の制御・処理部2102における処理]
図17を用いて以下に説明する。
【0152】
ステップS1701にて、物体有無取得手段1201は、物体の有無を検知する。
【0153】
ステップS1702にて、音声取得制御手段1202は、ステップS1701にて取得した物体検出有無が“有”か否かを判断し、物体有無“有”の場合は、ステップS1703にて音声取得制御手段1202は、音声取得停止信号を音声取得部2104に出力する。
【0154】
一方ステップS1702にて、物体有無が“無”の場合は、ステップS1704にて、音声取得制御手段1202は、音声取得開始信号を音声取得部2104に出力する。
【0155】
ここで、音声取得開始信号および停止信号を出力するタイミングに関しては、物体検出有無に関して変化があった時のみに出力するようにしてもよい。また制御・処理部2102における本処理に関して、制御・処理部2202が行ってもよい。すなわち物体有無の検出から音声取得を停止するか否かの信号をサーバ装置2200が携帯端末1010に送信するようにしてもよい。
【0156】
[実施の形態2の第1の変形例における制御・処理部2102の処理]
図18を用いて以下に説明する。
【0157】
ステップS1701からステップS1702の処理に関しては
図17にて説明した処理と同様なので、説明を省略する。
【0158】
ステップS1702にて、音声取得制御手段1202は、ステップS1701にて取得した物体検出有無が“有”か否かを判断し、物体有無“有”の場合はステップS1803にて、音声取得制御手段1202は、音声情報送信停止信号を通信部2101に出力する。
【0159】
一方ステップS1702にて、物体有無“無”の場合は、ステップS1804にて、音声取得制御手段1202は、音声情報送信開始信号を通信部2101に出力する。
【0160】
ここで、音声情報送信開始信号および停止信号を出力するタイミングに関しては、物体検出有無に関して変化があった時のみに出力するようにしてもよい。また制御・処理部2102における本処理に関して、制御・処理部2202が行ってもよい。すなわち物体有無の検出から音声信号を送信するか否かの信号をサーバ装置2200が携帯端末1010に送信するようにしてもよい。
【0161】
[実施の形態2の第2の変形例における制御・処理部2202の処理]
図19を用いて以下に説明する。
【0162】
ステップS1901にて、音声情報取得手段3001は音声情報および物体有無に関する情報を取得する。
【0163】
ステップS1902にて、音声認識・テキスト統合手段3002は音声認識およびテキスト統合の処理を行う。本処理は
図4Aに示すステップS4003にて説明したとおりである。
【0164】
ステップS1903にて、消去文章特定手段3004は物体存在有無情報が“有”か否かを判断し、“有”の場合はステップS1904に進み、消去候補となる文章(文字列)を特定する。消去候補文章を特定した後にステップS1905に進む。
【0165】
一方ステップS1903にて、消去文章特定手段3004は物体存在有無情報が“有”か否かを判断し、“無”の場合はステップS1905に進む。
【0166】
ステップS1905にて、表示制御手段3005は表示コマンドを作成する。消去候補と特定された文章(文字列)とそうでない文章に関して、異なる表示形態にて表示する旨の表示コマンドを作成する。ステップS1905の処理は
図4Bにて説明したステップS4005の処理と同様である。
【0167】
また制御・処理部2202における本処理に関して、制御・処理部2102が行ってもよい。
【0168】
[実施の形態2の第3の変形例における制御・処理部2102の処理]
図20を用いて以下説明する。なお本変形例では制御・処理部2102は表示制御手段1204を備えている。
【0169】
ステップS1701からステップS1704の処理は
図17にて説明した処理と同様であるので説明を省略する。
【0170】
ステップS1703にて音声取得停止信号を出力した後、ステップS2005にて、表示制御手段1204は、携帯端末1010の背景表示を第1の背景表示にて表示するように制御する。
【0171】
一方ステップS1704にて音声取得開始信号を出力した後には、S2006にて表示制御手段1204は、携帯端末1010の背景表示を第2の背景表示にて表示するように制御する。
【0172】
ここでステップS2005とS2006にて説明した第1の背景表示と第2の背景表示について
図21A、
図21Bを用いて説明する。
【0173】
図21Aは、携帯端末1010における第2の背景表示の一例を示している。第2の背景表示の状態では、物体有無の検出は“無”と検出されている。すなわち音声情報を取得している状態、つまり通常とおりアプリケーションが動作している状態となるので、表示画面も通常とおりの画面が表示されている。通常とおりの画面には、例えば、単色の背景画像が含まれる。
【0174】
そして
図21Bは、携帯端末1010における第1の背景表示の一例を示している。第1の背景表示の状態では、物体有無の検出は“有”と検出されている。すなわち音声情報の取得を停止している状態、つまりユーザが意図的に携帯端末1010の近接検知部2108を覆うなどの動作をしている状態である。第1の背景表示の状態では、第2の背景表示の状態で表示される背景画像とは異なる背景画像が表示される。
【0175】
また、第1の背景表示の状態で表示される背景画像は、第2の背景表示の状態で表示される背景画像と異なる画像であれば、どのようなものであってもよい。
【0176】
本変形例によれば、ユーザが近接検知部2108を手で覆うなどの動作を行った後に、携帯端末1010の背景の表示が変わるので、ユーザは現在音声認識を停止している状態であることを容易に把握することが出来る。特に当該状態では、ユーザは近接検知部2108を覆うつもりで携帯端末1010に手をかざすが、必然的に表示部2105の表示領域のうち多くの領域が手などで覆われている状態となる。よって画面の中央など一部に「現在音声取得を停止中である」などの文字メッセージを表示してもユーザは当該文字メッセージを把握できない。よって、本変形例のように画面全体の背景表示を変化させることで、画面の手で覆われていない一部の領域も表示が変化するので、ユーザが状態を視認することが可能である。
【0177】
なお、ステップS2006の状態では画面がユーザの手で覆われている可能性があるので、第2の背景表示は第1の背景表示よりもユーザの注意を引く表示であることが望ましい。ここで注意を引く表示とは、よりユーザの注意を引く色(赤や黄)であることや、図のようにテクスチャ画像やライン画像などを表示してもよい。また、第2の背景表示に関して第1の背景表示よりも輝度を上げるように表示制御をしてもよい。また第1の背景表示を「何も表示しない」という制御にしてもよい。これによって、より第2の背景表示に変わったときの変化が大きく、ユーザは音声取得の状態変化を把握しやすい。
【0178】
また上述で説明したこととは逆に、第2の背景表示を第1の背景表示よりも目立たない表示や、輝度の低い表示にしてもよい。これによれば、例えば画面を手で覆った際に表示が暗くなるので、システムが運転していない(音声取得を停止している)ことをユーザに連想させることになる。よってよりユーザの感覚により近いユーザーインタフェースを提供できる。
【0179】
なお、本変形例において、ステップS1703やステップS1704を、
図18のステップS1803や、ステップS1804に置き換えてもよい。またステップS1803にて音声情報送信停止信号を出力した場合でも、記録部2103などに取得した音声を記録しておいて、実施の形態1の
図9A〜
図9Cのような表示をしてもよい。
【0180】
[実施の形態2の第4の変形例における制御・処理部2102の処理]
図22を用いて以下に説明する。なお本変形例では、携帯端末1010は傾き検知部2109を備えている。また制御・処理部2102は端末角度取得手段1205を備えている。
【0181】
ステップS2201にて、携帯端末1010の傾き検知部2109は携帯端末の角度を検知する。ここで携帯端末の角度とは、携帯端末1010の表示画面を含む面の水平面に対する角度である。水平面とは、例えば床または地面と平行な面である。例えば表示部2105の表示画面を含む面が水平面と平行である状態では検知される角度は、0度となる。
【0182】
ステップS2202にて、制御・処理部2102の端末角度取得手段1205はステップS1204にて取得した携帯端末1010の角度が略水平であるか否かを検知する。ここで略水平とは、例えば−10度〜+10度の範囲に携帯端末1010の角度が納まっている状態などである。すなわち机の上などに端末が置かれている状態は、水平状態となる。
【0183】
ステップS2202にて、携帯端末1010の角度が略水平であると検知された場合は、ステップS1704に進み、音声取得開始信号が出力される。このステップS1704の処理は上記で説明した処理と同様なので説明を省略する。
【0184】
ステップS2202にて、携帯端末1010の角度が略水平でないと検知された場合は、ステップS1703に進み、音声取得停止信号が出力される。このステップS1703の処理は上記で説明した処理と同様なので説明を省略する。
【0185】
本変形例では、会議などで携帯端末1010を机の上に置いている状態では、略水平と検知されるので、音声取得が行われる。
【0186】
一方、ユーザが携帯端末1010を持ち上げるなどして携帯端末1010の角度が略水平と検知されなくなった際には音声取得が停止される。これによって、ユーザは簡単に音声認識の取得の停止を指示することができ、またその他上記本実施の形態で説明した効果と同様の効果が得られる。
【0187】
なお本実施の形態において、ステップS2202にて携帯端末1010の角度が略水平と検知されたときにステップS1703に進み音声取得停止信号を出力するように制御し、端末角度が略水平でないと検知されたときにステップS1704に進み音声取得開始信号を出力するように制御してもよい。これにより、より必要な発話に絞って議事録を残すことができる。
【0188】
なお、本変形例において、ステップS1703やステップS1704を、
図18のステップS1803や、ステップS1804に置き換えてもよい。またステップS1803にて音声情報送信停止信号を出力した場合でも、記録部2103などに取得した音声を記録しておいて、実施の形態1の
図9A〜
図9Cのような表示をしてもよい。
【0189】
[実施の形態2の第5の変形例における制御・処理部2102の処理]
図23を用いて以下に説明する。なお本変形例では、携帯端末1010は傾き検知部2109を備えている。また制御・処理部2102は端末角度取得手段1205を備えている。
【0190】
ステップS2201およびステップS2202の処理は
図22にて説明した処理と同様であるので説明を省略する。
【0191】
ステップS2202にて端末角度が略水平と判断された場合、ステップS2203にて操作部2106aにて操作受け付けを停止する。たとえば操作部2106aはタッチパネル式の操作部であり、ここではユーザからのタッチ操作があっても動作しないように制御する。
【0192】
ステップS2202にて端末角度が略水平でないと判断された場合、操作部2106aによる操作受け付けを再開する。すなわちユーザからのタッチ操作を検知して動作する状態になる。なお、ステップS2202にて音声取得を開始してもよい。
【0193】
ステップS2303のあとに、ステップS1701からステップS1704に進むが、当該処理は
図17にて説明した処理と同様であるので説明を省略する。
【0194】
以上本変形例では、携帯端末1010が水平状態である場合に操作部2106a(タッチパネル)からの操作を受け付けないような制御を行う。これによりユーザがステップS1701にて携帯端末1010を手で覆うような動作をした際にタッチパネルに触れてしまった場合でもユーザの意図しない誤入力が行われることがない。また、タッチパネル操作を再開したい場合にはユーザが携帯端末1010を持ち上げ端末角度を変えることで再度タッチ操作を行うことができる。
【0195】
以上本実施の形態および、本実施の形態の変形例では、議事録として残したい発話とそうでない発話に関する指示を、ユーザが簡易に行うことが出来るユーザインターフェースを説明した。そのトリガ(入力)として、携帯端末1010が物体の近接を検知したことや、携帯端末1010の角度の変化を用いる例をあげた。またそのトリガによる出力として、音声取得を停止することや、取得した音声のサーバ装置2200への送信を停止することや、サーバ装置2200にて消去文章の特定を行うこと、などの例を説明した。しかし、これらの例に限られるものではない。例えばトリガの別の例としては、表示部2105をタッチすること(操作部2106aが接触を検知していること)などが考えられる。また、出力の例としては、音声認識を停止(開始)することや、音声だけでなく画像(動画)の取得を開始する、などが考えられる。
【0196】
なお、実施の形態1の
図9A〜
図9Cにて、作成した議事録の表示例を説明したが、これに限られない。例えば
図24A、
図24Bのように表示してもよい。
図24A、
図24Bは、携帯端末に表示される表示内容の一例を示す図である。
【0197】
図24A、
図24Bに示す表示例では各会議参加者の発話が時間順に重なって表示されている。ここでは各参加者の会議における位置関係と表示位置が同期している。各参加者の位置関係に関してはユーザが予め入力しておく。または各参加者の携帯端末1010が取得した音声情報を基に、各参加者の位置関係を推定し、位置関係を表示位置に反映させてもよい。
【0198】
また
図24A、
図24Bのように各発話が重なって表示されなくてもよいが、各発話の時間関係が分かるように表示されていることが望ましい。例えば、時間的に後の発話をより明るく表示して、時間的に前の発話を暗く表示するなどの表示方法でもよい。また議事録を閲覧する際に、操作部2106a上のタッチパネルにてピンチアウトやピンチインの操作をすることで、表示したい時刻を変更できてもよい。ピンチインとはタッチパネル上の2点をタッチした状態から、当該2点の距離を縮める操作をすることに該当する。ピンチインの操作をした際には、時間的により後の発話が順次表示されていくことが望ましい。すなわち
図24Aから
図24Bの状態に推移させるためにはピンチインを行えばよい。ピンチアウトとはタッチパネル上の2点をタッチした状態から、当該2点の距離を広げる操作をすることに該当する。ピンチアウトの操作をした際には、時間的により前の発話が順次表示されていくことが望ましい。すなわち
図24Bから
図24Aの状態に推移させるためにはピンチアウトを行えばよい。また同様の動作を上下もしくは左右のフリックを行うことで操作可能であってもよい。フリックとは1点をタッチした状態から異なる位置までタッチしている位置をずらす操作のことである。
【0199】
なお、制御・処理部2102(制御・処理部2202)にて取得した音声の大きさ(音圧レベルの大きさ)を検出して、検出した大きさに基づいて表示する文字の大きさを変更して表示するようにしてもよい。これにより、大きく発話した文章はより大きく表示されるので、後に議事録を見返す際に会議においてより重要な発話を感覚的に特定しやすい。
【0200】
また、取得した音声の大きさ(音圧レベルの大きさ)を検出して、検出した大きさに基づいて表示する色を変化させてもよい。例えば閾値以上大きなレベルを検出した発話に対しては、赤色で表示するなどである。これによってもより重要な発話を特定しやすい。また閾値以下の発話を青色で表示するなどの例も考えられる。このように色わけをして表示することで、発話者の感情を議事録に投影することが出来る。
【0201】
(その他の変形例)
(1)
本開示の表示方法は、取得した音声情報をテキスト化するシステムにおいて、当該テキスト化した文章を表示装置に表示する方法であって、
前記テキスト化した文章内の特定単語を抽出し、
抽出した前記特定単語に基づいて、前記テキスト化した文章のうち表示消去する文字列の候補となる表示消去候補文字列を特定し、
前記テキスト化した文章のうち、前記表示消去候補文字列と、それ以外の文字列とを異なる表示形態で表示する。
【0202】
(2)
また、表示方法において、前記表示消去候補文字列の特定は、
前記システムが保持する前記特定単語と表示消去する文字列との前後関係を管理するテーブルを参照することで、抽出した前記特定単語に応じて前記特定単語の直前の文字列もしくは直後の文字列を、前記表示消去候補文字列として特定してもよい。
【0203】
(3)
また、表示方法において、前記表示消去候補文字列が表示されている際には、前記表示装置を前記表示消去候補文字列の表示を消去するコマンドを受け付ける表示状態に制御するのでもよい。
【0204】
(4)
また、表示方法において、前記表示を消去するコマンドを受け付ける表示状態とは、前記表示装置のうち前記テキスト化された文章が表示されている領域以外の領域に前記表示消去候補文字列を表示消去するためのボタンを表示している状態であってもよい。
【0205】
(5)
また、表示方法において、前記表示を消去するコマンドを受け付ける表示状態とは、前記表示装置のうち前記表示消去候補文字列の周辺表示領域をユーザが指定することで前記表示消去候補文字列を消去可能な状態であってもよい。
【0206】
(6)
また、表示方法において、前記前記表示消去候補文字列の表示における輝度値は、それ以外の文字列の表示よりも輝度値が低いとしてもよい。
【0207】
(7)
本開示の端末装置は、物体の近接を検知する近接検知部と、
音声情報を取得する音声取得部と、
少なくとも前記音声取得部とを制御する制御・処理部と、
を備え、
前記制御部は、所定のシステムを起動させている際には、前記近接検知部が物体の近接を検知している間のみ音声の取得をしないように前記音声取得部を制御する。
【0208】
(8)
また、前記所定のシステムとは、前記音声情報をテキスト化するシステムであってもよい。
【0209】
(9)
本開示の端末装置は、
物体の近接を検知する近接検知部と、
音声情報を取得する音声取得部と、
前記音声取得部が取得した音声情報を外部の装置に送信する通信部と、
少なくとも前記通信部を制御する制御・処理部と、
を備え、
前記制御部は、所定のシステムを起動させている際には、前記近接検知部が物体の近接を検知している間のみ前記通信部が、外部の装置に取得した音声を送らないように制御する。
【0210】
(10)
また、前記所定のシステムとは、前記音声情報をテキスト化するシステムであってもよい。
【0211】
(11)
本開示の端末装置は、
物体の近接を検知する近接検知部と、
音声情報を取得する音声取得部と、
音声情報をテキスト化する外部の装置に前記音声取得部が取得した音声情報を送信する通信部と、
少なくとも前記通信部を制御する制御・処理部と、
を備え、
前記制御部は、所定のシステムを起動させている際には、
前記近接検知部が物体の近接を検知している間は前記音声情報と前記近接検知部が近接を検知している旨の情報とを、
前記近接検知部が物体の近接を検知していない間は、前記音声情報のみを、
前記外部の装置に送信するように前記通信部を制御する。
【0212】
(12)
また、前記所定のシステムとは、前記音声情報をテキスト化するシステムであってもよい。