IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベルフェイス株式会社の特許一覧

特開2022-50312情報処理装置、プログラム及び情報処理方法
<>
  • 特開-情報処理装置、プログラム及び情報処理方法 図1
  • 特開-情報処理装置、プログラム及び情報処理方法 図2
  • 特開-情報処理装置、プログラム及び情報処理方法 図3
  • 特開-情報処理装置、プログラム及び情報処理方法 図4
  • 特開-情報処理装置、プログラム及び情報処理方法 図5
  • 特開-情報処理装置、プログラム及び情報処理方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022050312
(43)【公開日】2022-03-30
(54)【発明の名称】情報処理装置、プログラム及び情報処理方法
(51)【国際特許分類】
   G06Q 10/10 20120101AFI20220323BHJP
   H04N 7/15 20060101ALI20220323BHJP
   G10L 15/10 20060101ALI20220323BHJP
   G10L 15/22 20060101ALI20220323BHJP
   G10L 17/00 20130101ALI20220323BHJP
   G06F 3/01 20060101ALI20220323BHJP
【FI】
G06Q10/10
H04N7/15 150
H04N7/15
G10L15/10 200W
G10L15/22 460Z
G10L17/00 200C
G06F3/01 590
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021118731
(22)【出願日】2021-07-19
(62)【分割の表示】P 2020156000の分割
【原出願日】2020-09-17
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.THUNDERBOLT
(71)【出願人】
【識別番号】515161043
【氏名又は名称】ベルフェイス株式会社
(74)【代理人】
【識別番号】110002789
【氏名又は名称】特許業務法人IPX
(72)【発明者】
【氏名】小林 昭宏
(72)【発明者】
【氏名】加地 大
【テーマコード(参考)】
5C164
5E555
5L049
【Fターム(参考)】
5C164FA09
5C164PA39
5C164PA44
5C164UB82S
5C164UB88S
5C164UB92S
5C164VA07P
5E555AA56
5E555BA02
5E555BA88
5E555BB02
5E555BC17
5E555CA47
5E555CB64
5E555DA01
5E555DB51
5E555EA23
5E555FA00
5L049AA12
(57)【要約】
【課題】面談音声に含まれる特定のキーワードの再生時点を容易に把握可能とする技術を提供すること。
【解決手段】本発明の一態様によれば、情報処理装置が提供される。この情報処理装置は、文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを実行するように構成される。文字情報生成ステップでは、面談の音声データから面談のトークスクリプトを含む文字情報を生成する。抽出ステップでは、文字情報から、キーワードを抽出する。視覚情報生成ステップでは、抽出されたキーワードと、音声データにおけるキーワードが出現した再生時点とが対応付けられた視覚情報を生成する。
【選択図】図1
【特許請求の範囲】
【請求項1】
情報処理装置であって、
文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを実行するように構成され、
前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、
前記抽出ステップでは、前記文字情報から、キーワードを抽出し、
前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データにおける前記キーワードが出現した再生時点とが対応付けられた視覚情報を生成する、
もの。
【請求項2】
請求項1に記載の情報処理装置において、
前記キーワードは、複数のキーワードであり、
前記視覚情報生成ステップでは、前記複数のキーワードの登場順を識別可能な視覚情報を生成する、
もの。
【請求項3】
請求項1又は請求項2に記載の情報処理装置において、
前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データの再生箇所を示すシークバーとが対応付けられた視覚情報を生成する、
もの。
【請求項4】
請求項3に記載の情報処理装置において、
前記視覚情報生成ステップでは、前記シークバーにおける前記キーワードが出現した再生時点を把握可能な位置に、前記再生時点に対応する前記キーワードを含むアイコンを生成する、
もの。
【請求項5】
請求項4に記載の情報処理装置において、
前記アイコンの前記把握可能な位置は、前記シークバーにおける前記キーワードが出現した前記再生時点の上下左右の少なくともいずれかである、
もの。
【請求項6】
請求項1~請求項5の何れか1つに記載の情報処理装置において、
前記面談は、第1のユーザと、第2のユーザとによって実施され、
前記文字情報生成ステップでは、前記音声データから前記第1のユーザのトークスクリプトを含む第1の文字情報と、前記第2のユーザのトークスクリプトを含む第2の文字情報とを生成し、
前記抽出ステップでは、前記第1の文字情報から、前記キーワードを抽出する、
もの。
【請求項7】
請求項6に記載の情報処理装置において、
識別ステップをさらに実行するように構成され、
前記識別ステップでは、前記音声データに対して音声認識処理を実行し、前記音声データに含まれる前記第1のユーザによる音声と、前記第2のユーザによる音声とを識別し、
前記文字情報生成ステップでは、
前記第1のユーザによる音声から、前記第1の文字情報を生成し、
前記第2のユーザによる音声から、前記第2の文字情報を生成する、
もの。
【請求項8】
請求項6に記載の情報処理装置において、
受付ステップと、面談音声生成ステップとをさらに実行するように構成され、
前記受付ステップでは、前記第1のユーザによる第1の音声データと、前記第2のユーザによる第2の音声データとをそれぞれ受け付け、
前記面談音声生成ステップでは、前記第1の音声データと、前記第2の音声データとを識別可能に含む前記音声データを生成する、
もの。
【請求項9】
請求項6~請求項8の何れか1つに記載の情報処理装置において、
前記第1のユーザは営業担当者であり、前記第2のユーザは顧客であり、
前記音声データは、前記営業担当者と前記顧客との商談を含む、
もの。
【請求項10】
請求項1~請求項9の何れか1つに記載の情報処理装置において、
前記キーワードは、単位である、
もの。
【請求項11】
請求項1~請求項10の何れか1つに記載の情報処理装置において、
前記キーワードは、通貨である、
もの。
【請求項12】
プログラムであって、
コンピュータに、請求項1~請求項11の何れか1つに記載の情報処理装置の各ステップを実行させる、
もの。
【請求項13】
情報処理方法であって、
文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを備え、
前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、
前記抽出ステップでは、前記文字情報から、キーワードを抽出し、
前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データにおける前記キーワードが出現した再生時点とが対応付けられた視覚情報を生成する、
方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、プログラム及び情報処理方法に関する。
【背景技術】
【0002】
近年、オンライン上で面談を行いたいという要求がある。また、面談後に面談内容を確認したい場合には、面談内容を録音して記録に残しておくことがある。特許文献1には、面談内容を録音することができる遠隔会議支援システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2013-26706号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、面談音声を再生する際、ユーザは、参加者が特定のキーワードを用いて会話していた再生時点を確認したい場合がある。しかしながら、ユーザが面談時の会話内容を覚えていない場合、特定のキーワードが用いられた再生時点を即座に把握することは困難である。
【0005】
本発明では上記事情を鑑み、面談音声に含まれる特定のキーワードの再生時点を容易に把握可能とする技術を提供することとした。
【課題を解決するための手段】
【0006】
本発明の一態様によれば、情報処理装置が提供される。この情報処理装置は、文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを実行するように構成される。文字情報生成ステップでは、面談の音声データから面談のトークスクリプトを含む文字情報を生成する。抽出ステップでは、文字情報から、キーワードを抽出する。視覚情報生成ステップでは、抽出されたキーワードと、音声データにおけるキーワードが出現した再生時点とが対応付けられた視覚情報を生成する。
【0007】
これにより、ユーザは、面談音声に含まれる特定のキーワードの再生時点を容易に把握することができる。
【図面の簡単な説明】
【0008】
図1】本実施形態に係るシステム1の構成概要を示す図である。
図2】情報処理装置3のハードウェア構成を示すブロック図である。
図3】情報処理装置3の機能を示す機能ブロック図である。
図4】情報処理装置3による情報処理の一例を示すアクティビティ図である。
図5】音声再生端末2の表示部に表示されるGUIの一例を示す図である。
図6】情報処理装置3による情報処理の一例を示すアクティビティ図である。
【発明を実施するための形態】
【0009】
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
【0010】
ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。
【0011】
また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。
【0012】
また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
【0013】
1.ハードウェア構成
本節では、本実施形態のハードウェア構成について説明する。図1は、本実施形態に係るシステム1の構成概要を示す図である。
【0014】
1.1 システム1
システム1は、音声再生端末2と、情報処理装置3と、第1のユーザ端末4と、第2のユーザ端末5とを備え、これらが電気通信回線を通じて通信可能に構成される。
【0015】
1.2 音声再生端末2
音声再生端末2は、面談の音声データを再生する者が操作するものであり、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置3にアクセス可能なものであれば、その形態は問わない。
【0016】
音声再生端末2は、表示部と、入力部と、通信部と、記憶部と、制御部とを有し、これらの構成要素が音声再生端末2の内部において通信バスを介して電気的に接続されている。
【0017】
表示部及び入力部は、例えば、音声再生端末2の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部は、ユーザが操作可能なグラフィカルユーザインターフェース(Graphical User Interface:GUI)の画面を表示する。入力部は、表示部と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、QWERTYキーボード等を採用してもよい。
【0018】
通信部、記憶部及び制御部の具体的な説明については、次に説明する情報処理装置3における通信部31、記憶部32及び制御部33の記載を参照されたい。
【0019】
1.3 情報処理装置3
図2は、情報処理装置3のハードウェア構成を示すブロック図である。情報処理装置3は、通信部31と、記憶部32と、制御部33とを有し、これらの構成要素が情報処理装置3の内部において通信バス30を介して電気的に接続されている。各構成要素についてさらに説明する。
【0020】
(通信部31)
通信部31は、USB、IEEE1394、Thunderbolt、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、LTE/3G等のモバイル通信、Bluetooth(登録商標)通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。
【0021】
(記憶部32)
記憶部32は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部33によって実行される情報処理装置3に係る種々のプログラム等を記憶するソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。また、これらの組合せであってもよい。
【0022】
特に、記憶部32は、面談の音声データ、文字情報6、抽出部335に抽出されたキーワード60等を記憶する。面談の音声データとは、複数の者(例えば、第1のユーザ4aと、第2のユーザ5a)によって実施された面談に係る音声データである。ここで、面談とは、例えば、ネットワークを介して行われた商談、打ち合わせ、面接、会議、講習会、授業等であるが、これらに限られず、インターネットを介して複数のユーザが画面及び音声を介してやり取りを行うものは面談に含まれる。面談は、1対1に限らず、1対多、多対1、多対多であってもよい。なお、音声データは、動画データに含まれるものであってもよく、音声データは、動画データとして記憶部32に記憶されていてもよい。本実施形態では、音声データは、営業担当者である第1のユーザ4aと、顧客である第2のユーザ5aとの商談に係るものである場合を例に説明するが、これに限定されるものではない。商談以外にも、面談を行うものであれば適用可能である。
【0023】
(制御部33)
制御部33は、情報処理装置3に関連する全体動作の処理・制御を行う。制御部33は、例えば不図示の中央処理装置(Central Processing Unit:CPU)である。制御部33は、記憶部32に記憶された所定のプログラムを読み出すことによって、情報処理装置3に係る種々の機能を実現する。すなわち、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部(図3参照)として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部33は単一であることに限定されず、機能ごとに複数の制御部33を有するように実施してもよい。またそれらの組合せであってもよい。
【0024】
1.4 第1のユーザ端末4
第1のユーザ端末4は、第1のユーザ4aが操作するものであり、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置3にアクセス可能なものであれば、その形態は問わない。第1のユーザ4aは、面談の参加者であり、例えば、商品又はサービスを販売する営業担当者、採用面接を受ける者、講習会又は授業を行う講師等である。なお、第1のユーザ端末4及び第1のユーザ端末4を操作する第1のユーザ4aは複数でもよい。
【0025】
第1のユーザ端末4は、表示部と、入力部と、通信部と、記憶部と、制御部とを有し、これらの構成要素が外部の第1のユーザ端末4の内部において通信バスを介して電気的に接続されている。各構成要素の説明は音声再生端末2及び情報処理装置3の記載を参照されたい。
【0026】
1.5 第2のユーザ端末5
第2のユーザ端末5は、第2のユーザ5aが操作するものであり、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置3にアクセス可能なものであれば、その形態は問わない。第2のユーザ5aは、面談の参加者であり、例えば、第1のユーザ4aの顧客、採用面接官、講習会又は講義の受講者等である。なお、第2のユーザ端末5及び第2のユーザ端末5を操作する第2のユーザ5aは複数でもよい。
【0027】
第2のユーザ端末5は、表示部と、入力部と、通信部と、記憶部と、制御部とを有し、これらの構成要素が第2のユーザ端末5の内部において通信バスを介して電気的に接続されている。各構成要素の説明は音声再生端末2及び情報処理装置3の記載を参照されたい。
【0028】
2.機能構成
本節では、本実施形態の機能構成について説明する。図3は、情報処理装置3の機能を示す機能ブロック図である。前述の通り、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部として実行されうる。
【0029】
具体的には、情報処理装置3(制御部33)は、各機能部として、受付部331と、識別部332と、面談音声生成部333と、文字情報生成部334、抽出部335と、視覚情報生成部336とを備える。
【0030】
(受付部331)
受付部331は、受付ステップを実行する。受付部331は、通信部31又は記憶部32を介して情報を受け付け、これを作業メモリに読出可能に構成される。特に、受付部331は、第1のユーザ端末4と、第2のユーザ端末5とからネットワーク及び通信部31を介して種々の情報(例えば、音声データ又は音声データを含む動画データ)を受け付けるように構成される。本実施形態では、受付部331が受け付けた種々の情報は、記憶部32に記憶され、作業メモリに読出可能に構成される例を説明する。
【0031】
(識別部332)
識別部332は、識別ステップを実行する。識別部332は、音声データに対して音声認識処理を実行し、音声データに含まれる第1のユーザ4aによる音声と、第2のユーザ5aによる音声とを識別する。識別された第1のユーザ4aによる音声及び第2のユーザ5aによる音声は、それぞれ記憶部32に記憶され、作業メモリに読出可能に構成される。認識のアルゴリズムは特に限定されず、例えば、機械学習ベースの自然言語処理を用いたアルゴリズム等が適宜採用されうる。
【0032】
(面談音声生成部333)
面談音声生成部333は、面談音声生成ステップを実行する。面談音声生成部333は、第1の音声データと、第2の音声データとを識別可能に含む音声データを生成する。面談音声生成部333により生成された音声データは、記憶部32に記憶され、作業メモリに読出可能に構成される。
【0033】
(文字情報生成部334)
文字情報生成部334は、文字情報生成ステップを実行する。文字情報生成部334は、記憶部32に記憶された音声データから文字情報6を生成し、音声再生端末2等の表示部に文字情報6を表示させるように制御する。あるいは、文字情報生成部334は、文字情報6を音声再生端末2等の表示部に表示させるためのレンダリング情報だけを生成してもよい。文字情報生成部334によって生成された文字情報6は、音声データと関連付けられて記憶部32に記憶され、作業メモリに読出可能に構成される。
【0034】
(抽出部335)
抽出部335は、抽出ステップを実行する。抽出部335は、文字情報6から、キーワード60を抽出する。なお、抽出部335が抽出するキーワード60は、予め設定可能であり、かかる設定は記憶部32に記憶される。
【0035】
(視覚情報生成部336)
視覚情報生成部336は、視覚情報7生成ステップを実行する。視覚情報生成部336は、記憶部32に記憶された種々の情報(例えば、アイコン70)又はこれらを含む画面、画像、等の視覚情報7を生成し、音声再生端末2等の表示部に視覚情報7を表示させるように制御する。あるいは、視覚情報生成部336は、前記視覚情報7を音声再生端末2等の表示部に表示させるためのレンダリング情報だけを生成してもよい。視覚情報生成部336によって生成された視覚情報7は、記憶部32に記憶され、作業メモリに読出可能に構成される。
【0036】
3.情報処理の詳細
本節では、アクティビティ図を参照しながら、前述した情報処理装置3の情報処理について説明する。図4は、情報処理装置3による情報処理の一例を示すアクティビティ図である。
【0037】
3.1 音声データが情報処理装置3に予め記憶されている場合
本節では、音声データが情報処理装置3に予め記憶されている場合の情報処理を説明する。
【0038】
まず、受付部331は、情報処理装置3の記憶部32に記憶された音声データを作業メモリに読み出す(A101)。第1のユーザ4aによる第1の音声データと、第2のユーザ5aによる第2の音声データとを識別する場合、A102に進み、前記識別を行わない場合、A103に進む。
【0039】
A102では、識別部332は、音声データに対して音声認識処理を実行し、音声データに含まれる第1のユーザ4aによる音声と、第2のユーザ5aによる音声とを識別する。ここで、識別部332は、音声データの波形に基づき、面談における話者(例えば、営業担当者である第1のユーザ4aか、顧客である第2のユーザ5aか)を識別する。さらに、識別部332は、第1のユーザ4a及び/又は第2のユーザ5aの声の周波数等の物理量を記憶しておき、記憶されているデータと、音声データとを比較し、第1のユーザ4a及び/又は第2のユーザ5aを特定し、話者を識別してもよい。さらに他の例として、識別部332は、第1のユーザ4a及び/又は第2のユーザ5aが面談にて話しそうな内容を予め学習させた学習済みモデルに音声データを入力し、その音声データが第1のユーザ4aか、第2のユーザ5aかの出力に基づき、話者を識別してもよい。識別された音声は、それぞれ記憶部32に記憶される。
【0040】
続いて、文字情報生成部334は、面談の音声データから面談のトークスクリプトを含む文字情報6を生成する(A103)。図5は、音声再生端末2の表示部に表示されるGUIの一例を示す図である。図5に示されるように、文字情報生成部334は、第1のユーザ4a及び第2のユーザ5aによる面談の音声データから、それぞれのユーザが話した内容を示すトークスクリプトを含む文字情報6を生成する。
【0041】
音声データ又は音声データに含まれる音声が識別されることにより、第1の文字情報61及び第2の文字情報62が生成された場合、第1の文字情報61及び第2の文字情報62が区別可能な態様で音声再生端末2の表示部に表示される。具体的には、読み出された音声データが、第1の音声データと、第2の音声データとを識別可能なデータ構造を有している場合、文字情報生成部334は、第1のユーザ4aによる音声に係る音声データから第1のユーザ4aのトークスクリプトを含む第1の文字情報61を生成する。また、文字情報生成部334は、第2のユーザ5aによる音声に係る音声データから第2のユーザ5aのトークスクリプトを含む第2の文字情報62を生成する。
【0042】
また、識別部332によって音声データが第1のユーザ4aによる音声と、第2のユーザ5aによる音声とに識別されている場合、文字情報生成部334は、第1のユーザ4aによる音声から、第1のユーザ4aのトークスクリプトを含む第1の文字情報61を生成し、文字情報生成部334は、第2のユーザ5aによる音声から、第2のユーザ5aのトークスクリプトを含む第2の文字情報62を生成する。
【0043】
次に、抽出部335は、文字情報6から、キーワード60を抽出する(A104)。ここで、キーワード60は、例えば、日時情報、顧客情報(氏名、会社名、部署名、年齢、性別等)、商品又はサービスに関する情報等(商品名、商品の金額、商品数等)である。また、例えば、キーワード60は、単位であり、通貨であることが好ましいが、これに限定されない。また、抽出部335が抽出するキーワード60は、複数のキーワード60であってもよい。図5の例によれば、第1のユーザ4aのトークスクリプトに含まれる日本通貨の「円」がキーワード60として抽出される。なお、金額を含む「4000円」がキーワード60として抽出されてもよい。また、予め定められた設定により、一定金額以上のみが抽出されてもよく、抽出するキーワード60は、複数種類でもよい。抽出されたキーワード60は、記憶部32に記憶される。
【0044】
特に、音声データの識別が行われた場合、抽出部335は、第1の文字情報61から、キーワード60のみを抽出することが好ましい。このような構成により、第1のユーザ4aに係る音声データに含まれるキーワード60のみが抽出され、後述する視覚情報7が表示された際、面談音声を再生する者は、営業担当者の発言に係るキーワード60と、そのキーワード60が出現した再生時点のみを把握することができる。
【0045】
次に、A105において、視覚情報生成部336は、抽出されたキーワード60と、音声データにおけるキーワード60が出現した再生時点とが対応付けられた視覚情報7を生成する。具体的には、視覚情報生成部336は、抽出されたキーワード60と、音声データの再生箇所を示すシークバー71とが対応付けられた視覚情報7を生成する。このとき、第1の文字情報61に含まれるキーワード60のみが抽出されている場合、第1のユーザ4aの発言に含まれる特定のキーワード60に係る視覚情報7のみが生成されることとなる。このように、キーワード60と、シークバー71におけるキーワード60が出現した再生時点とが紐付けられた態様の視覚情報7が生成されことで、音声データを再生する者は、面談音声における特定のキーワード60の再生時点を即座に把握可能となる。
【0046】
ここで、視覚情報7は、例えば、キーワード60に紐付けられたものであることが識別可能なアイコン70である。例えば、視覚情報生成部336は、シークバー71におけるキーワード60が出現した再生時点を把握可能な位置に、再生時点に対応するキーワード60を含むアイコン70を生成する。図5に示されるように、視覚情報生成部336は、アイコン70の中に、抽出したキーワード60が含まれるように視覚情報7を生成する。ここで、アイコン70の把握可能な位置とは、例えば、シークバー71におけるキーワード60が出現した再生時点の上下左右の少なくともいずれかであることが好ましい。ここで、前記上下左右には、前記再生時点の右上、右下、左上、左下が含まれる。このような位置に併記されていることで、音声データを再生する者は、キーワード60が出現する再生時点を直感的に把握することができる。図5に示される例では、アイコン70は、第1の文字情報61から抽出されたキーワード60である「円」を含む。なお、アイコン70にキーワード60が含まれなくてもよい。
【0047】
また、視覚情報生成部336は、複数のキーワード60の登場順を識別可能な視覚情報7を生成することが好ましい。図5に示されるように、複数のキーワード60が抽出された場合、キーワード60が出現した音声データの再生時点の早い順番で、アイコン701と、アイコン702と、アイコン703とが並べて表示されるように、視覚情報生成部336は、それぞれのアイコン70を生成することが好ましい。このような構成により、面談音声を再生する者が、面談音声に含まれる特定のキーワード60を確認する際、面談音声中のどんなタイミングで、どれくらい数の特定のキーワード60が出現したのかを直感的に把握可能となる。
【0048】
3.2 第1のユーザ端末4及び第2のユーザ端末5から音声データを受け付ける場合
本節では、音声データを第1のユーザ端末4及び第2のユーザ端末5から受け付ける場合の情報処理を説明する。図6は、情報処理装置3による情報処理の一例を示すアクティビティ図である。
【0049】
受付部331は、第1のユーザ4aによる第1の音声データと、第2のユーザ5aによる第2の音声データとをそれぞれ受け付ける(A201)。具体的には、受付部331は、通信部31を介して、第1のユーザ端末4から送信された第1の音声データ及び第2のユーザ端末5から送信された第2の音声データを区別して受け付け、これらが記憶部32に記憶される。発信元である端末が既知であるため、このように、はじめから第1の音声データと、第2の音声データとを区別して受け付けることができる。
【0050】
続いて、A202において、面談音声生成部333は、第1の音声データと、第2の音声データとを識別可能に含む音声データを生成する。具体的には例えば、音声データのヘッダ情報等に、再生時間と第1の音声データ又は第2の音声データである旨とを紐付けた記載を含むように実施すればよい。
【0051】
A203において、文字情報生成部334は、第1の音声データから第1のユーザ4aのトークスクリプトを含む第1の文字情報61を生成し、第2の音声データに係る音声データから第2のユーザ5aのトークスクリプトを含む第2の文字情報62を生成する。
【0052】
続いて、抽出部335は、第1の文字情報61から、キーワード60を抽出する(A204)。
【0053】
その後、視覚情報生成部336は、抽出されたキーワード60と、音声データにおけるキーワード60が出現した再生時点とが対応付けられた視覚情報7を生成する(A205)。なお、視覚情報7に係る説明は、3.1節における記載を参照されたい。
【0054】
このような情報処理により、第1のユーザ4aによる音声と、第2のユーザ5aによる音声とを識別可能な形式の音声データであっても、音声データが情報処理装置3に予め記憶されている場合と同様、視覚情報7が生成される。
【0055】
上記に示されるように、本実施形態によれば、営業担当者と顧客とで行われた面談において、面談音声におけるどの再生時点で、特定のキーワード60が、使用されているのかを表示させることができる。これにより、面談音声を再生する者は、営業成績がよい担当者がどのようなキーワード60をどんなタイミングで使っているのか把握することが可能となる等、面談音声を他の営業担当者の教育等に用いることができる。
【0056】
4.その他
本実施形態に係るシステム1に関して、以下のような態様を採用してもよい。
【0057】
(1-1)視覚情報生成部336は、抽出されたキーワード60によって、表示態様が異なるように視覚情報7を生成してもよい。例えば、抽出されたキーワード60が通貨である場合、キーワード60の金額によって、色又は大きさが異なる視覚情報7を生成してもよい。また、例えば、抽出されたキーワード60が、顧客情報であるか、商品の金額であるかによって、表示態様が異なるように視覚情報7を生成してもよい。
(1-2)抽出されたキーワード60が通貨である場合、視覚情報生成部336は、金額の大きいキーワード60に係るアイコン70は、他のアイコン70とは異なる表示態様となるように生成してもよい。例えば、視覚情報生成部336は、抽出されたキーワード60の中で、最も大きな金額に係るアイコン70については、最も大きく表示させるように制御し、他のアイコン70とは異なる色で表示させるように制御する。また、例えば、視覚情報生成部336は、キーワード60の金額が大きいほど、目立つようにアイコン70を生成する。具体的には、抽出したキーワード60に、1,000円と、10,000円とが含まれる場合、10,000円に係る視覚情報7の方が、より大きくなるように視覚情報7を生成する。例えば、アイコン702が10,000円に係る視覚情報7であり、アイコン703が1,000円に係る視覚情報7である場合、図5で示されるように、アイコン702が、アイコン703よりも大きく表示される。
(1-3)アイコン70の中に、抽出したキーワード60が含まれる場合、視覚情報生成部336は、金額の大きなキーワード60については、アイコン70に含まれる他のキーワード60よりも大きい文字又は太字で表示させるように制御する。図5の例では、アイコン702が、アイコン703よりも大きい文字で表示される。
(1-4)視覚情報生成部336は、第1の文字情報61及び第2の文字情報62からキーワード60が抽出されている場合、第1の文字情報61から抽出されたものであるか、第2の文字情報62から抽出されたものであるかによって、表示態様が異なるように視覚情報7を生成してもよい。例えば、第1の文字情報61から抽出されたキーワード60に係る視覚情報7は青色で表示させ、第2の文字情報62から抽出されたキーワード60に係る視覚情報7は赤色で表示させるように制御してもよい。
(2)第1の文字情報61と、第2の文字情報62とが識別されている場合、第2の文字情報62から、キーワード60のみが抽出されてもよい。これにより、第2のユーザ5aによる発言に含まれるキーワード60と、前記キーワード60に対応する音声データの再生時点のみが把握可能となり、面談音声を再生する者は、顧客がどのようなキーワード60をどんなタイミングで使っているのか把握することが可能となる等、面談音声を他の営業担当者の教育等に用いることができる。
(3)情報処理装置3は、コンピュータに専用プログラムがインストールされることによって実施されてもよい。
(4)本実施形態の態様は、プログラムであってもよい。プログラムは、コンピュータに、情報処理装置3の各ステップを実行させる。
(5)本実施形態の態様は、情報処理方法であってもよい。情報処理方法は、文字情報生成ステップ、抽出ステップと、視覚情報生成ステップとを備える。文字情報生成ステップでは、面談の音声データから面談のトークスクリプトを含む文字情報6を生成する。抽出ステップでは、文字情報6から、キーワード60を抽出する。視覚情報生成ステップでは、抽出されたキーワード60と、音声データにおけるキーワード60が出現した再生時点とが対応付けられた視覚情報7を生成する。
【0058】
さらに、次に記載の各態様で提供されてもよい。
前記情報処理装置において、前記キーワードは、複数のキーワードであり、前記視覚情報生成ステップでは、前記複数のキーワードの登場順を識別可能な視覚情報を生成する、もの。
前記情報処理装置において、前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データの再生箇所を示すシークバーとが対応付けられた視覚情報を生成する、もの。
前記情報処理装置において、前記視覚情報生成ステップでは、前記シークバーにおける前記キーワードが出現した再生時点を把握可能な位置に、前記再生時点に対応する前記キーワードを含むアイコンを生成する、もの。
前記情報処理装置において、前記アイコンの前記把握可能な位置は、前記シークバーにおける前記キーワードが出現した前記再生時点の上下左右の少なくともいずれかである、もの。
前記情報処理装置において、前記面談は、第1のユーザと、第2のユーザとによって実施され、前記文字情報生成ステップでは、前記音声データから前記第1のユーザのトークスクリプトを含む第1の文字情報と、前記第2のユーザのトークスクリプトを含む第2の文字情報とを生成し、前記抽出ステップでは、前記第1の文字情報から、前記キーワードを抽出する、もの。
前記情報処理装置において、識別ステップをさらに実行するように構成され、前記識別ステップでは、前記音声データに対して音声認識処理を実行し、前記音声データに含まれる前記第1のユーザによる音声と、前記第2のユーザによる音声とを識別し、前記文字情報生成ステップでは、前記第1のユーザによる音声から、前記第1の文字情報を生成し、前記第2のユーザによる音声から、前記第2の文字情報を生成する、もの。
前記情報処理装置において、受付ステップと、面談音声生成ステップとをさらに実行するように構成され、前記受付ステップでは、前記第1のユーザによる第1の音声データと、前記第2のユーザによる第2の音声データとをそれぞれ受け付け、前記面談音声生成ステップでは、前記第1の音声データと、前記第2の音声データとを識別可能に含む前記音声データを生成する、もの。
前記情報処理装置において、前記第1のユーザは営業担当者であり、前記第2のユーザは顧客であり、前記音声データは、前記営業担当者と前記顧客との商談を含む、もの。
前記情報処理装置において、前記キーワードは、単位である、もの。
前記情報処理装置において、前記キーワードは、通貨である、もの。
プログラムであって、コンピュータに、前記情報処理装置の各ステップを実行させる、もの。
情報処理方法であって、文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを備え、前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、前記抽出ステップでは、前記文字情報から、キーワードを抽出し、前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データにおける前記キーワードが出現した再生時点とが対応付けられた視覚情報を生成する、方法。
もちろん、この限りではない。
【0059】
最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0060】
1 :システム
2 :音声再生端末
3 :情報処理装置
30 :通信バス
31 :通信部
32 :記憶部
33 :制御部
331 :受付部
332 :識別部
333 :面談音声生成部
334 :文字情報生成部
335 :抽出部
336 :視覚情報生成部
4 :第1のユーザ端末
4a :第1のユーザ
5 :第2のユーザ端末
5a :第2のユーザ
6 :文字情報
60 :キーワード
61 :第1の文字情報
62 :第2の文字情報
7 :視覚情報
70 :アイコン
71 :シークバー
701 :アイコン
702 :アイコン
703 :アイコン
図1
図2
図3
図4
図5
図6
【手続補正書】
【提出日】2021-08-04
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
情報処理装置であって、
文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを実行するように構成され、
前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、
前記抽出ステップでは、前記文字情報から、金額に関するキーワードを抽出し、
前記視覚情報生成ステップでは、前記金額に応じて表示態様が異なるように、前記キーワードを示すアイコンを生成する、もの。
【請求項2】
請求項1に記載の情報処理装置において、
前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データの再生箇所を示すシークバーとが対応付けられた態様で、前記アイコンを生成する、もの。
【請求項3】
請求項に記載の情報処理装置において、
前記視覚情報生成ステップでは、前記シークバーにおける前記キーワードが出現した再生時点を把握可能な位置に、前記再生時点に対応する前記キーワードを示すアイコンを生成する、もの。
【請求項4】
請求項1~請求項の何れか1つに記載の情報処理装置において、
前記キーワードは、前記金額の単位である、もの。
【請求項5】
請求項1~請求項4の何れか1つに記載の情報処理装置において、
前記視覚情報生成ステップでは、前記金額が一定以上の場合に前記アイコンを生成する、もの
【請求項6】
請求項1~請求項5の何れか1つに記載の情報処理装置において、
前記視覚情報生成ステップでは、前記金額に応じて表示の大きさ又は色が異なるように、前記キーワードを示すアイコンを生成する、もの
【請求項7】
請求項1~請求項6の何れか1つに記載の情報処理装置において、
前記面談は、2人以上のユーザによって実施され、
前記視覚情報生成ステップでは、前記ユーザごとに表示態様が異なるように、前記キーワードを示すアイコンを生成する、もの
【請求項8】
プログラムであって、
コンピュータに、請求項1~請求項の何れか1つに記載の情報処理装置の各ステップを実行させる、もの。
【請求項9】
情報処理方法であって、
請求項1~請求項7の何れか1つに記載の情報処理装置の各ステップを備える、方法。