(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記特許文献2に記載の技術では、ユーザは、過去の通話の内容を、要約文を閲覧して把握することになるが、要約文といえども、ある程度の長さを有するため、内容把握のために時間を要する。
【0006】
以上のような事情に鑑み、本技術の目的は、検索された音声情報の内容をより容易に把握させることが可能な情報処理装置、情報処理方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上述の課題を解決するため、本技術の一形態に係る情報処理装置は、表示部と、入力部と、制御部とを有する。上記入力部は、ユーザから第1のキーワードの入力を受け付ける。上記制御部は、複数の音声情報からそれぞれ音声認識処理により変換された複数の文字情報を記憶するデータベースから、上記入力された第1のキーワードを含む第1の文字情報を検索する。また制御部は、上記検索により取得された第1の文字情報に含まれる、上記第1のキーワードとは異なる第2のキーワードを抽出する。さらに制御部は、上記取得された第1の文字情報を識別する第1の識別情報と、当該第1の文字情報に含まれる上記第2のキーワードとを含む項目の一覧を表示するように上記表示部を制御する。
【0008】
この構成により、情報処理装置は、ユーザから入力されたキーワードを含む音声情報を検索してその検索結果の一覧を表示する際に、当該音声情報に含まれる他のキーワードを併せて表示することで、検索された音声情報の内容を容易に把握させることができる。これは、表示部の表示領域が小さく、検索結果として、音声情報の内容を文字情報として全て表示できない場合に有効である。ここで上記第1のキーワードは、文字列として入力されてもよいし、音声として入力されてもよい。また音声情報とは、例えば音声通話を記録した情報であるが、これに限られず、ビデオコンテンツに含まれる音声データであってもよい。また識別情報とは、例えば音声通話の相手先の名前や電話番号、通話日時等であるが、これらに限られない。また上記データベースは、当該情報処理装置内部に存在していてもよいし、ネットワーク上等の外部に(例えばサーバとして)存在していてもよい。すなわち、上記検索処理は、情報処理装置の内部のデータベースを自身で検索する場合と、外部のデータベース(サーバ)へ検索を要求してその結果を受信する場合とを含む。
【0009】
上記制御部は、上記表示された項目に含まれる上記第2のキーワードを選択する上記ユーザの操作が受け付けられた場合に、上記データベースから、当該第2のキーワードを含む第2の文字情報を検索してもよい。また制御部は、上記検索により取得された第2の文字情報に含まれる、上記第2のキーワードとは異なる第3のキーワードを抽出してもよい。さらに制御部は、上記取得された第2の文字情報を識別する第2の識別情報と、当該第2の文字情報に含まれる上記第3のキーワードとを含む項目の一覧を表示するように上記表示部を制御してもよい。
【0010】
これにより情報処理装置は、ユーザにより入力された文字列を基に検索された音声情報に含まれる別の文字列をキーにして他の音声情報を検索することで、ユーザの興味のある音声情報を連鎖的に検索してその内容を把握させることができる。
【0011】
上記データベースには、上記複数の文字情報をそれぞれ要約した複数の要約情報が記憶されていてもよい。この場合上記制御部は、上記表示された項目を選択する上記ユーザの操作が受け付けられた場合に、当該選択された項目に対応する要約情報を上記データベースから取得し、上記取得された要約情報を表示するように上記表示部を制御してもよい。
【0012】
これにより情報処理装置は、表示された項目を選択させることで、上記第2のキーワードよりもさらに確実に音声情報の内容をユーザに把握させることができる。
【0013】
上記制御部は、上記要約情報を、それに含まれる第3のキーワードを選択可能な状態で表示するように上記表示部を制御してもよい。また制御部は、上記表示された第3のキーワードを選択する上記ユーザの操作が受け付けられた場合に、上記データベースから、当該第3のキーワードを含む第3の文字情報を検索してもよい。さらに制御部は、上記検索により取得された第3の文字情報に含まれる、上記第3のキーワードとは異なる第4のキーワードを抽出してもよい。さらに制御部は、上記取得された第3の文字情報を識別する第3の識別情報と、当該第3の文字情報に含まれる上記第4のキーワードとを含む項目の一覧を表示するように上記表示部を制御してもよい。
【0014】
これにより情報処理装置は、要約情報に含まれる文字列が選択された場合には、当該文字列に関する新たな項目の一覧をユーザに提供できる。
【0015】
上記制御部は、上記表示された要約情報の任意の位置を指定するユーザの操作が受け付けられた場合に、当該要約情報の要約元の文字情報に対応する上記音声情報を、当該指定された位置に表示された文字列に相当する再生位置から再生してもよい。
【0016】
これにより情報処理装置は、要約情報の任意の位置を指定させることで、それに相当する位置から音声情報を再生させ、音声情報の内容をそのままユーザに把握させることができる。
【0017】
本技術の他の形態に係る情報処理方法は、ユーザから第1のキーワードの入力を受け付けることを含む。複数の音声情報からそれぞれ音声認識処理により変換された複数の文字情報を記憶するデータベースから、上記入力された第1のキーワードを含む第1の文字情報が検索される。上記検索により取得された第1の文字情報に含まれる、上記第1のキーワードとは異なる第2のキーワードが抽出される。上記取得された第1の文字情報を識別する第1の識別情報と、当該第1の文字情報に含まれる上記第2のキーワードとを含む項目の一覧が表示される。
【0018】
本技術のまた別の形態に係るプログラムは、情報処理装置に、操作受付ステップと、検索ステップと、抽出ステップと、表示ステップとを実行させる。上記操作受付ステップでは、ユーザから第1のキーワードの入力が受け付けられる。上記検索ステップでは、複数の音声情報からそれぞれ音声認識処理により変換された複数の文字情報を記憶するデータベースから、上記入力された第1のキーワードを含む第1の文字情報が検索される。上記抽出ステップでは、上記検索により取得された第1の文字情報に含まれる、上記第1のキーワードとは異なる第2のキーワードが抽出される。上記表示ステップでは、上記取得された第1の文字情報を識別する第1の識別情報と、当該第1の文字情報に含まれる上記第2のキーワードとを含む項目の一覧が表示される。
【発明の効果】
【0019】
以上のように、本技術によれば、検索された音声情報の内容をより容易に把握させることができる。
【発明を実施するための形態】
【0021】
以下、本技術に係る実施形態を、図面を参照しながら説明する。
【0022】
[システムの概要]
図1は、本技術の一実施形態における音声通話履歴検索システムの構成の概要を示す図である。
【0023】
同図に示すように、このシステムは、サーバ100とユーザ端末200とで構成される。両者はインターネット50等のネットワークにより互いに通信可能とされている。
【0024】
ユーザ端末200は複数存在しうる。ユーザ端末200は、典型的には、例えばスマートフォン、携帯電話機、タブレットPC等の携帯端末であるが、デスクトップ型やノートブック型のPC、電子書籍リーダー、携帯型AV(Audio/Visual)機器等、あらゆる情報処理装置であり得る。
【0025】
ユーザ端末200のユーザは、当該ユーザ端末200により、他のユーザ端末のユーザと音声通話を行う。この音声通話データは通話履歴としてユーザ端末200に記憶される。
【0026】
サーバ100は、上記音声通話データをユーザ端末200から取得し、それを音声認識処理により文字情報に変換して記憶する。
【0027】
ユーザ端末200は、ユーザから入力されたキーワードにより、過去の音声通話を、サーバ100を介して検索し、その検索結果を表示する。
【0028】
[サーバのハードウェア構成]
図2は、上記サーバ100のハードウェア構成を示した図である。同図に示すように、サーバ100は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、入出力インタフェース15、及び、これらを互いに接続するバス14を備える。
【0029】
CPU11は、必要に応じてRAM13等に適宜アクセスし、各種演算処理を行いながらサーバ100の各ブロック全体を統括的に制御する。ROM12は、CPU11に実行させるOS、プログラムや各種パラメータなどのファームウェアが固定的に記憶されている不揮発性のメモリである。RAM13は、CPU11の作業用領域等として用いられ、OS、実行中の各種アプリケーション、処理中の各種データを一時的に保持する。
【0030】
入出力インタフェース15には、表示部16、操作受付部17、記憶部18、通信部19等が接続される。
【0031】
表示部16は、例えばLCD、OELD、CRT(Cathode Ray Tube)等を用いた表示デバイスである。
【0032】
操作受付部17は、例えばマウス等のポインティングデバイス、キーボード、タッチパネル、その他の入力装置である。操作受付部17がタッチパネルである場合、そのタッチパネルは表示部16と一体となり得る。
【0033】
記憶部18は、例えばHDD(Hard Disk Drive)や、フラッシュメモリ(SSD;Solid State Drive)、その他の固体メモリ等の不揮発性メモリである。当該記憶部18には、上記OSや各種アプリケーション、各種データが記憶される。特に本実施形態では、記憶部18には、ユーザ端末200から受信した音声通話データや、それを音声認識処理することで文字化した文字データが記憶される。
【0034】
通信部19は、インターネット50やLANに有線接続するためのNIC等であり、ユーザ端末200との間の通信処理を担う。
【0035】
[ユーザ端末のハードウェア構成]
図3は、上記ユーザ端末200のハードウェア構成を示した図である。同図に示すように、ユーザ端末200は、表示部21、タッチパネル22、通信部23、アンテナ24、CPU25、スピーカ26、マイクロフォン27、RAM28及びフラッシュメモリ29を有する。
【0036】
表示部21は、例えば、液晶ディスプレイや、EL(Electro-Luminescence)ディスプレイ等により構成される。表示部21は、タッチパネル22と一体的に設けられる。タッチパネル22としては、例えば、抵抗膜方式、静電容量方式のものが挙げられるが、どのような方式のものであっても構わない。表示部21(タッチパネル22)には、後述するが、過去の音声通話の履歴情報の一覧が表示される。
【0037】
通信部23は、アンテナ24により送受信される電波の周波数変換や、変調及び復調等の処理を実行する。アンテナ24は、通話用の電波や、電子メール等のパケット通信用の電波を送受信する。また通信部23は、音声通話データをサーバ100へ送信する際にも用いられる。
【0038】
スピーカ26は、デジタル/アナログ変換機や増幅器等を含む。スピーカ26は、CPU25から入力された通話用の音声データに対してデジタル/アナログ変換処理及び増幅処理を実行し、受話口(図示せず)を介して音声を出力する。
【0039】
マイクロフォン27は、アナログ/デジタル変換機等を有する。マイクロフォン27は、ユーザから通話口を介して入力されたアナログ音声データをデジタル音声データへ変換してCPU25へ出力する。CPU25へ出力されたデジタル音声データは、符号化された後、通信部23及びアンテナ24を介して送信される。
【0040】
RAM28は、CPU25の作業領域として用いられる揮発性のメモリである。RAM28は、CPU25の処理に用いられる各種のプログラムや各種のデータを一時的に記憶する。
【0041】
フラッシュメモリ29は、CPU25の処理に必要な各種のプログラムや各種のデータが記憶される不揮発性のメモリである。特に本実施形態では、フラッシュメモリ29は、上記音声通話データや、上記通話履歴の一覧を表示するためのアプリケーション及びデータを記憶する。
【0042】
CPU25は、ユーザ端末200の各部を統括的に制御し、各種のプログラムに基づき種々の演算を実行する。例えばCPU25は、タッチパネル22から入力された文字列(キーワード)に基づき、サーバ100とのやり取りにより音声通話データの検索処理を実行し、検索結果を表示部21に表示する。
【0043】
[サーバ及びユーザ端末のソフトウェア構成]
図4は、上記サーバ100及びユーザ端末200がそれぞれ有する機能(ソフトウェア)の構成を示したブロック図である。
【0044】
同図に示すように、ユーザ端末200は、通話記録部41、一次記憶領域42、送受信処理部43、検索語入力部44及び検索結果表示部45を有する。またサーバ100は、通話関連情報格納部46及び音声文字化処理部47を有する。
【0045】
通話記録部41は、ユーザの音声通話データを一次記憶領域42へ保存する。
【0046】
送受信処理部43は、上記一次記憶領域42に記憶された音声通話データを、サーバ100の通話関連情報格納部46へ送信するとともに、当該送信の事実を音声文字化処理部47へ通知する。
【0047】
通話関連情報格納部46は、送受信処理部43により送信された音声通話データを記憶する。
【0048】
音声文字化処理部47は、上記受信された音声通話データに音声認識処理を実行することで、当該音声通話データを文字データに変換する。変換された文字データは、通話関連情報格納部46に格納される。
【0049】
検索語入力部44は、ユーザから、検索キーワードの入力を受け付ける。
【0050】
検索結果表示部45は、上記検索キーワードを基に上記通話関連情報格納部46から検索された音声通話データの一覧を表示部21に表示する。
【0051】
[サーバ及びユーザ端末の動作]
次に、以上のように構成されたサーバ100及びユーザ端末200の動作について説明する。以下では、サーバ100のCPU11及びユーザ端末200のCPU26を動作主体として説明がなされるが、これら動作は、サーバ100及びユーザ端末200が有するその他のハードウェア及びソフトウェア(アプリケーション)とも協働して実行される。
【0052】
図5は、キーワードに基づく音声通話データの検索処理におけるユーザ端末200の動作の流れを示したフローチャートである。また
図6は、当該検索処理におけるサーバ100の動作の流れを示したフローチャートである。
【0053】
図5に示すように、まずユーザ端末200のCPU25は、ユーザからキーワードの入力を受け付ける(ステップ51)。当該キーワードは、例えば、表示部21上に表示されるボックスに、ユーザがキーボード(ソフトウェアキーボードを含む)を用いて入力する。ここで、キーワードは、マイクロフォン27を介してユーザの音声により入力されても構わない。
【0054】
続いてCPU25は、上記入力されたキーワードをサーバ100へ送信する(ステップ52)。キーワードが音声により入力された場合は、その音声データがサーバ100へ送信される。
【0055】
一方、
図6に示すように、サーバ100のCPU11は、ユーザ端末200からキーワードを受信すると(ステップ61)、当該キーワードを含む音声通話データを、上記通話関連情報格納部46から検索する(ステップ62)。ここで、ユーザ端末200から送信されたキーワードが音声データである場合には、CPU11は、上記音声文字化処理部47により当該音声データを文字列に変換した上で検索を実行する。
【0056】
そしてCPU11は、検索結果を基に、上記キーワードを含む音声通話データの一覧を作成する(ステップ63)。この際、CPU11は、検索された音声通話データの一覧に、各音声通話データが文字化された文字情報の内容を要約した要約情報と、当該文字情報に含まれる重要キーワードも通話関連情報格納部46から抽出し、上記一覧に付加する(ステップ64)。要約情報及び重要キーワードの詳細については後述する。
【0057】
そしてCPU11は、当該一覧をユーザ端末200へ送信する(ステップ65)。
【0058】
一方、
図5に示すように、ユーザ端末200のCPU25は、サーバ100から音声通話データの一覧を受信すると(ステップ53)、それを、上記キーワードによる音声通話履歴の検索結果として表示部21に表示する(ステップ54)。
【0059】
図7は、当該音声通話履歴の検索結果の表示画面の例を示した図である。
【0060】
同図に示すように、当該検索結果表示画面には、上記キーワードにより検索された音声通話データを識別する音声通話データ項目71が一覧表示される。音声通話データ項目71には、例えば、当該音声通話の相手先の名前(登録名称)や電話番号、通話日時が表示される。各音声通話データ項目71は、例えば通話日時順に表示されてもよいし、上記キーワードが多く含まれる順に表示されてもよい。
【0061】
さらに音声通話データ項目71には、当該音声通話データに含まれる、上記検索キーワード以外の重要キーワード72が表示される。
【0062】
当該重要キーワード72は、例えば、上記音声文字化処理部47により、文字化された音声通話データから、形態素解析処理等により抽出された名詞等である。当該重要キーワード72には、それが選択(例えばタップ操作)可能なことを示すためにアンダーラインが引かれている。
【0063】
図5に戻り、CPU25は、表示部21(タッチパネル22)上で、ユーザからタップ操作の入力を受け付けると(ステップ55)、そのタップが、1つの音声通話データ項目71内の上記重要キーワード72部分になされたものであるか否かを判断する(ステップ56)。
【0064】
上記タップが、上記重要キーワード72部分になされたものであると判断した場合(Yes)、CPU25は、当該重要キーワード72を新たな検索キーワードとして、上記ステップ52以降の検索処理を実行し、サーバ100から受信した新たな音声通話データの一覧を検索結果として上記
図7に示したのと同様に表示する。
【0065】
上記タップが、上記重要キーワード72部分になされたものでないと判断した場合(No)、すなわち、そのタップが、特定の上記音声通話データ項目71を選択する操作であると判断した場合、CPU25は、当該選択された音声通話データの詳細情報を表示する(ステップ57)。
【0066】
図8は、当該音声通話データの詳細情報表示画面の例を示した図である。
【0067】
同図に示すように、当該詳細情報表示画面には、通話相手の電話番号やイメージ(登録されている場合)、通話日時、総通話時間、発信/受信を示す情報のほか、選択された音声通話データが変換された文字情報の要約情報81が表示される。
【0068】
当該要約情報81は、通話関連情報格納部46に格納された文字情報を基に、上記音声文字化処理部47により作成され、通話関連情報格納部46に格納されていたものである。当該要約情報81は、サーバ100から音声通話データの一覧が受信される際に併せて受信される。要約情報81の作成手法はどのようなものでも構わないが、例えば、文字情報中の特定の名詞を含む節が組み合わされて作成される。
【0069】
当該要約情報81では、文字情報が、話者毎に異なる色やフォント等で区別されて表示される。当該話者毎の区別は、上記音声文字化処理部47により予め実行され、メタデータとして付加されている。当該区別は、元となる音声通話データの波形等の音声特徴(音響パターン)が比較されることで実行される。また、要約情報81中のセンテンス毎に、話者が文字等で示されても構わない。
【0070】
さらに、当該要約情報81では、それに含まれる重要キーワード82が選択可能な状態で表示される。当該重要キーワード82は、上記検索結果表示画面で表示された重要キーワード72に対応する。
【0071】
また、当該詳細情報表示画面には、再生ボタン83も表示される。
図5のフローチャートには記載されていないが、当該再生ボタン83が押下されることで、元の音声通話データが最初から再生される。これによりユーザは、仮に文字情報に変換ミスがあってもそれを確認することができる。また、当該詳細情報表示画面の例えば上部左側には、上記検索結果表示画面に戻る(遷移する)ための履歴ボタン73も表示される。
【0072】
図5に戻り、CPU25は、上記詳細情報表示画面上で、ユーザからタップ操作の入力を受け付けると(ステップ58)、そのタップ操作の位置によって異なる処理を実行する(ステップ59)。
【0073】
すなわち、上記タップされた位置が、上記要約情報81中の重要キーワード82であると判断した場合、CPU25は、当該重要キーワード82を新たな検索キーワードとして、上記ステップ52以降の検索処理を実行する。そしてCPU25は、サーバ100から受信した新たな音声通話データの一覧を検索結果として上記
図7に示したのと同様に表示する。
【0074】
また、上記タップされた位置が、上記要約情報81中の重要キーワード82以外の部分であると判断した場合、CPU25は、当該タップされた位置に表示されている文字列に相当する位置から、音声通話データを再生する。CPU25は、例えば、要約情報81中の各文字列と、音声通話データ内の再生位置との対応情報をサーバ100から上記要約情報81等と共に受信しておくことで、タップされた位置に表示されている文字列を判断する。
【0075】
また、上記タップされた位置が、上記履歴ボタン73であると判断した場合、CPU25は、
図7に示した元の検索結果表示画面を再び表示する。
【0076】
[まとめ]
以上説明したように、本実施形態によれば、ユーザ端末200は、サーバ100と協働して、ユーザから入力されたキーワードを基に音声通話データを検索し、その検索結果を一覧表示する際に、検索キーワード以外の重要キーワード72も表示することができる。これにより、ユーザは、音声通話データの内容を、自らの入力したキーワードと、当該重要キーワード71との関係で、容易に把握することができる。
【0077】
[変形例]
本技術は上述の実施形態にのみ限定されるものではなく、本開示の要旨を逸脱しない範囲内において種々変更され得る。
【0078】
上述の実施形態では、音声通話データが検索対象とされたが、検索対象はこれに限られない。例えば、音楽データや、動画像コンテンツ中の音声データ等が検索対象とされてもよい。
【0079】
上述の実施形態では、音声通話データの文字化処理や、音声通話データ及びそれが文字化された文字情報の記憶処理は、サーバ100が担っていた。しかし、ユーザ端末200が十分な記憶容量と計算能力を有している場合には、上記サーバ100が行う処理をユーザ端末200が実行してもよい。
【0080】
上述の実施形態では、ユーザ端末200が音声通話を行った上で音声通話データを一時的に記憶し、それをサーバ100へ送信していた。しかし、音声通話を行う装置は、ユーザ端末200とは異なる装置であっても構わない。この場合、ユーザ端末200は、音声通話を行った装置から、例えばネットワークを介して音声通話データを受信し、または記録媒体を介して音声通話データを記憶する。
【0081】
上記
図7で示した検索結果表示画面や、上記
図8で示した詳細情報表示画面のユーザインタフェースのレイアウトは図示したものに限られず、さまざまなレイアウトが可能である。
【0082】
上述の実施形態においては、本技術がユーザ端末200に適用された例を示した。しかし、本技術は、オーディオプレイヤー、テレビジョン装置、ゲーム機器、カーナビゲーション装置、記録再生装置等、他のあらゆる情報処理装置に適用可能である。
【0083】
[その他]
なお、本技術は以下のような構成も採ることができる。
(1)表示部と、
ユーザから第1のキーワードの入力を受け付ける入力部と、
複数の音声情報からそれぞれ音声認識処理により変換された複数の文字情報を記憶するデータベースから、前記入力された第1のキーワードを含む第1の文字情報を検索し、
前記検索により取得された第1の文字情報に含まれる、前記第1のキーワードとは異なる第2のキーワードを抽出し、
前記取得された第1の文字情報を識別する第1の識別情報と、当該第1の文字情報に含まれる前記第2のキーワードとを含む項目の一覧を表示するように前記表示部を制御する
制御部と
を具備する情報処理装置。
(2)上記(1)に記載の情報処理装置であって、
前記制御部は、
前記表示された項目に含まれる前記第2のキーワードを選択する前記ユーザの操作が受け付けられた場合に、前記データベースから、当該第2のキーワードを含む第2の文字情報を検索し、
前記検索により取得された第2の文字情報に含まれる、前記第2のキーワードとは異なる第3のキーワードを抽出し、
前記取得された第2の文字情報を識別する第2の識別情報と、当該第2の文字情報に含まれる前記第3のキーワードとを含む項目の一覧を表示するように前記表示部を制御する
情報処理装置。
(3)上記(1)または(2)に記載の情報処理装置であって、
前記データベースには、前記複数の文字情報をそれぞれ要約した複数の要約情報が記憶されており、
前記制御部は、
前記表示された項目を選択する前記ユーザの操作が受け付けられた場合に、当該選択された項目に対応する要約情報を前記データベースから取得し、
前記取得された要約情報を表示するように前記表示部を制御する
情報処理装置。
(4)上記(3)に記載の情報処理装置であって、
前記制御部は、
前記要約情報を、それに含まれる第3のキーワードを選択可能な状態で表示するように前記表示部を制御し、
前記表示された第3のキーワードを選択する前記ユーザの操作が受け付けられた場合に、前記データベースから、当該第3のキーワードを含む第3の文字情報を検索し、
前記検索により取得された第3の文字情報に含まれる、前記第3のキーワードとは異なる第4のキーワードを抽出し、
前記取得された第3の文字情報を識別する第3の識別情報と、当該第3の文字情報に含まれる前記第4のキーワードとを含む項目の一覧を表示するように前記表示部を制御する
情報処理装置。
(5)上記(3)または(4)に記載の情報処理装置であって、
前記制御部は、前記表示された要約情報の任意の位置を指定するユーザの操作が受け付けられた場合に、当該要約情報の要約元の文字情報に対応する前記音声情報を、当該指定された位置に表示された文字列に相当する再生位置から再生する
情報処理装置。