特許5799621 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特許5799621情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5799621

(24)【登録日】2015年9月4日

(45)【発行日】2015年10月28日

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G06F 17/30 20060101AFI20151008BHJP

【ＦＩ】

G06F17/30 210A

G06F17/30 320B

G06F17/30 380E

【請求項の数】6

【全頁数】16

(21)【出願番号】特願2011-152712(P2011-152712)

(22)【出願日】2011年7月11日

(65)【公開番号】特開2013-20411(P2013-20411A)

(43)【公開日】2013年1月31日

【審査請求日】2014年7月4日

(73)【特許権者】

【識別番号】000002185

【氏名又は名称】ソニー株式会社

(74)【代理人】

【識別番号】100104215

【弁理士】

【氏名又は名称】大森純一

(74)【代理人】

【識別番号】100117330

【弁理士】

【氏名又は名称】折居章

(74)【代理人】

【識別番号】100168181

【弁理士】

【氏名又は名称】中村哲平

(74)【代理人】

【識別番号】100170346

【弁理士】

【氏名又は名称】吉田望

(74)【代理人】

【識別番号】100168745

【弁理士】

【氏名又は名称】金子彩子

(74)【代理人】

【識別番号】100176131

【弁理士】

【氏名又は名称】金山慎太郎

(72)【発明者】

【氏名】宮下健

(72)【発明者】

【氏名】菱沼倫彦

(72)【発明者】

【氏名】大木嘉人

(72)【発明者】

【氏名】森本良平

(72)【発明者】

【氏名】小野淳也

【審査官】加舎理紅子

(56)【参考文献】

【文献】特開平０５−１４３６４７（ＪＰ，Ａ）

【文献】特開２００５−２１０４９７（ＪＰ，Ａ）

【文献】特開平０５−１８９４８８（ＪＰ，Ａ）

【文献】特表２００８−５２００４７（ＪＰ，Ａ）

【文献】特開２００８−１５２６０５（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／３０

(57)【特許請求の範囲】

【請求項1】

表示部と、
ユーザから第１のキーワードの入力を受け付ける入力部と、
前記ユーザの音声通話を記録した複数の音声情報からそれぞれ音声認識処理により変換された複数の文字情報を記憶するデータベースから、前記入力された第１のキーワードを含む第１の文字情報を検索し、
前記検索により取得された第１の文字情報に含まれる、前記第１のキーワードとは異なる第２のキーワードを抽出し、
前記取得された第１の文字情報を識別する、前記音声通話の相手先名または相手先電話番号を含む第１の識別情報と、当該第１の文字情報に含まれる前記第２のキーワードとを含む項目の一覧を表示するように前記表示部を制御し、
前記表示された項目に含まれる前記第２のキーワードを選択する前記ユーザの操作が受け付けられた場合に、前記データベースから、当該第２のキーワードを含む第２の文字情報を検索し、
前記検索により取得された第２の文字情報に含まれる、前記第２のキーワードとは異なる第３のキーワードを抽出し、
前記取得された第２の文字情報を識別する、前記音声通話の相手先名または相手先電話番号を含む第２の識別情報と、当該第２の文字情報に含まれる前記第３のキーワードとを含む項目の一覧を表示するように前記表示部を制御する
制御部と
を具備する情報処理装置。

【請求項2】

請求項１に記載の情報処理装置であって、
前記データベースには、前記複数の文字情報をそれぞれ要約した複数の要約情報が記憶されており、
前記制御部は、
前記表示された項目を選択する前記ユーザの操作が受け付けられた場合に、当該選択された項目に対応する要約情報を前記データベースから取得し、
前記取得された要約情報を表示するように前記表示部を制御する
情報処理装置。

【請求項3】

請求項２に記載の情報処理装置であって、
前記制御部は、
前記要約情報を、それに含まれる第３のキーワードを選択可能な状態で表示するように前記表示部を制御し、
前記表示された第３のキーワードを選択する前記ユーザの操作が受け付けられた場合に、前記データベースから、当該第３のキーワードを含む第３の文字情報を検索し、
前記検索により取得された第３の文字情報に含まれる、前記第３のキーワードとは異なる第４のキーワードを抽出し、
前記取得された第３の文字情報を識別する、前記音声通話の相手先名または相手先電話番号を含む第３の識別情報と、当該第３の文字情報に含まれる前記第４のキーワードとを含む項目の一覧を表示するように前記表示部を制御する
情報処理装置。

【請求項4】

請求項２に記載の情報処理装置であって、
前記制御部は、前記表示された要約情報の任意の位置を指定するユーザの操作が受け付けられた場合に、当該要約情報の要約元の文字情報に対応する前記音声情報を、当該指定された位置に表示された文字列に相当する再生位置から再生する
情報処理装置。

【請求項5】

ユーザから第１のキーワードの入力を受け付け、
前記ユーザの音声通話を記録した複数の音声情報からそれぞれ音声認識処理により変換された複数の文字情報を記憶するデータベースから、前記入力された第１のキーワードを含む第１の文字情報を検索し、
前記検索により取得された第１の文字情報に含まれる、前記第１のキーワードとは異なる第２のキーワードを抽出し、
前記取得された第１の文字情報を識別する、前記音声通話の相手先名または相手先電話番号を含む第１の識別情報と、当該第１の文字情報に含まれる前記第２のキーワードとを含む項目の一覧を表示し、
前記表示された項目に含まれる前記第２のキーワードを選択する前記ユーザの操作が受け付けられた場合に、前記データベースから、当該第２のキーワードを含む第２の文字情報を検索し、
前記検索により取得された第２の文字情報に含まれる、前記第２のキーワードとは異なる第３のキーワードを抽出し、
前記取得された第２の文字情報を識別する、前記音声通話の相手先名または相手先電話番号を含む第２の識別情報と、当該第２の文字情報に含まれる前記第３のキーワードとを含む項目の一覧を表示する
情報処理方法。

【請求項6】

情報処理装置に、
ユーザから第１のキーワードの入力を受け付けるステップと、
前記ユーザの音声通話を記録した複数の音声情報からそれぞれ音声認識処理により変換された複数の文字情報を記憶するデータベースから、前記入力された第１のキーワードを含む第１の文字情報を検索するステップと、
前記検索により取得された第１の文字情報に含まれる、前記第１のキーワードとは異なる第２のキーワードを抽出するステップと、
前記取得された第１の文字情報を識別する、前記音声通話の相手先名または相手先電話番号を含む第１の識別情報と、当該第１の文字情報に含まれる前記第２のキーワードとを含む項目の一覧を表示するステップと、
前記表示された項目に含まれる前記第２のキーワードを選択する前記ユーザの操作が受け付けられた場合に、前記データベースから、当該第２のキーワードを含む第２の文字情報を検索するステップと、
前記検索により取得された第２の文字情報に含まれる、前記第２のキーワードとは異なる第３のキーワードを抽出するステップと、
前記取得された第２の文字情報を識別する、前記音声通話の相手先名または相手先電話番号を含む第２の識別情報と、当該第２の文字情報に含まれる前記第３のキーワードとを含む項目の一覧を表示するステップと
を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本技術は、文字列を基に音声情報を検索して表示可能な情報処理装置、当該情報処理装置における情報処理方法及びプログラムに関する。

【背景技術】

【0002】

従来から、ユーザから入力されたキーワードを基に、当該キーワードを表す音声を含む音声情報を検索する技術が知られている。例えば、下記特許文献１には、入力された検索文字列を音声データと照合し、音声データの検索文字列に対する尤度を算出し、尤度の高い順に音声データの候補を出力する技術が記載されている。

【0003】

また、下記特許文献２には、音声通話を音声認識処理してテキストを抽出し、当該テキストの冗長箇所を削除して要約文に変換し、それを通話履歴情報と共に表示する技術が記載されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１０−２７７０３６号公報

【特許文献2】特開２０１１−０８７００５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

上記特許文献２に記載の技術では、ユーザは、過去の通話の内容を、要約文を閲覧して把握することになるが、要約文といえども、ある程度の長さを有するため、内容把握のために時間を要する。

【0006】

以上のような事情に鑑み、本技術の目的は、検索された音声情報の内容をより容易に把握させることが可能な情報処理装置、情報処理方法及びプログラムを提供することにある。

【課題を解決するための手段】

【0007】

上述の課題を解決するため、本技術の一形態に係る情報処理装置は、表示部と、入力部と、制御部とを有する。上記入力部は、ユーザから第１のキーワードの入力を受け付ける。上記制御部は、複数の音声情報からそれぞれ音声認識処理により変換された複数の文字情報を記憶するデータベースから、上記入力された第１のキーワードを含む第１の文字情報を検索する。また制御部は、上記検索により取得された第１の文字情報に含まれる、上記第１のキーワードとは異なる第２のキーワードを抽出する。さらに制御部は、上記取得された第１の文字情報を識別する第１の識別情報と、当該第１の文字情報に含まれる上記第２のキーワードとを含む項目の一覧を表示するように上記表示部を制御する。

【0008】

この構成により、情報処理装置は、ユーザから入力されたキーワードを含む音声情報を検索してその検索結果の一覧を表示する際に、当該音声情報に含まれる他のキーワードを併せて表示することで、検索された音声情報の内容を容易に把握させることができる。これは、表示部の表示領域が小さく、検索結果として、音声情報の内容を文字情報として全て表示できない場合に有効である。ここで上記第１のキーワードは、文字列として入力されてもよいし、音声として入力されてもよい。また音声情報とは、例えば音声通話を記録した情報であるが、これに限られず、ビデオコンテンツに含まれる音声データであってもよい。また識別情報とは、例えば音声通話の相手先の名前や電話番号、通話日時等であるが、これらに限られない。また上記データベースは、当該情報処理装置内部に存在していてもよいし、ネットワーク上等の外部に（例えばサーバとして）存在していてもよい。すなわち、上記検索処理は、情報処理装置の内部のデータベースを自身で検索する場合と、外部のデータベース（サーバ）へ検索を要求してその結果を受信する場合とを含む。

【0009】

上記制御部は、上記表示された項目に含まれる上記第２のキーワードを選択する上記ユーザの操作が受け付けられた場合に、上記データベースから、当該第２のキーワードを含む第２の文字情報を検索してもよい。また制御部は、上記検索により取得された第２の文字情報に含まれる、上記第２のキーワードとは異なる第３のキーワードを抽出してもよい。さらに制御部は、上記取得された第２の文字情報を識別する第２の識別情報と、当該第２の文字情報に含まれる上記第３のキーワードとを含む項目の一覧を表示するように上記表示部を制御してもよい。

【0010】

これにより情報処理装置は、ユーザにより入力された文字列を基に検索された音声情報に含まれる別の文字列をキーにして他の音声情報を検索することで、ユーザの興味のある音声情報を連鎖的に検索してその内容を把握させることができる。

【0011】

上記データベースには、上記複数の文字情報をそれぞれ要約した複数の要約情報が記憶されていてもよい。この場合上記制御部は、上記表示された項目を選択する上記ユーザの操作が受け付けられた場合に、当該選択された項目に対応する要約情報を上記データベースから取得し、上記取得された要約情報を表示するように上記表示部を制御してもよい。

【0012】

これにより情報処理装置は、表示された項目を選択させることで、上記第２のキーワードよりもさらに確実に音声情報の内容をユーザに把握させることができる。

【0013】

上記制御部は、上記要約情報を、それに含まれる第３のキーワードを選択可能な状態で表示するように上記表示部を制御してもよい。また制御部は、上記表示された第３のキーワードを選択する上記ユーザの操作が受け付けられた場合に、上記データベースから、当該第３のキーワードを含む第３の文字情報を検索してもよい。さらに制御部は、上記検索により取得された第３の文字情報に含まれる、上記第３のキーワードとは異なる第４のキーワードを抽出してもよい。さらに制御部は、上記取得された第３の文字情報を識別する第３の識別情報と、当該第３の文字情報に含まれる上記第４のキーワードとを含む項目の一覧を表示するように上記表示部を制御してもよい。

【0014】

これにより情報処理装置は、要約情報に含まれる文字列が選択された場合には、当該文字列に関する新たな項目の一覧をユーザに提供できる。

【0015】

上記制御部は、上記表示された要約情報の任意の位置を指定するユーザの操作が受け付けられた場合に、当該要約情報の要約元の文字情報に対応する上記音声情報を、当該指定された位置に表示された文字列に相当する再生位置から再生してもよい。

【0016】

これにより情報処理装置は、要約情報の任意の位置を指定させることで、それに相当する位置から音声情報を再生させ、音声情報の内容をそのままユーザに把握させることができる。

【0017】

本技術の他の形態に係る情報処理方法は、ユーザから第１のキーワードの入力を受け付けることを含む。複数の音声情報からそれぞれ音声認識処理により変換された複数の文字情報を記憶するデータベースから、上記入力された第１のキーワードを含む第１の文字情報が検索される。上記検索により取得された第１の文字情報に含まれる、上記第１のキーワードとは異なる第２のキーワードが抽出される。上記取得された第１の文字情報を識別する第１の識別情報と、当該第１の文字情報に含まれる上記第２のキーワードとを含む項目の一覧が表示される。

【0018】

本技術のまた別の形態に係るプログラムは、情報処理装置に、操作受付ステップと、検索ステップと、抽出ステップと、表示ステップとを実行させる。上記操作受付ステップでは、ユーザから第１のキーワードの入力が受け付けられる。上記検索ステップでは、複数の音声情報からそれぞれ音声認識処理により変換された複数の文字情報を記憶するデータベースから、上記入力された第１のキーワードを含む第１の文字情報が検索される。上記抽出ステップでは、上記検索により取得された第１の文字情報に含まれる、上記第１のキーワードとは異なる第２のキーワードが抽出される。上記表示ステップでは、上記取得された第１の文字情報を識別する第１の識別情報と、当該第１の文字情報に含まれる上記第２のキーワードとを含む項目の一覧が表示される。

【発明の効果】

【0019】

以上のように、本技術によれば、検索された音声情報の内容をより容易に把握させることができる。

【図面の簡単な説明】

【0020】

【図1】本技術の一実施形態における通話履歴検索システムの概要を示す図である。

【図2】上記通話履歴検索システムにおけるサーバの構成を示すブロック図である。

【図3】上記通話履歴検索システムにおけるユーザ端末の構成を示すブロック図である。

【図4】上記ユーザ端末及びサーバのソフトウェア構成を示す機能ブロック図である。

【図5】キーワードに基づく音声通話データの検索処理におけるユーザ端末の動作の流れを示したフローチャートである。

【図6】キーワードに基づく音声通話データの検索処理におけるサーバの動作の流れを示したフローチャートである。

【図7】音声通話検索結果の表示画面の例を示した図である。

【図8】上記検索結果から選択された音声通話の詳細情報の表示画面の例を示した図である。

【発明を実施するための形態】

【0021】

以下、本技術に係る実施形態を、図面を参照しながら説明する。

【0022】

［システムの概要］
図１は、本技術の一実施形態における音声通話履歴検索システムの構成の概要を示す図である。

【0023】

同図に示すように、このシステムは、サーバ１００とユーザ端末２００とで構成される。両者はインターネット５０等のネットワークにより互いに通信可能とされている。

【0024】

ユーザ端末２００は複数存在しうる。ユーザ端末２００は、典型的には、例えばスマートフォン、携帯電話機、タブレットＰＣ等の携帯端末であるが、デスクトップ型やノートブック型のＰＣ、電子書籍リーダー、携帯型ＡＶ（Audio/Visual）機器等、あらゆる情報処理装置であり得る。

【0025】

ユーザ端末２００のユーザは、当該ユーザ端末２００により、他のユーザ端末のユーザと音声通話を行う。この音声通話データは通話履歴としてユーザ端末２００に記憶される。

【0026】

サーバ１００は、上記音声通話データをユーザ端末２００から取得し、それを音声認識処理により文字情報に変換して記憶する。

【0027】

ユーザ端末２００は、ユーザから入力されたキーワードにより、過去の音声通話を、サーバ１００を介して検索し、その検索結果を表示する。

【0028】

［サーバのハードウェア構成］
図２は、上記サーバ１００のハードウェア構成を示した図である。同図に示すように、サーバ１００は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory）１３、入出力インタフェース１５、及び、これらを互いに接続するバス１４を備える。

【0029】

ＣＰＵ１１は、必要に応じてＲＡＭ１３等に適宜アクセスし、各種演算処理を行いながらサーバ１００の各ブロック全体を統括的に制御する。ＲＯＭ１２は、ＣＰＵ１１に実行させるＯＳ、プログラムや各種パラメータなどのファームウェアが固定的に記憶されている不揮発性のメモリである。ＲＡＭ１３は、ＣＰＵ１１の作業用領域等として用いられ、ＯＳ、実行中の各種アプリケーション、処理中の各種データを一時的に保持する。

【0030】

入出力インタフェース１５には、表示部１６、操作受付部１７、記憶部１８、通信部１９等が接続される。

【0031】

表示部１６は、例えばＬＣＤ、ＯＥＬＤ、ＣＲＴ（Cathode Ray Tube）等を用いた表示デバイスである。

【0032】

操作受付部１７は、例えばマウス等のポインティングデバイス、キーボード、タッチパネル、その他の入力装置である。操作受付部１７がタッチパネルである場合、そのタッチパネルは表示部１６と一体となり得る。

【0033】

記憶部１８は、例えばＨＤＤ（Hard Disk Drive）や、フラッシュメモリ（ＳＳＤ；Solid State Drive）、その他の固体メモリ等の不揮発性メモリである。当該記憶部１８には、上記ＯＳや各種アプリケーション、各種データが記憶される。特に本実施形態では、記憶部１８には、ユーザ端末２００から受信した音声通話データや、それを音声認識処理することで文字化した文字データが記憶される。

【0034】

通信部１９は、インターネット５０やＬＡＮに有線接続するためのＮＩＣ等であり、ユーザ端末２００との間の通信処理を担う。

【0035】

［ユーザ端末のハードウェア構成］
図３は、上記ユーザ端末２００のハードウェア構成を示した図である。同図に示すように、ユーザ端末２００は、表示部２１、タッチパネル２２、通信部２３、アンテナ２４、ＣＰＵ２５、スピーカ２６、マイクロフォン２７、ＲＡＭ２８及びフラッシュメモリ２９を有する。

【0036】

表示部２１は、例えば、液晶ディスプレイや、ＥＬ（Electro-Luminescence）ディスプレイ等により構成される。表示部２１は、タッチパネル２２と一体的に設けられる。タッチパネル２２としては、例えば、抵抗膜方式、静電容量方式のものが挙げられるが、どのような方式のものであっても構わない。表示部２１（タッチパネル２２）には、後述するが、過去の音声通話の履歴情報の一覧が表示される。

【0037】

通信部２３は、アンテナ２４により送受信される電波の周波数変換や、変調及び復調等の処理を実行する。アンテナ２４は、通話用の電波や、電子メール等のパケット通信用の電波を送受信する。また通信部２３は、音声通話データをサーバ１００へ送信する際にも用いられる。

【0038】

スピーカ２６は、デジタル／アナログ変換機や増幅器等を含む。スピーカ２６は、ＣＰＵ２５から入力された通話用の音声データに対してデジタル／アナログ変換処理及び増幅処理を実行し、受話口（図示せず）を介して音声を出力する。

【0039】

マイクロフォン２７は、アナログ／デジタル変換機等を有する。マイクロフォン２７は、ユーザから通話口を介して入力されたアナログ音声データをデジタル音声データへ変換してＣＰＵ２５へ出力する。ＣＰＵ２５へ出力されたデジタル音声データは、符号化された後、通信部２３及びアンテナ２４を介して送信される。

【0040】

ＲＡＭ２８は、ＣＰＵ２５の作業領域として用いられる揮発性のメモリである。ＲＡＭ２８は、ＣＰＵ２５の処理に用いられる各種のプログラムや各種のデータを一時的に記憶する。

【0041】

フラッシュメモリ２９は、ＣＰＵ２５の処理に必要な各種のプログラムや各種のデータが記憶される不揮発性のメモリである。特に本実施形態では、フラッシュメモリ２９は、上記音声通話データや、上記通話履歴の一覧を表示するためのアプリケーション及びデータを記憶する。

【0042】

ＣＰＵ２５は、ユーザ端末２００の各部を統括的に制御し、各種のプログラムに基づき種々の演算を実行する。例えばＣＰＵ２５は、タッチパネル２２から入力された文字列（キーワード）に基づき、サーバ１００とのやり取りにより音声通話データの検索処理を実行し、検索結果を表示部２１に表示する。

【0043】

［サーバ及びユーザ端末のソフトウェア構成］
図４は、上記サーバ１００及びユーザ端末２００がそれぞれ有する機能（ソフトウェア）の構成を示したブロック図である。

【0044】

同図に示すように、ユーザ端末２００は、通話記録部４１、一次記憶領域４２、送受信処理部４３、検索語入力部４４及び検索結果表示部４５を有する。またサーバ１００は、通話関連情報格納部４６及び音声文字化処理部４７を有する。

【0045】

通話記録部４１は、ユーザの音声通話データを一次記憶領域４２へ保存する。

【0046】

送受信処理部４３は、上記一次記憶領域４２に記憶された音声通話データを、サーバ１００の通話関連情報格納部４６へ送信するとともに、当該送信の事実を音声文字化処理部４７へ通知する。

【0047】

通話関連情報格納部４６は、送受信処理部４３により送信された音声通話データを記憶する。

【0048】

音声文字化処理部４７は、上記受信された音声通話データに音声認識処理を実行することで、当該音声通話データを文字データに変換する。変換された文字データは、通話関連情報格納部４６に格納される。

【0049】

検索語入力部４４は、ユーザから、検索キーワードの入力を受け付ける。

【0050】

検索結果表示部４５は、上記検索キーワードを基に上記通話関連情報格納部４６から検索された音声通話データの一覧を表示部２１に表示する。

【0051】

［サーバ及びユーザ端末の動作］
次に、以上のように構成されたサーバ１００及びユーザ端末２００の動作について説明する。以下では、サーバ１００のＣＰＵ１１及びユーザ端末２００のＣＰＵ２６を動作主体として説明がなされるが、これら動作は、サーバ１００及びユーザ端末２００が有するその他のハードウェア及びソフトウェア（アプリケーション）とも協働して実行される。

【0052】

図５は、キーワードに基づく音声通話データの検索処理におけるユーザ端末２００の動作の流れを示したフローチャートである。また図６は、当該検索処理におけるサーバ１００の動作の流れを示したフローチャートである。

【0053】

図５に示すように、まずユーザ端末２００のＣＰＵ２５は、ユーザからキーワードの入力を受け付ける（ステップ５１）。当該キーワードは、例えば、表示部２１上に表示されるボックスに、ユーザがキーボード（ソフトウェアキーボードを含む）を用いて入力する。ここで、キーワードは、マイクロフォン２７を介してユーザの音声により入力されても構わない。

【0054】

続いてＣＰＵ２５は、上記入力されたキーワードをサーバ１００へ送信する（ステップ５２）。キーワードが音声により入力された場合は、その音声データがサーバ１００へ送信される。

【0055】

一方、図６に示すように、サーバ１００のＣＰＵ１１は、ユーザ端末２００からキーワードを受信すると（ステップ６１）、当該キーワードを含む音声通話データを、上記通話関連情報格納部４６から検索する（ステップ６２）。ここで、ユーザ端末２００から送信されたキーワードが音声データである場合には、ＣＰＵ１１は、上記音声文字化処理部４７により当該音声データを文字列に変換した上で検索を実行する。

【0056】

そしてＣＰＵ１１は、検索結果を基に、上記キーワードを含む音声通話データの一覧を作成する（ステップ６３）。この際、ＣＰＵ１１は、検索された音声通話データの一覧に、各音声通話データが文字化された文字情報の内容を要約した要約情報と、当該文字情報に含まれる重要キーワードも通話関連情報格納部４６から抽出し、上記一覧に付加する（ステップ６４）。要約情報及び重要キーワードの詳細については後述する。

【0057】

そしてＣＰＵ１１は、当該一覧をユーザ端末２００へ送信する（ステップ６５）。

【0058】

一方、図５に示すように、ユーザ端末２００のＣＰＵ２５は、サーバ１００から音声通話データの一覧を受信すると（ステップ５３）、それを、上記キーワードによる音声通話履歴の検索結果として表示部２１に表示する（ステップ５４）。

【0059】

図７は、当該音声通話履歴の検索結果の表示画面の例を示した図である。

【0060】

同図に示すように、当該検索結果表示画面には、上記キーワードにより検索された音声通話データを識別する音声通話データ項目７１が一覧表示される。音声通話データ項目７１には、例えば、当該音声通話の相手先の名前（登録名称）や電話番号、通話日時が表示される。各音声通話データ項目７１は、例えば通話日時順に表示されてもよいし、上記キーワードが多く含まれる順に表示されてもよい。

【0061】

さらに音声通話データ項目７１には、当該音声通話データに含まれる、上記検索キーワード以外の重要キーワード７２が表示される。

【0062】

当該重要キーワード７２は、例えば、上記音声文字化処理部４７により、文字化された音声通話データから、形態素解析処理等により抽出された名詞等である。当該重要キーワード７２には、それが選択（例えばタップ操作）可能なことを示すためにアンダーラインが引かれている。

【0063】

図５に戻り、ＣＰＵ２５は、表示部２１（タッチパネル２２）上で、ユーザからタップ操作の入力を受け付けると（ステップ５５）、そのタップが、１つの音声通話データ項目７１内の上記重要キーワード７２部分になされたものであるか否かを判断する（ステップ５６）。

【0064】

上記タップが、上記重要キーワード７２部分になされたものであると判断した場合（Ｙｅｓ）、ＣＰＵ２５は、当該重要キーワード７２を新たな検索キーワードとして、上記ステップ５２以降の検索処理を実行し、サーバ１００から受信した新たな音声通話データの一覧を検索結果として上記図７に示したのと同様に表示する。

【0065】

上記タップが、上記重要キーワード７２部分になされたものでないと判断した場合（Ｎｏ）、すなわち、そのタップが、特定の上記音声通話データ項目７１を選択する操作であると判断した場合、ＣＰＵ２５は、当該選択された音声通話データの詳細情報を表示する（ステップ５７）。

【0066】

図８は、当該音声通話データの詳細情報表示画面の例を示した図である。

【0067】

同図に示すように、当該詳細情報表示画面には、通話相手の電話番号やイメージ（登録されている場合）、通話日時、総通話時間、発信／受信を示す情報のほか、選択された音声通話データが変換された文字情報の要約情報８１が表示される。

【0068】

当該要約情報８１は、通話関連情報格納部４６に格納された文字情報を基に、上記音声文字化処理部４７により作成され、通話関連情報格納部４６に格納されていたものである。当該要約情報８１は、サーバ１００から音声通話データの一覧が受信される際に併せて受信される。要約情報８１の作成手法はどのようなものでも構わないが、例えば、文字情報中の特定の名詞を含む節が組み合わされて作成される。

【0069】

当該要約情報８１では、文字情報が、話者毎に異なる色やフォント等で区別されて表示される。当該話者毎の区別は、上記音声文字化処理部４７により予め実行され、メタデータとして付加されている。当該区別は、元となる音声通話データの波形等の音声特徴（音響パターン）が比較されることで実行される。また、要約情報８１中のセンテンス毎に、話者が文字等で示されても構わない。

【0070】

さらに、当該要約情報８１では、それに含まれる重要キーワード８２が選択可能な状態で表示される。当該重要キーワード８２は、上記検索結果表示画面で表示された重要キーワード７２に対応する。

【0071】

また、当該詳細情報表示画面には、再生ボタン８３も表示される。図５のフローチャートには記載されていないが、当該再生ボタン８３が押下されることで、元の音声通話データが最初から再生される。これによりユーザは、仮に文字情報に変換ミスがあってもそれを確認することができる。また、当該詳細情報表示画面の例えば上部左側には、上記検索結果表示画面に戻る（遷移する）ための履歴ボタン７３も表示される。

【0072】

図５に戻り、ＣＰＵ２５は、上記詳細情報表示画面上で、ユーザからタップ操作の入力を受け付けると（ステップ５８）、そのタップ操作の位置によって異なる処理を実行する（ステップ５９）。

【0073】

すなわち、上記タップされた位置が、上記要約情報８１中の重要キーワード８２であると判断した場合、ＣＰＵ２５は、当該重要キーワード８２を新たな検索キーワードとして、上記ステップ５２以降の検索処理を実行する。そしてＣＰＵ２５は、サーバ１００から受信した新たな音声通話データの一覧を検索結果として上記図７に示したのと同様に表示する。

【0074】

また、上記タップされた位置が、上記要約情報８１中の重要キーワード８２以外の部分であると判断した場合、ＣＰＵ２５は、当該タップされた位置に表示されている文字列に相当する位置から、音声通話データを再生する。ＣＰＵ２５は、例えば、要約情報８１中の各文字列と、音声通話データ内の再生位置との対応情報をサーバ１００から上記要約情報８１等と共に受信しておくことで、タップされた位置に表示されている文字列を判断する。

【0075】

また、上記タップされた位置が、上記履歴ボタン７３であると判断した場合、ＣＰＵ２５は、図７に示した元の検索結果表示画面を再び表示する。

【0076】

［まとめ］
以上説明したように、本実施形態によれば、ユーザ端末２００は、サーバ１００と協働して、ユーザから入力されたキーワードを基に音声通話データを検索し、その検索結果を一覧表示する際に、検索キーワード以外の重要キーワード７２も表示することができる。これにより、ユーザは、音声通話データの内容を、自らの入力したキーワードと、当該重要キーワード７１との関係で、容易に把握することができる。

【0077】

［変形例］
本技術は上述の実施形態にのみ限定されるものではなく、本開示の要旨を逸脱しない範囲内において種々変更され得る。

【0078】

上述の実施形態では、音声通話データが検索対象とされたが、検索対象はこれに限られない。例えば、音楽データや、動画像コンテンツ中の音声データ等が検索対象とされてもよい。

【0079】

上述の実施形態では、音声通話データの文字化処理や、音声通話データ及びそれが文字化された文字情報の記憶処理は、サーバ１００が担っていた。しかし、ユーザ端末２００が十分な記憶容量と計算能力を有している場合には、上記サーバ１００が行う処理をユーザ端末２００が実行してもよい。

【0080】

上述の実施形態では、ユーザ端末２００が音声通話を行った上で音声通話データを一時的に記憶し、それをサーバ１００へ送信していた。しかし、音声通話を行う装置は、ユーザ端末２００とは異なる装置であっても構わない。この場合、ユーザ端末２００は、音声通話を行った装置から、例えばネットワークを介して音声通話データを受信し、または記録媒体を介して音声通話データを記憶する。

【0081】

上記図７で示した検索結果表示画面や、上記図８で示した詳細情報表示画面のユーザインタフェースのレイアウトは図示したものに限られず、さまざまなレイアウトが可能である。

【0082】

上述の実施形態においては、本技術がユーザ端末２００に適用された例を示した。しかし、本技術は、オーディオプレイヤー、テレビジョン装置、ゲーム機器、カーナビゲーション装置、記録再生装置等、他のあらゆる情報処理装置に適用可能である。

【0083】

［その他］
なお、本技術は以下のような構成も採ることができる。
（１）表示部と、
ユーザから第１のキーワードの入力を受け付ける入力部と、
複数の音声情報からそれぞれ音声認識処理により変換された複数の文字情報を記憶するデータベースから、前記入力された第１のキーワードを含む第１の文字情報を検索し、
前記検索により取得された第１の文字情報に含まれる、前記第１のキーワードとは異なる第２のキーワードを抽出し、
前記取得された第１の文字情報を識別する第１の識別情報と、当該第１の文字情報に含まれる前記第２のキーワードとを含む項目の一覧を表示するように前記表示部を制御する
制御部と
を具備する情報処理装置。
（２）上記（１）に記載の情報処理装置であって、
前記制御部は、
前記表示された項目に含まれる前記第２のキーワードを選択する前記ユーザの操作が受け付けられた場合に、前記データベースから、当該第２のキーワードを含む第２の文字情報を検索し、
前記検索により取得された第２の文字情報に含まれる、前記第２のキーワードとは異なる第３のキーワードを抽出し、
前記取得された第２の文字情報を識別する第２の識別情報と、当該第２の文字情報に含まれる前記第３のキーワードとを含む項目の一覧を表示するように前記表示部を制御する
情報処理装置。
（３）上記（１）または（２）に記載の情報処理装置であって、
前記データベースには、前記複数の文字情報をそれぞれ要約した複数の要約情報が記憶されており、
前記制御部は、
前記表示された項目を選択する前記ユーザの操作が受け付けられた場合に、当該選択された項目に対応する要約情報を前記データベースから取得し、
前記取得された要約情報を表示するように前記表示部を制御する
情報処理装置。
（４）上記（３）に記載の情報処理装置であって、
前記制御部は、
前記要約情報を、それに含まれる第３のキーワードを選択可能な状態で表示するように前記表示部を制御し、
前記表示された第３のキーワードを選択する前記ユーザの操作が受け付けられた場合に、前記データベースから、当該第３のキーワードを含む第３の文字情報を検索し、
前記検索により取得された第３の文字情報に含まれる、前記第３のキーワードとは異なる第４のキーワードを抽出し、
前記取得された第３の文字情報を識別する第３の識別情報と、当該第３の文字情報に含まれる前記第４のキーワードとを含む項目の一覧を表示するように前記表示部を制御する
情報処理装置。
（５）上記（３）または（４）に記載の情報処理装置であって、
前記制御部は、前記表示された要約情報の任意の位置を指定するユーザの操作が受け付けられた場合に、当該要約情報の要約元の文字情報に対応する前記音声情報を、当該指定された位置に表示された文字列に相当する再生位置から再生する
情報処理装置。

【符号の説明】

【0084】

２１…表示部
２２…タッチパネル
２３…通信部
２４…アンテナ
２５…ＣＰＵ
２６…スピーカ
２７…マイクロフォン
２８…ＲＡＭ
２９…フラッシュメモリ
４１…通話記録部
４２…一次記憶領域
４３…送受信処理部
４４…検索語入力部
４５…検索結果表示部
４６…通話関連情報格納部
４７…音声文字化処理部
５０…インターネット
７１…重要キーワード
７２…重要キーワード
７３…履歴ボタン
８１…要約情報
８２…重要キーワード
８３…再生ボタン
１００…サーバ
２００…ユーザ端末

【図1】