【解決手段】表示制御部34は、音声の認識結果である文字列を表示させる。音声再生部40は、音声の認識結果である文字列に含まれる1又は複数の文字の指定に応じて、当該1又は複数の文字の、音声の認識結果である文字列における位置に対応付けられる再生位置から当該音声を再生させる。
前記音声再生部は、前記文字列をそれぞれ1又は複数の文字から構成される複数の部分文字列に分割した場合における先頭からn番目の部分文字列が指定される際には、前記音声の再生時間を前記部分文字列の数で複数の部分時間に分割した場合における先頭から前記n番目の部分時間に属する再生位置、又は、当該再生位置の所定時間前に相当する再生位置から前記音声を再生させる、
ことを特徴とする請求項1に記載の音声再生装置。
【発明を実施するための形態】
【0016】
以下、本発明の一実施形態について、図面を参照しながら説明する。
【0017】
図1は、本開示で提案する留守番電話システム1の全体構成の一例を示す図である。
図1に示すように、本開示で提案する留守番電話システム1には、留守番電話処理サーバ10、音声認識サーバ12、及び、複数の携帯電話端末14が含まれている。留守番電話処理サーバ10及び携帯電話端末14は電話通信網16及びインターネット18に接続されている。そのため留守番電話処理サーバ10と携帯電話端末14との間、携帯電話端末14同士の間は互いに電話通信網16やインターネット18を介して通信可能となっている。また音声認識サーバ12は、インターネット18に接続されている。そのため音声認識サーバ12は、留守番電話処理サーバ10等とインターネット18を介して互いに通信可能となっている。
【0018】
留守番電話処理サーバ10は、例えば留守番電話サービス等のサービスを提供するサーバコンピュータである。
【0019】
音声認識サーバ12は、例えば音声を受け付けて、当該音声に対しての音声認識結果である文字列等のテキストを生成するサービスを提供するサーバコンピュータである。音声認識サーバ12は、本実施形態では例えば、留守番電話処理サーバ10が録音した留守番電話のメッセージの音声を受け付ける。そして音声認識サーバ12は、当該音声に対して音声認識処理を実行することで、当該音声の音声認識結果である文字列を含むテキストデータを生成する。そして音声認識サーバ12は、生成されたテキストデータを留守番電話処理サーバ10に送信する。
【0020】
携帯電話端末14は、例えばスマートフォンなどの端末である。
図1に示すように、本実施形態に係る携帯電話端末14には、例えば、制御部14a、記憶部14b、通信部14c、タッチパネル14d、音声入出力部14e、が含まれる。
【0021】
制御部14aは、例えば携帯電話端末14にインストールされるプログラムに従って動作するマイクロプロセッサ等のプログラム制御デバイスである。
【0022】
記憶部14bは、例えばROMやRAM等の記憶素子などである。記憶部14bには、制御部14aによって実行されるプログラムなどが記憶される。
【0023】
通信部14cは、例えば電話通信網16を介した音声通信やデータ通信を行うための携帯電話通信ユニットや、インターネット18を介したデータ通信を行うための無線LANモジュールなどの通信インタフェースである。
【0024】
タッチパネル14dは、例えばタッチセンサ、及び、液晶ディスプレイや有機ELディスプレイ等のディスプレイを含んで構成されており、制御部14aが生成する映像などを表示させる。またユーザはタッチパネル14dを操作することで、制御部14aに対する操作入力を行えるようになっている。制御部14aは、タッチパネル14dに対する操作入力に応じて各種の処理を実行する。
【0025】
音声入出力部14eは、例えばヘッドホンやスピーカ等の音声出力デバイスを含んでおり、通信部14cが受信する音声データが表す音声などを出力する。また音声入出力部14eは、マイク等の音声入力デバイスを含んでおり、例えば受け付ける音声を、通信部14cを介して他の携帯電話端末14に送信する。
【0026】
本実施形態に係る携帯電話端末14は、本実施形態に係る留守番電話プログラムをインストールすることで、録音された留守番電話のメッセージである音声の認識結果を文字列としてタッチパネル14dに表示させることができるようになっている。
【0027】
ここで、本実施形態に係る留守番電話プログラムを利用可能にするための手続の流れの一例を、
図2に示すフロー図を参照しながら説明する。
【0028】
まず携帯電話端末14のユーザは、携帯電話端末14の販売店等において、本実施形態に係る留守番電話プログラムの入手先となるURLとシリアル番号を入手する(S101)。
【0029】
そして、ユーザは携帯電話端末14からS101に示す手続で入手したURLにアクセスして、本実施形態に係る留守番電話プログラムをダウンロードし、当該留守番電話プログラムを携帯電話端末14にインストールする(S102)。
【0030】
そしてユーザは、タッチパネル14dを介して、S101に示す手続で入手したシリアル番号を入力する(S103)。すると、タッチパネル14dに、無応答時転送の転送先として設定すべき電話番号が表示される(S104)。
【0031】
そしてユーザが携帯電話端末14を操作して、S104に示す手続で表示された電話番号を無応答時転送の転送先として設定すると(S105)、ユーザは、本実施形態に係る留守番電話プログラムを利用可能となる。
【0032】
例えば、あるユーザが、本実施形態に係る留守番電話プログラムが利用可能なユーザの携帯電話端末14の電話番号に宛てて電話をかけたとする。以下、電話をかけたユーザを発信ユーザ、発信ユーザが電話をかけた相手のユーザを着信ユーザと呼ぶこととする。
【0033】
ここで着信ユーザの携帯電話端末14が無応答である場合は、上記S105に示す手続で設定された電話番号に宛てた電話としてこの電話が留守番電話処理サーバ10に転送される。なお本実施形態ではシリアル番号と転送先の電話番号とが1対1で対応付けられているので、留守番電話処理サーバ10は、転送先として設定されている電話番号に基づいて、どの電話番号に宛てた電話が転送されたのかを特定できるようになっている。
【0034】
以下、転送電話を受け付けた留守番電話処理サーバ10により実行される処理の流れの一例を、
図3に示すフロー図を参照しながら説明する。
【0035】
留守番電話処理サーバ10は、発信ユーザの携帯電話端末14からの転送電話の着信を受け付けると(S201)、発信ユーザの携帯電話端末14に自動応答メッセージを発信する(S202)。この自動応答メッセージは発信ユーザの携帯電話端末14の音声入出力部14eから音声出力される。
【0036】
そして留守番電話処理サーバ10は、S201に示す処理で受け付けた着信に基づいて、発信ユーザが利用している携帯電話端末14の電話番号を特定する(S203)。
【0037】
その後、発信ユーザが留守番電話のメッセージを携帯電話端末14の音声入出力部14eを介して音声入力すると、当該メッセージの音声は留守番電話処理サーバ10に送信される。そして留守番電話処理サーバ10は、当該留守番電話のメッセージの音声を録音する(S204)。
【0038】
すると留守番電話処理サーバ10は、S204に示す処理で録音された音声のデータを音声認識サーバ12に送信する(S205)。音声認識サーバ12は、当該音声のデータを受信すると、当該音声に対して音声認識処理を実行する。そして音声認識サーバ12は、当該音声の音声認識の結果である文字列を含むテキストデータを留守番電話処理サーバ10に送信する。そして留守番電話処理サーバ10は当該テキストデータを受信する(S206)。
【0039】
そして留守番電話処理サーバ10は、S206に示す処理で受信したテキストデータやS204に示す処理で録音された音声のデータを含む留守番電話データを着信ユーザの携帯電話端末14に送信する(S207)。なお本実施形態では当該留守番電話データには、上述のテキストデータや音声のデータの他に、例えば、着信/録音通知、発信ユーザの電話番号、当該音声の録音時刻、及び、当該音声の再生時間、のそれぞれを示すデータが含まれることとする。そして本処理例に示す処理は終了される。
【0040】
なお例えば音声認識の結果、録音された音声が無音であることが判明した場合には、S207に示す処理で、留守番電話処理サーバ10は、S204に示す処理で録音されたメッセージの音声のデータを送信しなくてもよい。このようにすれば、送信されるデータのデータ量を低減できることとなる。またこの場合に、録音された音声が無音であったことを示すメッセージを送信するようにしてもよい。そして携帯電話端末14が当該メッセージを表示するようにしてもよい。
【0041】
また留守番電話処理サーバ10は、送信されるデータのデータ量を削減するために、無音の部分が除去(トリミング)された音声のデータを着信ユーザの携帯電話端末14に送信するようにしてもよい。
【0042】
S207に示す処理で送信された留守番電話データを受信した着信ユーザの携帯電話端末14は、当該留守番電話データを記憶する。そして着信ユーザの携帯電話端末14は、着信及び録音があったことを着信ユーザに通知する。
【0043】
そして着信ユーザが本実施形態に係る留守番電話プログラムを起動する処理を実行すると、
図4に例示するメッセージ一覧画面20がタッチパネル14dに表示される。
【0044】
メッセージ一覧画面20には、受信した留守番電話データに含まれるテキストデータを表すテキスト画像I1が、受信した時刻の順に時系列で並んで配置されている。またメッセージ一覧画面20には、テキスト画像I1に対応付けて、発信ユーザ氏名画像I2、写真画像I3、再生アイコン画像I4、再生時間画像I5、及び、録音時刻画像I6が配置されている。
【0045】
発信ユーザ氏名画像I2は例えば発信ユーザの氏名を表す画像である。写真画像I3は例えば発信ユーザの写真の画像である。本実施形態では例えば、着信ユーザの携帯電話端末14にインストールされている連絡先情報アプリケーションにおいて、受信した留守番電話データに示されている発信ユーザの電話番号に関連付けられて管理されている氏名及び写真が特定される。そして本実施形態では、特定された氏名を表す画像が発信ユーザ氏名画像I2としてメッセージ一覧画面20に配置され、特定された写真の画像が写真画像I3としてメッセージ一覧画面20に配置される。
【0046】
再生アイコン画像I4は、音声の再生を指示するためのアイコン画像である。また再生時間画像I5は、受信した留守番電話データに示されている再生時間を表す画像である。また録音時刻画像I6は、受信した留守番電話データに示されている録音時刻を表す画像である。
【0047】
ここで着信ユーザが、例えば再生アイコン画像I4に対するタップ操作などといった、再生アイコン画像I4を選択する操作を行うと、
図5Aに例示する音声再生画面22がタッチパネル14dに表示される。
【0048】
図5Aに示す音声再生画面22には、選択された再生アイコン画像I4に対応付けられるテキスト画像I1が配置されている。また本実施形態では、音声再生画面22が表示されると、当該音声再生画面22に配置されているテキスト画像I1に対応付けられる留守番電話のメッセージの音声の再生が開始されるようになっている。
【0049】
また音声再生画面22には、当該音声の再生時間を表す再生時間画像I5及び再生位置を表す再生位置画像I7が配置されている。また音声再生画面22には、シークバー画像I8及び各種の操作画像I9が配置されている。着信ユーザはシークバー画像I8を操作することで、音声の再生位置を変えることができるようになっている。また着信ユーザは操作画像I9を操作することで音声の早送り、巻き戻し、停止、再生、2倍速等の操作を行うことができるようになっている。
【0050】
また本実施形態では、メッセージの音声の再生中には、テキスト画像I1が表す文字列のうち、再生位置に対応付けられる文字が強調表示される。
図5Aでは、強調表示されている文字が、カーソルCで囲まれる文字として表現されている。
【0051】
なお再生中の音節や音素に対応付けられる文字が強調表示される必要はない。例えば単純に、テキスト画像I1が表す文字列に含まれる文字の数で再生時間を割った時間毎に強調表示される文字が変わるようにしてもよい。具体的には例えば、再生時間をT1秒、テキスト画像I1が表す文字列に含まれる文字の数をN1とした際に、先頭からn1番目の文字は、((n1−1)×T1/N1)秒から(n1×T1/N1)秒までの再生位置である場合に強調表示されるようにしてもよい。
【0052】
ここで
図5Bに示すように、例えば発信ユーザが虎ノ門支社へ訪問する時刻を表す文字(例えば先頭から60番目の文字である「8」)を指定する操作を着信ユーザが行ったとする。すると
図5Cに示すように、テキスト画像I1が表す文字列における指定された文字の位置に応じたものに再生位置が変更される。そして変更後の再生位置からメッセージの音声が再生される。
【0053】
例えば、再生時間をT1秒、テキスト画像I1が表す文字列に含まれる文字の数をN1とした際に、先頭からn1番目の文字が指定されたとする。この場合は本実施形態では例えば、(((n1−1)×T1/N1)−Δ)秒の再生位置からメッセージの音声が再生される。なおΔは所定のオフセット値であり、ここでは例えば2秒であるとする。
図5Cの例では、N1=132、T1=24秒、n1=60であるので、(((60−1)×24/132)−2)=8.72秒の再生位置から音声が再生されることとなる。このように本実施形態では、指定された文字に対応付けられる再生位置の所定時間前からメッセージの音声が再生されることとなる。
【0054】
なお上記Δの値は0であっても構わない。この場合は、指定された文字に対応付けられる再生位置からメッセージの音声が再生されることとなる。例えばN1=132、T1=24秒、n1=60である場合は、((60−1)×24/132)=10.72秒の再生位置から再生されることとなる。また文字の指定に応じてメッセージの音声が再生される再生位置から所定時間の部分(例えば5秒)が繰り返し再生されるようにしてもよい。
【0055】
図6Aは、テキスト画像I1の別の一例が配置された音声再生画面22の一例を示す図である。音声認識の精度が悪い場合には、
図6Aに示すように、テキスト画像I1が表す文字列からは意味する内容が不明である部分が存在することがある。ここで意味する内容が不明である部分(
図6Aにおいては例えば先頭から59番目の文字である「社」)を指定する操作を着信ユーザが行ったとする。するとこの場合についても
図6Bに示すように、テキスト画像I1が表す文字列における指定された文字の位置に応じたものに再生位置が変更されて、変更後の再生位置からメッセージの音声が再生される。
図6Bの例では、N1=117、T1=24秒、n1=59であるので、(((59−1)×24/117)−2)=9.89秒の再生位置から音声が再生されることとなる。なおテキスト画像I1が表す文字列のうちの、音声認識の精度が悪い部分について、強調表示されるようにしてもよい。例えば音声認識の精度が悪い部分については他の文字とは異なる色で表示されるようにしてもよい。
【0056】
本実施形態によれば、着信ユーザはテキスト画像I1を目視することで、発信ユーザによって録音された留守番電話のメッセージの内容を知ることができる。その上本実施形態では、テキスト画像I1が表す文字列に含まれる文字を指定することで、当該文字に対応付けられる再生位置から音声が再生されるようになっている。
【0057】
例えば再生時間をT1秒、テキスト画像I1が表す文字列に含まれる文字の数をN1とした際に、先頭からn1番目の文字が指定されたとすると、当該文字を表す音節又は音素は、((n1−1)×T1/N1)秒の再生位置で再生される可能性が高い。このことを踏まえ本実施形態では、先頭からn番目の文字が指定された場合に、余裕を持って当該音節又は音素を聞き取ることができる(((n1−1)×T1/N1)−Δ)秒の再生位置から音声が再生されるようになっている。なお上述したように、当該文字を表す音節又は音素が再生される可能性の高い((n1−1)×T1/N1)秒の再生位置から音声が再生されても構わない。このようにして本実施形態では、日付や時間、場所などといった重要な部分や、意味する内容が不明である部分などといった、表示されているテキスト画像I1が表す文字列のうちのユーザが確認したい部分の音声をピンポイントで確認できることとなる。
【0058】
また本実施形態では、上述したような単純な方法で再生位置の特定が可能であるため、メッセージの音声を構成する音節や音素の再生位置と当該音節や音素が表す文字とを対応付けて管理する必要がない。そのためメッセージの音声を構成する音節や音素の再生位置と当該音節や音素が表す文字との対応関係を示すデータが留守番電話処理サーバ10から携帯電話端末14に送信される必要がない。そのため当該データに相当する通信量だけ節約されることとなる。
【0059】
以下、文字の指定に応じたピンポイントでの音声の再生を中心に、本実施形態に係る携帯電話端末14の機能並びに本実施形態に係る携帯電話端末14で実行される処理についてさらに説明する。なお本実施形態に係る携帯電話端末14は、指定された文字に対応付けられる音声を再生する音声再生装置としての役割を担うこととなる。
【0060】
図7は、本実施形態に係る携帯電話端末14で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る携帯電話端末14で、
図7に示す機能のすべてが実装される必要はなく、また、
図7に示す機能以外の機能が実装されていても構わない。
【0061】
図7に示すように、本実施形態に係る携帯電話端末14は、機能的には例えば、留守番電話データ受信部30、留守番電話データ記憶部32、表示制御部34、指定受付部36、再生位置決定部38、音声再生部40、を含んでいる。留守番電話データ受信部30は、通信部14cを主として実装される。留守番電話データ記憶部32は、記憶部14bを主として実装される。表示制御部34、指定受付部36は、制御部14a及びタッチパネル14dを主として実装される。再生位置決定部38は、制御部14aを主として実装される。音声再生部40は、制御部14a及び音声入出力部14eを主として実装される。
【0062】
以上の機能は、コンピュータである携帯電話端末14にインストールされた、以上の機能に対応する指令を含むプログラム(上述の本実施形態に係る留守番電話プログラム)を制御部14aで実行することにより実装される。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して携帯電話端末14に供給される。
【0063】
留守番電話データ受信部30は、本実施形態では例えば、
図3に示すS207に示す処理で留守番電話処理サーバ10が送信する留守番電話データを受信する。
【0064】
留守番電話データ記憶部32は、本実施形態では例えば、留守番電話データ受信部30が受信した留守番電話データを記憶する。
【0065】
表示制御部34は、本実施形態では例えば、音声の認識結果である文字列が配置された、
図4に示すメッセージ一覧画面20や
図5A〜
図5C、
図6A、及び、
図6Bに示す音声再生画面22をタッチパネル14dに表示させる。また上述したように、表示制御部34が、音声が再生されている部分に対応付けられる文字を強調表示させてもよい。
【0066】
指定受付部36は、本実施形態では例えば、音声の認識結果である文字列に含まれる1又は複数の文字の指定を受け付ける。指定受付部36は、本実施形態では例えば、タッチパネル14dに対するタップ操作が行われた際には、タップされた位置に配置されている文字又はタップされた位置からの距離が最も短い位置に配置されている文字を、指定された文字として受け付ける。
【0067】
なお指定受付部36が、テキスト画像I1が表すテキスト画像I1が表す文字列を分割した複数の部分文字列のうちのいずれかの指定を受け付けてもよい。ここで部分文字列とは、テキスト画像I1が表す文字列を、例えば、文単位、語単位、行単位、所定数の文字単位、などといった所定の単位で分割したものを指すこととする。本実施形態では部分文字列のそれぞれは1又は複数の文字から構成されていることとする。例えばテキスト画像I1が表す文字列が1文字単位で複数の部分文字列に分割された場合は、複数の部分文字列のそれぞれには1の文字が含まれることとなる。なお複数の部分文字列のそれぞれに含まれる文字の数は同じであっても異なっていてもよい。
【0068】
再生位置決定部38は、本実施形態では例えば、音声の認識結果である文字列に含まれる1又は複数の文字の指定に応じて、当該1又は複数の文字の当該文字列における位置に対応付けられる再生位置を、音声を再生させる再生位置として決定する。
【0069】
ここで例えば、指定受付部36が先頭からn番目の部分文字列の指定を受け付けたとする。この場合、再生位置決定部38は、再生時間を部分文字列の数で複数の部分時間に分割した場合における先頭からn番目の部分時間に属する再生位置を、音声を再生させる再生位置として決定してもよい。あるいはこの場合に、再生位置決定部38が、先頭からn番目の部分時間に属する再生位置の所定時間前(例えば2秒前)に相当する再生位置を、音声を再生させる再生位置として決定してもよい。なおここで先頭からn番目の部分時間に属する再生位置は、例えば先頭からn番目の部分時間の先頭の再生位置であってもよい。また上記複数の部分時間のそれぞれは、再生時間を等時間間隔で分割したものであってもよい。
【0070】
例えば再生時間をT2秒、部分文字列の数をN2とした際に、先頭からn2番目の部分文字列が指定されたとする。この場合には例えば(((n2−1)×T2/N2)−Δ)秒の再生位置が、音声を再生させる再生位置として決定されてもよい。例えば
図6Aに示すようにテキスト画像I1が表す文字列が8行であり、部分文字列は、当該文字列を行単位で分割したものとする。この場合はT2=24秒、N2=8となる。ここで例えば3行目の部分文字列が指定された場合に、(((3−1)×24/8)−2)=4秒の再生位置が、音声を再生させる生成位置として決定されてもよい。
【0071】
音声再生部40は、本実施形態では例えば、音声の認識結果である文字列に含まれる1又は複数の文字の指定に応じて、当該1又は複数の文字の当該文字列における位置に対応付けられる再生位置から当該音声を再生させる。音声再生部40は、本実施形態では例えば、再生位置決定部38が音声を再生させる再生位置として決定する再生位置から音声を再生させる。また音声再生部40は、文字の指定に応じてメッセージの音声が再生される再生位置から所定時間の部分(例えば5秒)を繰り返し再生するようにしてもよい。また、音声再生部40は、始点と終点の文字の指定に応じて始点に対応付けられる再生位置から終点に対応付けられる再生位置までを繰り返し再生するようにしてもよい。
【0072】
また本実施形態では、再生位置決定部38が音声を再生させる再生位置として決定する再生位置に応じて、表示制御部34は、音声再生画面22の表示内容を更新する。
【0073】
以下、指定受付部36が部分文字列の指定を受け付けた際に本実施形態に係る携帯電話端末14において行われる処理の流れの一例を、
図8に示すフロー図を参照しながら説明する。
【0074】
指定受付部36が部分文字列の指定を受け付けると、まず、再生位置決定部38が、当該部分文字列を特定する(S301)。そして再生位置決定部38が、S301に示す処理で特定された部分文字列に基づいて、上述のようにして音声を再生させる再生位置を決定する(S302)。そして表示制御部34が、S302に示す処理で決定された再生位置に基づいて表示内容を更新し、音声再生部40が、S302に示す処理で決定された再生位置から音声を再生して(S303)、本処理例に示す処理は終了される。
【0075】
なお、本発明は上述の実施形態に限定されるものではない。
【0076】
例えば、留守番電話データに、メッセージの音声を構成する音節や音素の再生位置と当該音節や音素が表す文字との対応関係を示すデータが含まれていてもよい。そして再生位置決定部38が、指定された部分文字列に対応付けられる音節や音素の再生位置、又は、当該再生位置の所定時間前から音声を再生させてもよい。
【0077】
また例えば本発明の適用範囲は携帯電話端末14に限定されない。本発明を例えばパーソナルコンピュータ等のコンピュータ一般に適用してもよい。
【0078】
また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。