(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023130204
(43)【公開日】2023-09-20
(54)【発明の名称】情報処理装置、情報処理方法、および情報処理プログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20230912BHJP
G10L 15/00 20130101ALI20230912BHJP
【FI】
G10L15/22 453
G10L15/22 460Z
G10L15/00 200B
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022034738
(22)【出願日】2022-03-07
(71)【出願人】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】三宅 純平
(57)【要約】
【課題】利用者の利便性の向上を図ること。
【解決手段】本願に係る情報処理装置は、受付部と、生成部と、提供部とを備える。受付部は、利用者の発話を受け付ける。生成部は、受付部によって受け付けられた発話のうち秘匿条件を満たす部分をマスキングして利用者の発話をテキスト化したテキスト情報である発話テキスト情報を生成する。提供部は、生成部によって生成された発話テキスト情報を提供する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
利用者の発話を受け付ける受付部と、
前記受付部によって受け付けられた前記発話のうち秘匿条件を満たす部分をマスキングして前記利用者の発話をテキスト化したテキスト情報である発話テキスト情報を生成する生成部と、
前記生成部によって生成された前記発話テキスト情報を提供する提供部と、を備える
ことを特徴とする情報処理装置。
【請求項2】
前記生成部は、
前記受付部によって受け付けられた前記発話に対応する音声情報またはテキスト情報を入力とし、前記利用者の発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを出力とする学習済みモデルを有し、前記学習済みモデルを用いて、前記複数の要素部分のうち前記秘匿スコアが閾値以上である要素部分を、前記秘匿条件を満たす部分として、前記発話テキスト情報を生成する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記生成部は、
前記受付部によって受け付けられた前記発話に対応する音声情報またはテキスト情報を入力とし、前記利用者の発話のうち前記秘匿条件を満たす部分をマスキングしたテキスト情報を前記発話テキスト情報として出力とする学習済みモデルを有し、前記学習済みモデルを用いて、前記発話テキスト情報を生成する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記生成部は、
秘匿対象となる複数の言葉を示す情報を含む秘匿情報テーブルを用いて、前記発話テキスト情報を生成する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記利用者の過去の発話履歴に基づいて、前記学習済みモデルを更新する学習部を備える
ことを特徴とする請求項2または3に記載の情報処理装置。
【請求項6】
前記生成部は、
前記利用者の発話のうち前記秘匿条件を満たす部分を特定の文字、記号、および模様のうちの少なくとも1つに変換することで前記秘匿条件を満たす部分をマスキングする
ことを特徴とする請求項1~5のいずれか1つに記載の情報処理装置。
【請求項7】
前記提供部は、
前記発話テキスト情報を表示部に表示させることで前記発話テキスト情報を前記利用者に提供する
ことを特徴とする請求項1~6のいずれか1つに記載の情報処理装置。
【請求項8】
前記提供部は、
前記表示部に表示されている前記発話テキスト情報のうちマスキングされた部分が選択された場合、前記マスキングを解除する
ことを特徴とする請求項7に記載の情報処理装置。
【請求項9】
コンピュータが実行する情報処理方法であって、
利用者の発話を受け付ける受付工程と、
前記受付工程によって受け付けられた前記発話のうち秘匿条件を満たす部分をマスキングして前記利用者の発話をテキスト化したテキスト情報である発話テキスト情報を生成する生成工程と、
前記生成工程によって生成された前記発話テキスト情報を提供する提供工程と、を含む
ことを特徴とする情報処理方法。
【請求項10】
利用者の発話を受け付ける受付手順と、
前記受付手順によって受け付けられた前記発話のうち秘匿条件を満たす部分をマスキングして前記利用者の発話をテキスト化したテキスト情報である発話テキスト情報を生成する生成手順と、
前記生成手順によって生成された前記発話テキスト情報を提供する提供手順と、をコンピュータに実行させる
ことを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、および情報処理プログラムに関する。
【背景技術】
【0002】
従来、利用者の発話をテキスト化してテキスト情報に変換し、変換したテキスト情報を提供する技術が知られている。例えば、特許文献1には、利用者の音声を認識する音声認識部と、音声認識部で認識した音声を文字列に変換する文字変換部と、文字変換部で変換した文字列を表示する文字列表示部とを備える音声入力装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記従来技術では、利用者の利便性の向上を図る点で改善の余地がある。例えば、特許文献1に記載の技術では、利用者の発話の内容をすべてテキスト化して表示することから、例えば、プライバシーなどの観点から利用者が秘匿したい内容などがある場合、表示されている文字列を編集する必要があり、改善の余地がある。
【0005】
本願は、上記に鑑みてなされたものであって、利用者の利便性の向上を図ることができる情報処理装置、情報処理方法、および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本願に係る情報処理装置は、受付部と、生成部と、提供部とを備える。受付部は、利用者の発話を受け付ける。生成部は、受付部によって受け付けられた発話のうち秘匿条件を満たす部分をマスキングして利用者の発話をテキスト化したテキスト情報である発話テキスト情報を生成する。提供部は、生成部によって生成された発話テキスト情報を提供する。
【発明の効果】
【0007】
実施形態の一態様によれば、利用者の利便性の向上を図ることができるという効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る情報処理の一例を示す図である。
【
図2】
図2は、実施形態に係る情報処理装置の構成の一例を示す図である。
【
図3】
図3は、実施形態に係る情報処理装置の表示部に表示された発話テキスト情報の一例を示す図である。
【
図4】
図4は、実施形態に係る情報処理装置の表示部に表示された発話テキスト情報のうち選択された部分のマスキングが解除される例を示す図である。
【
図5】
図5は、実施形態に係る情報処理装置の処理部による情報処理の一例を示すフローチャートである。
【
図6】
図6は、実施形態に係る情報処理装置の処理部による情報処理の一例を示すフローチャートである。
【
図7】
図7は、実施形態に係る情報処理装置の構成の他の例を示す図である。
【
図8】
図8は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置、情報処理方法、および情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
〔1.情報処理の一例〕
図1は、実施形態に係る情報処理の一例を示す図であり、本実施形態においては情報処理装置1により情報処理方法が実行される。
【0011】
情報処理装置1は、対話型の音声操作に対応するAI(人工知能:Artificial Intelligence)アシスタント機能を利用可能な装置であり、利用者Uは、情報処理装置1と対話することで周辺の機器を制御したり、様々な情報を取得したりすることができる。周辺の機器は、例えば、照明機器、冷蔵庫、洗濯機、エアーコンディショナー、テレビジョン受像機、食器洗浄機、食器乾燥機、電磁調理器、または電子レンジといった種々の機器である。
【0012】
また、利用者Uは、様々な情報を取得するための発話を情報処理装置1に対して行うと、情報処理装置1は、利用者Uからの指示を示す入力情報を情報提供装置2(
図2参照)へ送信する。情報処理装置1は、入力情報に応じた情報提供装置2からネットワークN(
図2参照)を介して提供されるコンテンツ(例えば、ニュース、交通情報、天候、および音楽などの各種情報)を取得し、取得したコンテンツを表示部に表示したりスピーカから出力したりすることができる。
【0013】
さらに、情報処理装置1は、利用者Uの発話をテキスト化し、テキスト化した情報であるテキスト情報を出力するテキスト化機能を有している。かかるテキスト化機能によって、利用者Uは、例えば、メールやSNS(Social Networking Service)に用いる文章、電子掲示板や口コミサイトなどへ投稿する文章などを情報処理装置1に対する発話によって作成することができる。以下、
図1を参照して主にテキスト化機能について説明する。
【0014】
図1に示すように、利用者Uは、情報処理装置1のテキスト機能を利用する場合、情報処理装置1に向けて発話を行う(ステップS1)。
図1に示す例では、利用者Uの発話は、「最近引っ越した所は、東京都A区1-2-3のマンションですが、住み心地がよく、引っ越しの際には、特許太郎さんとかにもとてもお世話になりました。今度、パーティーをするので、是非遊びに来て下さい。連絡先は、090-0190-xxxxです。」である。なお、「090-0190-xxxx」は電話番号であり、「xxxx」は4桁の数字の組み合わせである。
【0015】
情報処理装置1は、利用者Uの発話を受け付ける(ステップS2)。そして、情報処理装置1は、ステップS2で受け付けた利用者Uの発話のうち秘匿条件を満たす部分をマスキングして利用者Uの発話をテキスト化したテキスト情報である発話テキスト情報を生成する(ステップS3)。秘匿条件は、例えば、住所、氏名、電話番号などといったプライバシーにかかわる内容を示す言葉であるが、利用者Uの情報処理装置1に対する操作によって設定または変更が可能である。
【0016】
図1に示す例では、「A区1-2-3」、「特許太郎」、および「090-0190-xxxx」が秘匿条件を満たす部分(単語または単語群など)であり、情報処理装置1は、秘匿条件を満たす部分をマスキングする。「A区1-2-3」は、住所を示す情報であり、「特許太郎」は氏名を示す情報である。
【0017】
情報処理装置1は、利用者Uの発話をテキスト化する過程で秘匿条件を満たす部分のマスキングを行うが、利用者Uの発話をテキスト化した後に、秘匿条件を満たす部分のマスキングを行うこともできる。
【0018】
情報処理装置1は、例えば、ステップS2で受け付けた利用者Uの発話に対応する音声情報またはテキスト情報を入力とし、利用者Uの発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを出力とする学習済みモデルを有する。情報処理装置1は、ステップS2で受け付けた利用者Uの発話に対応する音声情報またはテキスト情報を学習済みモデルに入力し、利用者Uの発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを学習済みモデルから取得する。
【0019】
情報処理装置1は、複数の要素部分のうち秘匿スコアが閾値以上である要素部分を、秘匿条件を満たす部分として、発話テキスト情報を生成する。なお、学習済みモデルの入力がテキスト情報である場合、情報処理装置1は、ステップS2で受け付けた利用者Uの発話に対応する音声情報をテキスト情報に変換し、変換したテキスト情報を学習済みモデルに入力する。
【0020】
また、情報処理装置1は、例えば、ステップS2で受け付けた利用者Uの発話に対応する音声情報またはテキスト情報を入力とし、利用者Uの発話のうち秘匿条件を満たす部分をマスキングした発話テキスト情報を発話テキスト情報として出力とする学習済みモデルを有していてもよい。この場合、情報処理装置1は、ステップS2で受け付けた利用者Uの発話に対応する音声情報またはテキスト情報を学習済みモデルに入力し、学習済みモデルから出力されるテキスト情報を発話テキスト情報として得ることができる。
【0021】
また、情報処理装置1は、学習済みモデルに代えてまたは加えて、秘匿対象となる複数の言葉を示す情報を含む秘匿情報テーブルを有していてもよい。この場合、情報処理装置1は、秘匿情報テーブルに含まれる言葉に対応するテキスト情報または音声情報を、秘匿条件を満たす部分として、発話テキスト情報を生成することができる。
【0022】
なお、秘匿情報テーブルに含まれる文字列は、正規表現で示される文字列であってもよく、この場合、秘匿情報テーブルで示される正規表現で特定されるテキスト情報または音声情報を、秘匿条件を満たす部分として、発話テキスト情報を生成する。
【0023】
マスキングは、利用者Uの発話のうち秘匿条件を満たす部分を、例えば、特定の文字、記号、および模様のうちの少なくとも1つに置き換えることによって行われる。
図1に示す例では、利用者Uの発話のうち秘匿条件を満たす部分が「X」の文字に置き換えられた発話テキスト情報が生成される。
【0024】
具体的には、
図1に示す例では、発話テキスト情報は、「最近引っ越した所は、東京都XXXXXのマンションですが、住み心地がよく、引っ越しの際には、XXXXさんとかにもとてもお世話になりました。今度、パーティーをするので、是非遊びに来て下さい。連絡先は、XXX-XXXX-XXXXです。」である。
【0025】
情報処理装置1は、ステップS3で生成した発話テキスト情報を提供する(ステップS4)。例えば、情報処理装置1は、表示部に発話テキスト情報を表示することによって利用者Uに発話テキスト情報を提供することができる。また、情報処理装置1は、スピーカから発話テキスト情報を音として出力することによって利用者Uに発話テキスト情報を提供することもできる。
【0026】
なお、情報処理装置1は、音声で発話テキスト情報を提供する場合、マスキングした部分を無音にしたり、予め設定された音(例えば、ピーという音)にしたりすることができる。また、情報処理装置1は、発話テキスト情報を他者の端末装置に送信することで、他者に発話テキスト情報を提供することもできる。これにより、例えば、利用者Uの発話に秘匿条件を満たす部分がある場合であっても、その部分の内容が他者に知られることを抑制することができる。
【0027】
また、情報処理装置1は、表示部に表示されている発話テキスト情報のうちマスキングされた部分が利用者Uによって選択された場合、マスキングを解除することができる。これにより、利用者Uは、マスキングされた内容を知りたい場合には、情報処理装置1を操作することで容易にマスキングされた内容を知ることができる。なお、情報処理装置1は、発話テキスト情報のうちマスキングされた部分に対する利用者Uの選択が解除された場合、再度マスキングを行うこともできる。
【0028】
このように、実施形態に係る情報処理装置1は、利用者Uの発話のうち秘匿条件を満たす部分をマスキングして利用者Uの発話をテキスト化したテキスト情報である発話テキスト情報を生成し、生成した発話テキスト情報を利用者Uに提供する。これにより、情報処理装置1は、利用者Uの利便性の向上を図ることができる。
【0029】
以下、このような処理を行う情報処理装置1を含む情報処理システムの構成などについて、詳細に説明する。
【0030】
〔2.情報処理システムの構成〕
次に、
図2を用いて、実施形態に係る情報処理装置1を含む情報処理システムの構成について説明する。
図2は、実施形態に係る情報処理装置1の構成の一例を示す図である。
図2に示すように、実施形態に係る情報処理システム100は、情報処理装置1と、情報提供装置2とを含む。情報処理装置1および情報提供装置2は、ネットワークNを介して、有線または無線により通信可能に接続される。なお、
図2に示す情報処理システム100には、複数台の情報処理装置1および複数台の情報提供装置2が含まれてもよい。
【0031】
情報処理装置1は、例えば、スマートスピーカ、デスクトップ型PC(Personal Computer)、ノート型PC、タブレット端末、携帯電話機、またはPDA(Personal Digital Assistant)などである。なお、情報処理装置1は、上記例に限定されなくともよく、例えば、スマートウォッチ、またはウェアラブルデバイス(Wearable Device)であってもよい。
【0032】
情報提供装置2は、利用者Uにオンラインでサービスを提供する。情報提供装置2によって提供されるサービスは、例えば、検索サービス、情報提供サービス、電子商取引サービス、オークションサービス、音楽配信サービス、動画配信サービスなどのオンラインサービスであるが、かかる例に限定されない。情報提供サービスは、検索サイトによって提供される検索サービス、ニュースサイトで提供されるニュース配信サービス、交通情報サイトで提供される交通情報提供サービス、天候情報サイトで提供される天候情報提供サービスなどの種々のサービスが含まれる。
【0033】
情報提供装置2は、インターネットなどの所定のネットワークNを介して、各種の装置と通信可能な情報処理装置であり、例えば、サーバ装置またはクラウドシステムなどにより実現される。例えば、情報提供装置2は、ネットワークNを介して、他の各種装置と通信可能に接続される。
【0034】
〔3.情報処理装置1〕
図2に示すように、実施形態に係る情報処理装置1は、通信部10と、表示部11と、操作部12と、記憶部13と、音声入力部14と、音声出力部15と、位置検出部16と、処理部17とを備える。
【0035】
〔3.1.通信部10〕
通信部10は、例えば、NIC(Network Interface Card)などによって実現される。通信部10は、ネットワークNと有線または無線で接続され、ネットワークNを介して、情報提供装置2との間で情報の送受信を行う。
【0036】
〔3.2.表示部11〕
表示部11は、例えば、LCD(Liquid Crystal Display)または有機EL(Electro Luminescence)ディスプレイなどである。
【0037】
〔3.3.操作部12〕
操作部12は、例えば、文字、数字、およびスペースを入力するためのキー、エンターキーおよび矢印キーなどを含むキーボード、マウス、および電源ボタンなどを含む。表示部11がタッチパネルディスプレイの表示装置である場合、操作部12はタッチパネルを含んでいてもよい。
【0038】
〔3.4.記憶部13〕
記憶部13は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置によって実現される。
【0039】
記憶部13には、各種の情報が記憶される。例えば、記憶部13には、情報提供装置2から送信されネットワークNおよび通信部10を介して処理部17によって取得された情報などが記憶される。また、記憶部13には、利用者Uの発話に対応する音声情報およびテキスト情報なども記憶される。
【0040】
〔3.5.音声入力部14〕
音声入力部14は、利用者Uが発した音声の信号である音声信号をデジタル信号に変換し、変換したデジタル信号である音声デジタル信号を処理部17に音声情報として出力する。音声入力部14は、例えば、マイクロホンと、マイクホンから出力される電気的なアナログ信号である音声信号をデジタル信号に変換するAD(Analog to Digital)変換器とを含む。
【0041】
〔3.6.音声出力部15〕
音声出力部15は、例えば、処理部17から出力される音声情報であるデジタル音声信号をアナログ音声信号に変換するDA(Digital to Analog)変換器と、DA変換器から出力されるアナログ音声信号を音に変換して出力するスピーカとを備える。
【0042】
〔3.7.位置検出部16〕
位置検出部16は、例えば、情報処理装置1の位置を検出し、検出した情報処理装置1の位置のデータである位置データを処理部17に出力する。位置検出部16は、GNSS(Global Navigation Satellite System)における複数の測位衛星から送信される複数の測位信号を受信し、受信した複数の測位信号に基づいて、情報処理装置1の位置を検出する。
【0043】
〔3.8.処理部17〕
処理部17は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)またはMPU(Micro Processing Unit)などによって、情報処理装置1内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。
【0044】
また、処理部17は、例えば、ASIC(Application Specific Integrated Circuit)またはFPGA(Field Programmable Gate Array)などの集積回路により実現されてもよい。処理部17は、受付部20と、生成部21と、提供部22と、学習部23とを備える。
【0045】
〔3.8.1.受付部20〕
受付部20は、音声入力部14から出力される音声デジタル情報に基づいて、利用者Uの発話を受け付ける。例えば、受付部20は、利用者Uが操作部12を用いて特定操作を行った場合に、その後に行われる利用者Uの発話を受け付ける。
【0046】
特定操作は、例えば、情報取得機能、情報送信機能、機器制御機能、およびテキスト化機能の各々で異なる。情報取得機能は、利用者Uの発話に応じて情報提供装置2から特定の情報を取得する機能であり、情報送信機能は、利用者Uの発話に応じて情報を送信する機能であり、機器制御機能は、利用者Uの発話に応じて周辺の機器を制御する機能である。テキスト化機能は、上述したように、利用者Uの発話をテキスト化し、テキスト化した情報であるテキスト情報を出力する機能である。
【0047】
また、受付部20は、利用者Uが特定のキーワードを発話した場合に、その後に行われる利用者Uの発話を受け付けることもできる。利用者Uが特定のキーワードを発話したか否かは、音声入力部14から出力される音声情報号に対する音声認識によって行われる。なお、特定のキーワードは、例えば、情報取得機能、情報送信機能、機器制御機能、およびテキスト化機能の各々で異なる。
【0048】
受付部20は、利用者Uの発話によって音声入力部14から出力される音声情報をテキスト情報に変換する音声認識機能を有している。また、受付部20は、音声認識機能によって変換されたテキスト情報の意味を解析する機能を有していてもよい。
【0049】
受付部20は、利用者発話に対応する音声情報またはテキスト情報を生成部21に出力する。利用者発話に対応する音声情報は、音声入力部14から出力される音声情報であり、利用者発話に対応するテキスト情報は、利用者発話に対応する音声情報を音声認識機能によってテキスト化された情報である。受付部20は、例えば、利用者Uの発話に対応する音声情報およびテキスト情報を利用者Uの発話毎に関連付けて記憶部13に記憶させる。
【0050】
また、受付部20は、マスキングの要否を規定する秘匿条件の設定または変更を受け付ける。例えば、受付部20は、利用者Uの操作部12への操作に応じて秘匿条件の情報の入力または変更があった場合に、秘匿条件の設定または変更を受け付ける。
【0051】
〔3.8.2.生成部21〕
生成部21は、テキスト化機能において、受付部20によって受け付けられた利用者Uの発話のうち秘匿条件を満たす部分をマスキングして利用者Uの発話をテキスト化したテキスト情報である発話テキスト情報を生成する。
【0052】
秘匿条件は、例えば、住所、氏名、電話番号などといったプライバシーにかかわる内容を示す言葉や公序良俗に反する内容を示す言葉である。公序良俗に反する内容を示す言葉は、例えば、差別的または侮蔑的な言葉、卑猥な言葉、犯罪を肯定または助長させる意味をもつ言葉などである。秘匿条件は、上述したように、利用者Uによって生成または変更可能である。
【0053】
生成部21は、例えば、利用者Uの発話に対応する音声情報またはテキスト情報を入力とし、利用者Uの発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを出力とする学習済みモデルを有する。
【0054】
生成部21は、受付部20によって受け付けられた利用者Uの発話に対応する音声情報またはテキスト情報を学習済みモデルに入力し、利用者Uの発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを学習済みモデルから取得する。生成部21は、複数の要素部分のうち秘匿スコアが閾値以上である要素部分を、秘匿条件を満たす部分として、発話テキスト情報を生成する。
【0055】
また、生成部21は、例えば、利用者Uの発話に対応する音声情報またはテキスト情報を入力とし、利用者Uの発話のうち秘匿条件を満たす部分をマスキングした発話テキスト情報を発話テキスト情報として出力とする学習済みモデルを有していてもよい。
【0056】
この場合、生成部21は、受付部20によって受け付けられた利用者Uの発話に対応する音声情報またはテキスト情報を学習済みモデルに入力し、学習済みモデルから出力されるテキスト情報を発話テキスト情報として得ることができる。
【0057】
生成部21は、例えば、発話テキスト情報の用途に応じた複数の学習済みモデルを有してもよい。発話テキスト情報の用途は、例えば、メール用、SNS用、口コミ投稿用、または電子掲示板用などである。生成部21は、例えば、利用者Uの操作部12への操作、利用者Uの発話による指定、または表示部11に表示されているアプリケーションの種類などに応じて、発話テキスト情報の用途を判定することができる。
【0058】
生成部21は、例えば、利用者Uのコンテキストに応じた複数の学習済みモデルを有してもよい。コンテキストには、利用者Uの現在位置または利用者Uの運動状態などが含まれる。利用者Uの現在位置や運動状態は、例えば、位置検出部16によって検出された位置に基づいて判定される。
【0059】
学習済みモデルは、例えば、畳み込みニューラルネットワークまたは回帰型ニューラルネットワークなどのニューラルネットワークによる機械学習によって生成されるが、かかる例に限定されない。例えば、学習済みモデルは、ニューラルネットワークに代えて、線形回帰、重回帰、またはロジスティック回帰といった回帰手法の学習アルゴリズムなどのように他の学習アルゴリズムによる機械学習を用いて生成されてもよい。
【0060】
また、生成部21は、学習済みモデルに代えてまたは加えて、秘匿対象となる複数の言葉を示す情報を含む秘匿情報テーブルを有してもよい。この場合、情報処理装置1は、秘匿情報テーブルに含まれる言葉に対応するテキスト情報または音声情報を、秘匿条件を満たす部分として、発話テキスト情報を生成することができる。
【0061】
秘匿情報テーブルに含まれる文字列は、正規表現で示される文字列であってもよく、この場合、秘匿情報テーブルで示される正規表現で特定されるテキスト情報または音声情報を、秘匿条件を満たす部分として、発話テキスト情報を生成する。正規表現で示される文字列は、例えば、電話番号の場合、「[0-9]{3}-[0-9]{4}-[0-9]{4}」などである。
【0062】
また、生成部21は、学習済みモデルに代えてまたは加えて、互いに異なる言葉毎の秘匿に関する情報を含む秘匿情報テーブルを有してもよい。秘匿に関する情報は、秘匿レベルを示す情報であり、例えば、2段階以上に設定される。生成部21は、例えば、利用者Uの発話に秘匿レベル設定された言葉が含まれる割合が多いほど、マスキング対象とする秘匿レベルを下げることができる。
【0063】
例えば、秘匿レベルがレベル1~3までの3段階であるとし、レベル1、レベル2、レベル3の順に秘匿レベルが高いとする。すなわち、秘匿レベルが最も低いレベルがレベル1であり、秘匿レベルが次に低いレベルがレベル2であり、秘匿レベルが最も高いレベルがレベル3である。
【0064】
この場合、生成部21は、利用者Uの発話に秘匿レベル設定された言葉が含まれる割合が第1閾値未満であれば、秘匿レベルがレベル3である言葉をマスキング対象とする。また、生成部21は、利用者Uの発話に秘匿レベル設定された言葉が含まれる割合が第1閾値以上第2閾値未満であれば、秘匿レベルがレベル2以上である言葉をマスキング対象とする。また、生成部21は、利用者Uの発話に秘匿レベル設定された言葉が含まれる割合が第2閾値以上であれば、秘匿レベルがレベル1以上である言葉をマスキング対象とする。
【0065】
また、生成部21は、利用者Uの発話に秘匿レベルに設定された言葉が含まれる割合に代えてまたは加えて、発話テキスト情報の用途や利用者Uのコンテキストに応じてマスキング対象とする秘匿レベルを決定することもできる。また、利用者Uは、操作部12への操作または情報処理装置1に対する発話によってマスキング対象とする秘匿レベルを指定することもできる。例えば、生成部21は、受付部20によって指定されたレベル以上の秘匿レベルである言葉をマスキング対象とすることもできる。
【0066】
マスキングは、利用者Uの発話のうち秘匿条件を満たす部分を、例えば、特定の文字、記号、および模様のうちの少なくとも1つに置き換えることによって行われる。特定の文字は、例えば、「X」、「・」、「-」、「?」などであり、記号は、例えば、「□」、「◆」、「※」、「〇」などである。また、模様は、例えば、市松模様、幾何学模様などである。また、マスキングは、利用者Uの発話のうち秘匿条件を満たす部分を、例えば、スペースに置き換えることによって行ってもよい。
【0067】
なお、生成部21は、学習済みモデルと秘匿情報テーブルとを併用して、発話テキスト情報を生成することもできる。また、生成部21は、利用者Uの発話に対応する音声情報およびテキスト情報との組み合わせを利用者Uの発話毎に記憶部13に記憶させる。
【0068】
また、生成部21は、秘匿条件を満たす部分の文字数と同じ文字数の文字または記号などでのマスキングに代えて、例えば、秘匿レベルが閾値以上である場合、秘匿条件を満たす部分の文字数と異なる文字数の文字または記号などでのマスキングを行うこともできる。
【0069】
〔3.8.3.提供部22〕
提供部22は、生成部21によって生成された発話テキスト情報を提供する。例えば、提供部22は、発話テキスト情報を表示部11に表示させることで発話テキスト情報を利用者Uに提供する。
【0070】
図3は、実施形態に係る情報処理装置1の表示部11に表示された発話テキスト情報の一例を示す図である。
図3に示す例では、利用者Uが「うちの近くのAAAスーパーに買い物に行ったときに、特許花子さんと出会って、話をしたのですが、次郎という息子さんが今年、あのBBB商事に入社されたそうです。」と発話した場合に、情報処理装置1の表示部11に表示される発話テキスト情報の一例である。
【0071】
図3に示す発話テキスト情報は、「うちの近くのXXXXXXXに買い物に行ったときに、XXXXさんと出会って、話をしたのですが、XXという息子さんが今年、あのXX高いXXXXXに入社されたそうです」である。そして、
図3に示す発話テキスト情報では、秘匿条件を満たす部分として「AAAスーパー」、「特許花子」、および「BBB商事」が「X」の文字列でマスキングされている。
【0072】
マスキングは、利用者Uの発話のうち秘匿条件を満たす部分を、例えば、特定の文字、記号、および模様のうちの少なくとも1つに置き換えることによって行われる。
図3に示す例では、利用者Uの発話のうち秘匿条件を満たす部分が「X」の文字に置き換えられた発話テキスト情報が生成される。
【0073】
また、提供部22は、発話テキスト情報を音声合成により音声情報に変換し、変換した音声情報を音声出力部15に出力することもできる。これにより、提供部22は、発話テキスト情報を音声で利用者Uに提供することができる。なお、提供部22は、発話テキスト情報を音声合成して音声情報に変換する場合に、発話テキスト情報をマスキングされた部分を特定の音(例えば、「ピー」という音など)に変換することができ、また、発話テキスト情報をマスキングされた部分を無音にすることもできる。
【0074】
また、提供部22は、利用者Uとの対話に基づいて、利用者Uの発話に応じた情報を情報提供装置2に送信したり、利用者Uの発話に応じた情報を情報提供装置2から取得したり、利用者Uの発話に応じた周辺の機器を制御したりすることもできる。
【0075】
また、提供部22は、表示部11に表示されている発話テキスト情報のうちマスキングされた部分が選択された場合、マスキングを解除する。利用者Uは、例えば、操作部12を操作することによってマスキングされた部分を選択することができる。
【0076】
図4は、実施形態に係る情報処理装置1の表示部11に表示された発話テキスト情報のうち選択された部分のマスキングが解除される例を示す図である。
図4に示す例では、「XXXXX」が利用者Uによって選択され、利用者Uによって選択された「XXXXX」のマスキングが解除されて「BBB商事」が表示されている。
【0077】
なお、提供部22は、例えば、利用者Uの発話をマスキングなしにテキスト化したテキスト情報と、利用者Uの発話のうち秘匿条件を満たす部分の位置を示す情報とを含む情報を発話情報として生成することができる。この場合、提供部22は、生成した発情報に基づいて、発話テキスト情報を利用者Uに提供したり、通信部10を介して外部装置へ送信したりすることができる。
【0078】
〔3.8.4.学習部23〕
学習部23は、学習済みモデルを生成したり、更新したりすることができる。例えば、学習部23は、秘匿条件を満たす言葉であって利用者Uの発話に対応する音声情報とテキスト情報とを含む学習用データを用いて、学習済みモデルを生成したり、更新したりする。
【0079】
学習用データは、例えば、利用者Uの過去の発話履歴に基づいて生成される。例えば、学習部23は、秘匿条件を満たす言葉として受付部20によって受け付けられた利用者Uの発話に基づいて学習用データを生成する。
【0080】
また、学習部23は、利用者Uの過去の発話履歴を表示部11に表示させ、秘匿条件を満たす言葉を操作部12への操作などによって利用者Uに選択させることによって、学習用データを生成することもできる。
【0081】
例えば、学習部23は、利用者Uの過去の発話履歴を記憶部13から取得する。利用者Uの過去の発話履歴には、利用者Uの過去の発話に対応する音声情報とテキスト情報とが含まれており、学習部23は、利用者Uに選択された秘匿条件を満たす言葉に対応する音声情報とテキスト情報との組み合わせを学習用データとして生成する。
【0082】
また、学習部23は、利用者Uに選択された秘匿条件を満たす言葉の位置を示す情報と利用者Uの過去の発話に対応する音声情報またはテキスト情報との組み合わせを学習用データとして生成することもできる。かかる学習用データによって生成または更新された学習済みモデルは、利用者Uの発話に対応する音声情報またはテキスト情報に含まれる語の位置(先頭の語からの位置)毎に秘匿度合いを示す秘匿スコアを出力とするモデルである。
【0083】
この場合、生成部21は、利用者Uの発話に対応する音声情報またはテキスト情報を学習済みモデルに入力し、学習済みモデルから出力される秘匿スコアが閾値以上である位置をマスキング対象としてマスキングすることで発話テキスト情報を生成する。なお、生成部21は、閾値は、例えば、上述した秘匿レベルが高いほど高くすることができる。
【0084】
学習部23は、発話テキスト情報の用途に応じた複数の学習済みモデルを生成することができ、また、利用者Uのコンテキストに応じた複数の学習済みモデルを生成することもできる。なお、学習部23は、上述した学習済みモデルを生成することができればよく、学習部23による学習処理は上述の処理に限定されない。
【0085】
〔4.処理手順〕
次に、実施形態に係る情報処理装置1の処理部17による情報処理の手順について説明する。
図5および
図6は、実施形態に係る情報処理装置1の処理部17による情報処理の一例を示すフローチャートである。
【0086】
まず、
図5について説明する。
図5は、情報処理装置1が行う発話テキスト情報生成処理の一例を示す。情報処理装置1の処理部17は、利用者Uの発話を受け付ける(ステップS10)。
【0087】
次に、処理部17は、ステップS10で受け付けた利用者Uの発話のうち秘匿条件を満たす部分をマスキングして利用者Uの発話をテキスト化したテキスト情報である発話テキスト情報を生成する(ステップS11)。ステップS11の処理において、処理部17は、例えば、利用者Uの発話に対応する音声情報または文字情報を学習済みモデルに入力し、利用者Uの発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを学習済みモデルから取得する。処理部17は、複数の要素部分のうち秘匿スコアが閾値以上である要素部分を、秘匿条件を満たす部分として、発話テキスト情報を生成する。
【0088】
そして、処理部17は、ステップS11で生成した発話テキスト情報を提供し(ステップS12)、
図5に示す処理を終了する。例えば、ステップS12の処理において、処理部17は、例えば、発話テキスト情報を表示部11に表示したり、発話テキスト情報を音声として音声出力部15から出力させたりすることができる。
【0089】
次に、
図6について説明する。
図6は、情報処理装置1が行う学習処理の一例を示す。情報処理装置1の処理部17は、学習用データを生成する(ステップS20)。ステップS20の処理において、例えば、処理部17は、秘匿条件を満たす言葉として受付部20によって受け付けられた利用者Uの発話に基づいて学習用データを生成する。
【0090】
次に、ステップS20で生成した学習用データを用いて学習済みモデルを生成または更新して(ステップS21)、
図6に示す処理を終了する。
【0091】
〔5.変形例〕
上述した情報処理装置1は、利用者Uに操作される端末装置などの機器であるものとして説明したが、情報処理装置1は、サーバ装置などであってもよい。
図7は、実施形態に係る情報処理装置1の構成の他の例を示す図である。
【0092】
図7に示す端末装置3は、利用者Uの発話を音声情報またはテキスト情報に変換し、変換した音声情報またはテキスト情報を含む利用者発話情報を情報処理装置1にネットワークNを介して送信する。
図7に示す情報処理装置1の受付部20は、端末装置3から送信される利用者発話情報をネットワークNおよび通信部10を介して取得することで、利用者Uの発話を受け付ける。
【0093】
情報処理装置1の生成部21は、利用者発話情報に含まれる音声情報またはテキスト情報に基づいて、発話テキスト情報を生成する。提供部22は、生成部21によって生成された発話テキスト情報を通信部10およびネットワークNを介して端末装置3に送信することで、発話テキスト情報を提供する。端末装置3は、情報処理装置1から送信される発話テキスト情報を受信し、受信した発話テキスト情報を表示したり音声として出力したりする。
【0094】
なお、
図2に示す情報処理装置1における処理部17の機能の一部は、
図7に示す端末装置3によって実現されてもよい。また、
図2に示す情報処理装置1における処理部17の機能の一部は、情報提供装置2によって実現されてもよい。
【0095】
また、
図2に示す情報処理装置1は、学習済みモデルや秘匿情報テーブルを利用者U毎に有しており、この場合の学習済みモデルは、オンデバイスモデルということもできる。また、
図7に示す情報処理装置1は、学習済みモデルや秘匿情報テーブルを全利用者Uに共通に有してもよく、学習済みモデルや秘匿情報テーブルを利用者U毎に有していてもよい。
【0096】
また、上述した例では、
図2に示す情報処理装置1は、対話型の音声操作に対応するAIアシスタント機能を有するものとして説明したが、情報処理装置1は、AIアシスタント機能を有しない装置であってもよい。例えば、情報処理装置1は、ボイスレコーダなどであってもよい。情報処理装置1のテキスト化機能は、例えば、会議の議事録をテキスト化する際などにも用いることができる。
【0097】
〔6.ハードウェア構成〕
上述してきた実施形態に係る情報処理装置1は、例えば
図8に示すような構成のコンピュータ80によって実現される。
図8は、実施形態に係る情報処理装置1の機能を実現するコンピュータ80の一例を示すハードウェア構成図である。コンピュータ80は、CPU81、RAM82、ROM(Read Only Memory)83、HDD(Hard Disk Drive)84、通信インターフェイス(I/F)85、入出力インターフェイス(I/F)86、およびメディアインターフェイス(I/F)87を有する。
【0098】
CPU81は、ROM83またはHDD84に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM83は、コンピュータ80の起動時にCPU81によって実行されるブートプログラムや、コンピュータ80のハードウェアに依存するプログラムなどを記憶する。
【0099】
HDD84は、CPU81によって実行されるプログラム、および、かかるプログラムによって使用されるデータなどを記憶する。通信インターフェイス85は、ネットワークN(
図2参照)を介して他の機器からデータを受信してCPU81へ送り、CPU81が生成したデータを、ネットワークNを介して他の機器に送信する。
【0100】
CPU81は、入出力インターフェイス86を介して、ディスプレイやプリンタなどの出力装置、および、キーボードまたはマウスなどの入力装置を制御する。CPU81は、入出力インターフェイス86を介して、入力装置からデータを取得する。また、CPU81は、入出力インターフェイス86を介して生成したデータを出力装置に出力する。
【0101】
メディアインターフェイス87は、記録媒体88に記憶されたプログラムまたはデータを読み取り、RAM82を介してCPU81に提供する。CPU81は、かかるプログラムを、メディアインターフェイス87を介して記録媒体88からRAM82上にロードし、ロードしたプログラムを実行する。記録媒体88は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)などの光学記録媒体、MO(Magneto-Optical disk)などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどである。
【0102】
例えば、コンピュータ80が実施形態に係る情報処理装置1として機能する場合、コンピュータ80のCPU81は、RAM82上にロードされたプログラムを実行することにより、処理部17の機能を実現する。また、HDD84には、記憶部13内のデータが記憶される。コンピュータ80のCPU81は、これらのプログラムを記録媒体88から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
【0103】
〔7.その他〕
また、上記実施形態および変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0104】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0105】
また、上述してきた実施形態および変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0106】
〔8.効果〕
上述してきたように、実施形態に係る情報処理装置1は、受付部20と、生成部21と、提供部22とを備える。受付部20は、利用者Uの発話を受け付ける。生成部21は、受付部20によって受け付けられた発話のうち秘匿条件を満たす部分をマスキングして利用者Uの発話をテキスト化したテキスト情報である発話テキスト情報を生成する。提供部22は、生成部21によって生成された発話テキスト情報を提供する。これにより、情報処理装置1は、利用者Uの利便性の向上を図ることができる。
【0107】
また、生成部21は、受付部20によって受け付けられた利用者Uの発話に対応する音声情報またはテキスト情報を入力とし、利用者Uの発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを出力とする学習済みモデルを有する。生成部21は、学習済みモデルを用いて、複数の要素部分のうち秘匿スコアが閾値以上である要素部分を、秘匿条件を満たす部分として、発話テキスト情報を生成する。これにより、情報処理装置1は、秘匿条件を満たす部分を適切に検出することができる。
【0108】
また、生成部21は、受付部20によって受け付けられた利用者Uの発話に対応する音声情報またはテキスト情報を入力とし、利用者Uの発話のうち秘匿条件を満たす部分をマスキングしたテキスト情報を発話テキスト情報として出力とする学習済みモデルを有し、学習済みモデルを用いて、発話テキスト情報を生成する。これにより、情報処理装置1は、秘匿条件を満たす部分を適切に検出することができる。
【0109】
また、生成部21は、秘匿対象となる複数の言葉を示す情報を含む秘匿情報テーブルを用いて、発話テキスト情報を生成する。これにより、情報処理装置1は、秘匿条件を満たす部分を適切に検出することができる。
【0110】
また、情報処理装置1は、利用者Uの過去の発話履歴に基づいて、学習済みモデルを更新する学習部23を備える。これにより、情報処理装置1は、学習済みモデルによる秘匿条件を満たす部分の検出精度を高めることができる。
【0111】
また、生成部21は、利用者Uの発話のうち秘匿条件を満たす部分を特定の文字、記号、および模様のうちの少なくとも1つに変換することで秘匿条件を満たす部分をマスキングする。これにより、情報処理装置1は、マスキングされた箇所を利用者Uに適切に提示することができる。
【0112】
また、提供部22は、発話テキスト情報を表示部11に表示させることで発話テキスト情報を利用者Uに提供する。これにより、情報処理装置1は、利用者Uの利便性の向上を図ることができる。
【0113】
また、提供部22は、表示部11に表示されている発話テキスト情報のうちマスキングされた部分が選択された場合、マスキングを解除する。これにより、情報処理装置1は、利用者Uの利便性の向上を図ることができる。
【0114】
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0115】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0116】
1 情報処理装置
2 情報提供装置
3 端末装置
10 通信部
11 表示部
12 操作部
13 記憶部
14 音声入力部
15 音声出力部
16 位置検出部
17 処理部
20 受付部
21 生成部
22 提供部
23 学習部
100 情報処理システム