特開2023-130204 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ヤフー株式会社の特許一覧

特開2023-130204情報処理装置、情報処理方法、および情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023130204

(43)【公開日】2023-09-20

(54)【発明の名称】情報処理装置、情報処理方法、および情報処理プログラム

(51)【国際特許分類】

G10L 15/22 20060101AFI20230912BHJP

G10L 15/00 20130101ALI20230912BHJP

【ＦＩ】

G10L15/22 453

G10L15/22 460Z

G10L15/00 200B

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022034738

(22)【出願日】2022-03-07

(71)【出願人】

【識別番号】319013263

【氏名又は名称】ヤフー株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】三宅純平

(57)【要約】

【課題】利用者の利便性の向上を図ること。
【解決手段】本願に係る情報処理装置は、受付部と、生成部と、提供部とを備える。受付部は、利用者の発話を受け付ける。生成部は、受付部によって受け付けられた発話のうち秘匿条件を満たす部分をマスキングして利用者の発話をテキスト化したテキスト情報である発話テキスト情報を生成する。提供部は、生成部によって生成された発話テキスト情報を提供する。
【選択図】図１

【特許請求の範囲】

【請求項1】

利用者の発話を受け付ける受付部と、
前記受付部によって受け付けられた前記発話のうち秘匿条件を満たす部分をマスキングして前記利用者の発話をテキスト化したテキスト情報である発話テキスト情報を生成する生成部と、
前記生成部によって生成された前記発話テキスト情報を提供する提供部と、を備える
ことを特徴とする情報処理装置。

【請求項2】

前記生成部は、
前記受付部によって受け付けられた前記発話に対応する音声情報またはテキスト情報を入力とし、前記利用者の発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを出力とする学習済みモデルを有し、前記学習済みモデルを用いて、前記複数の要素部分のうち前記秘匿スコアが閾値以上である要素部分を、前記秘匿条件を満たす部分として、前記発話テキスト情報を生成する
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記生成部は、
前記受付部によって受け付けられた前記発話に対応する音声情報またはテキスト情報を入力とし、前記利用者の発話のうち前記秘匿条件を満たす部分をマスキングしたテキスト情報を前記発話テキスト情報として出力とする学習済みモデルを有し、前記学習済みモデルを用いて、前記発話テキスト情報を生成する
ことを特徴とする請求項１に記載の情報処理装置。

【請求項4】

前記生成部は、
秘匿対象となる複数の言葉を示す情報を含む秘匿情報テーブルを用いて、前記発話テキスト情報を生成する
ことを特徴とする請求項１に記載の情報処理装置。

【請求項5】

前記利用者の過去の発話履歴に基づいて、前記学習済みモデルを更新する学習部を備える
ことを特徴とする請求項２または３に記載の情報処理装置。

【請求項6】

前記生成部は、
前記利用者の発話のうち前記秘匿条件を満たす部分を特定の文字、記号、および模様のうちの少なくとも１つに変換することで前記秘匿条件を満たす部分をマスキングする
ことを特徴とする請求項１～５のいずれか１つに記載の情報処理装置。

【請求項7】

前記提供部は、
前記発話テキスト情報を表示部に表示させることで前記発話テキスト情報を前記利用者に提供する
ことを特徴とする請求項１～６のいずれか１つに記載の情報処理装置。

【請求項8】

前記提供部は、
前記表示部に表示されている前記発話テキスト情報のうちマスキングされた部分が選択された場合、前記マスキングを解除する
ことを特徴とする請求項７に記載の情報処理装置。

【請求項9】

コンピュータが実行する情報処理方法であって、
利用者の発話を受け付ける受付工程と、
前記受付工程によって受け付けられた前記発話のうち秘匿条件を満たす部分をマスキングして前記利用者の発話をテキスト化したテキスト情報である発話テキスト情報を生成する生成工程と、
前記生成工程によって生成された前記発話テキスト情報を提供する提供工程と、を含む
ことを特徴とする情報処理方法。

【請求項10】

利用者の発話を受け付ける受付手順と、
前記受付手順によって受け付けられた前記発話のうち秘匿条件を満たす部分をマスキングして前記利用者の発話をテキスト化したテキスト情報である発話テキスト情報を生成する生成手順と、
前記生成手順によって生成された前記発話テキスト情報を提供する提供手順と、をコンピュータに実行させる
ことを特徴とする情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法、および情報処理プログラムに関する。

【背景技術】

【0002】

従来、利用者の発話をテキスト化してテキスト情報に変換し、変換したテキスト情報を提供する技術が知られている。例えば、特許文献１には、利用者の音声を認識する音声認識部と、音声認識部で認識した音声を文字列に変換する文字変換部と、文字変換部で変換した文字列を表示する文字列表示部とを備える音声入力装置が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２１－１６８０２０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上記従来技術では、利用者の利便性の向上を図る点で改善の余地がある。例えば、特許文献１に記載の技術では、利用者の発話の内容をすべてテキスト化して表示することから、例えば、プライバシーなどの観点から利用者が秘匿したい内容などがある場合、表示されている文字列を編集する必要があり、改善の余地がある。

【0005】

本願は、上記に鑑みてなされたものであって、利用者の利便性の向上を図ることができる情報処理装置、情報処理方法、および情報処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

本願に係る情報処理装置は、受付部と、生成部と、提供部とを備える。受付部は、利用者の発話を受け付ける。生成部は、受付部によって受け付けられた発話のうち秘匿条件を満たす部分をマスキングして利用者の発話をテキスト化したテキスト情報である発話テキスト情報を生成する。提供部は、生成部によって生成された発話テキスト情報を提供する。

【発明の効果】

【0007】

実施形態の一態様によれば、利用者の利便性の向上を図ることができるという効果を奏する。

【図面の簡単な説明】

【0008】

【図1】図１は、実施形態に係る情報処理の一例を示す図である。

【図2】図２は、実施形態に係る情報処理装置の構成の一例を示す図である。

【図3】図３は、実施形態に係る情報処理装置の表示部に表示された発話テキスト情報の一例を示す図である。

【図4】図４は、実施形態に係る情報処理装置の表示部に表示された発話テキスト情報のうち選択された部分のマスキングが解除される例を示す図である。

【図5】図５は、実施形態に係る情報処理装置の処理部による情報処理の一例を示すフローチャートである。

【図6】図６は、実施形態に係る情報処理装置の処理部による情報処理の一例を示すフローチャートである。

【図7】図７は、実施形態に係る情報処理装置の構成の他の例を示す図である。

【図8】図８は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

【発明を実施するための形態】

【0009】

以下に、本願に係る情報処理装置、情報処理方法、および情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

【0010】

〔１．情報処理の一例〕
図１は、実施形態に係る情報処理の一例を示す図であり、本実施形態においては情報処理装置１により情報処理方法が実行される。

【0011】

情報処理装置１は、対話型の音声操作に対応するＡＩ（人工知能：Artificial Intelligence）アシスタント機能を利用可能な装置であり、利用者Ｕは、情報処理装置１と対話することで周辺の機器を制御したり、様々な情報を取得したりすることができる。周辺の機器は、例えば、照明機器、冷蔵庫、洗濯機、エアーコンディショナー、テレビジョン受像機、食器洗浄機、食器乾燥機、電磁調理器、または電子レンジといった種々の機器である。

【0012】

また、利用者Ｕは、様々な情報を取得するための発話を情報処理装置１に対して行うと、情報処理装置１は、利用者Ｕからの指示を示す入力情報を情報提供装置２（図２参照）へ送信する。情報処理装置１は、入力情報に応じた情報提供装置２からネットワークＮ（図２参照）を介して提供されるコンテンツ（例えば、ニュース、交通情報、天候、および音楽などの各種情報）を取得し、取得したコンテンツを表示部に表示したりスピーカから出力したりすることができる。

【0013】

さらに、情報処理装置１は、利用者Ｕの発話をテキスト化し、テキスト化した情報であるテキスト情報を出力するテキスト化機能を有している。かかるテキスト化機能によって、利用者Ｕは、例えば、メールやＳＮＳ（Social Networking Service）に用いる文章、電子掲示板や口コミサイトなどへ投稿する文章などを情報処理装置１に対する発話によって作成することができる。以下、図１を参照して主にテキスト化機能について説明する。

【0014】

図１に示すように、利用者Ｕは、情報処理装置１のテキスト機能を利用する場合、情報処理装置１に向けて発話を行う（ステップＳ１）。図１に示す例では、利用者Ｕの発話は、「最近引っ越した所は、東京都Ａ区１-２-３のマンションですが、住み心地がよく、引っ越しの際には、特許太郎さんとかにもとてもお世話になりました。今度、パーティーをするので、是非遊びに来て下さい。連絡先は、０９０-０１９０-ｘｘｘｘです。」である。なお、「０９０-０１９０-ｘｘｘｘ」は電話番号であり、「ｘｘｘｘ」は４桁の数字の組み合わせである。

【0015】

情報処理装置１は、利用者Ｕの発話を受け付ける（ステップＳ２）。そして、情報処理装置１は、ステップＳ２で受け付けた利用者Ｕの発話のうち秘匿条件を満たす部分をマスキングして利用者Ｕの発話をテキスト化したテキスト情報である発話テキスト情報を生成する（ステップＳ３）。秘匿条件は、例えば、住所、氏名、電話番号などといったプライバシーにかかわる内容を示す言葉であるが、利用者Ｕの情報処理装置１に対する操作によって設定または変更が可能である。

【0016】

図１に示す例では、「Ａ区１-２-３」、「特許太郎」、および「０９０-０１９０-ｘｘｘｘ」が秘匿条件を満たす部分（単語または単語群など）であり、情報処理装置１は、秘匿条件を満たす部分をマスキングする。「Ａ区１-２-３」は、住所を示す情報であり、「特許太郎」は氏名を示す情報である。

【0017】

情報処理装置１は、利用者Ｕの発話をテキスト化する過程で秘匿条件を満たす部分のマスキングを行うが、利用者Ｕの発話をテキスト化した後に、秘匿条件を満たす部分のマスキングを行うこともできる。

【0018】

情報処理装置１は、例えば、ステップＳ２で受け付けた利用者Ｕの発話に対応する音声情報またはテキスト情報を入力とし、利用者Ｕの発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを出力とする学習済みモデルを有する。情報処理装置１は、ステップＳ２で受け付けた利用者Ｕの発話に対応する音声情報またはテキスト情報を学習済みモデルに入力し、利用者Ｕの発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを学習済みモデルから取得する。

【0019】

情報処理装置１は、複数の要素部分のうち秘匿スコアが閾値以上である要素部分を、秘匿条件を満たす部分として、発話テキスト情報を生成する。なお、学習済みモデルの入力がテキスト情報である場合、情報処理装置１は、ステップＳ２で受け付けた利用者Ｕの発話に対応する音声情報をテキスト情報に変換し、変換したテキスト情報を学習済みモデルに入力する。

【0020】

また、情報処理装置１は、例えば、ステップＳ２で受け付けた利用者Ｕの発話に対応する音声情報またはテキスト情報を入力とし、利用者Ｕの発話のうち秘匿条件を満たす部分をマスキングした発話テキスト情報を発話テキスト情報として出力とする学習済みモデルを有していてもよい。この場合、情報処理装置１は、ステップＳ２で受け付けた利用者Ｕの発話に対応する音声情報またはテキスト情報を学習済みモデルに入力し、学習済みモデルから出力されるテキスト情報を発話テキスト情報として得ることができる。

【0021】

また、情報処理装置１は、学習済みモデルに代えてまたは加えて、秘匿対象となる複数の言葉を示す情報を含む秘匿情報テーブルを有していてもよい。この場合、情報処理装置１は、秘匿情報テーブルに含まれる言葉に対応するテキスト情報または音声情報を、秘匿条件を満たす部分として、発話テキスト情報を生成することができる。

【0022】

なお、秘匿情報テーブルに含まれる文字列は、正規表現で示される文字列であってもよく、この場合、秘匿情報テーブルで示される正規表現で特定されるテキスト情報または音声情報を、秘匿条件を満たす部分として、発話テキスト情報を生成する。

【0023】

マスキングは、利用者Ｕの発話のうち秘匿条件を満たす部分を、例えば、特定の文字、記号、および模様のうちの少なくとも１つに置き換えることによって行われる。図１に示す例では、利用者Ｕの発話のうち秘匿条件を満たす部分が「Ｘ」の文字に置き換えられた発話テキスト情報が生成される。

【0024】

具体的には、図１に示す例では、発話テキスト情報は、「最近引っ越した所は、東京都ＸＸＸＸＸのマンションですが、住み心地がよく、引っ越しの際には、ＸＸＸＸさんとかにもとてもお世話になりました。今度、パーティーをするので、是非遊びに来て下さい。連絡先は、ＸＸＸ-ＸＸＸＸ-ＸＸＸＸです。」である。

【0025】

情報処理装置１は、ステップＳ３で生成した発話テキスト情報を提供する（ステップＳ４）。例えば、情報処理装置１は、表示部に発話テキスト情報を表示することによって利用者Ｕに発話テキスト情報を提供することができる。また、情報処理装置１は、スピーカから発話テキスト情報を音として出力することによって利用者Ｕに発話テキスト情報を提供することもできる。

【0026】

なお、情報処理装置１は、音声で発話テキスト情報を提供する場合、マスキングした部分を無音にしたり、予め設定された音（例えば、ピーという音）にしたりすることができる。また、情報処理装置１は、発話テキスト情報を他者の端末装置に送信することで、他者に発話テキスト情報を提供することもできる。これにより、例えば、利用者Ｕの発話に秘匿条件を満たす部分がある場合であっても、その部分の内容が他者に知られることを抑制することができる。

【0027】

また、情報処理装置１は、表示部に表示されている発話テキスト情報のうちマスキングされた部分が利用者Ｕによって選択された場合、マスキングを解除することができる。これにより、利用者Ｕは、マスキングされた内容を知りたい場合には、情報処理装置１を操作することで容易にマスキングされた内容を知ることができる。なお、情報処理装置１は、発話テキスト情報のうちマスキングされた部分に対する利用者Ｕの選択が解除された場合、再度マスキングを行うこともできる。

【0028】

このように、実施形態に係る情報処理装置１は、利用者Ｕの発話のうち秘匿条件を満たす部分をマスキングして利用者Ｕの発話をテキスト化したテキスト情報である発話テキスト情報を生成し、生成した発話テキスト情報を利用者Ｕに提供する。これにより、情報処理装置１は、利用者Ｕの利便性の向上を図ることができる。

【0029】

以下、このような処理を行う情報処理装置１を含む情報処理システムの構成などについて、詳細に説明する。

【0030】

〔２．情報処理システムの構成〕
次に、図２を用いて、実施形態に係る情報処理装置１を含む情報処理システムの構成について説明する。図２は、実施形態に係る情報処理装置１の構成の一例を示す図である。図２に示すように、実施形態に係る情報処理システム１００は、情報処理装置１と、情報提供装置２とを含む。情報処理装置１および情報提供装置２は、ネットワークＮを介して、有線または無線により通信可能に接続される。なお、図２に示す情報処理システム１００には、複数台の情報処理装置１および複数台の情報提供装置２が含まれてもよい。

【0031】

情報処理装置１は、例えば、スマートスピーカ、デスクトップ型ＰＣ（Personal Computer）、ノート型ＰＣ、タブレット端末、携帯電話機、またはＰＤＡ（Personal Digital Assistant）などである。なお、情報処理装置１は、上記例に限定されなくともよく、例えば、スマートウォッチ、またはウェアラブルデバイス（Wearable Device）であってもよい。

【0032】

情報提供装置２は、利用者Ｕにオンラインでサービスを提供する。情報提供装置２によって提供されるサービスは、例えば、検索サービス、情報提供サービス、電子商取引サービス、オークションサービス、音楽配信サービス、動画配信サービスなどのオンラインサービスであるが、かかる例に限定されない。情報提供サービスは、検索サイトによって提供される検索サービス、ニュースサイトで提供されるニュース配信サービス、交通情報サイトで提供される交通情報提供サービス、天候情報サイトで提供される天候情報提供サービスなどの種々のサービスが含まれる。

【0033】

情報提供装置２は、インターネットなどの所定のネットワークＮを介して、各種の装置と通信可能な情報処理装置であり、例えば、サーバ装置またはクラウドシステムなどにより実現される。例えば、情報提供装置２は、ネットワークＮを介して、他の各種装置と通信可能に接続される。

【0034】

〔３．情報処理装置１〕
図２に示すように、実施形態に係る情報処理装置１は、通信部１０と、表示部１１と、操作部１２と、記憶部１３と、音声入力部１４と、音声出力部１５と、位置検出部１６と、処理部１７とを備える。

【0035】

〔３．１．通信部１０〕
通信部１０は、例えば、ＮＩＣ（Network Interface Card）などによって実現される。通信部１０は、ネットワークＮと有線または無線で接続され、ネットワークＮを介して、情報提供装置２との間で情報の送受信を行う。

【0036】

〔３．２．表示部１１〕
表示部１１は、例えば、ＬＣＤ（Liquid Crystal Display）または有機ＥＬ（Electro Luminescence）ディスプレイなどである。

【0037】

〔３．３．操作部１２〕
操作部１２は、例えば、文字、数字、およびスペースを入力するためのキー、エンターキーおよび矢印キーなどを含むキーボード、マウス、および電源ボタンなどを含む。表示部１１がタッチパネルディスプレイの表示装置である場合、操作部１２はタッチパネルを含んでいてもよい。

【0038】

〔３．４．記憶部１３〕
記憶部１３は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置によって実現される。

【0039】

記憶部１３には、各種の情報が記憶される。例えば、記憶部１３には、情報提供装置２から送信されネットワークＮおよび通信部１０を介して処理部１７によって取得された情報などが記憶される。また、記憶部１３には、利用者Ｕの発話に対応する音声情報およびテキスト情報なども記憶される。

【0040】

〔３．５．音声入力部１４〕
音声入力部１４は、利用者Ｕが発した音声の信号である音声信号をデジタル信号に変換し、変換したデジタル信号である音声デジタル信号を処理部１７に音声情報として出力する。音声入力部１４は、例えば、マイクロホンと、マイクホンから出力される電気的なアナログ信号である音声信号をデジタル信号に変換するＡＤ（Analog to Digital）変換器とを含む。

【0041】

〔３．６．音声出力部１５〕
音声出力部１５は、例えば、処理部１７から出力される音声情報であるデジタル音声信号をアナログ音声信号に変換するＤＡ（Digital to Analog）変換器と、ＤＡ変換器から出力されるアナログ音声信号を音に変換して出力するスピーカとを備える。

【0042】

〔３．７．位置検出部１６〕
位置検出部１６は、例えば、情報処理装置１の位置を検出し、検出した情報処理装置１の位置のデータである位置データを処理部１７に出力する。位置検出部１６は、ＧＮＳＳ（Global Navigation Satellite System）における複数の測位衛星から送信される複数の測位信号を受信し、受信した複数の測位信号に基づいて、情報処理装置１の位置を検出する。

【0043】

〔３．８．処理部１７〕
処理部１７は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）またはＭＰＵ（Micro Processing Unit）などによって、情報処理装置１内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。

【0044】

また、処理部１７は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）またはＦＰＧＡ（Field Programmable Gate Array）などの集積回路により実現されてもよい。処理部１７は、受付部２０と、生成部２１と、提供部２２と、学習部２３とを備える。

【0045】

〔３．８．１．受付部２０〕
受付部２０は、音声入力部１４から出力される音声デジタル情報に基づいて、利用者Ｕの発話を受け付ける。例えば、受付部２０は、利用者Ｕが操作部１２を用いて特定操作を行った場合に、その後に行われる利用者Ｕの発話を受け付ける。

【0046】

特定操作は、例えば、情報取得機能、情報送信機能、機器制御機能、およびテキスト化機能の各々で異なる。情報取得機能は、利用者Ｕの発話に応じて情報提供装置２から特定の情報を取得する機能であり、情報送信機能は、利用者Ｕの発話に応じて情報を送信する機能であり、機器制御機能は、利用者Ｕの発話に応じて周辺の機器を制御する機能である。テキスト化機能は、上述したように、利用者Ｕの発話をテキスト化し、テキスト化した情報であるテキスト情報を出力する機能である。

【0047】

また、受付部２０は、利用者Ｕが特定のキーワードを発話した場合に、その後に行われる利用者Ｕの発話を受け付けることもできる。利用者Ｕが特定のキーワードを発話したか否かは、音声入力部１４から出力される音声情報号に対する音声認識によって行われる。なお、特定のキーワードは、例えば、情報取得機能、情報送信機能、機器制御機能、およびテキスト化機能の各々で異なる。

【0048】

受付部２０は、利用者Ｕの発話によって音声入力部１４から出力される音声情報をテキスト情報に変換する音声認識機能を有している。また、受付部２０は、音声認識機能によって変換されたテキスト情報の意味を解析する機能を有していてもよい。

【0049】

受付部２０は、利用者発話に対応する音声情報またはテキスト情報を生成部２１に出力する。利用者発話に対応する音声情報は、音声入力部１４から出力される音声情報であり、利用者発話に対応するテキスト情報は、利用者発話に対応する音声情報を音声認識機能によってテキスト化された情報である。受付部２０は、例えば、利用者Ｕの発話に対応する音声情報およびテキスト情報を利用者Ｕの発話毎に関連付けて記憶部１３に記憶させる。

【0050】

また、受付部２０は、マスキングの要否を規定する秘匿条件の設定または変更を受け付ける。例えば、受付部２０は、利用者Ｕの操作部１２への操作に応じて秘匿条件の情報の入力または変更があった場合に、秘匿条件の設定または変更を受け付ける。

【0051】

〔３．８．２．生成部２１〕
生成部２１は、テキスト化機能において、受付部２０によって受け付けられた利用者Ｕの発話のうち秘匿条件を満たす部分をマスキングして利用者Ｕの発話をテキスト化したテキスト情報である発話テキスト情報を生成する。

【0052】

秘匿条件は、例えば、住所、氏名、電話番号などといったプライバシーにかかわる内容を示す言葉や公序良俗に反する内容を示す言葉である。公序良俗に反する内容を示す言葉は、例えば、差別的または侮蔑的な言葉、卑猥な言葉、犯罪を肯定または助長させる意味をもつ言葉などである。秘匿条件は、上述したように、利用者Ｕによって生成または変更可能である。

【0053】

生成部２１は、例えば、利用者Ｕの発話に対応する音声情報またはテキスト情報を入力とし、利用者Ｕの発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを出力とする学習済みモデルを有する。

【0054】

生成部２１は、受付部２０によって受け付けられた利用者Ｕの発話に対応する音声情報またはテキスト情報を学習済みモデルに入力し、利用者Ｕの発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを学習済みモデルから取得する。生成部２１は、複数の要素部分のうち秘匿スコアが閾値以上である要素部分を、秘匿条件を満たす部分として、発話テキスト情報を生成する。

【0055】

また、生成部２１は、例えば、利用者Ｕの発話に対応する音声情報またはテキスト情報を入力とし、利用者Ｕの発話のうち秘匿条件を満たす部分をマスキングした発話テキスト情報を発話テキスト情報として出力とする学習済みモデルを有していてもよい。

【0056】

この場合、生成部２１は、受付部２０によって受け付けられた利用者Ｕの発話に対応する音声情報またはテキスト情報を学習済みモデルに入力し、学習済みモデルから出力されるテキスト情報を発話テキスト情報として得ることができる。

【0057】

生成部２１は、例えば、発話テキスト情報の用途に応じた複数の学習済みモデルを有してもよい。発話テキスト情報の用途は、例えば、メール用、ＳＮＳ用、口コミ投稿用、または電子掲示板用などである。生成部２１は、例えば、利用者Ｕの操作部１２への操作、利用者Ｕの発話による指定、または表示部１１に表示されているアプリケーションの種類などに応じて、発話テキスト情報の用途を判定することができる。

【0058】

生成部２１は、例えば、利用者Ｕのコンテキストに応じた複数の学習済みモデルを有してもよい。コンテキストには、利用者Ｕの現在位置または利用者Ｕの運動状態などが含まれる。利用者Ｕの現在位置や運動状態は、例えば、位置検出部１６によって検出された位置に基づいて判定される。

【0059】

学習済みモデルは、例えば、畳み込みニューラルネットワークまたは回帰型ニューラルネットワークなどのニューラルネットワークによる機械学習によって生成されるが、かかる例に限定されない。例えば、学習済みモデルは、ニューラルネットワークに代えて、線形回帰、重回帰、またはロジスティック回帰といった回帰手法の学習アルゴリズムなどのように他の学習アルゴリズムによる機械学習を用いて生成されてもよい。

【0060】

また、生成部２１は、学習済みモデルに代えてまたは加えて、秘匿対象となる複数の言葉を示す情報を含む秘匿情報テーブルを有してもよい。この場合、情報処理装置１は、秘匿情報テーブルに含まれる言葉に対応するテキスト情報または音声情報を、秘匿条件を満たす部分として、発話テキスト情報を生成することができる。

【0061】

秘匿情報テーブルに含まれる文字列は、正規表現で示される文字列であってもよく、この場合、秘匿情報テーブルで示される正規表現で特定されるテキスト情報または音声情報を、秘匿条件を満たす部分として、発話テキスト情報を生成する。正規表現で示される文字列は、例えば、電話番号の場合、「[０-９]｛３｝-[０-９]｛４｝-[０-９]｛４｝」などである。

【0062】

また、生成部２１は、学習済みモデルに代えてまたは加えて、互いに異なる言葉毎の秘匿に関する情報を含む秘匿情報テーブルを有してもよい。秘匿に関する情報は、秘匿レベルを示す情報であり、例えば、２段階以上に設定される。生成部２１は、例えば、利用者Ｕの発話に秘匿レベル設定された言葉が含まれる割合が多いほど、マスキング対象とする秘匿レベルを下げることができる。

【0063】

例えば、秘匿レベルがレベル１～３までの３段階であるとし、レベル１、レベル２、レベル３の順に秘匿レベルが高いとする。すなわち、秘匿レベルが最も低いレベルがレベル１であり、秘匿レベルが次に低いレベルがレベル２であり、秘匿レベルが最も高いレベルがレベル３である。

【0064】

この場合、生成部２１は、利用者Ｕの発話に秘匿レベル設定された言葉が含まれる割合が第１閾値未満であれば、秘匿レベルがレベル３である言葉をマスキング対象とする。また、生成部２１は、利用者Ｕの発話に秘匿レベル設定された言葉が含まれる割合が第１閾値以上第２閾値未満であれば、秘匿レベルがレベル２以上である言葉をマスキング対象とする。また、生成部２１は、利用者Ｕの発話に秘匿レベル設定された言葉が含まれる割合が第２閾値以上であれば、秘匿レベルがレベル１以上である言葉をマスキング対象とする。

【0065】

また、生成部２１は、利用者Ｕの発話に秘匿レベルに設定された言葉が含まれる割合に代えてまたは加えて、発話テキスト情報の用途や利用者Ｕのコンテキストに応じてマスキング対象とする秘匿レベルを決定することもできる。また、利用者Ｕは、操作部１２への操作または情報処理装置１に対する発話によってマスキング対象とする秘匿レベルを指定することもできる。例えば、生成部２１は、受付部２０によって指定されたレベル以上の秘匿レベルである言葉をマスキング対象とすることもできる。

【0066】

マスキングは、利用者Ｕの発話のうち秘匿条件を満たす部分を、例えば、特定の文字、記号、および模様のうちの少なくとも１つに置き換えることによって行われる。特定の文字は、例えば、「Ｘ」、「・」、「－」、「？」などであり、記号は、例えば、「□」、「◆」、「※」、「〇」などである。また、模様は、例えば、市松模様、幾何学模様などである。また、マスキングは、利用者Ｕの発話のうち秘匿条件を満たす部分を、例えば、スペースに置き換えることによって行ってもよい。

【0067】

なお、生成部２１は、学習済みモデルと秘匿情報テーブルとを併用して、発話テキスト情報を生成することもできる。また、生成部２１は、利用者Ｕの発話に対応する音声情報およびテキスト情報との組み合わせを利用者Ｕの発話毎に記憶部１３に記憶させる。

【0068】

また、生成部２１は、秘匿条件を満たす部分の文字数と同じ文字数の文字または記号などでのマスキングに代えて、例えば、秘匿レベルが閾値以上である場合、秘匿条件を満たす部分の文字数と異なる文字数の文字または記号などでのマスキングを行うこともできる。

【0069】

〔３．８．３．提供部２２〕
提供部２２は、生成部２１によって生成された発話テキスト情報を提供する。例えば、提供部２２は、発話テキスト情報を表示部１１に表示させることで発話テキスト情報を利用者Ｕに提供する。

【0070】

図３は、実施形態に係る情報処理装置１の表示部１１に表示された発話テキスト情報の一例を示す図である。図３に示す例では、利用者Ｕが「うちの近くのＡＡＡスーパーに買い物に行ったときに、特許花子さんと出会って、話をしたのですが、次郎という息子さんが今年、あのＢＢＢ商事に入社されたそうです。」と発話した場合に、情報処理装置１の表示部１１に表示される発話テキスト情報の一例である。

【0071】

図３に示す発話テキスト情報は、「うちの近くのＸＸＸＸＸＸＸに買い物に行ったときに、ＸＸＸＸさんと出会って、話をしたのですが、ＸＸという息子さんが今年、あのＸＸ高いＸＸＸＸＸに入社されたそうです」である。そして、図３に示す発話テキスト情報では、秘匿条件を満たす部分として「ＡＡＡスーパー」、「特許花子」、および「ＢＢＢ商事」が「Ｘ」の文字列でマスキングされている。

【0072】

マスキングは、利用者Ｕの発話のうち秘匿条件を満たす部分を、例えば、特定の文字、記号、および模様のうちの少なくとも１つに置き換えることによって行われる。図３に示す例では、利用者Ｕの発話のうち秘匿条件を満たす部分が「Ｘ」の文字に置き換えられた発話テキスト情報が生成される。

【0073】

また、提供部２２は、発話テキスト情報を音声合成により音声情報に変換し、変換した音声情報を音声出力部１５に出力することもできる。これにより、提供部２２は、発話テキスト情報を音声で利用者Ｕに提供することができる。なお、提供部２２は、発話テキスト情報を音声合成して音声情報に変換する場合に、発話テキスト情報をマスキングされた部分を特定の音（例えば、「ピー」という音など）に変換することができ、また、発話テキスト情報をマスキングされた部分を無音にすることもできる。

【0074】

また、提供部２２は、利用者Ｕとの対話に基づいて、利用者Ｕの発話に応じた情報を情報提供装置２に送信したり、利用者Ｕの発話に応じた情報を情報提供装置２から取得したり、利用者Ｕの発話に応じた周辺の機器を制御したりすることもできる。

【0075】

また、提供部２２は、表示部１１に表示されている発話テキスト情報のうちマスキングされた部分が選択された場合、マスキングを解除する。利用者Ｕは、例えば、操作部１２を操作することによってマスキングされた部分を選択することができる。

【0076】

図４は、実施形態に係る情報処理装置１の表示部１１に表示された発話テキスト情報のうち選択された部分のマスキングが解除される例を示す図である。図４に示す例では、「ＸＸＸＸＸ」が利用者Ｕによって選択され、利用者Ｕによって選択された「ＸＸＸＸＸ」のマスキングが解除されて「ＢＢＢ商事」が表示されている。

【0077】

なお、提供部２２は、例えば、利用者Ｕの発話をマスキングなしにテキスト化したテキスト情報と、利用者Ｕの発話のうち秘匿条件を満たす部分の位置を示す情報とを含む情報を発話情報として生成することができる。この場合、提供部２２は、生成した発情報に基づいて、発話テキスト情報を利用者Ｕに提供したり、通信部１０を介して外部装置へ送信したりすることができる。

【0078】

〔３．８．４．学習部２３〕
学習部２３は、学習済みモデルを生成したり、更新したりすることができる。例えば、学習部２３は、秘匿条件を満たす言葉であって利用者Ｕの発話に対応する音声情報とテキスト情報とを含む学習用データを用いて、学習済みモデルを生成したり、更新したりする。

【0079】

学習用データは、例えば、利用者Ｕの過去の発話履歴に基づいて生成される。例えば、学習部２３は、秘匿条件を満たす言葉として受付部２０によって受け付けられた利用者Ｕの発話に基づいて学習用データを生成する。

【0080】

また、学習部２３は、利用者Ｕの過去の発話履歴を表示部１１に表示させ、秘匿条件を満たす言葉を操作部１２への操作などによって利用者Ｕに選択させることによって、学習用データを生成することもできる。

【0081】

例えば、学習部２３は、利用者Ｕの過去の発話履歴を記憶部１３から取得する。利用者Ｕの過去の発話履歴には、利用者Ｕの過去の発話に対応する音声情報とテキスト情報とが含まれており、学習部２３は、利用者Ｕに選択された秘匿条件を満たす言葉に対応する音声情報とテキスト情報との組み合わせを学習用データとして生成する。

【0082】

また、学習部２３は、利用者Ｕに選択された秘匿条件を満たす言葉の位置を示す情報と利用者Ｕの過去の発話に対応する音声情報またはテキスト情報との組み合わせを学習用データとして生成することもできる。かかる学習用データによって生成または更新された学習済みモデルは、利用者Ｕの発話に対応する音声情報またはテキスト情報に含まれる語の位置（先頭の語からの位置）毎に秘匿度合いを示す秘匿スコアを出力とするモデルである。

【0083】

この場合、生成部２１は、利用者Ｕの発話に対応する音声情報またはテキスト情報を学習済みモデルに入力し、学習済みモデルから出力される秘匿スコアが閾値以上である位置をマスキング対象としてマスキングすることで発話テキスト情報を生成する。なお、生成部２１は、閾値は、例えば、上述した秘匿レベルが高いほど高くすることができる。

【0084】

学習部２３は、発話テキスト情報の用途に応じた複数の学習済みモデルを生成することができ、また、利用者Ｕのコンテキストに応じた複数の学習済みモデルを生成することもできる。なお、学習部２３は、上述した学習済みモデルを生成することができればよく、学習部２３による学習処理は上述の処理に限定されない。

【0085】

〔４．処理手順〕
次に、実施形態に係る情報処理装置１の処理部１７による情報処理の手順について説明する。図５および図６は、実施形態に係る情報処理装置１の処理部１７による情報処理の一例を示すフローチャートである。

【0086】

まず、図５について説明する。図５は、情報処理装置１が行う発話テキスト情報生成処理の一例を示す。情報処理装置１の処理部１７は、利用者Ｕの発話を受け付ける（ステップＳ１０）。

【0087】

次に、処理部１７は、ステップＳ１０で受け付けた利用者Ｕの発話のうち秘匿条件を満たす部分をマスキングして利用者Ｕの発話をテキスト化したテキスト情報である発話テキスト情報を生成する（ステップＳ１１）。ステップＳ１１の処理において、処理部１７は、例えば、利用者Ｕの発話に対応する音声情報または文字情報を学習済みモデルに入力し、利用者Ｕの発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを学習済みモデルから取得する。処理部１７は、複数の要素部分のうち秘匿スコアが閾値以上である要素部分を、秘匿条件を満たす部分として、発話テキスト情報を生成する。

【0088】

そして、処理部１７は、ステップＳ１１で生成した発話テキスト情報を提供し（ステップＳ１２）、図５に示す処理を終了する。例えば、ステップＳ１２の処理において、処理部１７は、例えば、発話テキスト情報を表示部１１に表示したり、発話テキスト情報を音声として音声出力部１５から出力させたりすることができる。

【0089】

次に、図６について説明する。図６は、情報処理装置１が行う学習処理の一例を示す。情報処理装置１の処理部１７は、学習用データを生成する（ステップＳ２０）。ステップＳ２０の処理において、例えば、処理部１７は、秘匿条件を満たす言葉として受付部２０によって受け付けられた利用者Ｕの発話に基づいて学習用データを生成する。

【0090】

次に、ステップＳ２０で生成した学習用データを用いて学習済みモデルを生成または更新して（ステップＳ２１）、図６に示す処理を終了する。

【0091】

〔５．変形例〕
上述した情報処理装置１は、利用者Ｕに操作される端末装置などの機器であるものとして説明したが、情報処理装置１は、サーバ装置などであってもよい。図７は、実施形態に係る情報処理装置１の構成の他の例を示す図である。

【0092】

図７に示す端末装置３は、利用者Ｕの発話を音声情報またはテキスト情報に変換し、変換した音声情報またはテキスト情報を含む利用者発話情報を情報処理装置１にネットワークＮを介して送信する。図７に示す情報処理装置１の受付部２０は、端末装置３から送信される利用者発話情報をネットワークＮおよび通信部１０を介して取得することで、利用者Ｕの発話を受け付ける。

【0093】

情報処理装置１の生成部２１は、利用者発話情報に含まれる音声情報またはテキスト情報に基づいて、発話テキスト情報を生成する。提供部２２は、生成部２１によって生成された発話テキスト情報を通信部１０およびネットワークＮを介して端末装置３に送信することで、発話テキスト情報を提供する。端末装置３は、情報処理装置１から送信される発話テキスト情報を受信し、受信した発話テキスト情報を表示したり音声として出力したりする。

【0094】

なお、図２に示す情報処理装置１における処理部１７の機能の一部は、図７に示す端末装置３によって実現されてもよい。また、図２に示す情報処理装置１における処理部１７の機能の一部は、情報提供装置２によって実現されてもよい。

【0095】

また、図２に示す情報処理装置１は、学習済みモデルや秘匿情報テーブルを利用者Ｕ毎に有しており、この場合の学習済みモデルは、オンデバイスモデルということもできる。また、図７に示す情報処理装置１は、学習済みモデルや秘匿情報テーブルを全利用者Ｕに共通に有してもよく、学習済みモデルや秘匿情報テーブルを利用者Ｕ毎に有していてもよい。

【0096】

また、上述した例では、図２に示す情報処理装置１は、対話型の音声操作に対応するＡＩアシスタント機能を有するものとして説明したが、情報処理装置１は、ＡＩアシスタント機能を有しない装置であってもよい。例えば、情報処理装置１は、ボイスレコーダなどであってもよい。情報処理装置１のテキスト化機能は、例えば、会議の議事録をテキスト化する際などにも用いることができる。

【0097】

〔６．ハードウェア構成〕
上述してきた実施形態に係る情報処理装置１は、例えば図８に示すような構成のコンピュータ８０によって実現される。図８は、実施形態に係る情報処理装置１の機能を実現するコンピュータ８０の一例を示すハードウェア構成図である。コンピュータ８０は、ＣＰＵ８１、ＲＡＭ８２、ＲＯＭ（Read Only Memory）８３、ＨＤＤ（Hard Disk Drive）８４、通信インターフェイス（Ｉ／Ｆ）８５、入出力インターフェイス（Ｉ／Ｆ）８６、およびメディアインターフェイス（Ｉ／Ｆ）８７を有する。

【0098】

ＣＰＵ８１は、ＲＯＭ８３またはＨＤＤ８４に記憶されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ８３は、コンピュータ８０の起動時にＣＰＵ８１によって実行されるブートプログラムや、コンピュータ８０のハードウェアに依存するプログラムなどを記憶する。

【0099】

ＨＤＤ８４は、ＣＰＵ８１によって実行されるプログラム、および、かかるプログラムによって使用されるデータなどを記憶する。通信インターフェイス８５は、ネットワークＮ（図２参照）を介して他の機器からデータを受信してＣＰＵ８１へ送り、ＣＰＵ８１が生成したデータを、ネットワークＮを介して他の機器に送信する。

【0100】

ＣＰＵ８１は、入出力インターフェイス８６を介して、ディスプレイやプリンタなどの出力装置、および、キーボードまたはマウスなどの入力装置を制御する。ＣＰＵ８１は、入出力インターフェイス８６を介して、入力装置からデータを取得する。また、ＣＰＵ８１は、入出力インターフェイス８６を介して生成したデータを出力装置に出力する。

【0101】

メディアインターフェイス８７は、記録媒体８８に記憶されたプログラムまたはデータを読み取り、ＲＡＭ８２を介してＣＰＵ８１に提供する。ＣＰＵ８１は、かかるプログラムを、メディアインターフェイス８７を介して記録媒体８８からＲＡＭ８２上にロードし、ロードしたプログラムを実行する。記録媒体８８は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）などの光学記録媒体、ＭＯ（Magneto-Optical disk）などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどである。

【0102】

例えば、コンピュータ８０が実施形態に係る情報処理装置１として機能する場合、コンピュータ８０のＣＰＵ８１は、ＲＡＭ８２上にロードされたプログラムを実行することにより、処理部１７の機能を実現する。また、ＨＤＤ８４には、記憶部１３内のデータが記憶される。コンピュータ８０のＣＰＵ８１は、これらのプログラムを記録媒体８８から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

【0103】

〔７．その他〕
また、上記実施形態および変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

【0104】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0105】

また、上述してきた実施形態および変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【0106】

〔８．効果〕
上述してきたように、実施形態に係る情報処理装置１は、受付部２０と、生成部２１と、提供部２２とを備える。受付部２０は、利用者Ｕの発話を受け付ける。生成部２１は、受付部２０によって受け付けられた発話のうち秘匿条件を満たす部分をマスキングして利用者Ｕの発話をテキスト化したテキスト情報である発話テキスト情報を生成する。提供部２２は、生成部２１によって生成された発話テキスト情報を提供する。これにより、情報処理装置１は、利用者Ｕの利便性の向上を図ることができる。

【0107】

また、生成部２１は、受付部２０によって受け付けられた利用者Ｕの発話に対応する音声情報またはテキスト情報を入力とし、利用者Ｕの発話を構成する複数の要素部分の各々に対する秘匿度合いを示す秘匿スコアを出力とする学習済みモデルを有する。生成部２１は、学習済みモデルを用いて、複数の要素部分のうち秘匿スコアが閾値以上である要素部分を、秘匿条件を満たす部分として、発話テキスト情報を生成する。これにより、情報処理装置１は、秘匿条件を満たす部分を適切に検出することができる。

【0108】

また、生成部２１は、受付部２０によって受け付けられた利用者Ｕの発話に対応する音声情報またはテキスト情報を入力とし、利用者Ｕの発話のうち秘匿条件を満たす部分をマスキングしたテキスト情報を発話テキスト情報として出力とする学習済みモデルを有し、学習済みモデルを用いて、発話テキスト情報を生成する。これにより、情報処理装置１は、秘匿条件を満たす部分を適切に検出することができる。

【0109】

また、生成部２１は、秘匿対象となる複数の言葉を示す情報を含む秘匿情報テーブルを用いて、発話テキスト情報を生成する。これにより、情報処理装置１は、秘匿条件を満たす部分を適切に検出することができる。

【0110】

また、情報処理装置１は、利用者Ｕの過去の発話履歴に基づいて、学習済みモデルを更新する学習部２３を備える。これにより、情報処理装置１は、学習済みモデルによる秘匿条件を満たす部分の検出精度を高めることができる。

【0111】

また、生成部２１は、利用者Ｕの発話のうち秘匿条件を満たす部分を特定の文字、記号、および模様のうちの少なくとも１つに変換することで秘匿条件を満たす部分をマスキングする。これにより、情報処理装置１は、マスキングされた箇所を利用者Ｕに適切に提示することができる。

【0112】

また、提供部２２は、発話テキスト情報を表示部１１に表示させることで発話テキスト情報を利用者Ｕに提供する。これにより、情報処理装置１は、利用者Ｕの利便性の向上を図ることができる。

【0113】

また、提供部２２は、表示部１１に表示されている発話テキスト情報のうちマスキングされた部分が選択された場合、マスキングを解除する。これにより、情報処理装置１は、利用者Ｕの利便性の向上を図ることができる。

【0114】

以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

【0115】

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

【符号の説明】

【0116】

１情報処理装置
２情報提供装置
３端末装置
１０通信部
１１表示部
１２操作部
１３記憶部
１４音声入力部
１５音声出力部
１６位置検出部
１７処理部
２０受付部
２１生成部
２２提供部
２３学習部
１００情報処理システム

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版