IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 犀動智能科技股▲ふん▼有限公司の特許一覧

特開2024-71324メディアファイルを選択する方法、サービスシステム、及びコンピュータープログラム
<>
  • 特開-メディアファイルを選択する方法、サービスシステム、及びコンピュータープログラム 図1
  • 特開-メディアファイルを選択する方法、サービスシステム、及びコンピュータープログラム 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024071324
(43)【公開日】2024-05-24
(54)【発明の名称】メディアファイルを選択する方法、サービスシステム、及びコンピュータープログラム
(51)【国際特許分類】
   G06F 16/68 20190101AFI20240517BHJP
   G06F 16/33 20190101ALI20240517BHJP
   G10L 15/10 20060101ALN20240517BHJP
   G10L 15/00 20130101ALN20240517BHJP
【FI】
G06F16/68
G06F16/33
G10L15/10 500T
G10L15/00 200T
【審査請求】有
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023015931
(22)【出願日】2023-02-06
(31)【優先権主張番号】111143430
(32)【優先日】2022-11-14
(33)【優先権主張国・地域又は機関】TW
(71)【出願人】
【識別番号】522502026
【氏名又は名称】犀動智能科技股▲ふん▼有限公司
(74)【代理人】
【識別番号】100124039
【弁理士】
【氏名又は名称】立花 顕治
(74)【代理人】
【識別番号】100176337
【弁理士】
【氏名又は名称】杉本 弘樹
(72)【発明者】
【氏名】橋本 高佳
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175GA04
5B175HB01
5B175HB03
(57)【要約】
【課題】メディアファイルを選択する方法を提供する。
【解決手段】方法は、サービスシステムによって実行され、a)メディアファイルの出力要求に関する文字データを得るステップと、b)言語処理モデルを用いて、文字データが明確な要求または曖昧な要求に属するかを判断するステップと、c)文字データが明確な要求に属すると判断される場合において、文字データに含まれる少なくとも1つのキーワードに基づいて、メディアデータから一部がキーワードと一致する1つのメディアデータを選択するステップと、d)文字データが曖昧な要求に属すると判断される場合において、言語処理モデルを用いて文字データに好み分析処理を実行して好み分析結果を得て、メディアデータそれぞれの好み分析結果とのマッチング程度を計算し、マッチング程度が所定の閾値以上である1つのメディアデータを選択するステップと、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
サービスシステムによって実行される、メディアファイルを選択する方法であって、
前記サービスシステムは、処理ユニットと、前記処理ユニットに電気的に接続する記憶ユニットと、を含み、
前記記憶ユニットには、機械学習技術により実現される言語処理モデルと、複数の前記メディアファイルにそれぞれ対応し、対応の前記メディアファイルの属性を示す複数のメディアデータと、が格納されており、
前記方法は、
a)前記処理ユニットが、前記メディアファイルの出力要求に関する文字データを得るステップと、
b)前記処理ユニットが、前記言語処理モデルを用いて、前記文字データが明確な要求または曖昧な要求に属するかを判断するステップと、
c)前記文字データが前記明確な要求に属すると判断される場合において、前記処理ユニットが、前記文字データに含まれる少なくとも1つのキーワードに基づいて、複数の前記メディアデータから一部が前記キーワードと一致する1つの前記メディアデータを指定のメディアデータとして選択し、前記指定のメディアデータに対応する前記メディアファイルが出力されるようにするステップと、
d)前記文字データが前記曖昧な要求に属すると判断される場合において、前記処理ユニットが、前記言語処理モデルを用いて前記文字データに好み分析処理を実行して好み分析結果を得て、複数の前記メディアデータそれぞれの前記好み分析結果とのマッチング程度を計算し、複数の前記メディアデータから前記好み分析結果との前記マッチング程度が所定の閾値以上である1つの前記メディアデータをマッチングされたメディアデータとして選択し、前記マッチングされたメディアデータに対応する前記メディアファイルが出力されるようにするステップと、を含む、
方法。
【請求項2】
前記メディアデータのそれぞれは、該メディアデータが対応する前記メディアファイルの属性を示す複数の属性タグを含み、
前記ステップd)は、前記文字データが前記曖昧な要求に属すると判断される場合において、前記処理ユニットが、前記言語処理モデルを用いて前記文字データから前記メディファイルの属性に関連する少なくとも1つの重点単語を抽出し、前記重点単語に基づいて、多次元ベクトルの形式で表されている前記好み分析結果を生成し、前記メディアデータそれぞれの複数の前記属性タグに基づいて、該メディアデータの前記好み分析結果との前記マッチング程度を計算し、複数の前記メディアデータにおける前記好み分析結果との前記マッチング程度が前記所定の閾値以上である少なくとも1つの前記メディアデータから前記マッチングされたメディアデータを選択するステップである、請求項1に記載の方法。
【請求項3】
前記ステップd)において、前記処理ユニットは、前記好み分析結果との前記マッチング程度が前記所定の閾値以上である少なくとも1つの前記メディアデータから前記マッチングされたメディアデータをランダムで選択する、請求項2に記載の方法。
【請求項4】
前記メディアデータのそれぞれは、可読性のある文字形式で表されている少なくとも1つの名称データを含み、
前記ステップb)は、
前記処理ユニットは、前記文字データに前記名称データのいずれか1つに関連する少なくとも1つの単語があるかどうかを判断することと、
前記文字データに前記名称データのいずれか1つに関連する少なくとも1つの前記単語があると判断される場合において、前記処理ユニットは、前記文字データが前記明確な要求に属すると判断し、且つ、前記名称データのいずれか1つに関連する少なくとも1つの前記単語を少なくとも1つの前記キーワードとすることと、
前記文字データに前記名称データのいずれか1つに関連する少なくとも1つの前記単語がないと判断される場合において、前記処理ユニットは、前記文字データが前記曖昧な要求に属すると判断することと、を含む、請求項1に記載の方法。
【請求項5】
前記サービスシステムは、出力モジュールをさらに含み、
前記メディアデータのそれぞれは、ファイル識別データを含み、
前記ステップc)は、前記処理ユニットにより、前記指定のメディアデータの前記ファイル識別データに基づいて、前記指定のメディアデータに対応する前記メディアファイルを得て、前記出力モジュールに前記指定のメディアデータに対応する前記メディアファイルを出力させるように前記出力モジュールを制御することにより、前記指定のメディアデータに対応する前記メディアファイルが出力されるようにし、
前記ステップd)は、前記処理ユニットにより、前記マッチングされたメディアデータの前記ファイル識別データに基づいて前記マッチングされたメディアデータに対応する前記メディアファイルを得て、前記出力モジュールに前記マッチングされたメディアデータに対応する前記メディアファイルを出力させるように前記出力モジュールを制御することにより、前記マッチングされたメディアデータに対応する前記メディアファイルが出力されるようにする、請求項1に記載の方法。
【請求項6】
処理ユニットと、
前記処理ユニットに電気的に接続する記憶ユニットと、を含み、
前記記憶ユニットには、機械学習技術により実現される言語処理モデルと、複数のメディアファイルにそれぞれ対応し、対応の前記メディアファイルの属性を示す複数のメディアデータと、が格納されており、
前記処理ユニットは、
前記メディアファイルの出力要求に関する文字データを得て、
前記言語処理モデルを用いて、前記文字データが明確な要求または曖昧な要求に属するかを判断し、
前記文字データが前記明確な要求に属すると判断される場合において、前記文字データに含まれる少なくとも1つのキーワードに基づいて、複数の前記メディアデータから一部が前記キーワードと一致する1つの前記メディアデータを指定のメディアデータとして選択し、前記指定のメディアデータに対応する前記メディアファイルが出力されるようにし、
前記文字データが前記曖昧な要求に属すると判断される場合において、前記言語処理モデルを用いて前記文字データに好み分析処理を実行して好み分析結果を得て、複数の前記メディアデータそれぞれの前記好み分析結果とのマッチング程度を計算し、複数の前記メディアデータから前記好み分析結果との前記マッチング程度が所定の閾値以上である1つの前記メディアデータをマッチングされたメディアデータとして選択し、前記マッチングされたメディアデータに対応する前記メディアファイルが出力されるようにするように構成される、
サービスシステム。
【請求項7】
前記メディアデータのそれぞれは、該メディアデータが対応する前記メディアファイルの属性を示す複数の属性タグを含み、
前記処理ユニットは、
前記文字データが前記曖昧な要求に属すると判断される場合において、前記言語処理モデルを用いて前記文字データから前記メディファイルの属性に関連する少なくとも1つの重点単語を抽出し、前記重点単語に基づいて、多次元ベクトルの形式で表されている前記好み分析結果を生成し、前記メディアデータそれぞれの複数の前記属性タグに基づいて、該メディアデータの前記好み分析結果との前記マッチング程度を計算し、複数の前記メディアデータにおける前記好み分析結果との前記マッチング程度が前記所定の閾値以上である少なくとも1つの前記メディアデータから前記マッチングされたメディアデータを選択することによって、前記マッチングされたメディアデータを選択するように構成される、請求項6に記載のサービスシステム。
【請求項8】
前記処理ユニットは、前記好み分析結果との前記マッチング程度が前記所定の閾値以上である少なくとも1つの前記メディアデータから前記マッチングされたメディアデータをランダムで選択するように構成される、請求項7に記載のサービスシステム。
【請求項9】
前記メディアデータのそれぞれは、可読性のある文字形式で表されている少なくとも1つの名称データを含み、
前記処理ユニットは、
前記文字データに前記名称データのいずれか1つに関連する少なくとも1つの単語があるかどうかを判断し、
前記文字データに前記名称データのいずれか1つに関連する少なくとも1つの前記単語があると判断される場合において、前記文字データが前記明確な要求に属すると判断し、且つ、前記名称データのいずれか1つに関連する少なくとも1つの前記単語を少なくとも1つの前記キーワードとし、
前記文字データに前記名称データのいずれか1つに関連する少なくとも1つの前記単語がないと判断される場合において、前記文字データが前記曖昧な要求に属すると判断することにより、前記文字データが前記明確な要求または前記曖昧な要求に属するかを判断するように構成される、請求項6に記載のサービスシステム。
【請求項10】
さらに、出力モジュールを含み、
前記メディアデータのそれぞれは、ファイル識別データを含み、
前記処理ユニットは、
前記指定のメディアデータの前記ファイル識別データに基づいて、前記指定のメディアデータに対応する前記メディアファイルを得て、前記出力モジュールに前記指定のメディアデータに対応する前記メディアファイルを出力させるように前記出力モジュールを制御することにより、前記指定のメディアデータに対応する前記メディアファイルが出力されるようにするように構成され、
前記マッチングされたメディアデータの前記ファイル識別データに基づいて前記マッチングされたメディアデータに対応する前記メディアファイルを得て、前記出力モジュールに前記マッチングされたメディアデータに対応する前記メディアファイルを出力させるように前記出力モジュールを制御することにより、前記マッチングされたメディアデータに対応する前記メディアファイルが出力されるようにするように構成される、請求項6に記載のサービスシステム。
【請求項11】
機械学習技術により実現される言語処理モデル及び命令を含むコンピュータプログラムであって、該コンピュータプログラムが電子装置により実行されると、前記電子装置に請求項1から5のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、メディアファイルを選択する方法に関し、特に、ユーザが口述した内容を処理してメディアファイルを選択する方法に関する。本発明はさらに、ユーザが口述した内容を処理するサービスシステムと、電子装置に前述のメディアファイルを選択する方法を実行させるコンピュータープログラムと、に関する。
【背景技術】
【0002】
言語処理技術の発展に伴い、ユーザが音声で操作できる電子装置が増えている。音声操作の活用事例の1つは、ユーザが音声で、電子装置に、聴きたい曲を再生するようにリクエストすることである。これにより、ユーザは、手を使わずに聴きたい曲のメディアファイルを検索して再生することができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】中国特許出願公開第114548200号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、ユーザが音楽を聴きたいと思った時、必ずしも特定の曲が聴きたいとは限らなく、好みに合う曲であればよい場合もある。この場合において、ユーザは、音楽を聴きたいと思っても、聴きたい曲を短時間で決定することができない。さらに、音声操作の場合において、ユーザは通常、曲のリストを確認して曲を選択する意向が低く(音声操作の利便性が損なわれるため)、曲の選択がユーザが思い浮かべる曲に制限され、結果としてよくない使用経験になる可能性がある。
【0005】
従って、本発明の目的は、従来技術の欠点を少なくとも1つ軽減することができるメディアファイルを選択する方法を提供することにある。
【課題を解決するための手段】
【0006】
メディアファイルを選択する方法は、サービスシステムによって実行される。サービスシステムは、処理ユニットと、処理ユニットに電気的に接続する記憶ユニットと、を含む。記憶ユニットには、機械学習技術により実現される言語処理モデルと、複数のメディアファイルにそれぞれ対応し、対応のメディアファイルの属性を示す複数のメディアデータと、が格納されている。方法は、a)処理ユニットが、メディアファイルの出力要求に関する文字データを得るステップと、b)処理ユニットが、言語処理モデルを用いて、文字データが明確な要求または曖昧な要求に属するかを判断するステップと、c)文字データが明確な要求に属すると判断される場合において、処理ユニットが、文字データに含まれる少なくとも1つのキーワードに基づいて、複数のメディアデータから一部がキーワードと一致する1つのメディアデータを指定のメディアデータとして選択し、指定のメディアデータに対応するメディアファイルが出力されるようにするステップと、d)文字データが曖昧な要求に属すると判断される場合において、処理ユニットが、言語処理モデルを用いて文字データに好み分析処理を実行して好み分析結果を得て、複数のメディアデータそれぞれの好み分析結果とのマッチング程度を計算し、複数のメディアデータから好み分析結果とのマッチング程度が所定の閾値以上である1つのメディアデータをマッチングされたメディアデータとして選択し、マッチングされたメディアデータに対応するメディアファイルが出力されるようにするステップと、を含む。
【0007】
本発明の他の目的は、従来技術の欠点を少なくとも1つ軽減することができるサービスシステムを提供することにある。
【0008】
サービスシステムは、処理ユニットと、処理ユニットに電気的に接続する記憶ユニットと、を含む。
【0009】
記憶ユニットには、機械学習技術により実現される言語処理モデルと、複数のメディアファイルにそれぞれ対応し、対応のメディアファイルの属性を示す複数のメディアデータと、が格納されている。
【0010】
処理ユニットは、メディアファイルの出力要求に関する文字データを得て、言語処理モデルを用いて、文字データが明確な要求または曖昧な要求に属するかを判断し、文字データが明確な要求に属すると判断される場合において、文字データに含まれる少なくとも1つのキーワードに基づいて、複数のメディアデータから一部がキーワードと一致する1つのメディアデータを指定のメディアデータとして選択し、指定のメディアデータに対応するメディアファイルが出力されるようにし、文字データが曖昧な要求に属すると判断される場合において、言語処理モデルを用いて文字データに好み分析処理を実行して好み分析結果を得て、複数のメディアデータそれぞれの好み分析結果とのマッチング程度を計算し、複数のメディアデータから好み分析結果とのマッチング程度が所定の閾値以上である1つのメディアデータをマッチングされたメディアデータとして選択し、マッチングされたメディアデータに対応するメディアファイルが出力されるようにするように構成される。
【0011】
本発明の他の目的は、従来技術の欠点を少なくとも1つ軽減することができるコンピュータプログラムを提供することにある。
【0012】
コンピュータプログラムは、機械学習技術により実現される言語処理モデル及び命令を含む。該コンピュータプログラムが電子装置により実行されると、電子装置に前述のメディアファイルを選択する方法を実行させる。
【発明の効果】
【0013】
サービスシステムは、まず文字データが明確な要求または曖昧な要求に属するかを判断する。文字データが明確な要求に属すると判断される場合において、サービスシステムは、該文字データに含まれるキーワードに基づいて、出力されるメディアファイル(例えば、音楽ファイル)を選択する。文字データが曖昧な要求に属すると判断される場合において、サービスシステムは、該文字データに好み分析処理を実行して好み分析結果を得て、メディアデータの好み分析結果とのマッチング程度に基づいて、出力されるメディアファイルを選択する。このように、ユーザは、より曖昧な表現でサービスシステムにリクエストすることもでき、従来技術の欠点を改善し、本発明の目的を実現する。
【0014】
本発明の他の特徴及び利点は、添付の図面を参照する以下の実施形態の詳細な説明において明白になる。
【図面の簡単な説明】
【0015】
図1】本発明のサービスシステムの一実施形態を例示的に示すブロック図である。
図2】本発明のメディアファイルを選択する方法の一実施形態を例示的に示すフローチャートである。
【発明を実施するための形態】
【0016】
本発明をより詳細に説明する前に、本明細書における「結合」又は「接続」という用語は、複数の電気機器/装置/設備の間が導電材料(例えば、電線)により直接的に接続されること、或いは、2つの電気機器/装置/設備の間が他の一つ以上の機器/装置/設備又は無線通信により間接的に接続されることを意味することに留意されたい。
【0017】
図1を参照すると、本発明のサービスシステム1の一実施形態は、サーバーシステム11と、電子装置12と、を含む。サーバーシステム11は、ネットワークを介して電子装置12に接続して通信する。
【0018】
本実施形態において、サーバーシステム11は、1つのサーバー機器であって、処理ユニット111と、該処理ユニット111に電気的に接続する記憶ユニット112と、を含む。本実施形態において、処理ユニット111は、データの演算及び処理の機能を有する1つの中央処理装置であるが、他の実施形態において、処理ユニット111は、複数の中央処理装置の組み合わせであってもよく、本実施形態に限定されない。本実施形態において、記憶ユニット112は、デジタルデータを格納する1つのデータ記憶装置(例えば、ハードディスク)であるが、他の実施形態において、記憶ユニット112は、異なる種類のコンピュータ読み取り可能な記憶媒体または複数のコンピュータ読み取り可能な記憶媒体の組み合わせであってもよく、本実施形態に限定されない。また、他の実施形態において、サーバーシステム11は、互いに電気的に接続する複数のサーバー機器であってもよく、本実施形態に限定されない。
【0019】
本実施形態において、サーバーシステム11の記憶ユニット112には、機器学習技術により実現される言語処理モデルMと、複数のメディアファイル(図示せず)にそれぞれ対応し、対応のメディアファイルの属性を示す複数のメディアデータDと、が格納されている。本実施形態において、言語処理モデルMは、語意解析サブモデルm1と、好み分析サブモデルm2と、を含む。本実施形態において、メディアデータDが対応するメディアファイルは、音楽ファイルであるが、これに限定されない。
【0020】
言語処理モデルMの語意解析サブモデルm1について、本実施形態において、語意解析サブモデルm1は、ニューラルネットワークであり、少なくとも複数のフレーズデータをトレーニングデータとして機械学習によりトレーニングされたものである。フレーズデータは、本実施形態において、自然言語で音楽ファイルを出力させるようにリクエストするフレーズであり、例えば、「ジョリンツァイの曲を流して」、「時の流れに身をまかせを聴きたい」、「This is 嵐に収録されている曲をかけて」、「ロックを再生して」、「日本語のバラードが聴きたい」などを含むが、これらに限定されない。
【0021】
より具体的には、語意解析サブモデルm1をトレーニングするように用いられるトレーニングデータは、2種のフレーズデータを含むことが好ましい。1種は、曲名、アーティスト名、又はアルバム名を示す明確な要求であり、他の1種は、曲名、アーティスト名、及びアルバム名を示さない曖昧な要求である。前述の例として挙げられたフレーズデータにおける「ジョリンツァイの曲を流して」、「時の流れに身をまかせを聴きたい」及び「This is 嵐に収録されている曲をかけて」は、明確な要求に属し、「ロックを再生して」及び「日本語のバラードが聴きたい」は、曖昧な要求に属する。
【0022】
これにより、トレーニングされた語意解析サブモデルm1は、文字データに言語解析処理を行うことができ、言語解析処理を行うことにより、文字データから複数の単語を抽出し、抽出された単語に基づいて、該フレーズデータが明確な要求または曖昧な要求に属するかを判断する。言語解析処理の詳細は後述する。なお、本明細書における「単語」は1つまたは1つ以上の文字からなるものであり、その言語は例えば中国語、英語、及び日本語を含む。
【0023】
言語処理モデルMの好み分析サブモデルm2について、好み分析サブモデルm2は、語意解析サブモデルm1に似ているニューラルネットワークである。好み分析サブモデルm2は、少なくとも曖昧な要求に属する複数のフレーズデータをトレーニングデータとして機械学習によりトレーニングされたものである。好み分析サブモデルm2のトレーニングデータは、語意解析サブモデルm1のトレーニングデータの一部を含んでもよい。例えば、好み分析サブモデルm2のトレーニングデータは、前述の「ロックを再生して」及び「日本語のバラードが聴きたい」の2つのフレーズデータを含んでもよい。好み分析サブモデルm2のトレーニングデータは、「女性が歌う懐メロが聴きたい」、「ジャズを流して」、「新曲を聴きたい」などのフレーズデータをさらに含んでもよく、これらに限定されない。
【0024】
これにより、トレーニングされた好み分析サブモデルm2は、文字データに好み分析処理を行うことができ、好み分析処理を行うことにより、文字データから複数の単語を抽出し、抽出された単語に基づいて、好み分析結果を得る。好み分析処理の詳細は後述する。
【0025】
記憶ユニット112に格納されているメディアデータDのそれぞれは、ファイル識別データと、可読性(本明細書においてはすなわち人間可読性)のある文字形式で表されている少なくとも1つの名称データと、予め定義される複数の属性タグと、を含む。
【0026】
より具体的には、メディアデータDそれぞれのファイル識別データは、該メディアデータDが対応するメディアファイルを識別する唯一性のある文字列であり、例えば、可読性のある複数の文字、または可読性のない識別子であってもよく、本実施形態はファイル識別データについて特に限定しない。
【0027】
本実施形態において、メディアデータDのそれぞれは、種類の異なる3つの名称データを含む。より具体的には、1つの名称データは可読性のある文字形式で曲名を表し、他の1つの名称データは可読性のある文字形式でアーティスト名を表し、さらに他の1つの名称データは可読性のある文字形式でアルバム名を表す。なお、メディアデータDが含む名称データの数及び各名称データが表す意味は、ニーズに応じて自由に設定し調整することができ、本実施形態に限定されない。
【0028】
本実施形態において、メディアデータDそれぞれの属性タグは、該メディアデータDが対応するメディアファイルの属性を示す。本実施形態において、メディアデータDが対応するメディアファイルが音楽ファイルであるため、メディアデータDの属性データは、対応の音楽ファイルの属性を示し、例えば、言語、ジャンル、テンポ、楽器、アーティスト、作詞家、作曲家、アルバム名、リリース日などを示してもよいが、これらに限定されない。さらに、メディアデータDの属性データは、可読性のある1つ以上の文字、または特定の属性を表すコードや数値であってもよく、本実施形態は属性タグについて特に限定しない。
【0029】
電子装置12は、処理モジュール121と、処理モジュール121に電気的に接続する入力モジュール122と、処理モジュール121に電気的に接続する出力モジュール123と、を含む。処理モジュール121は、中央処理装置であり、入力モジュール122は、少なくとも処理モジュール121に電気的に接続し、音声を拾うように用いられるマイクロフォンであり、出力モジュール123は、少なくとも処理モジュール121に電気的に接続し、音声を発するように用いられるスピーカーである。また、電子装置12とサーバーシステム11とは互いに通信可能に構成され、例えばネットワークを介して互いに通信可能である。本実施形態において、電子装置12は、宿泊施設の客室に設置され、宿泊者に使用されるサービス電子装置である。なお、図1においては1つの電子装置12が示されているが、これに限らず、サービスシステム1は複数の電子装置12を含み得る。この場合、電子装置12のそれぞれがネットワークを介してサーバーシステム11と通信できる。また、他の実施形態において、電子装置12は、モバイル電子装置(例えば、スマートフォン、タブレットコンピューター、ラップトップコンピューター)、インターネットテレビ、デスクトップコンピューターなどであってもよく、本実施形態に限定されない。
【0030】
図2を参照し、以下では、本実施形態のサービスシステム1により実行されるメディアファイルを選択する方法について説明する。
【0031】
ステップS1において、サーバーシステム11の処理ユニット111は、音声データに対応し、メディアファイルの出力要求に関連する文字データを得る。
【0032】
具体的には、音声データは、電子装置12の入力モジュール122が拾った音声の電気信号であり、例えば、ユーザが音楽出力をリクエストするために電子装置12に対して喋った音声の電気信号である。そして、電子装置12の処理モジュール121は、入力モジュール122から該音声データを受信し、受信した音声データを音声認識技術を用いて処理し対応の文字データを生成し、生成した文字データをサーバーシステム11の処理ユニット111に送信する。また、他の実施形態において、電子装置12の処理モジュール121は、音声データを入力モジュール122から受信し、音声データをそのままサーバーシステム11の処理ユニット111に送信し、サーバーシステム11の処理ユニット111は、受信した音声データに基づいて、対応の文字データを生成してもよい。従って、サーバーシステム11の処理ユニット111が文字データを得る手段は、本実施形態に限定されない。
【0033】
ステップS2において、処理ユニット111は、言語処理モデルMの語意解析サブモデルm1を用いて、ステップS1で得られた文字データが明確な要求または曖昧な要求に属するかを判断する。
【0034】
具体的には、本実施形態において、処理ユニット111は、語意解析サブモデルm1を用いて言語解析処理を実行し、文字データから抽出された単語に、メディアデータDの名称データのいずれか1つに関連する少なくとも1つの単語があるどうかを判断する。
【0035】
文字データから抽出された単語にメディアデータDの名称データのいずれか1つに関連する少なくとも1つの単語があると判断される場合において、処理ユニット111は、該文字データが明確な要求に属すると判断し、且つ、名称データのいずれか1種に該当する少なくとも1つの単語を少なくとも1つのキーワードとする。
【0036】
文字データから抽出された単語にメディアデータDの名称データのいずれか1つに関連する少なくとも1つの単語がないと判断される場合において、処理ユニット111は、該文字データが曖昧な要求に属すると判断する。
【0037】
さらに具体的には、本実施形態において、処理ユニット111は、文字データから抽出された単語に、名称データのいずれか1種に該当する少なくとも1つの単語があるかどうかを判断する。すなわち、文字データから抽出された単語に、曲名、アーティスト名、又はアルバム名を示す少なくとも1つの単語があるかどうかを判断する。語意解析サブモデルm1により文字データから抽出された単語に、曲名、アーティスト名、又はアルバム名を示す少なくとも1つの単語があると判断される場合に、処理ユニット111は、文字データから抽出された単語に名称データの少なくとも1種に該当する少なくとも1つの単語があると判断し、該文字データが明確な要求に属すると判断し、さらに、該名称データの少なくとも1種に該当する(すなわち、曲名、アーティスト名、又はアルバム名を示す)単語を、キーワードとする。
【0038】
文字データが「夏色が聴きたい」である例において、処理ユニット111は、文字データのうちの「夏色」が曲名を示し、名称データの1種に該当すると判断することにより、文字データの「夏色が聴きたい」が明確な要求に属すると判断し、「夏色」をキーワードとする。文字データが「イーソンチャンの曲を流して」である他の例において、処理ユニット111は、文字データのうちの「イーソンチャン」がアーティスト名を示し、名称データの1種に該当すると判断することにより、文字データの「イーソンチャンの曲を流して」が明確な要求に属すると判断し、「イーソンチャン」をキーワードとする。文字データは「アンコールに収録されている曲を流して」である他の例において、処理ユニット111は、文字データのうちの「アンコール」がアルバム名を示し、名称データの1種に該当すると判断することにより、文字データの「アンコールに収録されている曲を流して」が明確な要求に属すると判断し、「アンコール」をキーワードとする。
【0039】
なお、文字データが明確な要求または曖昧な要求に属するかを判断する具体な手段は、本実施形態に限定されない。また、本実施形態において、語意解析サブモデルm1を用いて単語を抽出して明確な要求または曖昧な要求に属するかを判断することは、機械学習により語意解析サブモデルm1をトレーニングした結果であり、詳細は本明細書のポイントではないため、詳しく説明しない。
【0040】
文字データが明確な要求に属すると判断される場合において、フローはステップS3へ進む。その一方、文字データが曖昧な要求に属すると判断される場合において、フローはステップS5へ進む。
【0041】
ステップS3において、処理ユニット111は、該文字データに含まれる少なくとも1つのキーワードに基づいて、複数のメディアデータDから一部がキーワードと一致する1つのメディアデータDを指定のメディアデータとして選択する。
【0042】
文字データが「夏色が聴きたい」である例において、処理ユニット111は、メディアデータDから名称データがキーワードの「夏色」を含む1つのメディアデータDを指定のメディアデータとして選択する。文字データが「イーソンチャンの曲を流して」である他の例において、処理ユニット111は、メディアデータDから名称データがキーワードの「イーソンチャン」を含む1つのメディアデータDを指定のメディアデータとして選択する。文字データが「アンコールに収録されている曲を流して」である他の例において、処理ユニット111は、メディアデータDから名称データがキーワードの「アンコール」を含む1つのメディアデータDを指定のメディアデータとして選択する。
【0043】
ステップS4において、処理ユニット111は、該指定のメディアデータに対応するメディアファイルが出力されるようにする。
【0044】
具体的には、本実施形態において、サーバーシステム11の処理ユニット111は、該指定のメディアデータのファイル識別データを用いて、メディアファイルデータベース(図示せず)から該指定のメディアデータに対応するメディアファイルを得て、該対応のメディアファイルを電子装置12に送信し、電子装置12の処理モジュール121は、出力モジュール123に指定のメディアデータに対応するメディアファイルを出力させるように出力モジュール123を制御するが、本発明は本実施形態に限定されない。なお、メディアファイルデータベースは、サーバーシステム11の記憶ユニット112に格納されてもよく、或いは、ネットワークを介して処理ユニット111と電気的に接続する外部サーバーに格納されてもよい。すなわち、メディアファイルは、必ずしもサービスシステム1に格納されているとは限らない。対応のメディアファイルが出力されると、本実施形態のメディアファイルを選択する方法は完了する。
【0045】
ステップS5において、処理ユニット111は、言語処理モデルMの好み分析サブモデルm2を用いて、文字データに好み分析処理を実行して、好み分析結果を得る。
【0046】
好み分析処理について具体的には、本実施形態において、処理ユニット111は、好み分析サブモデルm2を用いて、文字データからメディアファイルの属性に関連する少なくとも1つの単語を抽出して重点単語とし、好み分析サブモデルm2が有するパラメーターを用いて重点単語に計算をし、好み分析結果を生成する。文字データが「日本語のバラードを再生して」である例において、処理ユニット111は、好み分析サブモデルm2を用いて文字データから「日本語」と「バラード」との2つの単語を抽出して重点単語として、好み分析結果を生成する。さらに、本実施形態において、好み分析結果は、多次元ベクトルの形式で表されている。すなわち、好み分析結果は、文字データが示したメディアファイルへの要求の好みを多次元ベクトルで示す。具体的には、多次元ベクトルである好み分析結果が有する複数の成分ベクトルは、メディアデータDの複数の属性タグに関連する。例えば、好み分析結果の複数の成分ベクトルは、文字データが、言語、ジャンル、テンポ、楽器、アーティスト、作詞家、作曲家、アルバム名、リリース日などについて好みを示したかどうかを示す。なお、好み分析サブモデルm2を用いて重点単語を抽出して好み分析結果を生成することは、機械学習により好み分析サブモデルm2をトレーニングした結果であり、詳細は本明細書のポイントではないため、詳しく説明しない。
【0047】
ステップS6において、処理ユニット111は、好み分析結果に基づいて、メディアデータDからマッチングされたメディアデータを選択する。
【0048】
具体的には、処理ユニット111は、メディアデータDそれぞれの属性タグに基づいて、該メディアデータDの好み分析結果とのマッチング程度を計算し、メディアデータDにおける好み分析結果とのマッチング程度が所定の閾値以上である少なくとも1つのメディアデータDから、1つのメディアデータDをランダムで選択し、選択された該1つのメディアデータDをマッチングされたメディアデータとする。
【0049】
処理ユニット111は、マッチングされたメディアデータをランダムで選択するため、類似の曖昧な要求(例えば、「日本語のバラードを流して」及び「日本語のバラードをもう一曲」)を用いて本発明のメディアファイルを選択する方法を実行しても、好み分析結果とのマッチング程度が所定の閾値以上であるメディアデータDの数が多ければ、同一のメディアデータDがマッチングされたメディアデータとして何度も選択され同一のメディアファイルが何度も出力されることを回避することができる。
【0050】
メディアデータDのそれぞれの属性タグが可読性のある文字形式で実施される場合において、処理ユニット111は、例えば、好み分析サブモデルm2を用いてメディアデータDそれぞれの属性タグをベクトル形式に変換してから、該メディアデータDの好み分析結果とのマッチング程度を計算する。メディアデータDのそれぞれの属性タグがコードや数値で実施される場合において、処理ユニット111は、メディアデータDの好み分析結果とのマッチング程度の計算に必ずしも好み分析サブモデルm2を用いる必要はない。
【0051】
ステップS7において、処理ユニット111は、マッチングされたメディアデータに対応するメディアファイルが出力されるようにする。
【0052】
具体的には、本実施形態において、サーバーシステム11の処理ユニット111は、該マッチングされたメディアデータのファイル識別データを用いて、メディアファイルデータベースから、マッチングされたメディアデータに対応するメディアファイルを得て、該対応のメディアファイルを電子装置12に送信し、電子装置12の処理モジュール121は、出力モジュール123にマッチングされたメディアデータに対応するメディアファイルを出力させるように出力モジュール123を制御するが、本発明は本実施形態に限定されない。対応のメディアファイルが出力されると、本実施形態のメディアファイルを選択する方法は完了する。
【0053】
ステップS1からステップS7及び図2のフローチャートは、本発明のメディアファイルを選択する方法の一実施形態を例示的に示すものに過ぎないことを理解されたい。ステップS1からステップS7を組み合わせたり、分割したり、順序を変えたりしても、本実施形態と実質的に同一の方法で同一の効果を得ることができれば、本発明のメディアファイルを選択する方法の実施形態に該当し、本発明の権利範囲に含まれる。従って、ステップS1からステップS7及び図2のフローチャートは、本発明を限定するものではない。
【0054】
また、本発明の適用する範囲は、音楽ファイルに限定されない。従って、メディアファイルは音楽ファイルに限定されなく、例えば、音声を含む動画ファイル(例えば、映画の動画ファイル)、画像ファイル(例えば、写真や絵の画像ファイル)などであってもよい。メディアデータDの内容(名称データ、属性タグなど)及び言語処理モデルMのトレーニングデータも、メディアファイルに応じて自由に設計して調整してもよい。従って、メディアデータD及びトレーニングデータは、本実施形態に限定されない。
【0055】
本実施形態において、サービスシステム1は、図1に示されるように、サーバーシステム11と電子装置12とを含むが、本発明は本実施形態に限定されないことを理解されたい。他の実施形態において、サービスシステム1は、サーバーシステム11のみを含んでもよく、必ずしも電子装置12を含む必要はない。他の実施形態において、サーバーシステム1は、処理ユニット111と、記憶ユニット112と、入力モジュール122と、出力モジュール123と、を含むユーザが所有する1つのデバイス(例えば、スマートフォン、タブレットコンピューター、ノート型コンピューター、デスクトップコンピューター、インターネットテレビ)であってもよい。従って、サービスシステム1は、本実施形態に限定されない。
【0056】
本発明のコンピュータープログラムは、機械学習技術により実現される言語処理モデルMと命令とを含む。コンピュータープログラムは、例えば、コンピュータ読み取り可能な記憶媒体に格納されており、電子装置(例えば、スマートフォン、タブレットコンピューター、ノート型コンピューター、デスクトップコンピューター)により実行することができるアプリケーションである。コンピュータープログラムが電子装置により実行されると、該電子装置は本発明のサービスシステム1として機能し、本発明のメディアファイルを選択する方法が実行される。また、コンピュータープログラムは、メディアデータDをさらに含んでもよい。
【0057】
要約すると、サービスシステム1は、まず文字データが明確な要求または曖昧な要求に属するかを判断する。文字データが明確な要求に属すると判断される場合において、サービスシステム1は、該文字データに含まれるキーワードに基づいて、出力されるメディアファイルを選択する。文字データが曖昧な要求に属すると判断される場合において、サービスシステム1は、該文字データに好み分析処理を実行して好み分析結果を得て、メディアデータDの好み分析結果とのマッチング程度に基づいて、出力されるメディアファイルを選択する。このように、ユーザは、より曖昧な表現でサービスシステム1にリクエストすることもでき、従来技術の欠点を改善し、本発明の目的を実現する。
【0058】
上記の説明では、説明の目的のために、実施形態の完全な理解を提供するために多数の特定の詳細が述べられた。しかしながら、当業者であれば、一又はそれ以上の他の実施形態が具体的な詳細を示さなくとも実施され得ることが明らかである。また、本明細書における「一実施形態」「一つの実施形態」を示す説明において、序数などの表示を伴う説明は全て、特定の態様、構造、特徴を有する本発明の具体的な実施に含まれ得るものであることと理解されたい。更に、本明細書において、時には複数の変化例が一つの実施形態、図面、又はこれらの説明に組み込まれているが、これは本明細書を合理化させるためのもので、本発明の多面性が理解されることを目的としたものであり、また、一実施形態における一又はそれ以上の特徴あるいは特定の具体例は、適切な場合には、本発明の実施において、他の実施形態における一またはそれ以上の特徴あるいは特定の具体例と共に実施され得る。
【0059】
以上、本発明の実施形態および変化例を説明したが、本発明はこれらに限定されるものではなく、最も広い解釈の精神および範囲内に含まれる様々な構成として、全ての修飾および均等な構成を包含するものとする。
【符号の説明】
【0060】
1 サービスシステム
11 サーバーシステム
111 処理ユニット
112 記憶ユニット
12 電子装置
121 処理モジュール
122 入力モジュール
123 出力モジュール
M 言語処理モデル
m1 語意解析サブモデル
m2 好み分析サブモデル
D メディアデータ
S1~S7 ステップ
図1
図2