IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 大谷 寛の特許一覧

特開2024-144385データを分析するための装置、方法及びそのためのプログラム
<>
  • 特開-データを分析するための装置、方法及びそのためのプログラム 図1
  • 特開-データを分析するための装置、方法及びそのためのプログラム 図2
  • 特開-データを分析するための装置、方法及びそのためのプログラム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024144385
(43)【公開日】2024-10-11
(54)【発明の名称】データを分析するための装置、方法及びそのためのプログラム
(51)【国際特許分類】
   G06F 16/906 20190101AFI20241003BHJP
【FI】
G06F16/906
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2024054971
(22)【出願日】2024-03-28
(31)【優先権主張番号】P 2023050692
(32)【優先日】2023-03-28
(33)【優先権主張国・地域又は機関】JP
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
2.OPENAI
(71)【出願人】
【識別番号】517087831
【氏名又は名称】大谷 寛
(74)【代理人】
【識別番号】110003605
【氏名又は名称】弁理士法人六本木通り特許事務所
(72)【発明者】
【氏名】大谷 寛
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175FA01
5B175FA03
(57)【要約】
【課題】データを分析するための方法において、冒頭から末尾までの方向性を有するデータを効率的に分類する。
【解決手段】まず、ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}の指定を受信する(S201)。次に、装置100は、p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2…,Fp}に基づいて、p個のデータDを分類可能なq個の分類C={C1,C2…,Cq}(1<q<p)を生成することを生成AIモデルに要求を行う(S202)。次いで、装置100は、生成された分類Cを受信し(S203)、1以上p以下のiについて、分類Cの中から、データDiに表す1又は複数の分類をC'iとして関連づけることをAIモデルに要求する(S204)。そして、装置100は、1以上p以下のiについて、データDiに関連づけられた分類C'iを受信して記憶する(S205)。
【選択図】図2
【特許請求の範囲】
【請求項1】
データを分析するための方法であって、
ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}であって、各データは、冒頭から末尾に向かう方向性を有するデータDの指定を取得するステップと、
1以上p以下のiについて、データDiの少なくとも一部を入力して特徴Fiを生成することをAIモデル(k)に要求する要求kを行うステップであって、前記AIモデル(k)は、生成AIモデルであるステップと、
1以上p以下のiについて、生成された特徴FiをデータDiに関連づけて記憶するステップであって、前記特徴Fiは、前記入力に含まれない、単一の用語よりも長い1又は複数の文を含むステップと
を含む。
【請求項2】
請求項1に記載の方法であって、
前記p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2...,Fp}又はその少なくともいずれかが修正された修正後特徴F’のそれぞれに、q個の分類C={C1,C2...,Cq}のうちのいずれかを付与することをAIモデル(l)に要求する要求lを行うステップと、
1以上p以下のiについて、データDiに付与された分類を受信して記憶するステップと
を含む。
【請求項3】
請求項2に記載の方法であって、
前記要求lは、前記q個の分類Cのうちの少なくともいずれかについて、当該分類を付与した理由を記述することの特定を含む。
【請求項4】
請求項2に記載の方法であって、
前記要求lを行うステップは、前記p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2...,Fp}又はその少なくともいずれかが修正された修正後特徴F’を分類可能なq個の分類C={C1,C2...,Cq}(1<q<p)を生成することを前記AIモデル(l)に要求するステップを含む。
【請求項5】
請求項2に記載の方法であって、
前記要求lを行うステップは、前記p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2...,Fp}又はその少なくともいずれかが修正された修正後特徴F’を分類可能なq個の分類C={C1,C2...,Cq}を、各データに関連づけて生成することを前記AIモデル(l)に要求するステップを含む。
【請求項6】
請求項4又は5に記載の方法であって、
前記要求lは、前記q個の分類Cを生成する上で前記第1の生成AIモデルに課される第1の条件の特定を含む。
【請求項7】
請求項2から6のいずれかに記載の方法であって、
前記ユーザー端末に、前記p個の分類Cのうちの少なくとも一部が付与された1又は複数のデータを特定する文献情報の閲覧画面を表示するための閲覧画面表示情報を送信するステップをさらに含む。
【請求項8】
請求項1から7のいずれかに記載の方法であって、
前記p個の特徴Fは、所定の形式である。
【請求項9】
コンピュータに、データを分析するための方法を実行させるためのプログラムであって、前記方法は、
ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}であって、各データは、冒頭から末尾に向かう方向性を有するデータDの指定を取得するステップと、
1以上p以下のiについて、データDiの少なくとも一部を入力して特徴Fiを生成することをAIモデル(k)に要求する要求kを行うステップであって、前記AIモデル(k)は、生成AIモデルであるステップと、
1以上p以下のiについて、生成された特徴FiをデータDiに関連づけて記憶するステップであって、前記特徴Fiは、前記入力に含まれない、単一の用語よりも長い1又は複数の文を含むステップと
を含む。
【請求項10】
データを分析するための装置であって、
ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}であって、各データは、冒頭から末尾に向かう方向性を有するデータDの指定を取得し、
1以上p以下のiについて、データDiの少なくとも一部を入力して特徴Fiを生成することを生成AIモデルであるAIモデル(k)に要求する要求kを行い、
1以上p以下のiについて、生成された特徴Fiであって、前記入力に含まれない、単一の用語よりも長い1又は複数の文を含む特徴FiをデータDiに関連づけて記憶するように構成されている。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データを分析するための装置、方法及びそのためのプログラムに関する。
【背景技術】
【0002】
インターネットの登場により、情報の流通が著しく容易になり、企業、そして個人が、それぞれの目的に合わせて夥しい量のデータを日々生成し、利用している。2020年には、世界で1日当たり250京バイトのデータが生成されたといわれている。2023年に入って、ChatGPT(登録商標)に代表される高度なコンテンツを生成可能な生成AIモデル(generative AI model)を用いたサービスが次々と発表され、データの量はこれまで以上に増大していくことが見込まれる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
データの量が増大すればするほど、企業、そして個人は、それを扱い切れない状況に陥る。一例として、100KBの英語で書かれたテキストファイルであれば、2万単語前後と見積もることができ、内容を把握したいテキストデータが50件であっても、100万単語前後の英文を読むことになる。個々のデータに長い時間を使うことなく、多数のデータを分類することができれば、目的に応じて適切なデータに短時間で辿り着くことができる。テキストデータに限らず、音声データ、動画データ等の冒頭から末尾までの方向性を有するデータにおいても、その内容を把握するためには時間をかける必要があり、負担が大きいことは同様である。
【0004】
本発明は、このような点に鑑みてなされたものであり、その第1の課題は、データを分類するための装置、方法又はそのためのプログラムにおいて、冒頭から末尾までの方向性を有するデータを効率的に分類することにある。また、本発明の代替的な第2の課題は、データを分析するための装置、方法又はそのためのプログラムにおいて、当該データの内容を把握可能な情報の生成又はその応用を提供することにある。
【課題を解決するための手段】
【0005】
このような目的を達成するために、本発明の第1の態様は、データを分類するための方法であって、ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}であって、各データは、冒頭から末尾に向かう方向性を有するデータDの指定を受信するステップと、前記p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2…,Fp}に基づいて、前記p個のデータDを分類可能なq個の分類C={C1,C2…,Cq}(1<q<p)を生成することを第1のAIモデルに要求する第1の要求を行うステップであって、前記第1のAIモデルは、生成AIモデルであるステップと、1以上p以下のiについて、前記q個の分類Cの中から、データDiを表す1又は複数の分類をC'iとして関連づけることを第2のAIモデルに要求する第2の要求を行うステップと、1以上p以下のiについて、データDiに関連づけられた分類C'iを受信して記憶するステップとを含む。
【0006】
また、本発明の第2の態様は、第1の態様の方法であって、前記ユーザー端末に、p個の分類C’={C’1,C’2…,C’p}の少なくとも一部を送信するステップと含む。
【0007】
また、本発明の第3の態様は、第1又は2の態様の方法であって、前記p個の特徴Fは、前記指定に含まれる。
【0008】
また、本発明の第4の態様は、第1又は第2の態様の方法であって、前記分類Cの生成を前記第1のAIモデルに要求する前に、1以上p以下のiについて、データDiの少なくとも一部を要約して特徴Fiを生成することを第3のAIモデルに要求する第3の要求を行うステップであって、前記第3のAIモデルは、生成AIモデルであり、前記要約は、所定の長さ以下又は未満の表現であるステップをさらに含む。
【0009】
また、本発明の第5の態様は、第4の態様の方法であって、前記所定の長さは、英語125単語又は日本語250文字である。
【0010】
また、本発明の第6の態様は、第4又は第5の態様の方法であって、前記第3の要求は、前記p個の特徴Fを生成する上で前記第3のAIモデルに課される第3の条件の特定を含む。
【0011】
また、本発明の第7の態様は、第4から第6のいずれかの態様の方法であって、前記第3の条件は、前記少なくとも一部から抽出すべき特徴の性質の特定である。
【0012】
また、本発明の第8の態様は、第1から第7のいずれかの態様の方法であって、前記p個の特徴Fのそれぞれは、前記p個のデータDに含まれる各データで言及される主題の要約である。
【0013】
また、本発明の第9の態様は、第1から第8のいずれかの態様の方法であって、前記第2のAIモデルは、前記第1のAIモデルと同一である。
【0014】
また、本発明の第10の態様は、第1から第8のいずれかの態様の方法であって、前記第2のAIモデルは、前記第1のAIモデルと同一のプラットフォーム上で提供されるものである。
【0015】
また、本発明の第11の態様は、第4の態様の方法であって、前記第3のAIモデルは、前記第1のAIモデル及び前記第2のAIモデルの少なくとも一方と同一のプラットフォーム上で提供されるものである。
【0016】
また、本発明の第12の態様は、第1から第11のいずれかの態様の方法であって、前記第1の要求は、前記q個の分類Cを生成する上で前記第1のAIモデルに課される第1の条件の特定を含む。
【0017】
また、本発明の第13の態様は、第12の態様の方法であって、前記第1の条件は、前記q個の分類Cに含まれるべき1又は複数の分類を含む。
【0018】
また、本発明の第14の態様は、第12の態様の方法であって、前記第1の条件は、qの値を固定しない。
【0019】
また、本発明の第15の態様は、第12の態様の方法であって、前記第1の条件は、qの値の範囲を含む。
【0020】
また、本発明の第16の態様は、第1から第15のいずれかの態様の方法であって、前記p個の分類C’の少なくとも一部の前記ユーザー端末に対する送信は、前記ユーザー端末において前記p個の分類C’の少なくとも一部の閲覧画面を表示するための閲覧画面表示情報の送信である。
【0021】
また、本発明の第17の態様は、第16の態様の方法であって、前記閲覧画面は、前記ユーザー端末を用いるユーザーが前記p個の分類C’に含まれる1又は複数の分類に対するフィードバックを入力可能である。
【0022】
また、本発明の第18の態様は、第17の態様の方法であって、前記フィードバックは、前記1又は複数の分類に対する肯定的又は否定的な選択又は評価である。
【0023】
また、本発明の第19の態様は、第17の態様の方法であって、前記フィードバックは、前記1又は複数の分類に対する修正の提案又は指定である。
【0024】
また、本発明の第20の態様は、第17の態様の方法であって、前記フィードバックは、前記ユーザーによる新たな分類の提案又は指定である。
【0025】
また、本発明の第21の態様は、第17の態様の方法であって、前記フィードバックは、前記p個の分類C’の抽象化又は具体化の提案又は指定である。
【0026】
また、本発明の第22の態様は、第17から第21のいずれかの態様の方法であって、前記フィードバックを受信した後に、前記フィードバックに応じて、前記p個のデータDを分類可能なr個の分類C={C1,C2…,Cr}(1<r<p)を生成することを前記第1のAIモデルに要求するステップをさらに含む。
【0027】
また、本発明の第23の態様は、第16の態様の方法であって、前記閲覧画面は、前記p個の分類C’の少なくとも一部を複数の分析軸のうちの第1の軸とする分析結果を表示可能である。
【0028】
また、本発明の第24の態様は、第23の態様の方法であって、前記複数の分析軸のうちの前記第1の軸と異なる第2の軸は、時の変化を表す軸である。
【0029】
また、本発明の第25の態様は、第1から第21並びに第23及び第24のいずれかの態様の方法であって、前記ユーザー端末から、分類対象となるs個(s>1)のデータD={D1,D2,…,Ds}であって、各データは、冒頭から末尾に向かう方向性を有するデータDの指定を受信するステップと、1以上s以下のiについて、前記q個の分類Cの中から、データDiに表す1又は複数の分類をC'iとして関連づけることを第4のAIモデルに要求する第4の要求を行うステップと、1以上s以下のiについて、データDiに関連づけられた分類C'iを受信して記憶するステップとを含む。
【0030】
また、本発明の第26の態様は、データを分類するための方法であって、ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}であって、各データは、冒頭から末尾に向かう方向性を有するデータDの指定を受信するステップと、前記p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2…,Fp}に基づいて、前記p個のデータDを分類可能なq個の分類C={C1,C2…,Cq}(1<q<p)を、各データに関連づけて生成することを生成AIモデルに要求するステップと、1以上p以下のiについて、データDiに関連づけられた分類を受信して記憶するステップとを含む。
【0031】
また、本発明の第27の態様は、コンピュータに、データを分類するための方法を実行させるためのプログラムであって、前記方法は、ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}であって、各データは、冒頭から末尾に向かう方向性を有するデータDの指定を受信するステップと、前記p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2…,Fp}に基づいて、前記p個のデータDを分類可能なq個の分類C={C1,C2…,Cq}(1<q<p)を生成することを第1のAIモデルに要求する第1の要求を行うステップであって、前記第1のAIモデルは、生成AIモデルであるステップと、1以上p以下のiについて、前記q個の分類Cの中から、データDiに表す1又は複数の分類をC'iとして関連づけることを第2のAIモデルに要求する第2の要求を行うステップと、1以上p以下のiについて、データDiに関連づけられた分類C'iを受信して記憶するステップとを含む。
【0032】
また、本発明の第28の態様は、コンピュータに、データを管理するための方法を実行させるためのプログラムであって、前記方法は、ユーザー端末から、処理対象となるp個(p>1)のデータD={D1,D2,…,Dp}であって、各データは、冒頭から末尾に向かう方向性を有するデータDの指定を受信するステップと、前記p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2…,Fp}に基づいて、前記p個のデータDを分類可能なq個の分類C={C1,C2…,Cq}(1<q<p)を、各データに関連づけて生成することを生成AIモデルに要求するステップと、1以上p以下のiについて、データDiに関連づけられた分類を受信して記憶するステップとを含む。
【0033】
また、本発明の第29の態様は、データを分類するための装置であって、ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}であって、各データは、冒頭から末尾に向かう方向性を有するデータであるデータDの指定を受信し、前記p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2…,Fp}に基づいて、前記p個のデータDを分類可能なq個の分類C={C1,C2…,Cq}(1<q<p)を生成することを第1のAIモデルであって、生成AIモデルである第1のAIモデルに要求する第1の要求、及び、1以上p以下のiについて、前記q個の分類Cの中から、データDiに表す1又は複数の分類をC'iとして関連づけることを第2のAIモデルに要求する第2の要求を行い、1以上p以下のiについて、データDiに関連づけられた分類C'iを受信して記憶する。
【0034】
また、本発明の第30の態様は、データを分類するための装置であって、ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}であって、各データは、冒頭から末尾に向かう方向性を有するデータであるデータDの指定を受信し、前記p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2…,Fp}に基づいて、前記p個のデータDを分類可能なq個の分類C={C1,C2…,Cq}(1<q<p)を、各データに関連づけて生成することを生成AIモデルに要求し、1以上p以下のiについて、データDiに関連づけられた分類を受信して記憶する。
【0035】
また、本発明の第31の態様は、データを分析するための方法であって、ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}であって、各データは、冒頭から末尾に向かう方向性を有するデータDの指定を取得するステップと、1以上p以下のiについて、データDiの少なくとも一部を入力して特徴Fiを生成することをAIモデル(k)に要求する要求kを行うステップであって、前記AIモデル(k)は、生成AIモデルであるステップと、1以上p以下のiについて、生成された特徴FiをデータDiに関連づけて記憶するステップであって、前記特徴Fiは、前記入力に含まれない、単一の用語よりも長い1又は複数の文を含むステップとを含む。
【0036】
また、本発明の第32の態様は、第1の態様の方法であって、前記p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2...,Fp}又はその少なくともいずれかが修正された修正後特徴F’のそれぞれに、q個の分類C={C1,C2...,Cq}のうちのいずれかを付与することをAIモデル(l)に要求する要求lを行うステップと、1以上p以下のiについて、データDiに付与された分類を受信して記憶するステップとを含む。
【0037】
また、本発明の第33の態様は、第2の態様の方法であって、前記要求lは、前記q個の分類Cのうちの少なくともいずれかについて、当該分類を付与した理由を記述することの特定を含む。
【0038】
また、本発明の第34の態様は、第2の態様の方法であって、前記要求lを行うステップは、前記p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2...,Fp}又はその少なくともいずれかが修正された修正後特徴F’を分類可能なq個の分類C={C1,C2...,Cq}(1<q<p)を生成することを前記AIモデル(l)に要求するステップを含む。
【0039】
また、本発明の第35の態様は、第2の態様の方法であって、前記要求lを行うステップは、前記p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2...,Fp}又はその少なくともいずれかが修正された修正後特徴F’を分類可能なq個の分類C={C1,C2...,Cq}を、各データに関連づけて生成することを前記AIモデル(l)に要求するステップを含む。
【0040】
また、本発明の第36の態様は、第34又は第35の態様の方法であって、前記要求lは、前記q個の分類Cを生成する上で前記第1の生成AIモデルに課される第1の条件の特定を含む。
【0041】
また、本発明の第37の態様は、第31から第36のいずれかの態様の方法であって、前記ユーザー端末に、前記p個の分類Cのうちの少なくとも一部が付与された1又は複数のデータを特定する文献情報の閲覧画面を表示するための閲覧画面表示情報を送信するステップをさらに含む。
【0042】
また、本発明の第38の態様は、第31から第37のいずれかの態様の方法であって、請求項1から7のいずれかに記載の方法であって、前記p個の特徴Fは、所定の形式である。
【0043】
また、本発明の第39の態様は、コンピュータに、データを分析するための方法を実行させるためのプログラムであって、前記方法は、ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}であって、各データは、冒頭から末尾に向かう方向性を有するデータDの指定を取得するステップと、1以上p以下のiについて、データDiの少なくとも一部を入力して特徴Fiを生成することをAIモデル(k)に要求する要求kを行うステップであって、前記AIモデル(k)は、生成AIモデルであるステップと、1以上p以下のiについて、生成された特徴FiをデータDiに関連づけて記憶するステップであって、前記特徴Fiは、前記入力に含まれない、単一の用語よりも長い1又は複数の文を含むステップとを含む。
【0044】
また、本発明の第40の態様は、データを分析するための装置であって、ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}であって、各データは、冒頭から末尾に向かう方向性を有するデータDの指定を取得し、1以上p以下のiについて、データDiの少なくとも一部を入力して特徴Fiを生成することを生成AIモデルであるAIモデル(k)に要求する要求kを行い、1以上p以下のiについて、生成された特徴Fiであって、前記入力に含まれない、単一の用語よりも長い1又は複数の文を含む特徴FiをデータDiに関連づけて記憶するように構成されている。
【発明の効果】
【0045】
本発明の一態様によれば、指定されたp個のデータDのそれぞれに関連づけられたp個の特徴Fに基づいて、p個のデータDを分類可能なq個の分類Cを生成AIモデルに対する要求によって生成し、生成された分類Cの中から各データを表すものを関連づけて記憶することによって、これまで多大な労力を要したデータの分類という作業を省力化可能となる。
【0046】
また、本発明の別の態様によれば、本明細書で説明された異なる効果が代替的又は付加的に得られることを付言する。
【図面の簡単な説明】
【0047】
図1】本発明の第1の実施形態にかかる分類システムを示す図である。
図2】本発明の第1の実施形態にかかる分類方法の流れを示す図である。
図3】本発明の第1の実施形態にかかる第1の生成AIモデルに対する第1の要求の一例である。
【発明を実施するための形態】
【0048】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【0049】
(第1の実施形態)
図1に本発明の第1の実施形態にかかるシステムを示す。装置100は、データを分類するためのために、ユーザーが用いるユーザー端末110及び生成AIモデルを提供するプラットフォーム120とインターネット等のIPネットワークを介して通信する。AIモデルは、装置100と通信可能なプラットフォーム120により提供されるものとして例示的に説明をするが、装置100上でAIモデルを提供するためのアプリケーションを実行して、装置100によりAIモデルが提供されるようにすることもできる。また、ユーザー端末110上でAPIモデルを提供するためのアプリケーションを実行して、ユーザー端末100によりAIモデルが提供されるようにすることもできる。
【0050】
装置100は、通信インターフェースなどの通信部101と、プロセッサ、CPU等の処理部102と、メモリ、ハードディスク等の記憶装置又は記憶媒体を含む記憶部103とを備え、各処理又は各動作を行うためのプログラムを処理部102において実行することによって構成することができる。装置100は、1又は複数の装置、コンピュータないしサーバを含むことがある。また、当該プログラムは、1又は複数のプログラムを含むことがあり、また、コンピュータ読み取り可能な記憶媒体に記録して非一過性のプログラムプロダクトとすることができる。当該プログラムは、記憶部103又は装置100からIPネットワークを介してアクセス可能な記憶装置又は記憶媒体104に記憶しておき、処理部102の少なくとも1つのプロセッサにおいて当該プログラムに含まれる命令を実行することができる。以下で記憶部103に記憶されるものとして記述されるデータは記憶装置又は記憶媒体104に記憶してもよく、またその逆も同様である。図1においては、便宜上、記憶装置又は記憶媒体104をデータベースとして示している。
【0051】
まず、ユーザー端末から、分類対象となるp個(p>1)のデータD={D1,D2,…,Dp}の指定を受信する(S201)。当該指定は、たとえば、装置100が提供するアップロード画面を用いたデータDのアップロード又はデータDを特定するためのリストのアップロードによって行うことができる。また、アップロードした一組のデータ又はそれを特定するためのリストの中から分類対象となる選択することによって、当該指定がなされてもよい。また、当該指定がリストのアップロードによる場合、次の工程で用いるp個の特徴F={F1,F2…,Fp}は当該指定に含めておくことができる。本実施形態にかかる分類を適用可能なデータとしては、テキストデータ、音声データ、動画データ、これらの組み合わせその他の冒頭から末尾までの方向性を有するデータが含まれ、静止した画像データは含まない。データDは、たとえば、50KB以上のデータ、さらには100KB以上、250KB以上、300KB以上、500KB以上、1000KB以上、1500KB以上又は2000KB以上のデータを含んでもよい。また、データDに含まれるデータは、すべて50KB以上のデータ、さらには100KB以上、250KB以上、300KB以上又は500KB以上のデータであってもよい。リストが特徴Fを含む場合には、有益な一例として、データDのそれぞれの主題(subject)、結論(conclusion)その他の側面を要約した1又は複数の文を各特徴とすることが挙げられる。なお、念のため、本明細書において、「文(sentence)」とは、主語及び述語を必須の構成要素とするものではなく、また、単一の用語ではない。
【0052】
次に、装置100は、p個のデータDのそれぞれに関連づけられたp個の特徴F={F1,F2…,Fp}に基づいて、p個のデータDを分類可能なq個の分類C={C1,C2…,Cq}(1<q<p)を生成することを生成AIモデル(「第1のAIモデル」とも呼ぶ。)に要求(「第1の要求」とも呼ぶ。)を行う(S202)。装置100は、動画、音声、文書等のデータDの種類を判定し、あるいは、ユーザー端末110からデータDの種類を取得して、当該種類に応じて、第1のAIモデルに対する第1の要求に含まれる指示を可変とすることができる。
【0053】
図3に、本発明の第1の実施形態にかかる第1のAIモデルに対する第1の要求のためのコードの一部の一例を示す。図3の例は、プログラミング言語Pythonで記述したコードの一部であり、当該コードを実行することによって、OpenAI APIを呼び出し、プラットフォーム120上で提供される第1のAIモデルに分類Cを生成させることができる。ここで、変数 “engine” は利用する生成AIモデルの種類であり、変数 ”temperature” は出力の多様性を表し、変数 “max_tokens” は出力されるトークン数の上限を表す。「トークン」とは、変数 “prompt”に記述された入力を分割する単位である。OpenAI APIは例示であり、その他のAPIを用いてもよい。また、プログラミング言語Pythonは例示であり、その他の言語を用いてもよい。第1の要求を行うためのコードは、記憶部103に記憶しておき、装置100がこれを取得して、当該コードに含まれる変数に特徴Fを設定して得られる指示を含むコードを実行すればよい。
【0054】
図3の例では、生成AIモデルに、変数 “specifiedField” に設定された分野の専門家として、変数 “features” に設定されたp個の特徴Fを一般化して、p個より少ないq個の分類Cに分類することを要求している。変数 “prompt” の記述を変えることに加えて又は代替して、変数 “specifiedField” 及び変数 “specifiedConditions” に値を設定することによっても、分類Cを生成する上で第1の生成AIモデルに課される条件(「第1の条件」とも呼ぶ。)を指定し、生成される分類Cが可変である。変数 “prompt” の記述を変えることは、記憶部103に記憶されたコードの書き換えを要するが、変数 “features” の設定に加えて、ユーザー端末110からデータDの指定と同時又はその前後に第1の条件又はその一部の指定を受信して、コード中の変数に設定可能とすることで、実行されるコードをユーザーにとって有益な出力が得られやすいものとすることができる。AIの弊害として論点となる人間の自律性の喪失は、本実施形態にかかる分類においては、第1の条件又はその一部をユーザーの指定に基づいて特定することにより、緩和される。具体的には、変数“specifiedConditions”には、生成される分類Cの少なくともいずれかに用いられるべき1又は複数の単語・用語又は表現が設定されてもよい。第1の条件は、変数”specifiedConditions”のように、それ全体をコード中の変数として設定する場合のほか、変数“specifiedField”のように、第1の条件に含まれる変数以外を変数“prompt”の記述に含め、当該変数をユーザー端末110から受信した指定に応じて設定するようにしてもよい。
【0055】
第1のAIモデルに課す第1の条件としては、qの値の範囲、qの値が2以上又は超であり、10未満又は以下の範囲又は値であることなどが挙げられる。qの値、すなわち、何個の分類に分類するかを具体的に固定すると、人間の先入観が生成される分類Cを制約してしまうおそれがあるため、固定してもよいが、人間が見出しにくい分類を得たい場合には、固定しないことが好ましい。また、qの値の範囲を第1の条件に含めることは、qの値を固定せずに、ユーザーの想定に近い結果をもたらすため、ユーザーにとって使用しやすく、有益である。他方で、分類Cに含まれるべき1又は複数の分類を条件に含めることは、分類Cの全体がそれを前提として生成され、ユーザーにとって有益な結果が得られる方向に働く。また、q個の分類Cがその他(others)を意味する表現を含むことの特定を第1の条件に含めた場合、分類が困難なデータが「その他」に分類されることになり、ノイズ除去の効率化が図られる。このようにしてノイズに該当するデータを除外してから、再度分類の生成を行えば、精度を向上させることができる。また、p個のデータを大別したい場合には、qの値を2又は3とすることが好ましいこともある。
【0056】
生成AIモデルの出力は、毎回同一とは限らないことから、複数回の出力結果に基づいて、分類Cを構成する各分類を決定することを第1の条件として与えてもよい。また、第1の生成AIモデルに第1の要求を複数回行い、装置100において、それらの要求に対する複数の応答に基づいて分類Cを構成する各分類を決定するようにしてもよい。
【0057】
図3の例では、装置100は、生成された分類Cを受信する(S203)。このように、生成後の分類C又はその一部を受信してもよいが、その後の処理がプラットフォーム120において済んだ段階で必要なデータが装置100に送信されるようにしてもよい。以下では分類CをデータDに関連づけているところ、関連づけは別途行うとして、生成された分類Cをユーザーが取得できること自体、大きな労力の削減となる。
【0058】
装置100は、1以上p以下のiについて、q個の分類Cの中から、データDiに表す1又は複数の分類をC'iとして関連づけることをAIモデル(「第2のAIモデル」とも呼ぶ。)に要求(「第2の要求」とも呼ぶ。)する(S204)。第2の要求は、第1の要求と同様に、あらかじめコードを用意しておき、装置100がこれに必要な変数の設定をして得られる指示を含むコードを実行することによって可能である。
【0059】
図2においては、第1のAIモデルと第2のAIモデルを区別しているところ、これらは、同一の生成AIモデルとしてもよい。本明細書において「AIモデル」とは、入力に対して出力を予測可能に訓練済みの機械学習モデル」をいい、「生成AIモデル(generative AI model)」とは、入力に対して当該入力に含まれない出力を生成可能に訓練済みのランスフォーマーアーキテクチャを適用したモデルを指す。技術の進展によってアーキテクチャの呼称が変わることは想定される。したがって、本明細書において「トランスフォーマーアーキテクチャ」とは、トランスフォーマーアーキテクチャの1若しくは複数の特徴又はその改良を用いたアーキテクチャを包含する。また、本明細書において「生成AIモデル」が同一であるか否かは、ユーザーが指定した生成AIモデルの種類が同一であるか否かによって判断する。図3の例でいえば、変数 “engine” の値が同一であれば、生成AIモデルとして同一であると表現する。第1のAIモデルと第2のAIモデルが同一でない場合、同一のプラットフォーム120上で提供されるものでもよい。図2の例では、第1の要求の後に第2の要求をしているところ、第1のAIモデルと第2のAIモデルが同一の生成AIモデルであるか同一のプラットフォーム上で提供される生成AIモデルである場合には、APIの単一の呼び出しによって、これらの要求を行ってもよい。また、第1のモデルに対する第1の要求を複数の要求に分けて、APIの複数の呼び出しによって実現してもよく、第2のモデルについても同様である。
【0060】
そして、装置100は、1以上p以下のiについて、データDiに関連づけられた分類C'iを受信して記憶する(S205)。一例として、データDの指定がリストのアップロードである場合には、当該リストに新たな列を作成して、各iについて、データDiに関連づけられた分類C'iを格納することが挙げられる。
【0061】
その後、装置100は、ユーザー端末110に、p個の分類C’={C’1,C’2…,C’p}の少なくとも一部を送信してもよい(S206)。分類C’の少なくとも一部のユーザー端末110に対する送信は、ユーザー端末110においてp個の分類C’の少なくとも一部の閲覧画面を表示するための閲覧画面表示情報の送信によってもよい。閲覧画面表示情報は、たとえばHTML形式のファイルとして送信され、ユーザー端末110のウェブブラウザにより読み込まれて、ユーザー端末110の表示画面に閲覧画面を表示させることができる。また、データDに関連づけられたp個の分類C’ではなく、生成されたq個の分類Cの少なくとも一部をユーザー端末110に送信する場合には、それらを閲覧画面で閲覧可能としてもよい。
【0062】
このように、指定されたp個のデータDのそれぞれに関連づけられたp個の特徴Fに基づいて、p個のデータDを分類可能なq個の分類Cを生成AIモデルに対する要求によって生成し、生成された分類Cの中から各データを表すものを関連づけて記憶することによって、これまで多大な労力を要したデータの分類という作業を省力化可能となる。
【0063】
(第2の実施形態)
第1の実施形態においては、特徴Fをリストに含めて装置100に与える例を挙げたが、分類Cの生成を第1の生成AIに要求する前に、1以上p以下のiについて、データDiの少なくとも一部を、たとえば英語125単語、100単語、75単語、50単語、日本語250文字、200文字、150文字、100文字等の所定の長さ以下又は未満で表現して特徴Fiを生成することを生成AIモデル(「第3のAIモデル」とも呼ぶ。)に要求(「第3の要求」とも呼ぶ。)してもよい。また、特徴Fiは、データDiの内容を十分に反映するように、英語10単語、25単語、50単語、日本語20文字、50文字、100文字等の所定の長さ超又は以上で表現してもよい。特徴Fiは、英語以外に仏語、独語等で表現してもよく、日本語以外に中国語、韓国語等で表現してもよい。表現された特徴Fiは、単一の用語より長い1又は複数の文を含めばよい。さらに、前述の上限とこれらの下限との組み合わせを第3の要求に第3の条件として含めることができるが、明示的に第3の条件に含めなくとも、表現された特徴Fiが上述した長さの条件を満たしてもよい。生成AIモデルを用いることで、データDiに含まれる単語、用語又は表現を単に抽出するのではなく、生成AIモデルに対する入力に含まれない表現で適切にその内容を把握することが可能となる。
【0064】
一例として、データDiが音声データである場合、音声データの少なくとも一部を入力して、当該一部に基づいてテキストデータを生成し、当該テキストデータの少なくとも一部のなんらかの側面を単一の用語より長い1又は複数の文により表現して特徴Fiとすることができる。また、別の例として、データDiが動画データである場合、動画データの少なくとも一部を入力して、当該一部で再生される動画に含まれる音声の少なくとも一部を表す音声データを生成し、当該音声データに基づいてテキストデータを生成し、当該テキストデータのなんらかの側面を要約して特徴Fiとすることができる。また、動画データについては、当該動画データの少なくとも一部で再生される動画の視覚的表現の少なくとも一部の意味を表すテキストデータを生成し、当該テキストデータの少なくとも一部のなんらかの側面を要約して特徴Fiとすることができる。特徴Fiは、生成AIモデルに対する入力に含まれないものであるので、音声内又は動画内で発せられる単一の単語、用語又は表現を単に抽出したものは、これに該当しない。
【0065】
第3のAIモデルは、第1のAIモデル及び第2のAIモデルの少なくとも一方と同一であるか同一のプラットフォーム上で提供されてもよい。第3のモデルに対する第3の要求は、複数の要求に分けて、APIの複数の呼び出しによって実現してもよい。また、第3の要求は、第1の要求と同様に、あらかじめコードを用意しておき、装置100がこれに必要な変数の設定をして得られる指示を含むコードを実行することによって可能である。生成されたp個の特徴Fのいずれかについて、ユーザーが修正を加えたい場合が考えられる。このような場合には、特徴Fiを修正した特徴F’iに基づいて、より一般的にはp個の特徴Fの少なくともいずれかが修正された修正後特徴F’を分類可能なq個の分類C={C1,C2...,Cq}を生成する第1の要求をしてもよい。ここで、修正されたF’iは、単一の用語より長い1又は複数の文を含む。また、修正は、ユーザーが手入力した修正のほかに装置100が所定の規則に従って行う修正その他の修正であってもよい。
【0066】
たとえば、データDiが扱う主題に言及された部分を所定の長さ又は未満に要約することが考えられる。データDiが扱う主題に言及された部分としては、当該データの全体の長さのうちの最初の1/2以内、さらには1/3以内の部分を採用してもよい。また、当該部分として、当該データの冒頭又はその近傍から、第3の要求に含めることができるトークン数の上限を超えない範囲の部分を採用してもよい。冒頭から末尾に向かう方向性のあるデータデータの中で主題は冒頭に近い部分に記述されていることが多いと言えるためである。このようにして得られた要約は、データDiの主題の少なくとも近似的な要約であると言える。
【0067】
第3の要求は、p個の特徴Fを生成する上で第3のAIモデルに課される第3の条件の指定を含んでもよい。一例として、第3の条件は、要約の対象である少なくとも一部に記述された主題を抽出することである。このように明示的に「主題を抽出する」ように指定することによって、第3のAIモデルが生成する特徴Fをユーザーが求める性質のものに近づけることができる。より一般的には、第3の条件を、処理の対象である少なくとも一部から抽出すべき性質の特定とすることが考えられる。
【0068】
また、第3の条件は、特徴Fiが所定の形式であることの特定を含んでもよい。当該所定の形式は、たとえば、要約の対象である少なくとも一部が、動画の冒頭又はその近傍から所定時間経過した時点までである場合には、「主題は」又はそれと同義の表現で始まる形式とすることができる。また、当該所定の形式は、1文、2文又は3文としてもよい。このように同一の所定の形式で要約が生成されるようにすることによって、データDの数が多数に及んだとしても、個々のデータの内容を格段に容易に確認することが可能となる。
【0069】
装置100は、第3の要求により生成された特徴Fiを修正した特徴F’i又はその少なくともいずれかが修正された修正後特徴F’のそれぞれに、所定のq個の分類C={C1,C2...,Cq}のうちのいずれかを付与することをAIモデルに要求してもよい。特に、q個の分類Cがその他を意味する表現を含むことの特定を当該要求に含めた場合、分類が困難なデータが「その他」に分類されることになり、ノイズ除去の効率化が図られる。また、qの値を2又は3、特に2とすれば、p個のデータDを大別して、関連性の低いものをノイズ除去する効率化が図られる。このようにしてノイズに該当するデータを除外してから、第1の実施形態で説明した分類の生成などを行うことで、精度を向上させることができる。加えて、当該AIモデルが生成AIモデルである場合には、分類付与の要求は、q個の分類Cのうちの少なくともいずれかについて、当該分類を付与した理由を記述することの特定を含んでもよい。当該AIモデルは、第1乃至第3のAIモデルの少なくともいずれかと同一であるか同一のプラットフォーム又は装置上で提供されてもよい。分類付与の要求は、複数の要求に分けて、APIの複数の呼び出しによって実現してもよく、第1の要求と同様に、あらかじめコードを用意しておき、装置100がこれに必要な変数の設定をして作成される指示を含むコードを実行することによって可能である。
【0070】
(第3の実施形態)
第1の実施形態で説明した閲覧画面は、ユーザー端末110を用いるユーザーがp個の分類C’に含まれる1又は複数の分類に対するフィードバックを入力可能とすることができる。フィードバックの例としては、当該1又は複数の分類に対する肯定的な又は否定的な選択又は評価、当該1又は複数の分類に対する修正の提案又は指定、ユーザーによる新たな分類の提案又は指定、p個の分類C’の抽象化又は具体化の提案又は指定等が挙げられる。肯定的又は否定的な評価は、たとえば、3段階以上の多段階評価が考えられる。
【0071】
フィードバックを受信した後に、装置100は、当該フィードバックに応じて、p個のデータDを分類可能なr個の分類C={C1,C2…,Cr}(1<r<p)を生成することを生成AIモデル(「第4のAIモデル」とも呼ぶ。)に要求(「第4の要求」とも呼ぶ。)してもよい。第4のAIモデルは、第1乃至第3のAIモデルの少なくともいずれかと同一であるか同一のプラットフォーム上で提供されてもよい。また、第4の要求は、第1の要求と同様に、あらかじめコードを用意しておき、装置100がこれに必要な変数の設定をして得られる指示を含むコードを実行することによって可能である。
【0072】
また、フィードバックを受信した後に、装置100は、当該フィードバックに応じて定まるp個の分類Cの少なくとも一部に対応するr個の分類C’’={C1,C2...,Cr}を用いて、第2の要求を再度行ってもよい。
【0073】
(第4の実施形態)
第1の実施形態で説明した閲覧画面は、p個の分類C’の少なくとも一部を複数の分析軸のうちの第1の軸とする分析結果を表示可能である。当該複数の分析軸のうちの第1の軸と異なる第2の軸を時の変化を表す軸としてもよい。また、当該複数の分析軸のうちの前記第1の軸と異なる第3の軸を国別軸としてもよい。ここで国とは、たとえば、データが生成された国である。
【0074】
(第5の実施形態)
装置100は、p個のデータDとは別にs個(s>1)のデータD={D1,D2,…,Ds}の指定を受信して、1以上s以下のiについて、生成したq個の分類Cの中から、データDiに表す分類をC'iとして関連づけることをAIモデル(「第5のAIモデル」とも呼ぶ。)に要求(「第5の要求」とも呼ぶ。)してもよい。この際、第2の要求は、なされてもなされなくてもよい。また、s個の第2の組のデータDの指定は、q個の分類Cの生成前に受信してもよい。フィードバックに応じて分類Cを再度生成してr個の分類C’’を得ている場合又はq個の分類Cの少なくとも一部に対応するr個の分類C’’が定まっている場合には、その分類を用いてもよい。第5のAIモデルは、第1乃至第4のAIモデルの少なくともいずれかと同一であるか同一のプラットフォーム上で提供されてもよい。第5のモデルに対する第5の要求は、複数の要求に分けて、APIの複数の呼び出しによって実現してもよい。また、第5の要求は、第1の要求と同様に、あらかじめコードを用意しておき、装置100がこれに必要な変数の設定をして得られるコードを実行することによって可能である。
【0075】
装置100は、明示的にs個のデータDにq個の分類Cを関連づけることではなく、より直接的に検索を行うことをプラットフォーム120に要求してもよい。つまり、装置100は、ユーザー端末110から、ユーザー端末110に送信されたq個の分類Cの少なくとも一部又はそれに対応する分類の中からユーザーが指定した分類に関連するデータをs個のデータDの中から判定することの要求を受信して、AIモデル(「第6のAIモデル」とも呼ぶ。)に当該判定を行うことの要求(「第6の要求」とも呼ぶ。)を送信するようにしてもよい。装置100は、判定結果を受信して記憶することができる。第6のAIモデルは、第1乃至第5のAIモデルの少なくともいずれかと同一であるか同一のプラットフォーム上で提供されてもよい。第6のモデルに対する第6の要求は、複数の要求に分けて、APIの複数の呼び出しによって実現してもよい。また、第6の要求は、第1の要求と同様に、あらかじめコードを用意しておき、装置100がこれに必要な変数の設定をして得られる指示を含むコードを実行することによって可能である。
【0076】
なお、上述の説明では、q個の分類Cを生成して、それらの中から、p個のデータDのそれぞれを表す分類をCi’としてデータDiに関連づけるものとして記述したが、p個のデータDを分類可能なq個の分類C={C1,C2…,Cq}(1<q<p)を、各データに関連づけて生成し、データDiに関連づけられた分類をC'iとして受信して記憶するようにすることもできる。
【0077】
上述の実施形態において、「のみに基づいて」、「のみに応じて」、「のみの場合」というように「のみ」との記載がなければ、本明細書においては、付加的な情報も考慮し得ることが想定されていることに留意されたい。また、一例として、「aの場合にbする」という記載は、明示した場合を除き、「aの場合に常にbする」こと、「aの直後にbする」ことを必ずしも意味しないことに留意されたい。また、「Aを構成する各a」という記載は、必ずしもAが複数の構成要素によって構成されることを意味するものではなく、構成要素が単数であることを含む。
【0078】
また、上述した本発明の各実施形態は、互いに矛盾しない範囲でそれらを任意に組み合わせることが本明細書の開示に含まれることに留意されたい。
【0079】
また、念のため、なんらかの方法、プログラム、端末、装置、サーバ又はシステム(以下「方法等」)において、本明細書で記述された動作と異なる動作を行う側面があるとしても、本発明の各態様は、本明細書で記述された動作のいずれかと同一の動作を対象とするものであり、本明細書で記述された動作と異なる動作が存在することは、当該方法等を本発明の各態様の範囲外とするものではないことを付言する。
【0080】
また、上述の説明では、複数のAIモデルに言及をしているところ、たとえば、第2の実施形態では、第1のAIモデルに要求を行う前に第3のAIモデルに要求を行う。このよう場合において、易読性の観点から、第3のAIモデルを「AIモデルk」と呼び、第1のAIモデルを「AIモデルl」と呼ぶことがある。そして、第1のAIモデルに要求を行った後にさらに第2のAIモデルに要求を行う場合には、第2のAIモデルを「AIモデルm」と呼ぶことがあり、その他のAIモデルについても、適宜読み替えればよい。
【符号の説明】
【0081】
100 装置
101 通信部
102 処理部
103 記憶部
104 データベース
110 ユーザー端末
120 プラットフォーム
図1
図2
図3