特開2025-28306 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ・インターナショナル・テクノロジー・（シェンチェン）・カンパニー・リミテッドの特許一覧

特開2025-28306ファイル生成方法、装置、電子デバイス、記憶媒体及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025028306

(43)【公開日】2025-02-28

(54)【発明の名称】ファイル生成方法、装置、電子デバイス、記憶媒体及びプログラム

(51)【国際特許分類】

G06F 16/903 20190101AFI20250220BHJP

G06F 16/90 20190101ALI20250220BHJP

【ＦＩ】

G06F16/903

G06F16/90 100

【審査請求】有

【請求項の数】21

【出願形態】ＯＬ

【公開請求】

(21)【出願番号】P 2024223873

(22)【出願日】2024-12-19

(31)【優先権主張番号】202410936185.0

(32)【優先日】2024-07-12

(33)【優先権主張国・地域又は機関】CN

(71)【出願人】

【識別番号】520231511

【氏名又は名称】バイドゥ・インターナショナル・テクノロジー・（シェンチェン）・カンパニー・リミテッド

【氏名又は名称原語表記】ＢＡＩＤＵＩＮＴＥＲＮＡＴＩＯＮＡＬＴＥＣＨＮＯＬＯＧＹ（ＳＨＥＮＺＨＥＮ）ＣＯ．，ＬＴＤ．

【住所又は居所原語表記】１／Ｆ，ＥａｓｔＴｏｗｅｒ，ＢａｉｄｕＩｎｔｅｒｎａｔｉｏｎａｌＢｕｉｌｄｉｎｇ，Ｎｏ．６，Ｈａｉｔｉａｎ１ｓｔＲｏａｄ，ＢｉｎｈａｉＣｏｍｍｕｎｉｔｙ，ＹｕｅｈａｉＳｔｒｅｅｔ，ＮａｎｓｈａｎＤｉｓｔｒｉｃｔ，Ｓｈｅｎｚｈｅｎ，ＧｕａｎｇｄｏｎｇＰｒｏｖｉｎｃｅ５１８０００，Ｐ．Ｒ．Ｃｈｉｎａ

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】チャオホアン

(72)【発明者】

【氏名】カンチアオ

(72)【発明者】

【氏名】チェンポンチャン

(57)【要約】

【課題】本開示はファイル生成方法、装置、電子デバイス、記憶媒体及びプログラムを提供する。
【解決手段】該方法は、Ｍ１個の第１タイプのファイルをそれぞれ第１モデルに入力し、該第１モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力することと、出力結果に基づいて複数のファイルペアを決定することであって、各ファイルペアは、１つの第１タイプのファイルと、該第１タイプのファイルの対応する第２タイプのファイルと、を含む、ことと、複数のファイルペアを用いて、第２モデルを調整することと、Ｍ２個の第１タイプのファイルをそれぞれ調整された第２モデルに入力し、該調整された第２モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力することと、を含み、Ｍ１、Ｍ２は正の整数である。本開示はコストを節約することができ、生成されるファイルの数と多様性を高めることができる。
【選択図】図２

【特許請求の範囲】

【請求項1】

ファイル生成方法であって、
Ｍ１個の第１タイプのファイルをそれぞれ第１モデルに入力し、前記第１モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力することと、
出力結果に基づいて複数のファイルペアを決定することであって、各ファイルペアは、１つの前記第１タイプのファイルと、前記第１タイプのファイルの対応する前記第２タイプのファイルと、を含む、ことと、
前記複数のファイルペアを用いて、第２モデルを調整することと、
Ｍ２個の第１タイプのファイルをそれぞれ調整された第２モデルに入力し、前記調整された第２モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力することと、を含み、前記Ｍ１、Ｍ２は正の整数である、
ファイル生成方法。

【請求項2】

前記Ｍ２は前記Ｍ１よりも大きい、
請求項１に記載のファイル生成方法。

【請求項3】

前記Ｍ２個の第１タイプのファイルはセキュリティ保護が必要なファイルを含む、
請求項１に記載のファイル生成方法。

【請求項4】

前記第１タイプのファイルは文章コーパスを含み、前記第２タイプのファイルは対話コーパスを含む、
請求項１に記載のファイル生成方法。

【請求項5】

前記Ｍ１個の第１タイプのファイルをそれぞれ第１モデルに入力し、前記第１モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力することは、
前記文章コーパスを前記第１モデルに入力し、前記第１モデルから前記文章コーパスに関連する複数の対話質問を出力することと、
前記文章コーパスと前記複数の対話質問とに基づいて、前記第１モデルから対応する対話コーパスを出力することであって、前記対話コーパスは、前記複数の対話質問と各々の前記対話質問の回答とを含む、ことと、を含む、
請求項４に記載のファイル生成方法。

【請求項6】

前記Ｍ１個の第１タイプのファイルをそれぞれ第１モデルに入力することは、
各々の前記文章コーパスに対してプロンプトを生成し、前記プロンプトを前記第１モデルに入力することを含み、
ここで、前記プロンプトは前記文章コーパスのコンテンツ及び対話者のアイデンティティ特徴を持ち、前記対話者のアイデンティティ特徴は、前記対話者のアイデンティティ特徴を満たす対話コーパスを前記第１モデルに出力させることに用いられる、
請求項４に記載のファイル生成方法。

【請求項7】

前記プロンプトを前記第１モデルに入力することは、
プロンプト最適化方法を用いて、前記プロンプトを最適化することと、
最適化されたプロンプトを前記第１モデルに入力することと、を含む、
請求項６に記載のファイル生成方法。

【請求項8】

前記文章コーパスは、予め設定された表現スタイルを有する、
請求項６に記載のファイル生成方法。

【請求項9】

前記出力結果に基づいて複数のファイルペアを決定することは、
前記第１モデルの出力結果から、前記予め設定された表現スタイルと一致しない前記対話コーパスを除去すると共に前記対話者のアイデンティティ特徴と一致しない前記対話コーパスを除去して、残りの出力結果を得ることと、
前記残りの出力結果に基づいて複数のファイルペアを決定することと、を含む、
請求項８に記載のファイル生成方法。

【請求項10】

ファイル生成装置であって、
Ｍ１個の第１タイプのファイルをそれぞれ第１モデルに入力し、前記第１モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力するための第１入力モジュールと、
出力結果に基づいて複数のファイルペアを決定するための決定モジュールであって、各ファイルペアは、１つの前記第１タイプのファイルと、前記第１タイプのファイルの対応する前記第２タイプのファイルと、を含む、決定モジュールと、
前記複数のファイルペアを用いて、第２モデルを調整するための調整モジュールと、
Ｍ２個の第１タイプのファイルをそれぞれ調整された第２モデルに入力し、前記調整された第２モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力するための第２入力モジュールと、を備え、前記Ｍ１、Ｍ２は正の整数である、
ファイル生成装置。

【請求項11】

前記Ｍ２は前記Ｍ１よりも大きい、
請求項１に記載のファイル生成装置。

【請求項12】

前記Ｍ２個の第１タイプのファイルはセキュリティ保護が必要なファイルを含む、
請求項１０または１１に記載のファイル生成装置。

【請求項13】

前記第１タイプのファイルは文章コーパスを含み、前記第２タイプのファイルは対話コーパスを含む、
請求項１０または１１に記載のファイル生成装置。

【請求項14】

前記第１入力モジュールは、
前記文章コーパスを前記第１モデルに入力し、前記第１モデルから前記文章コーパスに関連する複数の対話質問を出力することと、
前記文章コーパスと前記複数の対話質問とに基づいて、前記第１モデルから対応する対話コーパスを出力することであって、前記対話コーパスは、前記複数の対話質問と各々の前記対話質問の回答とを含む、ことと、に用いられる、
請求項１３に記載のファイル生成装置。

【請求項15】

前記第１入力モジュールは、
各々の前記文章コーパスに対してプロンプトを生成し、前記プロンプトを前記第１モデルに入力することに用いられ、
ここで、前記プロンプトは前記文章コーパスのコンテンツ及び対話者のアイデンティティ特徴を持ち、前記対話者のアイデンティティ特徴は、前記対話者のアイデンティティ特徴を満たす対話コーパスを前記第１モデルに出力させることに用いられる、
請求項１３に記載のファイル生成装置。

【請求項16】

前記第１入力モジュールは、
プロンプト最適化方法を用いて、前記プロンプトを最適化することと、
最適化されたプロンプトを前記第１モデルに入力することと、に用いられる、
請求項１５に記載のファイル生成装置。

【請求項17】

前記文章コーパスは、予め設定された表現スタイルを有する、
請求項１５に記載のファイル生成装置。

【請求項18】

前記決定モジュールは、
前記第１モデルの出力結果から、前記予め設定された表現スタイルと一致しない前記対話コーパスを除去すると共に前記対話者のアイデンティティ特徴と一致しない前記対話コーパスを除去して、残りの出力結果を得ることと、
前記残りの出力結果に基づいて複数のファイルペアを決定することと、に用いられる、
請求項１７に記載のファイル生成装置。

【請求項19】

少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも１つのプロセッサで実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、請求項１から請求項９のいずれか１項に記載の方法を実行させる、
電子デバイス。

【請求項20】

コンピュータに請求項１から請求項９のいずれか１項に記載の方法を実行させるコンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体。

【請求項21】

コンピュータにおいて、プロセッサにより実行されると、請求項１から請求項９のいずれか１項に記載の方法を実現するためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示はコンピュータ技術分野に関し、特に人工知能、ニューラルネットワークモデル、大規模言語モデルなどの技術分野に関する。

【背景技術】

【0002】

ニューラルネットワークモデルは、多くの場合、適用する前に大規模で高品質なトレーニングサンプルを用いてトレーニングを行う必要があり、トレーニングサンプルの品質と規模はニューラルネットワークモデルの表現と応用効果にとって非常に重要である。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本開示は、ファイル生成方法、装置、電子デバイス、記憶媒体及びプログラムを提供する。

【課題を解決するための手段】

【0004】

本開示の一態様では、ファイル生成方法を提供し、該方法は、
Ｍ１個の第１タイプのファイルをそれぞれ第１モデルに入力し、該第１モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力することと、
出力結果に基づいて複数のファイルペアを決定することであって、各ファイルペアは、１つの第１タイプのファイルと、該第１タイプのファイルの対応する第２タイプのファイルと、を含む、ことと、
複数のファイルペアを用いて、第２モデルを調整することと、
Ｍ２個の第１タイプのファイルをそれぞれ調整された第２モデルに入力し、該調整された第２モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力することと、を含み、Ｍ１、Ｍ２は正の整数である。

【0005】

本開示の別の態様では、ファイル生成装置を提供し、該装置は、
Ｍ１個の第１タイプのファイルをそれぞれ第１モデルに入力し、該第１モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力するための第１入力モジュールと、
出力結果に基づいて複数のファイルペアを決定するための決定モジュールであって、各ファイルペアは、１つの第１タイプのファイルと、該第１タイプのファイルの対応する第２タイプのファイルと、を含む、決定モジュールと、
複数のファイルペアを用いて、第２モデルを調整するための調整モジュールと、
Ｍ２個の第１タイプのファイルをそれぞれ調整された第２モデルに入力し、該調整された第２モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力するための第２入力モジュールと、を備え、Ｍ１、Ｍ２は正の整数である。

【0006】

本開示の別の態様では、電子デバイスを提供し、該デバイスは、
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信接続されるメモリと、を備え、
該メモリには、該少なくとも１つのプロセッサで実行可能な命令が記憶され、該命令は、該少なくとも１つのプロセッサによって実行されると、本開示の実施例におけるいずれか１つの方法を実行させる。

【0007】

本開示の別の態様では、本開示の実施例におけるいずれか１つの方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。

【0008】

本開示の別の態様では、プロセッサにより実行されると、本開示の実施例におけるのいずれかある方法を実行するためのプログラムを提供する。

【0009】

本開示は、ファイル生成方法を提案し、該方法を用いて生成されたファイルをニューラルネットワークモデルのトレーニングサンプルとして使用することができる。具体的には、第１モデルを用いて複数のファイルペアを生成し、各ファイルペアは、第１タイプのファイルと該第１タイプのファイルの対応する第２タイプのファイルとを含み、これらのファイルペアを利用して、第２モデルを調整し、その後、調整された第２モデルを用いて、複数の第１タイプのファイルに基づいて複数の対応する第２タイプのファイルを生成し、第２タイプのファイルは他のニューラルネットワークモデルのトレーニングサンプルとして使用することができる。このようにして、第１モデルで生成されたトレーニングサンプルを利用して第２モデルをトレーニングし、トレーニング済みの第２モデルから他のニューラルネットワークモデルのトレーニングサンプルを生成することができる。このようにして、新しいトレーニングサンプルの生成案を提案し、この案は手動ラベリングを回避し、コストを節約することができる。また、第１モデルの生成能力を利用することで、生成されたファイルは様々な分野とシナリオをカバーすることができ、生成されるファイルの数と多様性を高めることができる。

【0010】

ここに記載された内容は、本開示の実施例のキーポイントまたは重要な特徴を記述することを意図せず、また、本開示の範囲を制限することにも用いられないことを理解すべきである。本開示の他の特徴については、下記の明細書を通して理解を促す。

【0011】

添付図面は、本開示の解決策をよりよく理解するためのものであり、本開示を限定するものではない。

【図面の簡単な説明】

【0012】

【図1】本開示の実施例の応用シナリオを示す概略図である。

【図2】本開示の一実施例によるファイル生成方法の実装フローチャートである。

【図3】本開示の一実施例によるファイル生成方法の第１段階を示す概略図である。

【図4】本開示の一実施例によるファイル生成方法の第２段階を示す概略図である。

【図5】本開示の一実施例によるファイル生成方法の第３段階を示す概略図である。

【図6】本開示の一実施例によるファイル生成装置６００の構成を示す概略図である。

【図7】本開示の実施例を実施するために使用することができる例示的な電子デバイス７００の概略ブロック図である。

【発明を実施するための形態】

【0013】

以下、添付図面を参照して本開示の例示的な実施例を説明する。これらの図面には、理解を助けるために本開示の実施例の様々な詳細が含まれており、これらは例示的なものに過ぎないと考えられるべきである。したがって、当業者であれば、本開示の範囲から逸脱することなく、本明細書に記載された実施例に様々な変更及び修正を加えることができることを理解すべきである。同様に、周知の特徴及び構造の説明は、明確かつ簡潔にするために、以下の説明において省略される。

【0014】

本開示における「及び／又は」という用語は、三種類の関係が存在してもよいことを示し、例えば、Ａ及び／又はＢは、Ａが単独で存在し、Ａ及びＢが同時に存在し、Ｂが単独で存在するという三種類の状況である。本開示における「少なくとも１つ」という用語は、複数の中のいずれか１つまたは複数の中の少なくとも２つの任意組み合わせを示し、例えば、Ａ、Ｂ、Ｃの少なくとも１つは、Ａ、Ｂ、Ｃからなる集合から任意１つの要素または複数の要素を選択することができることを示す。本開示における「第１」、「第２」という用語は、複数の類似の専門用語を指すと共に区別するために使用され、順序を限定すること、または2つだけを限定することを意味するものではなく、例えば、第１特徴及び第２特徴は、２種類／２個の特徴の存在を意味し、第１特徴は1つ以上であってもよく、第２特徴は1つ以上であってもよい。

【0015】

ニューラルネットワークモデルは、多くの場合、適用する前に大規模で高品質なトレーニングサンプルを用いてトレーニングを行う必要があり、トレーニングサンプルの品質と規模はニューラルネットワークモデルの表現と応用効果にとって非常に重要である。大規模言語モデル（ＬａｒｇｅＬａｎｇｕａｇｅＭｏｄｅｌ，ＬＬＭ）を例にとると、大規模言語モデルは垂直分野に応用する際に、多くの場合、大規模で高品質な対話コーパス（または対話型コーパス、対話レベルコーパスなど）によって教師あり微調整を行う必要がある。コーパスの品質と規模は大規模言語モデルが垂直分野に応用する上限を定めている。対話コーパスの品質とは、対話コーパスにおける対話コンテンツの正確性、一致性、表現の合理性を指し、これはモデルの表現と応用効果にとって非常に重要である。

【0016】

正確性とは、情報の真正性と信頼性を確保するために、対話コンテンツが信頼できる情報源に基づいて、検証・審査されなければならないことを意味する。また、正確性には、誤解を招いたり、誤ったメッセージを伝えたりしないように、特定の分野や専門用語を理解し、正しく適用することも含まれる。

【0017】

一致性とは、モデルが異なる対話において同じ質問やシナリオに対して回答の一致性を保つことを意味する。モデルの出力の一貫性と信頼性を確保するために、対話コーパスの作成者またはラベリング担当者が一致した理解と基準を持つ必要がある。

【0018】

コーパスの規模が大きいほど、モデルの特定の分野における知識の蓄積と応答能力が豊富になる。大規模なコーパスを活用することで、モデルが特定の分野の質問をよりよく理解し回答するのに役立ち、より正確で包括的な情報を提供することができる。

【0019】

このように、対話コーパスの品質と規模は大規模言語モデルの垂直分野における応用にとって非常に重要である。大量の対話コーパスを用いてモデルを微調整することこそ、モデルは特定の分野の需要によりよく適応し、高品質で正確な回答とソリューションを提供することができる。そのため、高品質で大規模な対話型コーパスライブラリを構築・維持することは、垂直分野における大規模言語モデルの応用可能性を高める上で非常に重要である。

【0020】

モデルトレーニングサンプルとして使用できるファイルを取得するために、従来技術には、様々なインプリメンテーションが存在してる。以下はいくつかの一般的なインプリメンテーションである。

【0021】

（１）手動ラベリング：これは現在最も一般的な方法の１つであり、トレーニングサンプルの正確性と一致性を確保するために、専門のラベリング担当者によってファイルにラベルを付ける。この方法はコストがかかり、多くの人的資源と時間を必要とする。

【0022】

（２）垂直分野専門家の関与：垂直分野の専門家を招待してファイルラベリングに関与してもらう。垂直分野におけるトレーニングサンプルとしてのファイルの正確性と合理性を確保するために、これらの専門家は当該分野の専門知識を提供することができる。この方法はコーパスの品質を高めることができるが、専門家と密接に連携する必要があり、専門家の時間とリソースを合理的に手配する必要があるため、コーパス生成の速度と規模が制限され、専門家とのコミュニケーションや調整にかかるコストが増大する可能性がある。

【0023】

（３）分野内部のデータ収集：内部の対話記録やチャット記録など垂直分野内部のデータリソースを利用する。これらのデータを整理し処理することにより、高品質のトレーニングサンプルに変換することができる。この方法は、分野内部の知識やリソースを十分に利用することができるが、データ規模が限られている問題がある。特に新興の分野や機密情報を扱う分野では、特定分野のファイルにアクセスしにくい可能性があるため、トレーニングサンプルライブラリのサイズと多様性が制限される可能性がある。

【0024】

（４）データアライメントと転移学習：従来の汎用分野のトレーニングサンプルライブラリを利用し、データアライメントと転移学習の技術を通じて、垂直分野に適したトレーニングサンプルに変換する。この方法は新しい分野のコーパスへの依存を軽減することができるが、依然として人間の関与と分野の知識が必要である。

【0025】

このように、トレーニングサンプルを生成する既存の方法には、手動ラベリングが必要であり、コストが高く、規模と多様性が制限されるなどの問題がある。以上では大規模言語モデルをトレーニングするためのトレーニングサンプルを生成する例について説明したが、従来技術では、画像認識モデル、分類モデルなどの他の機能のニューラルネットワークモデルについて、これらのニューラルネットワークモデルをトレーニングするためのトレーニングサンプルを生成する際、同様に手動ラベリングが必要であり、コストが高く、規模と多様性が制限されるなどの問題がある。

【0026】

上記の問題を解決するために、本開示の実施例は、ニューラルネットワークモデルのトレーニングサンプルとして使用できるファイルを生成するファイル生成方法を提案する。図１は、本開示の実施例の応用シナリオを示す概略図である。図１に示すように、本開示の実施例の応用シナリオの概略図では、ファイル生成装置１１０とモデルトレーニング装置１２０とを含むことができるが、これらに限定されず、該ファイル生成装置１１０とモデルトレーニング装置１２０とは任意のタイプの有線または無線ネットワークを介して通信可能である。具体的には、該ファイル生成装置１１０は、ニューラルネットワークモデルのトレーニングサンプルとして使用できるファイルを生成することができ、このファイルをモデルトレーニング装置１２０に送信することができる。モデルトレーニング装置１２０は、このファイルを受信すると共に、このファイルを用いてニューラルネットワークモデルをトレーニングまたは微調整することに用いられる。ここで、本開示の実施例で提案するファイル生成装置１１０及びモデルトレーニング装置１２０は、電子デバイス又はサーバを含むことができる。さらに、本開示の実施例は、ファイル生成装置１１０またはモデルトレーニング装置１２０の数に対して具体的に制限せず、例えば、本開示の実施例の応用シナリオの概略図では、１つまたは複数のファイル生成装置１１０及び／又はモデルトレーニング装置１２０を含むことができる。

【0027】

図２は本開示の一実施例によるファイル生成方法の実装フローチャートであり、以下を含む。

【0028】

Ｓ２１０において、Ｍ１個の第１タイプのファイルをそれぞれ第１モデルに入力し、該第１モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力する。

【0029】

Ｓ２２０において、出力結果に基づいて複数のファイルペアを決定し、各ファイルペアは、１つの第１タイプのファイルと、該第１タイプのファイルの対応する第２タイプのファイルと、を含む。

【0030】

Ｓ２３０において、該複数のファイルペアを用いて、第２モデルを調整する。

【0031】

Ｓ２４０において、Ｍ２個の第１タイプのファイルをそれぞれ調整された第２モデルに入力し、該調整された第２モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力する。

【0032】

ここで、Ｍ１、Ｍ２は正の整数である。

【0033】

いくつの実施例では、第１モデルは既存の公衆向け大規模言語モデルを含むことができ、第１モデルは規模が大きく、様々な異なるユーザにサービスを提供することができる。第２モデルは、効率的で低コストの言語モデルを含むことができ、規模が小さくコストが低い独自のモデルであり、特定の垂直分野に用いられることができる。

【0034】

本開示の実施例は、比較的大規模な大規模言語モデルと、効率的で低コストの言語モデルとを結合してファイルを生成することにより、該ファイルは他のモデルのトレーニングサンプルまたはコーパスとして使用することができる。本解決策は手動ラベリングを回避することができ、コストを節約することができる。また、本解決策は大規模言語モデルの生成能力を利用することができ、様々な分野とシナリオをカバーできるファイルを生成することができ、生成されるファイルの数と多様性を高めることができる。

【0035】

既存の大規模言語モデルを用いてトレーニングサンプルやコーパスとして使用するファイルを生成する場合、考えられるのは大規模言語モデルを用いてすべてのトレーニングサンプルやコーパスを生成することである。しかし、大規模言語モデルの使用コストが高いため、膨大な数のトレーニングサンプルやコーパスを生成するためには大規模言語モデルを大量に使用する必要があり、したがってこの方法はコストが高い。また、生成過程において、データを大規模言語モデルに入力する必要があるが、当該大規模言語モデルは公衆向けにサービスを提供しているため、これらのデータの安全性が保障されない。

【0036】

本開示の実施例で提案したファイル生成方法は、既存の大規模言語モデルを用い、且つ効率的で低コストの独自の言語モデルを用いることで、一部の第１タイプのファイル（上記の解決策におけるＭ１個の第１タイプのファイル）をそれぞれ大規模言語モデルに入力し、当該大規模言語モデルから対応するＭ１個の第２タイプのファイルをそれぞれ出力し、１つの第１タイプのファイルと１つの対応する第２タイプのファイルは１つのファイルペアを構成し、合計Ｍ１個のファイルペアを構成することができる（説明の便宜上、ここではデータクレンジングプロセスを考慮していない。クレンジングプロセスを考慮すると、ファイルペアの数はＭ１より少ない）。ここで、第１タイプのファイルは、特定の垂直分野のファイルであってもよく、このようにすることで、生成されたＭ１個のファイルペアも当該特定の垂直分野に対応するものとなる。

【0037】

Ｍ１個のファイルペアは、第２モデルを調整することに用いられることができ、例えば、該第２モデルは事前にトレーニングされた言語モデルであり、第２モデルは独自のモデルである。本開示の実施例は、第１モデルによって生成されたファイルペアを用いて第２モデルを調整し（例えば、教師あり微調整を行う）、この調整プロセスは、第２モデルの当該特定の垂直分野での能力を向上させることができる。その後、大量の第１タイプのファイル（例えば、上記の解決策におけるＭ２個の第１タイプのファイル）をそれぞれ調整された第２モデルに入力し、各々の対応するＭ２個の第２タイプのファイルを該大規模言語モデルから出力する。このＭ２個の第２タイプのファイルは、他のモデルのトレーニングサンプルまたはコーパスとして、他のモデルの当該特定の垂直分野での能力をトレーニングすることに用いられる。

【0038】

いくつの実施例では、Ｍ２はＭ１よりも大きい。例えばＭ２はＭ１よりもはるかに大きい（Ｍ２＞＞Ｍ１）。このようにして、第１モデル（例えば、既存の大規模言語モデル）に少量の第１タイプのファイルを入力することができ、且つ、既存の大規模言語モデルの出力結果を利用してファイルペアを構築し、該ファイルペアを利用して独自の言語モデルを調整し、その後、調整された独自の言語モデルに大量の第１タイプのファイルを入力し、調整された独自の言語モデルから大量の第２タイプのファイルを出力し、他のモデルのトレーニングサンプルやコーパスとする。このようにして、既存の大規模言語モデルの使用をできるだけ減らすことができ、コストを削減することができる。

【0039】

いくつの実施例では、調整された独自の言語モデル（すなわち、第２モデル）に入力されるＭ２個の第１タイプのファイルはセキュリティ保護が必要なファイルを含んでもよく、既存の大規模言語モデル（すなわち、第１モデル）に入力されるＭ１個の第１タイプのファイルはセキュリティ要件が低いファイルであってもよい。したがって、本解決策によればセキュリティ保護が必要なファイルは外部に漏らすことなく、ローカルで独自の言語モデルを用いて変換することができるため、データセキュリティを効果的に保護することができる。

【0040】

このように、本開示の実施例で提案するファイル生成方法は、既存の大規模言語モデルと独自の言語モデルを結合することにより、コスト削減とデータセキュリティ保護の効果を同時に達成することができる。

【0041】

本開示の実施例で提案した第１タイプのファイル及び第２タイプのファイルは様々なフォーマットであってもよく、例えば、第１タイプのファイルは文章コーパスであり、第２タイプのファイルは対話コーパスである。あるいは、第１タイプのファイルは対話コーパスであり、第２タイプのファイルは文章コーパスである。あるいは、第１タイプのファイルはテキスト（例えば、文章や対話）であり、第２タイプのファイルは画像、ビデオ、アニメなどである。あるいは、第１タイプのファイルは画像、ビデオ、アニメなどであり、第２タイプのファイルはテキスト（例えば、文章や対話）である。あるいは、第１タイプのファイルはテキスト（例えば、文章）であり、第２タイプのファイルはテキストに対応する文章の概要である。あるいは、第１タイプのファイルは文章の概要であり、第２タイプのファイルは概要に対応するテキスト（例えば、文章）である。このように、様々なタイプであってもよい。本開示の実施例では、第１タイプのファイル及び第２タイプのファイルの具体的なタイプを限定せず、本開示の実施例に係る第１モデル及び第２モデルは、マルチモーダル大規模言語モデル（ＭｕｌｔｉｍｏｄａｌＬａｒｇｅＬａｎｇｕａｇｅＭｏｄｅｌ、ＭＬＬＭ）などの他のタイプのモデルであってもよく、ＭＬＬＭは、テキスト、画像、ビデオなどの様々なモードの情報と組み合わせることで、より豊かな自然言語を生成と理解することができる。

【0042】

以下では、第１タイプのファイルは文章コーパスであり、第２タイプのファイルは対話コーパスであることを例として紹介する。文章コーパスは、図書、文章、ブログ、研究レポートなどのコンテンツを含むことができる。文章は完全な構成を持つ言語表現形式であり、統一したテーマと論理的な関係を通して、様々なセンテンスと段落を有機的に纏めて形成された完全な文章や作品である。対話コーパスとは、２人または多人の間の会話コンテンツを含み、対話コーパスには、複数の対話質問と、各々の対話質問の回答と、を含むことができる。

【0043】

本開示の実施例で提案したファイル生成方法は、以下の段階を含む。

【0044】

第１段階では、文章コーパスを収集し、且つ対話コーパスに変換する。

【0045】

図３は、本開示の一実施例によるファイル生成方法の第１段階を示す概略図である。第１段階において、特定の垂直分野の少量の文章コーパス（本実施例ではＰと記す）を収集する。これらの文章コーパスは図書、ブログ、研究レポートなどを含む。既存の大規模言語モデルを用いて、特定のプロンプト（ｐｒｏｍｐｔ）と結合して、文章コーパスＰに対して変換を行って、対応する対話コーパス（本実施例ではＤと記す）を得る。ここで、ｐｒｏｍｐｔには、文章コーパスＰのコンテンツを含めることができる。このステップにより、数はＭ１であるファイルペア（または入出力ペア）を取得することができ、各ファイルペアは、１つの文章コーパスとその対応する対話コーパスとを含み、（文章コーパスＰ、対話コーパスＤ）と記す。この段階における文章コーパスと対話コーパスは、特定の垂直分野に対応することができる。例えば、特定の垂直分野の文章コーパスを収集し、それに応じて、既存の大規模言語モデルが該文章コーパスに基づいて生成した対話コーパスも特定の垂直分野に対応することができる。

【0046】

第２段階では、独自の言語モデルを微調整する。

【0047】

図４は、本開示の一実施例によるファイル生成方法の第２段階を示す概略図である。この段階において、第１段階で収集されたＭ１個のファイルペア（または入出力ペア）を用いて、独自の言語モデルに対して教師あり微調整を行う。例えば、逆伝播アルゴリズムを用いて独自の言語モデルを微調整する。具体的には、ファイルペア中の文章コーパスをトレーニングサンプルとし、対応する対話コーパスを当該トレーニングサンプルのラベルとする。トレーニングサンプルを独自の言語モデルに入力し、この独自の言語モデルから対応する対話コーパスを出力し、出力された対話コーパスを該トレーニングサンプルのラベルと比較し、比較結果に基づいて当該独自の言語モデルのパラメータを調整する。このようにして、独自の言語モデルに対する教師あり微調整を実現することができる。当該微調整プロセスは、独自の言語モデルの、特定の垂直分野での対話生成能力を向上させることができ、該特定の垂直分野は該ファイルペアの対応する分野である。この段階の言語モデルは効率的で低コストの小規模モデルである。

【0048】

第３段階では、大規模かつ高品質な対話コーパスを生成する。

【0049】

図５は、本開示の一実施例によるファイル生成方法の第３段階を示す概略図である。この段階では、例えば数がＭ２である文章コーパス（Ｍ２はＭ１よりはるかに大きい）など、より大規模な文章コーパスを用いて、微調整された効率的かつ低コストの小規模モデルに入力する。このようにして、当該効率的かつ低コストの小規模モデルから大規模かつ高品質な対話コーパスを出力することができ、特定の垂直分野の需要を満たすことができる。この段階では、採用される文章コーパスは、書籍、研究レポート、ブログなどのルートにより収集することができる。

【0050】

対話コーパスのカスタマイズされた返事スタイルを実現するために、本開示の実施例は、上記の第１段階において、既存の大規模言語モデルに特定の表現スタイル（例えば、特定の口ぶり、語調、表現方法など）を持つ少量の文章コーパスを入力することができる。これらの特定の表現スタイルを持つデータを導入することで、当該特定の表現スタイルを模倣した対話コーパスを既存の大規模言語モデルに生成させることができる。

【0051】

いくつの実施例では、上記の第１段階で既存の大規模言語モデルに入力するｐｒｏｍｐｔの一例は以下のものである。

【0052】

「次の文章コーパスに基づいて対話コーパスを生成し、対話の双方は先生と生徒である。

【0053】

例１
入力：
『紅楼夢』は中国の四大古典小説の１つである。その通行本は計１２０回があり、最初の８０回は清代の作家曹雪芹が著書し、最後の４０回は作者が匿名で著書し、整理者は程偉元、高鶚であると一般的に言われている。小説は賈、史、王、薛の４大家族の栄枯盛衰を背景にし、賈宝玉と林黛玉、薛宝釵との恋愛・結婚の悲劇をメインテーマに、人生の百態を描き、史詩的な大作である。

【0054】

出力：
生徒Ａ：先生、『紅楼夢』を読んでいるが、コンテンツが豊富すぎて、どこから手をつけたらいいのかわかりません。
先生：『紅楼夢』は確かにコンテンツが豊富で、まずはそのメインテーマである賈宝玉と林黛玉、薛宝釵との恋愛・結婚の悲劇から読み始めると良いです。
生徒Ａ：なるほど。では、この本の作者は誰ですか。
先生：『紅楼夢』の最初の８０回は曹雪芹が著書したと一般的に言われ、彼は清代の有名な作家です。そして最後の４０回は匿名によって書かれ、その後程偉元、高鶚によって整理出版されました。
生徒Ａ：では、この本の背景はどうなっていますか？
先生：『紅楼夢』は賈、史、王、薛の４大家族の栄枯盛衰を背景にしています。

【0055】

ここで、変換する必要がある文章コーパスは次のとおりである。

【0056】

入力：
『三国演義』は元末・明初の作家・羅貫中が書いた長編歴史小説で、中国の四大古典小説の１つである。『三国演義』は、後漢の末期から西晋の初期にかけての百年近くの歴史風雲を描いて、戦争を中心に描き、後漢の末期の群雄割拠していた混戦と魏、蜀、呉の三国間の政治的・軍事的闘争を描いている。

【0057】

上記のｐｒｏｍｐｔに基づいて、既存の大規模言語モデルは、該ｐｒｏｍｐｔに含まれる「変換が必要な文章コーパス」に対応する対話コーパスを生成することができる。

【0058】

上記タイプのｐｒｏｍｐｔを少量入力することにより、既存の大規模言語モデルは複数の対話コーパスを生成することができ、それによって複数のファイルペアを生成することができ、各ファイルペアは１つの文章コーパスとその対応する対話コーパスとを含み、複数のファイルペアは、第２段階で独自の言語モデルを微調整することに用いられる。第１段階で生成されたファイルペアの品質を向上させ、それによって独自の言語モデルに対する微調整の効果を高めるために、本開示の実施例は少なくとも以下の方式を採用することができる。

【0059】

方式１
一例では、文章コーパスを第１モデル（例えば、既存の大規模言語モデル）に入力し、該第１モデルから該文章コーパスに関連する複数の対話質問を出力し、
該コーパスと該複数の対話質問とに基づいて、当該第１モデルから対応する対話コーパスを出力し、該対話コーパスは、該複数の対話質問と各々の対話質問の回答とを含む。

【0060】

このようにして、対話コーパスを段階的に生成するように、第１モデル（例えば、既存の大規模言語モデル）を導くことができ、すなわち、第１ステップでは対話コーパスにおける対話質問を生成し、第２ステップでは各々の対話質問の回答を生成し、これによって完全な対話コーパスを構成することができる。この方式では、各ステップの作業を完了するように大規模言語モデルをより細分化して導くことができ、且つ各ステップにおいて完了すべき作業は比較的に簡単であるため、大規模言語モデルの効果を高めることができ、これによりファイルペアの品質を高め、ひいては第２モデル（例えば、独自の言語モデル）に対する微調整の効果を高めることができる。

【0061】

例えば、第１モデルに入力する１つの典型的なｐｒｏｍｐｔコンテンツは次のとおりである。

【0062】

「次の文章コーパスに対して、複数の対話質問をしてください。
・・・・・・」

【0063】

該ｐｒｏｍｐｔを大規模言語モデルに入力し、大規模言語モデルからこの文章コーパスに対する複数の対話質問を出力した後、この大規模言語モデルに以下のｐｒｏｍｐｔを入力する。

【0064】

「上記の文章コーパス、及び上記の複数の対話質問について、対話コーパスを生成してください。」

【0065】

上記の例では、第１モデルに２つのｐｒｏｍｐｔを連続して入力する。ここで、１つ目のｐｒｏｍｐｔは、文章コーパスのコンテンツを含み、且つ第１モデルが該文章コーパスに対応する複数の対話質問を出力するように要求される。２つ目のｐｒｏｍｐｔは、第１モデルが前述の出力をした上、当該文章コーパスに対応する対話コーパスを出力するように要求される。２つのｐｒｏｍｐｔを連続して出力することにより、第１モデルへの導きが細分化され、第１モデルによる対話コーパス生成の効果を高める。

【0066】

方式２
文章コーパスに対してｐｒｏｍｐｔを生成し、該ｐｒｏｍｐｔは、該文章コーパスのコンテンツ及び対話者のアイデンティティ特徴を持ち、該対話者のアイデンティティ特徴は、該対話者のアイデンティティ特徴を満たす対話コーパスを第１モデル（例えば、既存の大規模言語モデル）に出力させることに用いられる。

【0067】

例えば、上述したｐｒｏｍｐｔの例において、「対話の双方は先生と生徒である」ことは、対話者のアイデンティティ特徴であり、ｐｒｏｍｐｔにおいて対話者のアイデンティティ特徴が含まれることにより、大規模言語モデルに該アイデンティティ特徴に合致する対話コーパスを出力させることができる。このようなアイデンティティ特徴に合致する対話コーパスにより生成されたファイルペアを用いて、第２段階で独自の言語モデルを微調整することで、該独自の言語モデルに該対話者のアイデンティティ特徴に合致する対話コーパスを生成させることができる。

【0068】

方式３
ｐｒｏｍｐｔ最適化方法を用いて、ｐｒｏｍｐｔを最適化し、最適化されたｐｒｏｍｐｔを第１モデル（例えば、既存の大規模言語モデル）に入力する。

【0069】

本開示の実施例は、思考チェーン（Ｃｈａｉｎ－ｏｆ－Ｔｈｏｕｇｈｔ、ＣｏＴ）、コンテキスト学習（Ｉｎ－ＣｏｎｔｅｘｔＬｅａｒｎｉｎｇ、ＩＣＬ）、自己最適化方式、最適化ｐｒｏｍｐｔを用いることで、第１段階において第１モデルの効果を高め、第１段階の出力結果を最適化することができる。

【0070】

思考チェーンは、ｐｒｏｍｐｔを設計するための手法であり、すなわち、ｐｒｏｍｐｔにはタスクを持つ入力と出力に加えて、推理の中間ステップ（中間思考）も含まれる。思考チェーンはＬＬＭの能力を大幅に向上させることができる。

【0071】

ＩＣＬは、大規模言語モデルを少量のラベリングサンプルにより特定のタスク上で学習させる手法である。この方法のコアとなる思想は、タスクに関する命令を設計することによってｐｒｏｍｐｔテンプレートを形成し、少量のラベリングサンプルをｐｒｏｍｐｔとして利用することで、新しいテストデータの上で予測結果を生成するようモデルを導くことである。

【0072】

自己最適化は、そのコアとなる考え方は、大規模言語モデルが自らｐｒｏｍｐｔを最適化することであり、具体的には、大規模言語モデルは過去の反復履歴を記録し、目標を最適化し、自ら規則をまとめ、ｐｒｏｍｐｔを次第に反復する。

【0073】

上記のいくつの手法はｐｒｏｍｐｔの最適化を実現することができ、最適化されたｐｒｏｍｐｔを利用することで、第１モデルの性能を向上させることができ、すなわち、第１モデルによる対話コーパス生成の効果を高めることができる。

【0074】

方式４
第１モデル（例えば、既存の大規模言語モデル）に入力された文章コーパスは、予め設定された表現スタイルを有し、且つ該第１モデルに入力されるｐｒｏｍｐｔにおいて対話者のアイデンティティ特徴が含まれる。第１モデルが対応する対話コーパスを出力した後、第１モデルの出力結果から、該予め設定された表現スタイルと一致しない対話コーパスを除去すると共に該アイデンティティ特徴と一致しない対話コーパスを除去して、残りの出力結果を得、
残りの出力結果に基づいて複数のファイルペアを決定する。

【0075】

このプロセスにおいて、第１モデルの出力結果に対してクレンジングを行い、品質の低いファイルペアを除去することができる。

【0076】

いくつの実施例では、第１モデルを用いて、その生成された対話コーパスの表現スタイル及び／又はアイデンティティ特徴を決定することができる。例えば、第１モデルによって生成された対話コーパスを該第１モデルに再入力し、該第１モデルによって該対話コーパスの表現スタイル及び／又はアイデンティティ特徴を決定することができる。あるいは、他のニューラルネットワークモデルを用いて、第１モデルによって出力された対話コーパスの表現スタイル及び／又はアイデンティティ特徴を決定することができる。

【0077】

第１段階における第１モデルの出力結果に対してクレンジングを行うことにより、品質の高いファイルペアを得ることができる。第２段階において、これらの品質の高いファイルペアを用いて第２モデルを調整することにより、第２モデルのパフォーマンスを向上させることができる。

【0078】

上記の複数の方式により、第１段階で第１モデルによって生成されるファイルペアの品質を向上させることができ、その後のプロセスでは、より高品質なファイルペアを用いて第２モデルを調整することで、調整された第２モデルのパフォーマンスを向上させることができ、これによって、調整された第２モデルによって生成されるファイルの品質を向上させることができる。

【0079】

以上から分かるように、本開示の実施例で提案したファイル生成方法は、少量のサンプルデータと既存の大規模言語モデルを利用して、少量の特定垂直分野のトレーニングサンプルを生成することができ、該トレーニングサンプルを用いて独自の言語モデルを微調整することで、独自の言語モデルの当該特定垂直分野での能力を高めることができ、さらに、大量の文章コーパスを調整された言語モデルに入力して、該調整された言語モデルから大量の対話コーパスを生成する。大規模かつ高品質な対話コーパスを生成することにより、特定の垂直分野の需要をよりよく満たすことができる。これらの対話コーパスは、特定の分野の専門知識、問題解決、よくあるシナリオなどをカバーすることができ、当該分野における関連製品の応用をより包括的かつ実用的にすることができる。

【0080】

また、本開示の実施例が提案したファイル生成方法は、機密を扱う文章コーパスをローカルの独自の言語モデルにおいて変換し、且つ既存の大規模言語モデルを用いて微調整することにより、データプライバシーを効果的に保護することができる。また、既存の大規模言語モデルをそのまま使用する場合と比べると、本開示の解決策はコストを節約し、大規模言語モデルを使用する費用を削減することができる。

【0081】

本開示の実施例で提案したファイル生成方法によって生成された対話コーパスを用いて、独自の大規模言語モデルを構築することができ、且つ特定の垂直分野で微調整と最適化を行い、これにより、独自の大規模言語モデルに独自の技術的優位性と差別化機能を備えることができる。

【0082】

本開示の実施例では、ファイル生成装置を提案し、図６は本開示の一実施例によるファイル生成装置６００の構成を示す概略図であり、該装置は、
Ｍ１個の第１タイプのファイルをそれぞれ第１モデルに入力し、第１モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力するための第１入力モジュール６０１と、
出力結果に基づいて複数のファイルペアを決定するための決定モジュール６０２であって、各ファイルペアは、１つの第１タイプのファイルと、該第１タイプのファイルの対応する第２タイプのファイルと、を含む、決定モジュール６０２と、
複数のファイルペアを用いて、第２モデルを調整するための調整モジュール６０３と、
Ｍ２個の第１タイプのファイルをそれぞれ調整された第２モデルに入力し、調整された第２モデルから各々の第１タイプのファイルの対応する第２タイプのファイルを出力するための第２入力モジュール６０４と、を備え、Ｍ１、Ｍ２は正の整数である。

【0083】

いくつかの実施例では、Ｍ２はＭ１よりも大きい。

【0084】

いくつかの実施例では、Ｍ２個の第１タイプのファイルはセキュリティ保護が必要なファイルを含む。

【0085】

いくつかの実施例では、第１タイプのファイルは文章コーパスを含み、第２タイプのファイルは対話コーパスを含む。

【0086】

いくつかの実施例では、第１入力モジュール６０１は、
文章コーパスを第１モデルに入力し、該第１モデルから該文章コーパスに関連する複数の対話質問を出力することと、
該文章コーパスと複数の対話質問とに基づいて、該第１モデルから対応する対話コーパスを出力することであって、該対話コーパスは、複数の対話質問と各々の該対話質問の回答とを含む、ことと、に用いられる。

【0087】

いくつかの実施例では、第１入力モジュール６０１は、
各々の文章コーパスに対してプロンプトを生成し、該プロンプトを該第１モデルに入力することに用いられ、ここで、該プロンプトは該文章コーパスのコンテンツ及び対話者のアイデンティティ特徴を持ち、該対話者のアイデンティティ特徴は、該対話者のアイデンティティ特徴を満たす対話コーパスを該第１モデルに出力させることに用いられる

【0088】

いくつかの実施例では、第１入力モジュール６０１は、
プロンプト最適化方法を用いて、プロンプトを最適化することと、
最適化されたプロンプトを第１モデルに入力することと、に用いられる。

【0089】

いくつかの実施例では、文章コーパスは、予め設定された表現スタイルを有する。

【0090】

いくつかの実施例では、決定モジュール６０２は、
第１モデルの出力結果から、予め設定された表現スタイルと一致しない対話コーパスを除去すると共に該対話者のアイデンティティ特徴と一致しない対話コーパスを除去して、残りの出力結果を得ることと、
残りの出力結果に基づいて複数のファイルペアを決定することと、に用いられる。

【0091】

本開示の実施例による装置の各モジュール、サブモジュールの具体的な機能及び例示的な説明は、上述した方法の実施例における対応するステップの関連する説明を参照することができ、ここでは繰り返し述べない。

【0092】

本開示の技術的解決策では、ユーザの個人情報の取得、記憶、及びアプリケーションは、関連する法律及び規則の規定に準拠し、公序良俗に違反しない。

【0093】

本開示の実施例によれば、本開示は、電子デバイス、非一時的コンピュータ可読記憶媒体及びプログラム製品をさらに提供する。

【0094】

図７は、本開示の実施例を実現するための電子デバイス７００のブロック図である。電子デバイスは、各形式のデジタルコンピュータを指し、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適合するコンピュータが挙げられる。電子デバイスは、各形式の移動装置をさらに指し、例えば、パーソナルデジタルアシスタント、セルラー電話、インテリジェントフォン、ウェアラブルデバイス、及びその他の類似のコンピュータ装置が挙げられる。本開示に記載されているコンポーネント、それらの接続関係、及び機能は例示的なものに過ぎず、本開示に記載・特定されているものの実現を限定するわけではない。

【0095】

図７に示すように、デバイス７００において、リードオンリーメモリ（ＲＯＭ）７０２に記憶されたコンピュータプログラム命令、又は記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる計算ユニット７０１を含む。ＲＡＭ７０３には、デバイス７００の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット７０１と、ＲＯＭ７０２と、ＲＡＭ７０３とは、バス７０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続されている。

【0096】

デバイス７００における複数のコンポーネントは、Ｉ／Ｏインターフェース７０５に接続されており、当該複数のコンポーネントは、キーボードやマウス等の入力ユニット７０６と、種々なディスプレイやスピーカ等の出力ユニット７０７と、磁気ディスクや光学ディスク等の記憶ユニット７０８と、ネットワークカード、モデム、無線通信トランシーバー等の通信ユニット７０９と、を備える。通信ユニット７０９は、デバイス７００がインターネットのようなコンピュータネット及び／又は種々なキャリアネットワークを介して他の機器と情報／データを交換することを許可する。

【0097】

計算ユニット７０１は、処理及びコンピューティング能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット７０１のいくつかの例としては、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）コンピューティングチップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラ等を備えるが、これらに限定されない。計算ユニット７０１は、上記で説明された各方法及び処理、例えばファイル生成方法を実行する。例えば、いくつかの実施例では、ファイル生成方法を、記憶ユニット７０８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施例では、コンピュータプログラムの一部又は全ては、ＲＯＭ７０２及び／又は通信ユニット７０９を介して、デバイス７００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ７０３にロードされて計算ユニット７０１によって実行される場合に、前述したファイル生成方法の１つ又は複数のステップを実行することができる。追加可能に、他の実施例では、計算ユニット７０１は、他の任意の適当な方式（例えば、ファームウェア）によりファイル生成方法を実行するように構成することができる。

【0098】

本開示で記載されているシステム又は技術の各種の実施例では、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせによって実現することができる。これらの各実施例は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び／又は解釈される１つ又は複数のコンピュータプログラムにより実行することを含み得、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、該少なくとも１つの入力デバイス、及び該少なくとも１つの出力デバイスに転送することができる専用又は汎用のプログラマブルプロセッサであってもよい。

【0099】

本開示の方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラミングデータ処理装置のプロセッサ又はコントローラに提供されることにより、プログラムコードがプロセッサ又はコントローラによって実行される場合に、フローチャート及び／又はブロック図に規定された機能／動作を実行することができる。プログラムコードは、完全にマシナリオで実行されてもよいし、部分的にマシナリオで実行されてもよいし、独立したソフトカプセル化として部分的にマシナリオで実行されるとともに部分的にリモートマシナリオで実行されてもよし、又は完全にリモートマシナリオ又はサーバで実行されてもよい。

【0100】

本開示の説明において、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置又は機器によって、又は命令実行システム、装置又は機器と合わせて用いられるプログラムを含み、又は記憶する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外側線、又は半導体システム、装置、又はデバイス、又は前述した内容の任意の適切な組み合わせを含むことができるがこれらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、１つ又は複数の配線による電気的接続、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は前述した内容の任意の組み合わせを含む。

【0101】

ユーザとのインタラクションを提供するために、コンピュータでここに記載されているシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニター等）、ユーザが入力をコンピュータに提供するためのキーボード及びポインティングデバイス（例えば、マウス又はトラックボール等）を備えるができる。ユーザとのインタラクションを提供するために、他の種類の装置を使用することもでき、例えば、ユーザに提供するフィードバックは、いかなる形式のセンサーフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック等）であってもよく、また、いかなる形式（例えば、音響入力、音声入力、触覚入力等）によって、ユーザからの入力を受付取るができる。

【0102】

ここに記載されているシステムと技術を、バックグラウンド部品に含まれるコンピューティングシステム（例えば、データサーバとして）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロント部品を含むコンピューティングシステム（例えば、グラフィックスユーザインターフェース又はネットワークブラウザを有するユーザコンピュータが挙げられ、ユーザがグラフィックスユーザインターフェース又は該ネットワークブラウザによって、ここに記載されているシステムと技術の実施例とインタラクションすることができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロント部品のいかなる組合したコンピューティングシステムで実施することができる。如何なる形式又はメディアのデジタルデータ通信（例えば、通信ネットワーク）を介して、システムの部品を互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

【0103】

コンピュータシステムは、クライアントとサーバを含み得る。通常、クライアントとサーバは、互いに離れており、通信ネットワークを介してインタラクションを行うことが一般的である。対応するコンピュータで動作することで、クライアント－サーバの関係を有するコンピュータプログラムによってクライアントとサーバの関係を生み出す。サーバは、クラウドサーバ、又は分散型システムのサーバ、あるいはブロックチェーンを組み込んだサーバ等であってもよい。

【0104】

上記に示された様々な態様のフローを用いて、ステップを新たにランク付け、追加、又は削除することが可能であることを理解すべきである。例えば、本開示で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本開示で開示された技術方案が所望する結果を実現することができる限り、本開示ではこれに限定されない。

【0105】

上記具体的な実施例は、本開示の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、及び代替が可能であることを理解するべきである。本開示の要旨及び原理原則内における変更、均等な置換及び改善等は、いずれも本開示の保護範囲に含まれるべきである。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版