IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2024-175030人工知能に基づく情報処理方法、装置、電子機器及びエージェント
<>
  • 特開-人工知能に基づく情報処理方法、装置、電子機器及びエージェント 図1
  • 特開-人工知能に基づく情報処理方法、装置、電子機器及びエージェント 図2
  • 特開-人工知能に基づく情報処理方法、装置、電子機器及びエージェント 図3
  • 特開-人工知能に基づく情報処理方法、装置、電子機器及びエージェント 図4
  • 特開-人工知能に基づく情報処理方法、装置、電子機器及びエージェント 図5
  • 特開-人工知能に基づく情報処理方法、装置、電子機器及びエージェント 図6
  • 特開-人工知能に基づく情報処理方法、装置、電子機器及びエージェント 図7
  • 特開-人工知能に基づく情報処理方法、装置、電子機器及びエージェント 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024175030
(43)【公開日】2024-12-17
(54)【発明の名称】人工知能に基づく情報処理方法、装置、電子機器及びエージェント
(51)【国際特許分類】
   G06F 16/90 20190101AFI20241210BHJP
   G06F 3/048 20130101ALI20241210BHJP
   G06F 3/16 20060101ALI20241210BHJP
【FI】
G06F16/90 100
G06F3/048
G06F3/16 620
G06F3/16 610
【審査請求】有
【請求項の数】32
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2024159045
(22)【出願日】2024-09-13
(31)【優先権主張番号】202311763568.4
(32)【優先日】2023-12-20
(33)【優先権主張国・地域又は機関】CN
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.UNIX
2.Linux
3.WINDOWS PHONE
4.ANDROID
5.ブルートゥース
6.JAVA
7.PYTHON
8.BLUETOOTH
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】ワン ハイフェン
(72)【発明者】
【氏名】ウー ホア
(72)【発明者】
【氏名】ティエン ハオ
(72)【発明者】
【氏名】リウ ジン
(72)【発明者】
【氏名】リ ホンギュ
(72)【発明者】
【氏名】クー インチー
(72)【発明者】
【氏名】フー チーフェイ
(57)【要約】      (修正有)
【課題】人工知能(AI)エージェントの知能化の程度を簡単かつ効率的に向上させる情報処理方法、装置、電子機器、エージェント、記憶媒体及びプログラムを提供する。
【解決手段】AIに基づく情報処理方法であって、処理すべき入力情報を取得することと、入力情報の処理に関連する実行情報を確定することと、を含む。実行情報は、検索すべき記憶情報又は呼び出すべきツール情報のうちの少なくとも一つを含む。該方法はまた、実行情報を利用して入力情報の処理に対応する少なくとも一つの処理結果情報を取得することと、少なくとも1つの処理結果情報を統合してフィードバックのための出力情報を生成することと、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
人工知能に基づく情報処理方法であって、
処理すべき入力情報を取得することと、
前記入力情報の処理に関連する実行情報を確定し、前記実行情報は検索すべき記憶情報又は呼び出すべきツール情報のうちの少なくとも一つを含むことと、
前記実行情報を利用して前記入力情報の処理に対応する少なくとも一つの処理結果情報を取得することと、
前記少なくとも1つの処理結果情報を統合してフィードバックのための出力情報を生成することとを含む、人工知能に基づく情報処理方法。
【請求項2】
前記少なくとも一つの処理結果情報が予め設定された基準に合致するか否かを確定することと、
前記少なくとも1つの処理結果情報が前記予め設定された基準に合致しないと確定したことに応答して、前記実行情報を再利用して、前記入力情報の処理に対応する少なくとも1つの処理結果情報を取得することとを含む、請求項1に記載の方法。
【請求項3】
前記入力情報はマルチモーダルを呈し、前記の、処理すべき入力情報を取得することは、マルチモーダルの前記入力情報を統一情報フォーマットに変換することを含む請求項1または2に記載の方法。
【請求項4】
前記の、前記入力情報の処理に関連する実行情報を確定することは、
前記入力情報に基づいて、前記入力情報の処理に関連する少なくとも1つのタスクを確定することと、
前記少なくとも1つのタスクの各タスクに対して、
前記実行情報に基づいて前記タスクを処理する必要があるかどうかを確定することと、
前記実行情報に基づいて前記タスクを処理する必要があると確定したことに応答して、前記タスクに対応する前記実行情報を確定することとを含む請求項2に記載の方法。
【請求項5】
前記実行情報に基づいて前記タスクを処理する必要がないと確定したことに応答して、前記タスクを処理して得られた中間出力情報を生成する、請求項4に記載の方法。
【請求項6】
前記少なくとも1つの処理結果情報が前記予め設定された基準に合致しないと確定したことに応答して、前記入力情報の処理に関連する少なくとも1つのタスクを再確定することをさらに含む、請求項4に記載の方法。
【請求項7】
前記記憶情報は、作業記憶情報を含み、前記作業記憶情報は現在処理されている前記タスクと関連付けられるように構成される、請求項4に記載の方法。
【請求項8】
前記作業記憶情報はさらに、前記少なくとも1つのタスクにおける各タスクの処理状態に関連付けられるように構成される、請求項7に記載の方法。
【請求項9】
前記記憶情報は、イベン記憶情報を含み、前記イベント記憶情報は履歴イベントに関連付けられるように構成される、請求項1または2に記載の方法。
【請求項10】
前記記憶情報はキャラクタ記憶情報を含み、前記キャラクタ記憶情報は前記方法を適用するシーンと関連付けられるように構成され、生成された前記出力情報を前記シーンにおけるスタイルに合わせる請求項1または2に記載の方法。
【請求項11】
前記記憶情報は認知記憶情報を含み、前記認知記憶情報は、前記方法を適用するユーザと関連付けられるように構成され、生成された前記出力情報を前記ユーザのユーザ画像に合わせる、請求項1または2に記載の方法。
【請求項12】
前記ツール情報は、プラグインツール、関数ツール、インタフェースツール、またはモデルツールのうちの少なくとも1つを含む、請求項1または2に記載の方法。
【請求項13】
前記ツール情報は、統一したツール記述仕様を含む、請求項12に記載の方法。
【請求項14】
前記方法は、大規模言語モデルの推論能力に基づいて実行される、請求項1または2に記載の方法。
【請求項15】
請求項1~14のいずれか一項に記載の方法を実行するように構成される人工知能のエージェント。
【請求項16】
人工知能に基づく情報処理装置であって、
処理すべき入力情報を取得するように構成される入力ユニットと、
前記入力情報の処理に関連する実行情報を確定し、前記実行情報は検索すべき記憶情報又は呼び出すべきツール情報のうちの少なくとも一つを含むように構成される計画ユニットと、
前記実行情報を利用して前記入力情報の処理に対応する少なくとも一つの処理結果情報を取得するように構成される行動ユニットと、
前記少なくとも1つの処理結果情報を統合してフィードバックのための出力情報を生成するように構成される出力ユニットとを含む、人工知能に基づく情報処理装置。
【請求項17】
前記少なくとも一つの処理結果情報が予め設定された基準に合致するか否かを確定するように構成される評価ユニットと、
前記少なくとも1つの処理結果情報が前記予め設定された基準に合致しないと確定したことに応答して、前記行動ユニットに前記実行情報を再利用して前記入力情報の処理に対応する少なくとも一つの処理結果情報を取得するように指示するように構成される再考ユニットとを含む、請求項16に記載の装置。
【請求項18】
前記入力情報はマルチモーダルを呈し、前記入力ユニットは、マルチモーダルの前記入力情報を統一された情報フォーマットに変換するように構成される変換ユニットを含む、請求項16または17に記載の装置。
【請求項19】
前記計画ユニットは、
前記入力情報に基づいて、前記入力情報の処理に関連する少なくとも1つのタスクを確定するように構成される分解ユニットと、
前記少なくとも1つのタスクの各タスクに対して、
前記実行情報に基づいて前記タスクを処理する必要があるかどうかを確定し、
前記実行情報に基づいて前記タスクを処理する必要があると確定したことに応答して、前記タスクに対応する前記実行情報を確定するように構成される思考ユニットとを含む請求項17に記載の装置。
【請求項20】
前記思考ユニットはさらに、
前記実行情報に基づいて前記タスクを処理する必要がないと確定したことに応答して、前記タスクを処理して得られた中間出力情報を生成するように構成される、請求項19に記載の装置。
【請求項21】
前記再考ユニットはさらに、前記少なくとも1つの処理結果情報が前記予め設定された基準に合致しないと確定したことに応答して、前記分解ユニットに、改めて前記入力情報に基づいて前記入力情報の処理に関連する少なくとも1つのタスクを確定するように指示するように構成される、請求項19に記載の装置。
【請求項22】
前記記憶情報は、作業記憶情報を含み、前記作業記憶情報は現在処理されている前記タスクと関連付けられるように構成される、請求項19に記載の装置。
【請求項23】
前記作業記憶情報はさらに、前記少なくとも1つのタスクにおける各タスクの処理状態に関連付けられるように構成される、請求項22に記載の装置。
【請求項24】
前記記憶情報は、イベント記憶情報を含み、前記イベント記憶情報は履歴イベントに関連付けられるように構成される、請求項16または17に記載の装置。
【請求項25】
前記記憶情報はキャラクタ記憶情報を含み、前記キャラクタ記憶情報は前記装置を適用するシーンと関連付けられるように構成され、生成された前記出力情報を前記シーンにおけるスタイルに合わせる請求項16または17に記載の装置。
【請求項26】
前記記憶情報は認知記憶情報を含み、前記認知記憶情報は、前記装置を適用するユーザと関連付けられるように構成され、生成された前記出力情報を前記ユーザのユーザ画像に合わせる、請求項16または17に記載の装置。
【請求項27】
前記ツール情報は、プラグインツール、関数ツール、インタフェースツール、またはモデルツールのうちの少なくとも1つを含む、請求項16または17に記載の装置。
【請求項28】
前記ツール情報は、統一したツール記述仕様を含む、請求項27に記載の装置。
【請求項29】
前記装置は、大規模言語モデルの推論能力に基づいて実行される、請求項16または17に記載の装置。
【請求項30】
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサにより実行されて、前記少なくとも1つのプロセッサが、請求項1~14のいずれか一項に記載の方法を実行することを可能にする、電子機器。
【請求項31】
コンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~14のいずれか一項に記載の方法を実行させるために用いられる、非一時的コンピュータ可読記憶媒体。
【請求項32】
コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項1~14のいずれか一項に記載の方法を実現する、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能(AI)技術分野に関し、特に、大規模言語モデル(LLM、Large Language Model)、AIエージェント(AI Agent)等の分野に関し、具体的に、人工知能に基づく情報処理方法、装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム製品及びAIエージェントに関する。
【背景技術】
【0002】
人工知能は、コンピュータに人間のいくつかの思惟過程及び知的行動(例えば、学習、推理、思考、計画など)を模擬させるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能のハードウェア技術は、一般的にセンサ、人工知能専用チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。
【0003】
最近、大規模言語モデルの絶えない進歩に伴い、言語理解、知識記憶、論理推論などの面でAIの能力が大幅に向上し、AIエージェントの発展を強力にサポートしている。AIエージェントは大規模言語モデルを核心推論エンジンとする高度な人工知能システムであり、大規模言語モデルの言語理解と生成能力を有するだけでなく、高効率で柔軟に各種の複雑な問題を解決することができ、さらに大規模言語モデルに含まれる機械知能を解放し、ユーザーにより正確で、より個性的なサービスを提供する。
【0004】
該部分で説明される方法は、必ずしも以前に想定された方法又は採用された方法ではない。特に断りのない限り、該部分に記載されているいずれの方法は、該部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、該部分で言及されている課題は、従来の技術で公認されたものであると考えるべきではない。
【発明の概要】
【0005】
本開示は、人工知能に基づく情報処理方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品並びにAIエージェントを提供する。
【0006】
本開示の一態様によれば、人工知能に基づく情報処理方法が提供され、処理すべき入力情報を取得することと、入力情報の処理に関連する実行情報を確定し、実行情報は検索すべき記憶情報又は呼び出すべきツール情報のうちの少なくとも一つを含むことと、実行情報を利用して入力情報の処理に対応する少なくとも一つの処理結果情報を取得することと、少なくとも1つの処理結果情報を統合してフィードバックのための出力情報を生成することとを含む。
【0007】
本開示の別の態様によれば、上記の方法を実行するように構成されるAIエージェントが提供される。
【0008】
また、本開示の他の態様によれば、人工知能に基づく情報処理装置が提供され、処理すべき入力情報を取得するように構成される入力ユニットと、入力情報の処理に関連する実行情報を確定し、実行情報は検索すべき記憶情報又は呼び出すべきツール情報のうちの少なくとも一つを含むように構成される計画ユニットと、実行情報を利用して入力情報の処理に対応する少なくとも一つの処理結果情報を取得するように構成される行動ユニットと、少なくとも1つの処理結果情報を統合してフィードバックのための出力情報を生成するように構成される出力ユニットとを含む。
【0009】
本開示の別の態様によれば、電子機器が提供され、該電子機器は少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されるメモリとを含み、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、命令が少なくとも一つのプロセッサにより実行されて、少なくとも1つのプロセッサが上述の方法を実行することを可能にする。
【0010】
本開示の別の態様によれば、コンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体が提供され、ここでは、コンピュータ命令は、コンピュータに上述の方法を実行させるために用いられる。
【0011】
本開示の別の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品が提供され、ここでは、コンピュータプログラムは、プロセッサによって実行されると、上述の方法を実現する。
【0012】
本開示の1つまたは複数の実施例によれば、AIエージェントの知能化の程度を簡単かつ効率的に向上させることができる。
【0013】
理解すべきこととして、該部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0014】
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。
図1】本開示の実施例による、本明細書で説明される各方法を実施することができる例示的なシステムを示す概略図である。
図2】本開示の一実施例による、人工知能に基づく情報処理方法のフローチャートを示す図である。
図3】本開示の別の実施例による、人工知能に基づく情報処理方法のフローチャートを示す図である。
図4】本発明の実施例による、入力情報の処理に関連する実行情報を確定するプロセスを示すフローチャートである。
図5】本開示の実施例によるAIエージェントの概略図である。
図6】本開示の一実施例による、人工知能に基づく情報処理装置の構成を示すブロック図である。
図7】本開示の他の実施例による、人工知能に基づく情報処理装置の構成を示すブロック図である。
図8】本開示の実施例を実現するための例示的な電子機器の構成を示すブロック図である。
【発明を実施するための形態】
【0015】
以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
【0016】
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、一要素を別の要素から区別するためにのみ使用される。いくつかの例では、第1の要素と第2要素は、該要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
【0017】
本開示の様々な上述した例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、該要素は一つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び/又は」は、リストされたアイテムのいずれか及び可能な全ての組み合わせをカバーする。
【0018】
関連技術の中で、既存のAIエージェントはまだかなり早い発展段階にあり、AIエージェントに関するエージェントメカニズムの設計には統一的な基準が存在しない。現在、業界に出現している様々なAIエージェントの多くは、まだ概念実証と初期試み段階にとどまっている。
【0019】
例えば、既存のAIエージェントには一般的に次のような問題がある。
【0020】
まず、AIエージェントの全体的なアーキテクチャは、モジュール設計において粒度が粗すぎるか、あるいは細かすぎるという問題がある。モジュールの粒度が粗すぎると、1つのモジュールに過剰な認知負荷がかかる可能性があり、これにより、大大規模言語モデルに比べてAIエージェントがもたらす利得を制限する。モジュールの粒度が細すぎると、タスク解決リンクが長くなり、累積誤差が大きくなる可能性があり、したがって、大規模言語モデルの言語理解能力を有効に発揮することができない。
【0021】
そして、AIエージェントは通常、特定のシーンにおける具体的な問題に適応するために、人為的に設定されたルールを組み込みすぎる。しかし、これまでにない問題に遭遇した場合、このプリセットルールに依存する設計は、未知の環境におけるAIエージェントの対応能力を制限し、戦略を柔軟に調整できなくなる可能性があり、その結果、実際の応用では、低い汎化性能を示す。
【0022】
また、AIエージェントの具体的な機能の実現はまだ十分ではない。一部のAIエージェントはベクトルデータベースを採用して人の脳の記憶メモリ機能を模擬し、すべての歴史的相互作用行為をベクトルデータベースに格納する。これは無損失の長期記憶を実現できるように見えるが、AIエージェントが一連の会話、タスク、イベントから再利用可能な抽象化された経験を抽出できなくなり、AIエージェントは記録するだけで、要約できなくなり、これにより、メモリ上のパフォーマンスのボトルネックになる。
【0023】
さらに、AIエージェントは、再考能力など、より高度な認知能力を持っていない。現在取得されている結果は、タスクの基本的な要件を満たしているとしても、AIエージェント自体の能力の上限ではない可能性がある。
【0024】
上述した少なくとも1つの問題に対して、本開示の実施例は、人工知能に基づく情報処理方法及びAIエージェントを提供する。
【0025】
本開示の実施例の方法を詳細に説明する前に、まず、図1に関連して、本明細書で説明される方法が実施され得る例示的なシステムを説明する。
【0026】
図1は、本願の実施例による、本明細書に記載された様々な方法及び装置を、その中で実施することができる例示的なシステム100の概略図である。図1を参照すると、該システム100は、一つ以上のクライアントデバイス101、102、103、104、105と106、サーバ120、及び一つ以上のクライアントデバイスをサーバ120に結合する一つ以上の通信ネットワーク110を含む。クライアントデバイス101、102、103、104、105と106は、一つ以上のアプリケーションを実行するように構成されることが可能である。
【0027】
本開示の実施例では、サーバ120は、人工知能に基づく情報処理方法またはAIエージェントを実行できるようにする1つまたは複数のサービスまたはソフトウェアアプリケーションを実行することができる。
【0028】
いくつかの実施例では、サーバ120は、非仮想環境と仮想環境を含むことができる他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、webベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアアズアサービス(SaaS)モデルでクライアントデバイス101、102、103、104、105及び/又は106のユーザに提供される。
【0029】
図1に示す配置では、サーバ120は、サーバ120により実行される機能を実現する一つ以上のアセンブリを含んでもよい。これらのアセンブリは、一つ以上のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス101、102、103、104、105及び/又は106を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、一つ以上のクライアントアプリケーションを順次利用してサーバ120とやり取りをすることができる。様々な異なるシステム配置が可能であり、システム100とは異なってもよいことを理解されたい。したがって、図1は、本明細書に記載された様々な方法を実施するためのシステムの一例であり、制限することを意図していない。
【0030】
ユーザは、クライアントデバイス101、102、103、104、105、および/または106を使用して、AIエージェントと対話するための情報を提供することができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとやり取りするインターフェースを提供することができる。クライアントデバイスは、該インターフェースを介してユーザに情報を出力することもできる。図1では6つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。
【0031】
クライアントデバイス101、102、103、104、105及び/又は106は、携帯型ハンドヘルドデバイス、汎用コンピュータ(例えば、パーソナルコンピュータやノートパソコン)、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、MICROSOFT Windows、APPLE iOS、類UNIXオペレーティングシステム、Linux又は類Linuxオペレーティングシステム(例えば、GOOGLE Chrome OS)などの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、MICROSOFT Windows Mobile OS、iOS、Windows Phone、Androidなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント(PDA)などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ(例えば、スマートグラス)と他のデバイスを含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットInternet関連アプリケーション、通信アプリケーション(例えば、電子メールアプリケーション)、ショートメッセージサービス(SMS)アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。
【0032】
ネットワーク110は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか一つ(TCP/IP、SNA、IPXなどを含むがこれらに限定されない)を使用することができる。例として、一つ以上のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、ブロックチェーンネットワーク、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(例えば、ブルートゥース、WIFI)、及び/又はこれら及び/又はその他のネットワークの任意の組み合わせであってもよい。
【0033】
サーバ120は、一つ以上の汎用コンピュータ、専用サーバコンピュータ(例えば、PC(パーソナルコンピュータ)サーバ、UNIXサーバ、ミッドレンジサーバ)、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他のいかなる適切な配置及び/又は組み合わせを含んでもよい。サーバ120は、仮想オペレーティングシステムを実行する一つ以上の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ(例えば、サーバの仮想記憶デバイスを維持するために仮想化された論理記憶デバイスの一つ以上のフレキシブルプール)を含んでもよい。様々な実施例では、サーバ120は、以下に説明する機能を提供する一つ以上のサービス又はソフトウェアアプリケーションを実行することができる。
【0034】
サーバ120における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む一つ以上のオペレーティングシステムを実行することができる。サーバ120は、HTTPサーバ、FTPサーバ、CGIサーバ、JAVAサーバ、データベースサーバなど、様々な追加のサーバアプリケーション及び/又は中間層アプリケーションのいずれか一つを実行することもできる。
【0035】
いくつかの実施例では、サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106のユーザから受信したデータフィード及び/又はイベントの更新を分析及び統合するための一つ以上のアプリケーションを含んでもよい。サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106の一つ以上のディスプレイデバイスを介してデータフィード及び/又はリアルタイムイベントを表示する一つ以上のアプリケーションを含んでもよい。
【0036】
いくつかの実施例では、サーバ120は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ120は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。
【0037】
システム100は、一つ以上のデータベース130を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース130のうちの一つ以上は、音声ファイルや動画ファイルのような情報を記憶するために使用できる。データベース130は、さまざまな位置に配置することができる。例えば、サーバ120が使用するデータベースは、サーバ120のローカルにあってもよいし、サーバ120から離れて、ネットワーク又は専用の接続を介してサーバ120と通信してもよい。データベース130は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ120が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの一つ以上は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。
【0038】
いくつかの実施例では、データベース130のうちの一つ以上は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。
【0039】
図1のシステム100は、本開示に従って説明される様々な方法を適用することができるように、様々な方法で構成および動作することができる。
【0040】
以下、本開示の実施例による、人工知能に基づく情報処理方法及びAIエージェントの様々な態様を図面を参照して詳細に説明する。
【0041】
図2は、本開示の一実施例による、人工知能に基づく情報処理方法200のフローチャートを示す。
【0042】
本開示の実施例では、人工知能方法200は、AIエージェントによって実行され得る。例えば、AIエージェントは、ユーザまたは外部環境との対話中に、人工知能に基づく情報処理方法200を実行することができる。
【0043】
図2に示すように、方法200は、ステップS202、S204、S206、およびS208を含む。
【0044】
ステップS202では、処理すべき入力情報を取得する。
【0045】
一例では、入力情報は、問い合わせ情報、要求情報、命令情報、信号情報、データ情報等を含むことができる。入力情報は、ユーザがAIエージェントと対話する過程で提供されるものであってもよいし、AIエージェントが外部環境を感知して得たものであってもよい。スマートアルバム執事、スマート音声アシスタント、スマートコックピットなどの応用シーンにおいて、入力情報は、写真、ビデオ、音声、テキスト、車両のセンサデータなどを含むことができる。なお、入力情報には、時間、場所、オブジェクト、状況などのコンテキスト情報を含むこともできる。
【0046】
ステップS204では、入力情報の処理に関連する実行情報を確定する。実行情報は、検索すべき記憶情報または呼び出すべきツール情報のうちの少なくとも1つを含む。
【0047】
一例では、実行情報は、入力情報を処理するためにAIエージェントが追加的に使用し、利用し、または支援にする必要がある情報であってもよい。1つのケースでは、AIエージェントは、入力情報の処理を実現できるように、記憶情報を検索するだけでよいと確定する場合がある。別のケースでは、AIエージェントは、入力情報の処理を実現できるように、ツール情報を呼び出すだけで、確定する場合がある。さらに別のケースでは、AIエージェントは、入力情報の処理を実現できるように、記憶情報を検索することと、ツール情報を呼び出すこととの両方が必要であると確定する場合がある。
【0048】
すなわち、本開示の実施例によるAIエージェントは、どのような適切な実行情報を用いて入力情報を処理するかを確定する計画能力を有する。
【0049】
一例では、記憶情報は、AIエージェントが有する記憶内容を指すことができる。記憶情報は、ベクトルデータベースの形で格納することができる。また、記憶情報は、特定のユーザのユーザ画像、ユーザの好みなど、個人化されたコンテンツに対して保持されてもよい。
【0050】
すなわち、本開示の実施例によるAIエージェントは、記憶記憶能力も有する。
【0051】
一例では、ツール情報は、AIエージェントが使用、接続、およびアクセスできるツールの名前またはタイプを指すことができる。例えば、数学演算を行うための計算機、検索を行うための検索エンジン、データ解析を行うためのpython言語などが挙げられる。
【0052】
すなわち、本開示の実施例によるAIエージェントは、演算能力も有する。
【0053】
ステップS206では、実行情報を用いて、入力情報の処理に対応する少なくとも1つの処理結果情報を取得する。
【0054】
一例では、AIエージェントが記憶情報を検索する必要があると確定した場合、クエリーベクトルを記憶リトリーバー(Memory Retriever)への入力として生成することができ、これにより、AIエージェントが有する全記憶情報の中から検索された1つまたは複数の関連記憶情報を記憶リトリーバーを介して出力する。この場合、記憶情報を用いて、入力情報の処理に対応する少なくとも1つの処理結果情報を取得することは、入力情報に関する記憶情報を検索して、少なくとも1つの記憶情報検索結果を取得することを含むことができる。
【0055】
一例では、AIエージェントが、ツール情報を呼び出す必要があると確定した場合、最初に、軽量なベクトルリトリーバーによって、潜在的に有用なツール候補情報を素早く見つけ、次に、候補ツール情報から1つ以上の関連ツール情報を確定することができ、これにより、大量のツール情報の中から適切なツール情報を素早く見つけることができる。
【0056】
一例では、ツール情報を呼び出して入力情報を処理する際に、当該ツール情報の使用説明に従って対応する使用パラメータを記入し、これにより、当該ツール情報を利用して入力情報への処理を実現する。この場合、ツール情報を利用して入力情報の処理に対応する少なくとも1つの処理結果情報を取得することは、ツール情報を利用して入力情報への処理を完了して、少なくとも一つのツール情報呼び出し結果を取得することを含むことができ、例えば、計算機を用いてユーザが提供する数式を計算し、pythonを用いてユーザが提供するデータをデータ解析し、検索エンジンを利用してユーザから問い合わせられる天気の天気予報を行うなど、
すなわち、本開示の実施例によるAIエージェントは、行動能力を有する。計画が完了すると、AIエージェントは行動を開始できる。本開示の実施例では、AIエージェントの計画能力および行動能力は、経営学におけるPDCA(プラン(計画)、Do(実行)、チェック(検査)、Act(処理))ループに含まれる計画と実行の概念に類似できる。
【0057】
ステップS208では、上記少なくとも1つの処理結果情報を統合して、フィードバックのための出力情報を生成する。
【0058】
一例では、整合動作とは、上記少なくとも1つの処理結果情報に対して、さらに加工や処理を行って、ユーザに対するフィードバック(例えば、ユーザに対する応答)又は外部環境に対するフィードバック(例えば、外部環境に対するアクション又は応答)を生成することを指すことができる。例えば、上記少なくとも1つの処理結果情報を統合することは、上記少なくとも1つの記憶情報の検索結果、および/または、上記少なくとも1つのツール情報呼び出し結果のうち、1つ以上の結果を選択すること、又は上記少なくとも一つの記憶情報検索結果及び/又は前記少なくとも一つのツール情報呼び出し結果を特定の結果に合わせることを含むことができる。本開示の実施例において、統合動作は、実際の状況に応じて変化してもよいし、大規模言語モデルの基礎となる推論能力によって決定してもよいし、本開示は、これについて限定しない。
【0059】
一例では、方法200を適用するシーンに従って出力情報をそのシーンの下でスタイルに合わせることができる。たとえば、スマートホームなどの音声シーンでは、親切、フレンドリー、口語的な言語でユーザにアナウンスすることができる。別の例として、出力情報は、例えば、出力されたテキストと画像とを織り交ぜて、絵が多く文章も優れた効果を形成するなど、マルチモーダルにすることができる。
【0060】
本開示の実施例による人工知能に基づく情報処理方法200は、AIエージェントの知能化度を向上させるための単純かつ効果的なAIエージェントメカニズムを提供する。このAIエージェントメカニズムでは、AIエージェントの記憶に対する検索機能やツールへの呼び出し機能を増設する。また、AIエージェントは、ステップS204のような計画能力及びステップS206のような行動能力により、単一のイニシエータとして、記憶情報及び/又はツール情報の使用を開始し、それぞれ対応する使用結果を受信するため、AIエージェントの当該計画能力及び当該行動能力を含む制御能力は主要な制御機能方面のみに注目し、冗長的に記憶記憶能力及び/又は演算能力の付加機能方面を混入せず、同時に記憶記憶能力と演算能力との間に通信結合が存在せず、それにより高凝集のモジュール機能設計と低結合の通信メカニズム設計を実現し、これによりAIエージェントの知能化程度を簡単かつ効果的に向上させる。
【0061】
また、本開示の実施例による人工知能に基づく情報処理方法200は、具体的または特定の応用シーンに依存して設計されていないため、様々な応用シーンに対応する汎用的なAIエージェントメカニズムを実現でき、AIエージェントの柔軟性及び汎用性が向上し、AIエージェントのカスタマイズ程度を補強する。
【0062】
本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と開示などの処理は、すべて関連法律法規の規定に適合し、公序良俗に反しない。
【0063】
以下、本開示の実施例による、人工知能に基づく情報処理方法の様々な態様についてさらに詳細に説明する。
【0064】
図3は、本開示の別の実施例による、人工知能に基づく情報処理方法300のフローチャートを示す。
【0065】
図3に示すように、方法300は、ステップS302、S304、S306、S307、およびS308を含むことができる。なお、ステップS302、ステップS304、ステップS306、ステップS308の動作は、図2に示すステップS202、ステップS204、ステップS206、ステップS208と同様であってもよいので、詳細な説明は省略する。
【0066】
ステップS302では、処理すべき入力情報を取得することができる。
【0067】
ステップS304では、入力情報の処理に関連する実行情報を確定することができる。実行情報は、検索すべき記憶情報または呼び出すべきツール情報のうちの少なくとも1つを含む。
【0068】
ステップS306では、実行情報を利用して、入力情報の処理に対応する少なくとも1つの処理結果情報を取得することができる。
【0069】
ステップS307では、少なくとも1つの処理結果情報が予め設定された基準に合致するか否かを確定することができる。一例では、ステップS307は、大規模言語モデルの基礎となる推論能力に基づいて実行されてもよい。
【0070】
一方、上記少なくとも1つの処理結果情報が予め設定された基準(図3に示す「Yes」)に合致すると確定したことに応答して、方法300は、ステップS308に進むことができる。
【0071】
ステップS308では、上記少なくとも1つの処理結果情報を統合して、フィードバックのための出力情報を生成する。
【0072】
一方、上述少なくとも1つの処理結果情報が予め設定された基準に合致しない(図3に示す「NO」)と確定したことに応答して、方法300は、ステップS307からステップS306に戻り、実行情報を再利用して、入力情報の処理に対応する少なくとも1つの処理結果情報を取得する。
【0073】
その後、ステップS307において、該当少なくとも1つの処理結果情報が予め設定された基準に合致するか否かを再度確定し、これにより、方法300はステップS308に進むか、または、再びステップS306に戻り、上述した処理を繰り返すようにする。
【0074】
一例では、方法300が、検索拡張のシーンに適用されるとき、AIエージェントは、ユーザの意図に最も合致した結果を得るために、検索プロセスにおいて検索結果に従って検索語を動的に変更してもよい。
【0075】
このように、本開示の実施例によるAIエージェントは、評価能力を有することができる。AIエージェントは、少なくとも1つの記憶情報検索結果および/または少なくとも1つのツール情報呼び出し結果を得た場合、結果が期待通りであるか否かを判断することができる。評価能力は、AIエージェントが複雑な問題を処理する際に過度の誤差を蓄積したり、タスクプロセスがデッドループに陥たりすることを回避できる。
【0076】
一方、本開示の実施例によるAIエージェントは、再考能力も有することができる。AIエージェントは、少なくとも1つの記憶情報検索結果および/または少なくとも1つのツール情報呼び出し結果が予期しないと判断した場合、以前の、実行情報を利用するプロセス(例えば、ツール情報の呼び出し時に以前に入力された使用パラメータ)を修正して、結果を再取得する。
【0077】
前述のように、本開示の実施例では、AIエージェントの計画能力、行動能力、評価能力、および再考能力は、経営学におけるPDCAループに含まれる計画、実行、検査と処理の概念に類似できる。
【0078】
したがって、本開示の実施例による人工知能に基づく情報処理方法300は、AIエージェントの制御能力に評価能力および再考能力をさらに組み込むことにより、AIエージェントは、自己評価および自己再考によって能力上限を向上させ、これにより、AIエージェントの知能化程度をさらに向上させる。
【0079】
いくつかの実施例では、入力情報がマルチモーダルであってもよいため、図2に示すステップS202または図3に示すステップS302は、マルチモーダルの入力情報を統一情報フォーマットに変換するステップを含むことができる。
【0080】
このようにして、後続の処理において、入力情報を無損失で流通させることができ、これにより、AIエージェントによる正確な処理動作が保証される。
【0081】
図4は、本開示の実施例による、入力情報の処理に関連する実行情報を確定するプロセス400のフローチャートを示す。
【0082】
一例では、プロセス400は、図2に示すステップS204または図3に示すステップS304に対応することができる。
【0083】
図4に示すように、プロセス400は、ステップS402、S404、およびS406またはS408を含むことができる。
【0084】
ステップS402において、入力情報に基づいて入力情報の処理に関連する少なくとも1つのタスクを確定することができる。
【0085】
上記少なくとも1つのタスクの各タスクに対し、ステップS404において、実行情報に基づいて当該タスクを処理する必要があるかどうかを確定することができる。
【0086】
一例では、AIエージェントは、最初に、記憶情報を検索する必要があるかどうか、および/または該当タスクを処理するためにツール情報を呼び出す必要があるかどうかを思考することができる。このプロセスは、大規模言語モデルの基礎となる推論能力に基づいて実行され得る。
【0087】
いくつかの実施例において、実行情報に基づいて該当タスクを処理する必要があると確定したことに応答して、ステップS406において、該当タスクに対応する実行情報を確定することができる。このプロセスは、大規模言語モデルの基礎となる推論能力に基づいて実行され得る。
【0088】
一例では、AIエージェントは思考後、該当タスクに対応する実行情報が記憶情報、ツール情報、それとも記憶情報とツール情報の両方を含むかを確定することができる。AIエージェントが、実行情報がツール情報を含むと確定した場合、該当タスクを処理するためにどの適切なツール情報が必要とされるかをさらに確定することができる。
【0089】
このように、AIエージェントが複雑な問題に直面する場合(例えば、短時間で答えを得ることができない場合)、複雑な問題を分解して、一連のタスクまたはサブタスクによって該当複雑な問題を解決することができる。すなわち、AIエージェントは複雑な問題を分解する能力を持つことができる。また、AIエージェントは思考によってこの一連のタスクに適した実行情報を確定でき、これにより、この一連のタスクの処理を全面的に計画する。さらに、AIエージェントの知能化の度合いをさらに向上させることができる。
【0090】
いくつかの実施例では、実行情報に基づいて該当タスクを処理する必要がないと確定したことに応答して、ステップS408において 該当タスクを処理して得られる中間出力情報を生成することができる。このプロセスは、大規模言語モデルの基礎となる推論能力に基づいて実行され得る。
【0091】
一例では、中間出力情報は、ユーザに対するフィードバック(例えば、ユーザへの応答)を含むことができ、または外部環境へのフィードバック(外部環境に対するアクションまたは応答など)を含むことができる。なお、中間出力情報は、一連のタスクのうちのあるタスクに対するものであるため、「中間」出力情報と呼ばれ、図2に示すステップS208や、図3に示すステップS308の入力情報に対する出力情報と区別する。
【0092】
このように、AIエージェントは、あるタスクが付加的な実行情報を必要とすることなく処理可能であると確定した場合に、フィードバックのための中間出力情報を直接生成することができ、これにより、AIエージェントの計画能力と行動能力がより柔軟で一貫性を持つようになる。
【0093】
いくつかの実施例では、図3に示す方法300のステップS307において、上述少なくとも1つの処理結果情報が予め設定された基準に合致しないと確定した場合、方法300は、プロセス400のステップS402に進むことができ、それにより、入力情報の処理に関連する少なくとも1つのタスクを再確定する。
【0094】
このように、AIエージェントは、タスク分解をやり直すことにより、以前の一連のタスクで問題があったタスクを特定し、正しいタスクに戻り、間違った解決パスに入らないようにする。
【0095】
前述したように、本開示の実施例によるAIエージェントは、対応する記憶情報が保存されるように、記憶記憶能力を有することもできる。
【0096】
いくつかの実施例では、記憶情報は、作業記憶情報を含むことができる。作業記憶情報は、現在処理されているタスクに関連付けるように構成される。
【0097】
一例では、上述したように、AIエージェントは、一連のタスクによって複雑な問題を分解して解決することができる。あるタスクが現在処理されているとき、AIエージェントは、これらの「現在」と密接に関連する記憶を損なわずに保存し、現在のタスクを高品質に完成することを保証する必要がある。
【0098】
一例では、AIエージェントがユーザまたは外部環境と相互作用するときに行動ログを連続的に生成することができる。例えば、AIエージェントがユーザーの追加質問を受けたとき、前後一貫した論理的で円滑な回答を提供することができるように、ユーザーの前の質問と回答の具体的な詳細を明確に覚えておく必要がある。したがって、作業記憶情報は行動ログとして保存されることができる。
【0099】
そのため、作業記憶情報のメカニズムは、AIエージェントが現在のタスクを処理する際に必要とするリアルタイム記憶内容を確保することができ、AIエージェントが現在のタスクを処理することを保障する。
【0100】
いくつかの実施例では、作業記憶情報は上記少なくとも1つのタスクにおける各タスクの処理状態と関連付けるように構成される。
【0101】
一例では、AIエージェントは一連のタスクを実行するとき、どのタスクがすでに実行されているか、どのタスクが実行されていないかをはっきり覚えておく必要がある。これにより、すべての一連のタスクを完全に実行する。そのため、AIエージェントはタスクの処理状態に関連する記憶も保持する必要がある。
【0102】
そのため、作業記憶情報のメカニズムは、AIエージェントが複雑な問題を解決する一貫性と完全性を確保することもでき、AIエージェントが複雑な問題を解決することを保障する。
【0103】
いくつかの実施例では、記憶情報はイベント記憶情報を含むことができる。イベント記憶情報は履歴イベントに関連付けるように構成されることができる。
【0104】
一例では、イベント記憶情報は、一連の「イベント」に関連する作業記憶情報を抽象化することによってAIエージェントによって生成されてもよい(例えば、AIエージェントがいくつかの連続したタスクを完了した後、または、ユーザーと話題の議論を完了した後)。イベントには、原因、経過、および結果を含めることができる。したがって、イベント記憶情報は、AIエージェントがそのイベントに関連する作業記憶情報に対するダイジェストを含むことができる。
【0105】
一例では、イベント記憶情報は、ベクトルデータベースに長期間保存することができる。AIエージェントがある履歴イベントを思い出す必要があると考えると、メモリリトリーバ(Memory Retriever)を呼び出すことによって関連する履歴イベントを見つけてタスクの処理に用いることができる。たとえば、イベントはクエリーベクトルとしてエンコードでき、クエリベクトルとベクトルデータベース内のベクトルとの類似度を計算することによってクエリ時に、ユーザがクエリするイベントを取得することができる。
【0106】
そのため、イベント記憶情報のメカニズムは、AIエージェントがすでに処理したタスクの記憶を継続し、これにより、AIエージェントがそれに関する経験を形成できるようにし、知能化の度合いをさらに高める。
【0107】
いくつかの実施例では、記憶情報は、キャラクタ記憶情報を含むことができる。キャラクタ記憶情報は、生成された出力情報を該当シーンのスタイルに合わせるように、本開示の実施例の方法を適用するシーンと関連付けるように構成することができる。
【0108】
一例では、AIエージェントは、異なる応用シーンの下で異なる「ヒューマン設定」を有することができる。キャラクタ記憶情報は、AIエージェントの「自己」に対する認識を確定し、異なるシーンでのその行動やコミュニケーションの仕方に影響を与えることができる。例えば、電子商取引が推薦する応用シーンでは、AIエージェントのヒューマン設定は気前がよく、活発であることであり得る。感情付き添いの応用シーンの下で、AIエージェントのヒューマン設定は共感的で、優しいことであり得る。法律援助の応用シーンでは、AIエージェントのヒューマン設定は深刻で専門的であることであり得る。それに応じて、AIエージェントは、これらの異なる「ヒューマン設定」に基づいて、ユーザに返信する出力情報が現在のスタイルに合うように、ユーザに応答を与えることができる。
【0109】
そのため、キャラクタ記憶情報のメカニズムは、AIエージェントが異なる応用シーンに応じてその表現形式を調整できるだけでなく、ユーザーのニーズをよりよく満たすことができる。これにより、ユーザーとの深いつながりが確立される。
【0110】
いくつかの実施例では、記憶情報は、認知記憶情報を含むことができる。認知記憶情報は、生成された出力情報をユーザのユーザ画像に合わせるように、本開示の実施例の方法を適用するユーザに関連付けられるように構成することができる。
【0111】
この例では、蓄積されたイベントが十分多ければ、AIエージェントは、そこから環境やユーザに対する高度な認知を抽象化することができ、ひいてはAIエージェント特有の性格や感情を形成することもでき、認知記憶情報を形成する。例えば、AIエージェントがユーザと対話する過程で、複数のイベントがいずれもユーザがある話題に対して明らかに強い興味嗜好を持っていることを示した場合、AIエージェントはそこから独特なユーザ画像を抽出し、長期記憶を形成し、後続のインタラクションにおいて当該ユーザの興味と習慣をよりよく満たすことができ、それにより、ますますユーザーを「わかる」ようになってきた。
【0112】
そのため、認知記憶情報のメカニズムはAIエージェントが帰納と推論能力を十分に発揮するように促し、知能化の程度をさらに高めることができる。
【0113】
前述したように、本開示の実施例によるAIエージェントは、演算能力も有することができる。演算能力は、ツール情報の使用によって実現することができる。
【0114】
いくつかの実施例では、ツール情報は、プラグインツール、関数ツール、インタフェースツール、またはモデルツールのうちの少なくとも1つを含む。
【0115】
一例において、計算機はプラグインツールの一種であり、検索エンジンはインターフェースツールの一種であり、python言語は関数ツールの一種であり、大規模言語モデルは、モデルツールの一種であり得る。
【0116】
一例では、AIエージェント自体は、別のAIエージェントによって呼び出されるモデルツールとすることもできる。これにより、マルチエージェントが協調するトポロジーを形成して、集団知能を生成する。
【0117】
したがって、AIエージェントは、様々なタイプのツール情報の利用によって、演算能力を持つことができる。これにより、AIエージェントの知能化程度をさらに向上させる。
【0118】
いくつかの実施例では、ツール情報は、統一ツール記述仕様を含むことができる。
【0119】
一例では、ツール記述仕様は、開発者および保守者がツール情報の機能、使用方法、およびリターンフォーマットをどのように定義すべきかを規定している。
【0120】
さまざまな種類のツール情報について、統一されたツール記述仕様を合意することにより、呼び出しエラーまたは呼び出し失敗の問題の発生を避けることができ、これにより、AIエージェントの制御能力と演算能力との結合に、効率的で安定した通信を提供する。
【0121】
いくつかの実施例では、本開示の実施例の人工知能に基づく情報処理方法(図2に示す方法200または図3に示す方法300)は、大規模言語モデルの推論能力に基づいて実行することができる。
【0122】
一例では、ステップS204、S304において入力情報の処理に関連する実行情報を確定するステップ(すなわち、計画能力)、ステップS206、S306において実行情報を利用して、入力情報の処理に対応する少なくとも1つの処理結果情報を取得するステップ(すなわち、行動能力)、ステップS307において少なくとも1つの処理結果情報が予め設定された基準に合致するか否かを確定するステップ(すなわち、評価能力)、および、AIエージェントが、少なくとも1つの記憶情報検索結果および/または少なくとも1つのツール情報呼び出し結果が予想通りでないと確定した場合に、以前の、実行情報を利用したプロセスを修正して結果を新たに取得するステップ(すなわち、再考能力)は、大規模言語モデルの基礎となる推論に基づいて実現することができる。
【0123】
一例では、図4に示すプロセス400におけるステップS402、S404、S406は、大規模言語モデルの基礎となる推論に基づいて実行されてもよい。
【0124】
したがって、本開示の実施例によるAIエージェントは、人工知能に基づく情報処理方法を実行する際に、大規模言語モデルの言語理解および生成能力に基づいて、大規模言語モデルに内在する機械知能をさらに解放することができ、これにより、より複雑な意思決定を実現し、より複雑な問題を解決する。
【0125】
また、本開示の実施例は、上述した人工知能に基づく情報処理方法を実行するように構成されるAIエージェントを提供する。
【0126】
本発明の実施例によるAIエージェントのエージェントメカニズムは業界がAIエージェントに対して公認する能力の定義を全面的にカバーし、且つモジュール内部機能が高度に統一され、モジュール間の職責区分がはっきりしており、通信メカニズムは簡単で効果的である。
【0127】
また、本開示の実施例によるAIエージェントのエージェントメカニズムは具体的な応用シーンに依存して設計されるのではなく、様々な環境に適した汎用的なエージェントメカニズムであるため、応用シーンが広く、柔軟性が高く、高度なカスタマイズが可能である。
【0128】
同時に、本開示の実施例によるAIエージェントのエージェントメカニズムは、評価能力と再考能力を制御能力に組み込むことにより、AIエージェントの能力上限を向上させる。また、認知記憶の概念も同時に提示し、AIエージェントの帰納推論能力を十分に発揮する。
【0129】
図5は、本開示の実施例によるAIエージェント500の概略図を示す。
【0130】
本開示の実施例では、図5に示すように、現代のコンピュータ理論におけるフォン・ノイマン構造に啓発されて、AIエージェント500は、5つのコア・モジュールを含む:入力モジュール510、制御モジュール520、記憶モジュール530、演算モジュール540、出力モジュール550。
【0131】
入力モジュール510は、外部(例えば、ユーザまたは外部環境)からの問い合わせ、要求、命令、信号、またはデータなどの情報を受信または認識し、これらをAIエージェント500が理解および処理できるフォーマットに変換する。入力モジュール510はAIエージェント500が外界と対話する主要な環節であり、AIエージェント500が効率的に、正確に外界から必要な「感覚」情報を取得することを可能にし、これらの情報に応答する。
【0132】
一例では、入力モジュール510は、図2に示す方法200のステップS202、または図3に示す方法300のステップS302を実行することができる。
【0133】
制御モジュール520はAIエージェント500が複雑なタスクを処理する能力のコアサポートである。制御モジュール520の制御機能には、次の4つの方面がある。計画能力、行動能力、評価能力、再考能力。
【0134】
一例では、図2に示す方法200および図3に示す方法300を例にとると、計画能力は、ステップS204またはステップS304に対応することができる。行動能力は、ステップS206又はステップS306に対応することができる。評価能力は、ステップS307に対応することができる。再考能力は、方法300において、少なくとも一つの処理結果情報が予め設定された基準に合致していないと確定した場合、ステップS307からステップS306に戻り、入力情報の処理に対応する少なくとも一つの処理結果情報を実行情報を再利用して取得するステップに対応することができる。
【0135】
一例では、制御モジュール520は、動作中、記憶モジュール530、演算モジュール540、および/または出力モジュール550と継続的に対話する。しかしながら、本開示の実施例では、制御モジュール520は、記憶モジュール530、演算モジュール540、および/または出力モジュール550への通信を単一のイニシエータとして開始し、記憶モジュール530、演算モジュール540、出力モジュール550の間の通信結合はない。
【0136】
一例では、制御モジュール520の性能は、AIエージェント500が基づく大規模言語モデルに密接に関連している。大規模言語モデルの能力を最大限に引き出すために、制御モジュール520の内部構造は、高度に構成可能で、拡張可能に設計することができ、これにより、現実のシーンでさまざまな種類のタスクやニーズに対応する。
【0137】
メモリモジュール530は、履歴対話やイベントストリームなどの情報の記憶を担当することができる。前述したキャラクタ記憶情報、作業記憶情報、イベント記憶情報、認知記憶情報は、記憶モジュール530内に含まれることができる。
【0138】
一例では、AIエージェント500は入力情報を取得した後、該当入力情報の処理に関連する実行情報を確定することができる。実行情報が記憶情報を含む場合、AIエージェント500は、記憶モジュール530から関連する記憶情報を検索し、それを制御モジュール520にフィードバックすることができる。そして、制御モジュール520は、フィードバックしてきた記憶情報を用いて、入力情報の処理に対応する少なくとも1つの処理結果情報を取得し、該当少なくとも1つの処理結果情報を出力モジュール550に渡す。
【0139】
演算モジュール540は、予め定義されたツールライブラリと見なすことができる。前述のとおりプラグインツール、関数ツール、インターフェースツール、およびモデルツールは、演算モジュール540に含まれ得る。
【0140】
一例では、AIエージェント500がは実行情報がツール情報を含むと確定した場合、演算モジュール540から関連ツール情報を呼び出して制御モジュール520にフィードバックすることができる。そして、制御モジュール520は、フィードバックしてきたツール情報を用いて、入力情報の処理に対応する少なくとも1つの処理結果情報を取得し、該当少なくとも1つの処理結果情報を出力モジュール550に渡す。理解できるように、大規模言語モデルは優れた言語理解と生成能力を持っているが、人間と同じように何のツールも借りずに、解決できる任務は限られている。AIエージェント500にツール呼び出し能力が与えられると、計算機による数学演算、pythonによるデータ分析、検索エンジンによる天気予報のタスクを実現することができる。
【0141】
一例では、出力モジュール550は、図2に示す方法200におけるステップS208、または図3に示す方法300におけるステップS308を実行することができる。
【0142】
本開示の実施例によるAIエージェント500は、簡単かつ効果的に知能化程度を向上させ、柔軟性と汎用性を高めることができる。
【0143】
また、本開示の実施例は、人工知能に基づく情報処理装置をさらに提供する。
【0144】
図6は、本開示の一実施例による、人工知能に基づく情報処理装置600の構成を示すブロック図である。
【0145】
図6に示すように、装置600は、入力ユニット602と、計画ユニット604と、行動ユニット606と、出力ユニット608とを含む。
【0146】
入力ユニット602は、処理すべき入力情報を取得するように構成される。
【0147】
計画ユニット604は、入力情報の処理に関連する実行情報を確定するように構成される。実行情報は、検索すべき記憶情報または呼び出すべきツール情報のうちの少なくとも1つを含む。
【0148】
行動ユニットと606は、実行情報を利用して入力情報の処理に対応する少なくとも一つの処理結果情報を取得するように構成される。
【0149】
出力ユニット608は、少なくとも1つの処理結果情報を統合してフィードバックのための出力情報を生成するように構成される。
【0150】
入力ユニット602、計画ユニット604、行動ユニット606、出力ユニット608の動作は、それぞれ図2に示すステップS202、S204、S206、S208に対応することができる。したがって、ここでは、その各方面の詳細を繰り返さない。
【0151】
図7は、本開示の他の実施例による、人工知能に基づく情報処理装置700の構成を示すブロック図である。
【0152】
図7に示すように、装置700は、入力ユニット702、計画ユニット704、行動ユニット706、および出力ユニット708を含むことができる。入力ユニット702、計画ユニット704、行動ユニット706、出力ユニット708の動作は、図6に示す入力ユニット602、計画ユニット604、行動ユニット606、出力ユニット608と同じであってもよい。
【0153】
いくつかの実施例では、装置700は、少なくとも一つの処理結果情報が予め設定された基準に合致するか否かを確定するように構成される評価ユニット705と、少なくとも1つの処理結果情報が予め設定された基準に合致しないと確定したことに応答して、行動ユニット706に実行情報を再利用して入力情報の処理に対応する少なくとも一つの処理結果情報を取得するように指示するように構成される再考ユニット707とをさらに含むことができる。
【0154】
いくつかの実施例では、入力情報は、マルチモーダルであってもよい。入力ユニット702は、マルチモーダルの入力情報を統一された情報フォーマットに変換するように構成される変換ユニット7020を含むことができる。
【0155】
いくつかの実施例では、計画ユニット704は、入力情報に基づいて、入力情報の処理に関連する少なくとも1つのタスクを確定するように構成される分解ユニット7040と、少なくとも1つのタスクの各タスクに対して、実行情報に基づいてタスクを処理する必要があるかどうかを確定し、実行情報に基づいてタスクを処理する必要があると確定したことに応答して、タスクに対応する実行情報を確定するように構成される思考ユニット7042とを含むことができる。
【0156】
いくつかの実施例では、思考ユニット7042はさらに、実行情報に基づいてタスクを処理する必要がないと確定したことに応答して、タスクを処理して得られた中間出力情報を生成するように構成されることができる。
【0157】
いくつかの実施例では、再考ユニット707は、さらに、少なくとも1つの処理結果情報が予め設定された基準に合致しないと確定したことに応答して、分解ユニット7040に、改めて入力情報に基づいて入力情報の処理に関連する少なくとも1つのタスクを確定するように指示するように構成されることができる。
【0158】
いくつかの実施例では、記憶情報は、作業記憶情報を含むことができ、作業記憶情報は現在処理されているタスクと関連付けられるように構成される。
【0159】
いくつかの実施例では、作業記憶情報はさらに、少なくとも1つのタスクにおける各タスクの処理状態に関連付けられるように構成される。
【0160】
いくつかの実施例では、記憶情報はイベント記憶情報を含むことができ、イベント記憶情報は履歴イベントに関連付けるように構成される。
【0161】
いくつかの実施例では、記憶情報はキャラクタ記憶情報を含むことができ、キャラクタ記憶情報は装置700を適用するシーンと関連付けられるように構成され、生成された出力情報をシーンにおけるスタイルに合わせる。
【0162】
いくつかの実施例では、記憶情報は認知記憶情報を含むことができ、認知記憶情報は、装置700を適用するユーザと関連付けられるように構成され、生成された出力情報をユーザのユーザ画像に合わせる。
【0163】
いくつかの実施例では、ツール情報は、プラグインツール、関数ツール、インタフェースツール、またはモデルツールのうちの少なくとも1つを含む。
【0164】
いくつかの実施例では、ツール情報は、統一したツール記述仕様を含む。
【0165】
いくつかの実施例では、装置700は、大規模言語モデルの推論能力に基づいて実行される。
【0166】
本開示の実施例によれば、電子機器をさらに提供し、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されるメモリとを含み、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサにより実行されて、前記少なくとも1つのプロセッサが上述の方法を実行することを可能にする。
【0167】
本開示の実施例によれば、コンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体をさらに提供し、コンピュータ命令は、コンピュータに上述の方法を実行させるために用いられる。
【0168】
本開示の実施例によれば、コンピュータプログラムを含むコンピュータプログラム製品をさらに提供し、コンピュータプログラムは、プロセッサによって実行されると、上述の方法を実現する。
【0169】
次に、図8を参照して、本開示のサーバまたはクライアントとして機能することができる電子機器800の構成ブロック図について説明し、それは、本開示の各態様に適用可能なハードウェア装置の一例である。電子機器は、様々な形態のデジタル電子コンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、インテリジェントフォン、ウェアラブル機器とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限しない。
【0170】
図8に示すように、電子機器800は、読取り専用メモリ(ROM)802に記憶されたコンピュータプログラム、または記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに従って、様々な適切な動作および処理を実行することができる計算ユニット801を含む。また、RAM803には、電子機器800の動作に必要な各種プログラムやデータが記憶されていてもよい。計算ユニット801、ROM802、RAM803は、バス804を介して互いに接続されている。入力/出力(I/O)インタフェース805もバス804に接続されている。
【0171】
電子機器800における、入力ユニット806、出力ユニット807、記憶ユニット808、通信ユニット809を含む複数のコンポーネントは、I/Oインタフェース805に接続される。入力ユニット806は、電子機器800に情報を入力可能な任意のタイプのデバイスであってもよく、入力ユニット806は、入力された数字または文字情報を受信し、電子機器のユーザ設定および/または機能制御に関するキー信号入力を生成してもよく、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク、および/またはリモコンを含むがこれらに限定されない。出力ユニット807は、情報を提示することが可能な任意のタイプの機器であってもよく、ディスプレイ、スピーカ、動画/音声出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット808は、磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット809は、電子機器800がインターネット等のコンピュータネットワーク及び/又は各種の電気通信ネットワークを介して他の機器と情報/データを交換することを可能にし、また、モデム、ネットワークカード、赤外線通信装置、無線通信トランシーバ、および/またはチップセット(例えば、Bluetooth装置、802.11装置、WiFi装置、WiMax装置、セルラ通信装置、および/または同様のもの)を含むことができるが、これらに限定されない。
【0172】
計算ユニット801は、処理および計算能力を有する様々な汎用および/または専用処理コンポーネントであってもよい。計算ユニット801のいくつかの例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット801は、上述した様々な方法、過程、および/または処理を実行する。例えば、いくつかの実施例では、この方法は、記憶ユニット808などの機械可読媒体内に有形的に具現化されるコンピュータソフトウェアプログラムとして実装することができる。いくつかの実施例において、コンピュータプログラムの一部の又は全てはROM802及び/又は通信ユニット809を経由して電子機器800にロード及び/又はインストールされてよい。コンピュータプログラムがRAM803にロードされ、計算ユニット801によって実行されると、上述した方法の1つ以上のステップを実行することができる。代替的に、他の実施例では、計算ユニット801は、他の任意の適切な方法で(例えば、ファームウェアによって)上述した方法を実行するように構成されてもよい。
【0173】
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、一つ以上のコンピュータプログラムに実施され、該一つ以上のコンピュータプログラムは少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び/又は解釈してもよく、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、少なくとも一つの出力装置からデータと命令を受信し、データと命令を該記憶システム、該少なくとも一つの入力装置、該少なくとも一つの出力装置に送信してよいこと、を含んでもよい。
【0174】
本開示の方法を実施するプログラムコードは一つ以上のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時に流れ図及び/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
【0175】
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、一つ以上のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記内容のいかなる適切な組み合わせを含む。
【0176】
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザは該キーボードと該ポインティング装置を介してコンピュータに入力してよい。その他のタイプの装置は更に、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
【0177】
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータであり、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)、インターネットとブロックチェーンネットワークを含む。
【0178】
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント側-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。
【0179】
理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよく、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
【0180】
本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と開示などの処理は、すべて関連法律法規の規定に適合し、公序良俗に反しない。
【0181】
本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本発明の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。
図1
図2
図3
図4
図5
図6
図7
図8
【外国語明細書】