(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-08-06
(45)【発行日】2024-08-15
(54)【発明の名称】情報処理方法、プログラム及び情報処理システム
(51)【国際特許分類】
G06Q 50/10 20120101AFI20240807BHJP
【FI】
G06Q50/10
(21)【出願番号】P 2023147988
(22)【出願日】2023-09-12
【審査請求日】2024-03-12
【早期審査対象出願】
(73)【特許権者】
【識別番号】517255566
【氏名又は名称】株式会社エクサウィザーズ
(72)【発明者】
【氏名】渡辺 孝信
(72)【発明者】
【氏名】ジアゼン チャイ
【審査官】山口 大志
(56)【参考文献】
【文献】国際公開第2023/166747(WO,A1)
【文献】特開2017-049975(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
情報処理装置が実行する情報処理方法であって、
前記情報処理装置の表示部に表示される画像を取得する画像取得ステップと、
前記情報処理装置の表示部に表示される第1テキストを取得するテキスト取得ステップと、
前記画像取得ステップで取得した画像から第2テキストを抽出する抽出ステップと、
前記第1テキストに基づいて前記第2テキストを調整する調整ステップと、
前記調整ステップで調整した調整後テキストを出力する出力ステップと、
を含む情報処理方法。
【請求項2】
前記画像取得ステップで取得した画像の大きさ、および表示部における位置、領域、占有率に応じて優先度を判定する判定ステップをさらに含み、
前記抽出ステップでは、前記判定ステップで優先度の高い画像であると判定された画像
から前記第2テキストを抽出する
請求項1に記載の情報処理方法。
【請求項3】
前記画像取得ステップで取得した画像が広告か否かを判定する広告判定ステップをさらに含み、
前記広告判定ステップで前記画像が広告でないと判定された場合に、前記判定ステップにて前記画像の優先度を判定する
請求項2に記載の情報処理方法。
【請求項4】
情報処理装置に、
前記情報処理装置の表示部に表示される画像を取得する画像取得ステップと、
前記情報処理装置の表示部に表示される第1テキストを取得するテキスト取得ステップと、
前記画像取得ステップで取得した画像から第2テキストを抽出する抽出ステップと、
前記第1テキストに基づいて前記第2テキストを調整する調整ステップと、
前記調整ステップで調整した調整後テキストを出力する出力ステップと、を含む情報処理方法を実行させるためのプログラム。
【請求項5】
情報処理装置が実行する情報処理システムであって、
前記情報処理装置の表示部に表示される画像を取得する画像取得
部と、
前記情報処理装置の表示部に表示される第1テキストを取得するテキスト取得
部と、
前記画像取得
部で取得した画像から第2テキストを抽出する抽出
部と、
前記第1テキストに基づいて前記第2テキストを調整する調整
部と、
前記調整
部で調整した調整後テキストを出力する出力
装置と、
を
有する情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理方法、プログラム及び情報処理システムに関する。
【背景技術】
【0002】
引用文献1には、Webページを巡回して得られた情報を内容に応じて自動的に整理分類を行うことを可能にした情報収集装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記先行技術の場合、ウェブサイトに記載の文章を解析することが開示されているが、ウェブサイトに掲載されている画像についての解析がなされていない。
【0005】
本発明は、上記事実を考慮し、ウェブサイトから企業の商品・サービス、企業の持つ文化、価値観等の企業情報を分析できる報処理方法、プログラム及び情報処理システムを得ることを目的とする。
【課題を解決するための手段】
【0006】
一実施形態に係る情報処理方法によれば、情報処理装置が実行する情報処理方法であって、前記情報処理装置の表示部に表示される画像を取得する画像取得ステップと、前記情報処理装置の表示部に表示される第1テキストを取得するテキスト取得ステップと、前記画像取得ステップで取得した画像から第2テキストを抽出する抽出ステップと、前記第1テキストに基づいて前記第2テキストを調整する調整ステップと、前記調整ステップで調整した調整後テキストを出力する出力ステップと、を含む。
【0007】
一実施形態に係るプログラムによれば、情報処理装置に、前記情報処理装置の表示部に表示される画像を取得する画像取得ステップと、前記情報処理装置の表示部に表示される第1テキストを取得するテキスト取得ステップと、前記画像取得ステップで取得した画像から第2テキストを抽出する抽出ステップと、前記第1テキストに基づいて前記第2テキストを調整する調整ステップと、前記調整ステップで調整した調整後テキストを出力する出力ステップと、を含む情報処理方法を実行させる。
【0008】
一実施形態に係る情報処理システムによれば、前記情報処理装置の表示部に表示される画像を取得する画像取得部と、前記情報処理装置の表示部に表示される第1テキストを取得するテキスト取得部と、前記画像取得部で取得した画像から第2テキストを抽出する抽出部と、前記第1テキストに基づいて前記第2テキストを調整する調整部と、前記調整部で調整した調整後テキストを出力する出力装置と、を有する。
【発明の効果】
【0009】
一実施形態によれば、ウェブサイトから企業の商品・サービス、企業の持つ文化、価値観等の企業情報を分析することができる。
【図面の簡単な説明】
【0010】
【
図1】実施形態に係る情報処理システムの構成の一例を示す図である。
【
図2】実施形態に係るサーバのハードウェア構成の一例を示す図である。
【
図3】実施形態に係る利用者端末のハードウェア構成の一例を示す図である。
【
図4】実施形態に係るサーバの機能構成の一例を示す図である。
【
図5】実施形態に係る利用者端末の機能構成の一例を示す図である。
【
図6】実施形態に係るウェブサイト画面の一例を示す図である。
【
図7】実施形態に係る情報処理システムが実行する処理の一例を示すフローチャートである。
【
図8】実施形態に係る広告が含まれる場合のウェブサイト画面の一例を示す図である。
【
図9】実施形態に係る情報処理システムが実行する処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、
図1~
図5を用いて、本発明に係る情報処理システムの一実施形態について説明する。なお、各図において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0012】
(システム概要)
まず、本実施形態に係る情報処理システム10の概要について説明する。本実施形態に係る情報処理システム10は、ウェブサイトから企業の注力商品・サービスを出力するためのシステムである。本実施形態では、情報処理システム10は、入力された文字列から対象の企業のウェブサイトを検索し、当該ウェブサイトに掲載されている画像およびテキスト(文字列)を解析して検索した企業の注力商品・サービスを出力するためのシステムである。
【0013】
(システム構成)
図1は、本実施形態に係る情報処理システム10の構成の一例を示す図である。
図1に示すように、本実施形態に係る情報処理システム10は、ネットワークNを介して相互に通信可能に接続された、利用者端末2と、サーバ1と、を備える。ネットワークNは、例えば、有線LAN(Local Area Network)、無線LAN、インターネット、公衆回線網、モバイルデータ通信網、又はこれらの組み合わせである。
【0014】
利用者端末2は、各種情報の入力及び表示のための操作を行う情報処理装置の一例である。利用者端末2は、PC(Personal Computer)、スマートフォン、タブレット端末、サーバ装置、マイクロコンピュータ、ウェアラブルデバイス、又はこれらの組み合わせであってもよい。
【0015】
サーバ1は、利用者端末2から入力された入力文の情報を取得し、当該入力文情報を基にウェブ等から解析対象の企業のウェブサイトを検索し、当該企業のウェブサイトを解析して注力する商品・サービス等の結果を出力する情報処理装置の一例である。サーバ1は、PC(Personal Computer)、スマートフォン、タブレット端末、サーバ装置、マイクロコンピュータ、又はこれらの組み合わせであってもよい。サーバ1の具体的な構成及び作用については、後述する。
【0016】
(ハードウェア構成-サーバ)
図2は、サーバ1のハードウェア構成を示すブロック図である。サーバ1は、バスBを介して相互に通信可能に接続された、プロセッサ201と、メモリ202と、ストレージ203と、通信I/F204と、を備える。
【0017】
プロセッサ201は、ストレージ203に記憶された各種プログラムをメモリ202に展開して実行することにより、サーバ1の各構成を制御し、サーバ1の機能を実現する。プロセッサ201が実行するプログラムは、OS(Operating System)及び後述する各種プログラムを含むが、これに限られない。プロセッサ201がこれらプログラムを実行することにより、本実施形態に係る状態可視化方法の一部が実現される。プロセッサ201は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、又はこれらの組み合わせである。
【0018】
メモリ202は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、又はこれらの組み合わせである。ROMは、例えば、PROM(Programmable ROM)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、又はこれらの組み合わせである。RAMは、例えば、DRAM(Dynamic RAM)、SRAM(Static RAM)、MRAM(Magnetoresistive RAM)、又はこれらの組み合わせである。
【0019】
ストレージ203は、OS、後述する各種プログラム、及び各種のデータを記憶する。ストレージ203は、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、SCM(Storage Class Memories)、又はこれらの組み合わせである。
【0020】
通信I/F204は、サーバ1を、ネットワークNを介して、利用者端末2および撮影装置16を含む外部装置に接続し、通信を制御するためのインタフェースである。通信I/F204は、例えば、Bluetooth(登録商標)、Wi-Fi(登録商標)、ZigBee(登録商標)、Ethernet(登録商標)、又は光通信(例えば、Fibre Channel)に準拠したアダプタであるが、これに限られない。
【0021】
(ハードウェア構成-利用者端末)
図3は、利用者端末2のハードウェア構成を示すブロック図である。利用者端末2は、バスBを介して相互に通信可能に接続された、プロセッサ201と、メモリ202と、ストレージ203と、通信I/F204と、入出力I/F205と、入力装置206と、出力装置207と、を備える。通信I/F204は、利用者端末2を、ネットワークNを介して、サーバ1を含む外部装置に接続し、通信を制御するためのインタフェースである。通信I/F204は、例えば、Bluetooth(登録商標)、Wi-Fi(登録商標)、ZigBee(登録商標)、Ethernet(登録商標)、又は光通信(例えば、Fibre Channel)に準拠したアダプタであるが、これに限られない。
【0022】
入出力I/F205は、利用者端末2に入力装置206及び出力装置207を接続するためのインタフェースである。入力装置206は、例えば、マウス、キーボード、タッチパネル、マイク、スキャナ、カメラ、各種センサ、操作ボタン、又はこれらの組み合わせである。ユーザインタフェースとしての出力装置207は、例えば、ディスプレイ、プロジェクタ、プリンタ、スピーカ、バイブレータ、又はこれらの組み合わせである。本実施形態では、一例として出力装置207と入力装置206とは、一体的に構成されたタッチパネルディスプレイとされている。
【0023】
なお、本実施形態において、プログラムは、サーバ1の製造段階でメモリ202又はストレージ203に書き込まれてもよく、ネットワークNを介してサーバ1に提供されてもよい。また、図示しないディスクメディアなどの非一時的でコンピュータ読み取り可能な記録媒体を介してサーバ1に提供されてもよい。
【0024】
(機能構成-サーバ)
次に、サーバ1の機能構成について説明する。
図4は、サーバ1の機能構成の一例を示す図である。各種プログラムを実行する際に、サーバ1は上記のハードウェア資源を用いて、各種の機能を実現する。サーバ1は、サーバ1が実現する機能構成として、通信部11と、記憶部12と、制御部13と、を有している。各機能構成は、プロセッサ101がメモリ102又はストレージ103に記憶されたプログラム121を読み出し、実行することで実現される。
【0025】
制御部13は、ウェブサイトに掲載されている画像を取得する画像取得部131と、ウェブサイトに記載のテキストを取得するテキスト取得部132とを含む。さらに制御部13は、画像取得部131で取得した画像からテキストを抽出する抽出部133と、抽出部133で抽出したテキストを調整する調整部134と、画像取得部131で取得した画像の大きさを判定する判定部135とを含む。これらの詳細については後述する。
【0026】
(機能構成-利用者端末)
次に、利用者端末2の機能構成について説明する。
図5は、利用者端末2の機能構成の一例を示す図である。各種プログラムを実行する際に、利用者端末2は上記のハードウェア資源を用いて、各種の機能を実現する。利用者端末2は、利用者端末2が実現する機能構成として、通信部21と、プログラム221が記憶された記憶部22と、制御部23と、を有している。各機能構成は、プロセッサ201がメモリ202又はストレージ203に記憶されたプログラム221を読み出し、実行することで実現される。制御部23は、サーバ1から送られる情報を取得する情報取得制御部231と、取得した情報を出力装置207にて表示する表示部232とを含む。
【0027】
図6は、利用者端末2にて表示される企業のウェブサイトの画面の一例を示す概略図である。
図7は、情報処理システム10が実行する処理に関する図である。
【0028】
ウェブサイトの画面は、ウェブサイトに記載されているテキストT1~T3と、掲載されている画像IM1~IM3と、を含む。テキストT1~T3は、会社名であったり、商品名またはサービス名といったブランドに関する情報であったり、それらの説明するためのテキストを含む。画像IM1~IM3は、それぞれ商品の画像であったり、サービスのイメージ画像であったり、テキストが含まれる画像である。
【0029】
図7のフローチャートを用いて、情報処理システム10が実行する処理について説明する。まず、ユーザが入力装置206で入力した文字列を元にサーバ1の制御部13で企業を特定し、ステップS101で、画像取得部131は、特定した企業のウェブサイトから画像を取得する(画像取得ステップ)。具体的には、画像取得部131は、
図6の画像IM1~IM3を取得する。次に、ステップS102で、テキスト取得部132は、ウェブサイトに記載されたテキスト(第1テキスト)を取得する(テキスト取得ステップ)。具体的には、テキスト取得部132は、
図6のテキストT1~T3を取得する。
【0030】
次に、ステップS103で、判定部135は、ステップS101で取得した画像IM1~IM3の優先度を判定する(判定ステップ)。具体的には、判定部135は、画像の大きさ、位置、領域、占有率等に応じて優先度を判定する。
図6の例における画像の大きさは、それぞれ画像IM1>IM2>IM3となっている。さらに、画像IM1は、ウェブサイトの上部で目立つ位置に掲載されている。このことから、判定部135は、画像IM1の優先度が高いと判定する。なお、本実施形態ではウェブサイトに複数の画像が含まれる場合について説明するが、例えば、画像が1枚である場合は、ステップS103を省略してもよい。
【0031】
次に、ステップS104で、抽出部133は、ステップS103で判定した優先度を元に優先度の高い画像からテキスト(第2テキスト)を抽出する(抽出ステップ)。本実施形態において、抽出部133は、ステップS103で判定部135が、優先度が高いと判定した画像IM1からテキストを抽出する。この時抽出したテキストは、一般用語であって、企業の実際の商品・サービス名とは異なる名称となる。例えば、自動車メーカーであれば、自動車の画像を載せているが、抽出部133は、画像から自動車という一般用語を抽出するのであって、当該企業の製品の名称とは異なる。また、本実施形態において抽出部133は、例えば、CLIP(Contrastive Language-Image Pre-training)モデルを用いて画像からテキストを抽出する。しかしながら、これに限定せず、別の方法を用いて画像からテキストを抽出してもよい。
【0032】
次に、ステップS105で、調整部134は、ステップS104で抽出したテキストを調整する(調整ステップ)。具体的には、調整部134は、ステップS102で取得したウェブサイトに記載されたテキストに基づいてウェブサイトに合わせたテキストに調整する、いわゆるファインチューニングを行う。つまり、上記の通り、テップS104で抽出したテキストはあくまで一般用語のテキストである。そのため、画像からテキストを抽出しただけでは、企業が注力する商品・サービスをするのは難しい。そのため、ウェブサイトに記載のテキストに基づいてファインチューニングする必要がある。そして、ステップS106で、調整部134は、ステップS105で調整したテキスト(調整後テキスト)を出力する(出力ステップ)。
【0033】
ここで、ステップS105で用いるファインチューニング方法の一例を挙げる。本実施形態では、基盤モデルとして、例えば、VLM(Vision Language Model:視覚言語モデル)を使用する。つまり、VLMは、CLIPベースのVison EncoderとLLM(Large Language Models:大規模言語モデル)を組み合わせることにより、LLMが視覚情報を解釈できるようにする。具体的には、画像埋め込み(Embedding)をテキスト埋め込み(Embedding)空間に線形射影する。そして、基盤モデルに対するファインチューニング手法として、本実施形態では、PEFT(Parameter Efficient Fine Tuning)を用いる。LoRA(Low-Rank Adaption)を含めたPEFTにより、事前トレーニング済みのLLMのパラメータを凍結することにより、効率的にファインチューニングすることができる。このようなファインチューニングにより、例えば、対象企業が自動車会社である場合、当該自動車会社のウェブサイトから車画像と車情報を学習することにより、対象企業の情報の推論時に対象とする画像に対して車種名、車種に関する情報を取得することができる。
【0034】
以上により、ウェブサイトから企業が注力する商品・サービスが明確に分かる。つまり、企業のウェブサイトでは、注力している商品・サービスについては、大きい画像を使用したり、目立つ位置に画像を掲載したりしている。そのため、そのような画像からテキストを抽出することで何に注力しているか分かり、かつウェブサイト上のテキストに基づいてファインチューニングすることで、具体的な商品・サービスが明確に分かるようになる。
【0035】
また、本実施形態では、企業のウェブサイトから企業が注力する商品・サービスを分析したが、企業ウェブサイトには、商品・サービスの情報のみならず、企業の経営理念やミッション、価値観等の情報も掲載されている。この場合は、例えば、ステップS102の後に、ステップS102で取得したテキストについて、商品・サービスに関するテキストなのか、企業の経営理念やミッション、価値観に関するテキストなのかを判断する処理を挿入する。これにより、ステップS105でファインチューニングして、ステップS106で出力する際に、商品・サービスなのか、企業の経営理念やミッション、価値観なのかに応じて出力が可能となる。なお、ステップS102で取得したテキストについて、商品・サービスに関するテキストなのか、企業の経営理念やミッション、価値観に関するテキストなのかを判断する処理を挿入する場所は適宜変更してもよい。この処理を加えることで、企業の持っている文化、価値観なども把握することが可能となる。
【0036】
次に、
図8は、利用者端末2にて表示される企業のウェブサイトの、広告が含まれる場合の画面の一例を示す概略図である。
図9は、ウェブサイトに広告が含まれる場合の情報処理システム10が実行する処理に関する図である。
【0037】
図8に示すように、企業のウェブサイトには広告が含まれる場合がある。この場合、ステップS102とステップS103の間で、ステップS107が挿入され、ステップS107では、判定部135は、ウェブサイトに広告が含まれるか否かを判定する(広告判定ステップ)。ウェブサイトに広告が含まれる場合(YES)、ステップS108で、判定部135は、広告画像を除いて、ステップS103に進む。一方、広告画像が含まれない場合(NO)、ステップS103に進み、以降の処理は、
図7に示す処理と同様である。
【0038】
本実施形態によれば、企業のウェブサイトに掲載された画像(広告を除く)から抽出したテキストを、当該ウェブサイトに記載のテキストに基づいてファインチューニングすることで、企業がどういた商品・サービスに注力しているかが分かる。また、商品・サービスの情報のみならず、企業の経営理念やミッション、価値観等の情報が掲載されている場合でも、上記のように商品・サービスに関するテキストなのか、企業の経営理念やミッション、価値観に関するテキストなのかを判断する処理を挿入する。これにより、競合調査であったり、マーケット調査であったりといった調査等に利用することができる。
【0039】
以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
【0040】
また例えば、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。換言すると、機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に限定されない。また、機能ブロックの存在場所も、特に限定されず、任意でよい。例えば、サーバの機能ブロックを利用者端末等に移譲させてもよい。逆に利用者端末の機能ブロックをサーバ等に移譲させてもよい。また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
【0041】
また例えば、一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。
【0042】
また例えば、このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図示せぬリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。
【0043】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
【符号の説明】
【0044】
10情報処理システム
2利用者端末(情報処理装置)
1サーバ(情報処理装置)
131画像取得部
132テキスト取得部
133抽出部
134調整部
【要約】 (修正有)
【課題】ウェブサイトから企業の注力商品・サービスを分析する情報処理システム、方法及びプログラムを提供する。
【解決手段】ネットワークを介して相互に通信可能に接続された利用者端末とサーバとを備える情報処理システムにおいて、サーバによる情報処理方法は、画像取得部が、利用者端末の表示部に表示される画像を取得する画像取得ステップと、テキスト取得部が、利用者端末の表示部に表示される第1テキストを取得するテキスト取得ステップと、抽出部が、取得した画像から第2テキストを抽出する抽出ステップと、調整部が、第1テキストに基づいて第2テキストを調整する調整ステップと、調整部が、調整ステップで調整した調整後テキストを出力する出力ステップと、を含む。
【選択図】
図7