IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ Lazuli株式会社の特許一覧

特開2023-14409商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム
<>
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図1
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図2
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図3
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図4
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図5
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図6
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図7
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図8
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図9
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図10
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図11
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図12
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図13
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図14
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図15
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図16
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図17
  • 特開-商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023014409
(43)【公開日】2023-01-27
(54)【発明の名称】商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラム
(51)【国際特許分類】
   G06F 16/9035 20190101AFI20230119BHJP
   G06Q 30/02 20230101ALI20230119BHJP
   G06Q 50/10 20120101ALI20230119BHJP
【FI】
G06F16/9035
G06Q30/02
G06Q50/10
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2021117730
(22)【出願日】2021-07-16
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 2020年11月5日 ウェブサイト 「https://prtimes.jp/main/html/rd/p/000000001.000068652.html」、 (公開事実No.1) 「https://jp.techcrunch.com/2020/11/05/lazuli/」 (公開事実No.2)及び 「https://ledge.ai/lazuli-yutaka-matsuo/」 (公開事実No.3)における公開 [刊行物等] 2020年11月6日 ウェブサイト 「https://sogyotecho.jp/news/20201106lazuli/」 (公開事実No.4)及び 「https://startuplog.com/n/n9bc9dab96db3」 (公開事実No.5)における公開 [刊行物等] 2020年11月11日 ウェブサイト 「https://www.fastgrow.jp/articles/funding-201108」 (公開事実No.6)における公開 [刊行物等] 2020年11月5日 ウェブサイト 「https://signal.diamond.jp/articles/-/376」 (公開事実No.7)及び 「https://thebridge.jp/2020/11/lazuli-seed-round-funding」 (公開事実No.9)における公開 [刊行物等] 2020年11月6日 ウェブサイト 「https://ascii.jp/elem/000/004/033/4033261/」 (公開事実No.8)及び 「https://weekly.ascii.jp/elem/000/004/033/4033261/」 (公開事実No.10)における公開
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り [刊行物等] 2021年3月4日 グローバルビジネスハブ東京において、添付資料に基づく記者発表による公開 (公開事実No.11) [刊行物等] 2021年3月4日 ウェブサイト 「https://prtimes.jp/main/html/rd/p/000000005.000068652.html」 (公開事実No.12)、 「https://lazuli.ninja/news/2021/210304_PR_Lazuli_Solution_final.pdf」 (公開事実No.13)及び 「https://japan.cnet.com/release/30525919/」 (公開事実No.17)における公開 [刊行物等] 2021年3月5日 ウェブサイト 「https://japan.techrepublic.com/article/35167358.htm」 (公開事実No.14)、 「https://news.mynavi.jp/article/20210305-1776378/」 (公開事実No.15)、及び 「https://online.logi-biz.com/37831/」 (公開事実No.16)における公開 [刊行物等] 2021年3月23日 ウェブサイト 「https://dcross.impress.co.jp/docs/news/002227.html」 (公開事実No.18)における公開
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り [刊行物等] 2020年12月3日 ウェブサイト 「https://prtimes.jp/main/html/rd/p/000000002.000068652.html」 (公開事実No.19)における公開 [刊行物等] 2020年12月23日 ウェブサイト 「https://prtimes.jp/main/html/rd/p/000000003.000068652.html」 (公開事実No.20)における公開 [刊行物等] 2021年1月26日 ウェブサイト 「https://prtimes.jp/main/html/rd/p/000000004.000068652.html」 (公開事実No.21)における公開 [刊行物等] 2021年3月9日 ウェブサイト 「https://service.lazuli.ninja/」 (公開事実No.22)における公開 [刊行物等] 2021年6月8日 ウェブサイト 「https://lazuli.ninja/news/2021/210608_PR_Lazuli_PDP_for_Pharma.pdf」 (公開事実No.23)における公開 [刊行物等] 2021年6月8日 ウェブサイト 「https://prtimes.jp/main/html/rd/p/000000008.000068652.html」 (公開事実No.24)における公開
(71)【出願人】
【識別番号】521181954
【氏名又は名称】Lazuli株式会社
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【弁理士】
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【弁理士】
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100222612
【弁理士】
【氏名又は名称】山本 飛翔
(74)【代理人】
【識別番号】100210239
【弁理士】
【氏名又は名称】富永 真太郎
(72)【発明者】
【氏名】萩原 静厳
【テーマコード(参考)】
5B175
5L049
【Fターム(参考)】
5B175FA03
5B175HA01
5B175JB02
5L049BB01
5L049CC11
(57)【要約】
【課題】商品情報の伝達及びデータ整備の手間や時間を省くことができ、及び/又は、商品情報又は付加情報により、需要予測などのマーケティング分析、商品開発、又は商品のレコメンドに必要な商品に係る情報を提供する。
【解決手段】商品名寄せシステム1は、複数の商品データを取得する商品データ取得部20と、複数の商品データを解析し、同一商品に係る複数の商品データを特定する同一商品判定部30と、複数の商品データを解析し、当該商品データに含まれる商品情報を当該商品情報のカテゴリ毎に分類し、各商品について、同一商品に係る複数の商品データに含まれる商品情報を当該商品情報のカテゴリ毎に統合して名寄せ商品マスタを生成する統合生成部40と、商品データに含まれる商品の特徴を示すデータから商品の特徴/評価情報を生成する特徴/評価情報生成部50と、同一商品に係る特徴/評価情報を含む付加情報を当該同一商品に関連付ける情報付加部70と、を備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
複数の商品データを取得する商品データ取得部と、
前記複数の商品データを解析し、同一商品に係る前記複数の商品データを特定する同一商品判定部と、
前記複数の商品データを解析し、当該商品データに含まれる商品情報を当該商品情報のカテゴリ毎に分類し、各前記商品について、前記同一商品に係る前記複数の商品データに含まれる商品情報を当該商品情報のカテゴリ毎に統合して名寄せ商品マスタを生成する統合生成部と、
前記商品データに含まれる商品の特徴を示すデータから前記商品の特徴/評価情報を生成する特徴/評価情報生成部と、
前記同一商品に係る前記特徴/評価情報を含む付加情報を当該同一商品に関連付ける情報付加部と、
を備えた、
商品名寄せシステム。
【請求項2】
前記特徴/評価情報生成部は、
前記商品データに含まれる商品の特徴を示すテキストデータから当該商品の特徴を示す単語を特定する特定部と、
前記単語に関連付けて前記特徴/評価情報を生成する生成部と、
を有する、
請求項1に記載の商品名寄せシステム。
【請求項3】
前記特徴/評価情報生成部は、
前記単語に対応する前記商品情報のカテゴリを推定するカテゴリ推定部を有し、
前記生成部は、前記単語及び前記カテゴリに関連付けて前記特徴/評価情報を生成する、
請求項2に記載の商品名寄せシステム。
【請求項4】
前記特徴/評価情報は、前記商品の印象、雰囲気、テイスト、質感、品質、及び用途の少なくとも1つ以上の前記商品情報のカテゴリに含まれる情報である、
請求項3に記載の商品名寄せシステム。
【請求項5】
前記特徴/評価情報に基づいて、前記商品間の関係性を示す商品グラフを生成する商品グラフ生成部を備え、
前記付加情報は、前記商品グラフ又は前記商品グラフを生成するためのグラフベクトル情報を含む、
請求項1~4のいずれか1項に記載の商品名寄せシステム。
【請求項6】
前記商品グラフ生成部は、同一商品カテゴリの前記商品グラフを生成する、
請求項5に記載の商品名寄せシステム。
【請求項7】
前記商品グラフ生成部は、複数の商品カテゴリ間の前記商品グラフを生成する、
請求項5又は6に記載の商品名寄せシステム。
【請求項8】
前記商品グラフ生成部は、
前記特徴/評価情報に基づくベクトル情報を算出するベクトル情報算出部と、
前記ベクトル情報に基づいて、前記商品間の距離を算出する距離算出部と、
を有する、
請求項5~7のいずれか1項に記載の商品名寄せシステム。
【請求項9】
前記複数の商品データのいずれかの商品データは、商品名、スペック情報、前記商品の物流情報、取引情報、顧客情報、及び購買情報の少なくとも1つを含む、
請求項1~8のいずれか1項に記載の商品名寄せシステム。
【請求項10】
前記複数の商品データは、異なる二以上の組織の商品データを含む、
請求項1~9のいずれか1項に記載の商品名寄せシステム。
【請求項11】
前記同一商品判定部は、
前記商品データに含まれる少なくとも商品名を含む商品識別潜在情報に基づいて、複数の商品識別潜在パターンを複数の前記商品データ毎にそれぞれ生成するパターン生成部と、
前記商品データ毎に、各前記商品識別潜在パターンのベクトル情報をそれぞれ生成するベクトル情報生成部と、
前記商品識別潜在パターン毎に、2つの商品の商品データのベクトル情報に基づいて前記2つの商品の類似度をそれぞれ算出する類似度算出部と、
前記類似度に基づいて、前記2つの商品が同一であるか否かを判定する判定部と、
を有する、
請求項1~10のいずれか1項に記載の商品名寄せシステム。
【請求項12】
前記統合生成部は、前記判定部により同一であると判定された前記2つの商品データに含まれる商品情報を当該商品情報のカテゴリ毎に統合し、当該同一商品の商品マスタである名寄せ商品マスタを生成する、
請求項11に記載の商品名寄せシステム。
【請求項13】
複数の商品データを取得する商品データ取得ステップと、
前記複数の商品データを解析し、同一商品に係る前記複数の商品データを特定する同一商品判定ステップと、
前記複数の商品データを解析し、当該商品データに含まれる商品情報を当該商品情報のカテゴリ毎に分類し、各前記商品について、前記同一商品に係る前記複数の商品データに含まれる商品情報を当該商品情報のカテゴリ毎に統合して名寄せ商品マスタを生成する統合生成ステップと、
前記商品データに含まれる商品の特徴を示すデータから前記商品の特徴/評価情報を生成する特徴/評価情報生成ステップと、
前記同一商品に係る前記特徴/評価情報を含む付加情報を当該同一商品に関連付ける情報付加ステップと、
を備えた、
名寄せ商品マスタの生成方法。
【請求項14】
請求項13に記載の方法をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラムに関する。
【背景技術】
【0002】
メーカと卸業者との間、卸業者と小売業者との間、或いは、1つの企業内の複数の部署間など、複数の組織間での商品取引により、商品が運搬、流通される。各組織内では、商品情報を管理するために表計算ソフト等を用いて商品情報を含む商品データが管理されている。商品取引の際には、商品の運搬だけでなく、組織間で商品データが伝達される。商品データの従来の伝達方法としては、電子メールで取引先の組織に送信されることで取引に係る商品の商品情報の伝達がなされている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第6427850号
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、上記の従来の商品情報の伝達では、商品情報の取扱いに手間と時間のかかるという問題があった。例えば、商品データは、同じ商品であっても組織毎に表記にばらつきがあったり、フォーマットが異なっていたりするため、他の組織から得られた商品データに含まれる商品情報を自らの組織内で利用するには、当該組織用に表計算ソフトにデータを入力し直すなど整備して管理する必要がある場合があった。その際には、データの転記ミスや入力すべきデータの漏れが発生する場合もある。さらには、こうしたデータ整備作業は商品データに含まれる商品情報が更新される度に行う必要がある。また、メーカと卸業者との間、卸業者と小売業者との間、或いは、1つの企業内の複数の部署間など、1つの組織が複数の組織と複数の商品を取り扱う場合もあり、この場合、上記のようなデータ整備作業は膨大になる。このように、商品情報の伝達及びデータ整備は手間と時間のかかるという問題があった。
【0005】
また、商品データには、商品の特徴/評価を示す情報が含まれる場合がある。しかし、商品データを収集するだけでは、商品の特徴/評価を示す情報を利活用することができないという問題があった。
【0006】
本発明は、このような課題を解決するためになされたものであり、商品情報の伝達及びデータ整備の手間や時間を省くことができる商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラムを提供することを目的の1つとする。
【0007】
また、本発明は、商品情報又は付加情報により、需要予測などのマーケティング分析、商品開発、又は商品のレコメンドに必要な商品に係る情報を提供することのできる商品名寄せシステム、名寄せ商品マスタの生成方法、及びプログラムを提供することを目的の1つとする。
【課題を解決するための手段】
【0008】
本発明の一態様としての商品名寄せシステムは、複数の商品データを取得する商品データ取得部と、前記複数の商品データを解析し、同一商品に係る前記複数の商品データを特定する同一商品判定部と、前記複数の商品データを解析し、当該商品データに含まれる商品情報を当該商品情報のカテゴリ毎に分類し、各前記商品について、前記同一商品に係る前記複数の商品データに含まれる商品情報を当該商品情報のカテゴリ毎に統合して名寄せ商品マスタを生成する統合生成部と、前記商品データに含まれる商品の特徴を示すデータから前記商品の特徴/評価情報を生成する特徴/評価情報生成部と、前記同一商品に係る前記特徴/評価情報を含む付加情報を当該同一商品に関連付ける情報付加部と、を備えた、ことを特徴とする。
【0009】
本発明の一態様としての名寄せ商品マスタの生成方法は、複数の商品データを取得する商品データ取得ステップと、前記複数の商品データを解析し、同一商品に係る前記複数の商品データを特定する同一商品判定ステップと、前記複数の商品データを解析し、当該商品データに含まれる商品情報を当該商品情報のカテゴリ毎に分類し、各前記商品について、前記同一商品に係る前記複数の商品データに含まれる商品情報を当該商品情報のカテゴリ毎に統合して名寄せ商品マスタを生成する統合生成ステップと、前記商品データに含まれる商品の特徴を示すデータから前記商品の特徴/評価情報を生成する特徴/評価情報生成ステップと、前記同一商品に係る前記特徴/評価情報を含む付加情報を当該同一商品に関連付ける情報付加ステップと、を備えた、ことを特徴とする。
【0010】
本発明の一態様としてのプログラムは、上記方法をコンピュータに実行させるプログラムである、ことを特徴とする。
【発明の効果】
【0011】
本発明によれば、商品情報の伝達及びデータ整備の手間や時間を省くことができ、及び/又は、商品情報又は付加情報により、需要予測などのマーケティング分析、商品開発、又は商品のレコメンドに必要な商品に係る情報を提供することができる。
【図面の簡単な説明】
【0012】
図1】実施形態に係る商品名寄せシステムのハードウェア構成を示す図である。
図2】実施形態に係る商品名寄せシステムの構成を示す図である。
図3】商品データの一例であり、具体的には、ECサイト上のWebデータの一例である。
図4】同一商品判定部の詳細構成の一例を示す図である。
図5】同一商品判定に係るプロセスを説明するための図である。
図6】同一商品判定部により商品0~3が同一商品と判定される例を示すための図である。
図7】同一商品判定部により商品0、4~6が異なる商品であると判定される例を示すための図である。
図8】同一商品判定部により、商品0とは異なる商品10~13が同一商品であると判定される例を示すための図である。
図9】同一商品判定部により商品10、14~16が異なる商品であると判定される例を示すための図である。
図10】同一商品判定部により商品20~23について同一商品判定の例を示すための図である。
図11】同一商品判定部により商品30~33について同一商品判定の例を示すための図である。
図12】統合生成部の詳細構成の一例を示す図である。
図13】名寄せ商品マスタの一例を示す図である。
図14】特徴/評価情報生成部の詳細構成の一例を示す図である。
図15】商品グラフ生成部の詳細構成の一例を示す図である。
図16】商品グラフの一例を示す図である。
図17】実施形態の商品名寄せシステムの動作フローチャートの一例である。
図18】実施形態の名寄せ商品マスタ生成装置の動作フローチャートの一例である。
【発明を実施するための形態】
【0013】
以下、本発明に係る商品名寄せシステム及び名寄せ商品マスタ生成装置の実施形態について、図面を参照して詳細に説明する。本明細書においては、説明の便宜上、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成についての重複説明を省略する場合がある。
【0014】
[1.構成]
[1-1.概要]
本実施形態の商品名寄せシステムは、商品に係るデータである商品データを複数取得し、これらの商品データが同一商品に係るものである場合に、当該商品データに含まれる商品情報を、当該商品情報のカテゴリ毎に分類及び統合して名寄せ商品マスタ(後述の図13参照)を生成する。
【0015】
商品データは、商品に係るデータであり、例えば、商品名、商品のスペック情報、商品の特徴/評価を示す情報などの商品情報を含む。商品データは、商品の物流情報(例えば、在庫ロケーション、出荷・入荷許容日数など)、取引情報(例えば、仕入単価、販売単価など)、顧客情報、購買情報を含んでいても良い。商品データの対象とする商品は、医薬品であっても良い。
【0016】
各商品データは、同一商品に係る商品データであっても、商品情報にバラツキがあり、統一されていない場合がある。例えば、商品名の場合、メーカの正式な商品名を含む商品データもあれば、正式な商品名を含まず、商品の略称又は通称を含む商品データも存在する。商品のスペック情報の場合、商品の内容量や大きさの単位が区々である場合がある。このように、本実施形態の商品名寄せシステムは、各商品について、統一されていない商品データを整備し、統合して統一的な商品マスタである名寄せ商品マスタを生成する。
【0017】
また、商品名寄せシステムは、商品データに含まれる商品の特徴を示すデータから当該商品の特徴/評価情報を生成する。商品名寄せシステムは、特徴/評価情報に基づいて、商品グラフを生成しても良い。特徴/評価情報は、商品の特徴及び/又は評価を示す情報であり、商品名、スペック情報を含まない。特徴/評価情報の詳細は後述する。商品グラフは、商品間の関係性を示すグラフであり、詳細は後述する。
【0018】
このような商品名寄せシステム、名寄せ商品マスタ、特徴/評価情報及び商品グラフは、クラウドコンピューティングにより提供することができる。
【0019】
[1-2.ハードウェア構成]
図1は、本実施形態に係る商品名寄せシステムのハードウェア構成を示す図である。商品名寄せシステム1は、プロセッサ1a、記憶装置1b、入力装置1c、出力装置1d、及び通信装置1eを備える。各構成1a~1eはバス1fによって接続される。なお、バス1fと各構成1a~1eとの間には必要に応じてインタフェースが介在していても良い。商品名寄せシステム1は、デスクトップ型コンピュータ、タブレット型コンピュータ、ノートパソコンなどのコンピュータを含み構成することができ、1つの物理的な装置で構成される必要はなく、複数の物理的な装置から構成されても良い。
【0020】
プロセッサ1aは、商品名寄せシステム1全体の動作を制御する。プロセッサ1aは、例えばCPU、MPU等の電子回路である。プロセッサ1aは、記憶装置1bに格納されているプログラム、データを読み込んで実行することにより、様々な処理を実行する。プロセッサ1aは、複数のプロセッサから構成されていても良い。
【0021】
記憶装置1bは、揮発性メモリであるRAM1b-1及び不揮発性メモリであるROM1b-2を含む。記憶装置1bは、外部メモリ1b-3を含んでも良い。RAM1b-1は、プロセッサ1aのメインメモリ及び/又は作業領域として機能する。プロセッサ1aは、処理の実行に際して必要なプログラム等をROM1b-2や外部メモリ1b-3からRAM1b-1にロードして、ロードしたプログラムを実行することで各種動作を実現する。ROM1b-2、外部メモリ1b-3は、プロセッサ1aの制御プログラムであるBIOSやOS、コンピュータが実行する機能を実現するために必要な各種プログラムやデータ、テーブル等が記憶されている。外部メモリ1b-3は、例えば、フラッシュメモリ、ハードディスク、DVD-RAM、USBメモリ、SSD等を含むことができる。
【0022】
入力装置1cは、ユーザ等からの操作指示、入力を受け付ける。入力装置1cは、例えば、入力ボタン、キーボード、マウス、タッチパネル、タッチパッド、ワイヤレスリモコン、マイクロフォン、カメラなどのユーザインタフェースである。なお、タッチパネルは、入力装置1cとしても出力装置1dとしても機能する。
【0023】
出力装置1dは、プロセッサ1aで処理されたデータや、記憶装置1bに記憶される及び/又は記憶されたデータを出力する。出力装置1dとしては、例えば、CRTディスプレイ、液晶ディスプレイ、有機ELディスプレイ、プラズマディスプレイなどの表示装置、音を発するスピーカなどの音響装置、プリンタなどの印刷装置を含むことができる。
【0024】
通信装置1eは、ネットワークを介して又は直接、外部機器と接続及び通信するインタフェースである。通信装置1eは、例えば、シリアルインタフェース、LANインタフェース等のインタフェースとすることができる。
【0025】
商品名寄せシステム1の各部は、ROM1b-2や外部メモリ1b-3に記憶された各種プログラムが、各構成1a~1fを資源として使用することで実現される。
【0026】
[1-3.詳細構成]
図2は、本実施形態に係る商品名寄せシステム1の構成を示す図である。図2に示すように、商品名寄せシステム1は、商品データ取得部20、同一商品判定部30、統合生成部40、特徴/評価情報生成部50、商品グラフ生成部60、情報付加部70を備える。同一商品判定部30及び統合生成部40を含み名寄せ商品マスタ生成装置10を構成しても良い。名寄せ商品マスタ生成装置10は、商品データ取得部20を含んでも良く、名寄せ商品マスタ生成装置10のハードウェア構成は、図1に示す商品名寄せシステム1と同様であるため、説明は省略する。
【0027】
商品データ取得部20は、複数の商品データを取得する。商品データとしては、例えば、HTML等の商品に関するWebデータ、組織内で使用される商品マスタを挙げることができる。Webデータは、例えば、メーカサイト上の当該メーカの商品に係るWebページ、EC(電子商取引)サイト上の商品に関するWebページなど、商品に関するインターネット上のデータである。
【0028】
1つの例では、商品データ取得部20は、記憶装置1bに記憶されたプログラムであるクローラによってインターネット上を巡回し、商品に係るWebデータを取得する。このWebデータは、例えば、EC(電子商取引)サイト上の商品に関するHTMLデータ、メーカサイトの商品に関するHTMLデータとすることができる。
【0029】
別の例では、商品データ取得部20は、二以上の組織(例えば、異なる企業、又は同一企業内の異なる部署)で使用される商品マスタを取得する。例えば、商品データ取得部20は、組織が有する装置から通信装置1eを介して有線又は無線で商品マスタを取得しても良いし、商品マスタが格納された外部メモリ1b-3から取得しても良い。
【0030】
他の例では、商品データ取得部20は、商品データとしてWebデータ及び組織が有する商品マスタを取得しても良い。すなわち、商品データ取得部20は、Webデータなどの不特定の者がアクセス可能なオープンデータ、組織内商品マスタなどのクローズドデータに限らず、商品に係るデータであれば取得することができる。
【0031】
商品データ取得部20は、取得した商品データを記憶装置1bに記憶させ、記憶装置1bは、取得した商品データを商品データのデータベースとして保持することができる。
【0032】
商品データは、商品に係るデータであり、例えば、商品名、商品のスペック情報、商品の特徴/評価を示す情報などの商品情報を含む。商品データは、商品毎に付されたJANコードなどの商品識別コードが含まれていても良い。商品名は、商品の名称、略称又は通称を含むことができる。スペック情報は、商品の種類によっても異なるが、例えば、商品がペットボトルのお茶であれば、商品の内容量、容器タイプ、大きさ、重さ、入数など、商品の客観的な情報とすることができる。スペック情報は、商品に関する数値情報を含むことができる。数値情報は、数値とその単位を含めた情報である。商品の特徴/評価を示す情報は、商品説明文、商品紹介文、商品の売り出し文句、キャッチコピー、商品の口コミ、当該商品の消費者のレビューを含むことができる。1つの例では、商品に係るWebデータの場合、当該データに含まれる商品説明文である。
【0033】
商品データは、商品識別潜在情報を含む。商品識別潜在情報は、商品を識別可能な情報の他、商品を潜在的に識別可能な情報を含むことができる。商品識別潜在情報は、例えば、商品名を含むものとすることができる。
【0034】
図3は、商品データの一例であり、具体的には、ECサイト上のWebデータの一例である。図3に示す例では、Webデータは、商品の画像G0、商品識別潜在情報G1、スペック情報G2、商品の特徴/評価を示す情報G3を含む。図3に示す例では、商品識別潜在情報G1は、Webページの上部に記載された「横浜食品 袋麺タイプ 豚キムラーメン 旨辛味 3食パック」である。商品識別潜在情報G1は、商品名である「豚キムラーメン」を含む。スペック情報G2には、商品ブランドである「豚キムラーメン」、メーカ名である「横浜食品」、商品サイズ、重量、原材料などの情報が含まれる。商品の特徴/評価を示す情報G3は、商品説明情報であり、具体的には「キムチとごま油の旨辛スープが自慢。キムチや卵が備え付けの具材として入っています。さらにニラを入れるともはや悪魔級にうまい、、、!ヤミツキになることうけあい。」である。
【0035】
同一商品判定部30は、商品データ取得部20により取得された複数の商品データを解析し、同一商品に係る複数の商品データを特定する。図4は、同一商品判定部30の詳細構成の一例を示す図である。
【0036】
図4に示すように、同一商品判定部30は、パターン生成部31、ベクトル情報生成部32、類似度算出部33、判定部34を有する。
【0037】
(パターン生成部)
パターン生成部31は、商品識別潜在情報に基づいて、複数の商品識別潜在パターンを複数の商品データ毎にそれぞれ生成する。具体的には、パターン生成部31は、商品データに含まれる商品識別潜在情報を抽出する。パターン生成部31は、商品識別潜在情報を、商品データの種類に応じてプログラム311により特定し、抽出する。そして、パターン生成部31は、商品識別潜在情報に含まれる一又は複数の単位情報を特定し、当該単位情報に基づいて複数の商品識別潜在パターンを生成する。プログラム311は、人工知能(AI)を用いても良い。本明細書において、AIは、特定の用途に特化した特化型人工知能としても良いし、様々な状況、課題に対応可能な汎用人工知能としても良い。また、AIは、例えば、ニューラルネットワーク、決定木、ランダムフォレスト、SVM(support vector machine)、k近傍法などの公知の機械学習済モデルを用いても良い。学習済モデルは、学習後に更新されても良い。
【0038】
(商品識別潜在情報)
商品識別潜在情報は、一又は複数の単位情報を含み構成される商品を識別し得る潜在的な情報である。単位情報は、情報として纏まりのある情報である。単位情報としては、少なくとも商品名を含む。単位情報は、例えば、商品名の他、当該商品のメーカ、内容量、入数、余剰情報であっても良い。余剰情報は、例えば、「送料無料」、「まとめ買い」、「詰め替え用」、「クレジット決済のみ」など、商品の特定に不要な情報である。商品名としては、商品の名称、略称又は通称を含むことができる。
【0039】
1つの例では、商品識別潜在情報は、商品データがECサイトから取得したHTMLデータである場合、商品タイトルである。商品タイトルは、当該HTMLデータのtitleタグ又はnameタグが付された箇所又は範囲に含まれる、商品名を含む情報である。図3に示す例では、商品識別潜在情報(商品タイトル)は、商品名である「豚キムラーメン」を含む商品識別潜在情報G1である。商品タイトルは、典型的には、図3に示すように、商品の画像とともにWebページの上部に記載される。他の例では、商品識別潜在情報は、商品データが商品マスタである場合、商品マスタに含まれる商品名である。商品名の表記は特に限定されず、メーカが公表する正式な商品の名称であっても良いし、商品の略称又は通称であっても良し、片仮名表記であっても良い。
【0040】
パターン生成部31は、商品データがWebデータである場合は、プログラム311、学習済モデル又はAIにより上記のタグを特定し、商品識別潜在情報が含まれる箇所を特定することにより商品識別潜在情報を特定することができる。パターン生成部31は、商品データが商品マスタである場合は、プログラム311、学習済モデル又はAIにより商品識別潜在情報を特定することができる。これらのプログラム311及び学習済モデル、AIは、記憶装置1bに記憶されており、パターン生成部31により読み出され、プロセッサ1aが処理を実行する。
【0041】
パターン生成部31は、辞書313又はAIに基づいて、所定の単位情報を排除又は変換する。辞書313又はAIは、排除用、変換用のものを含み、記憶装置1bに記憶されている。例えば、排除用辞書313aには、排除される単位情報である単語、語句が定義されており、パターン生成部31は、当該排除用辞書313aを記憶装置1bから参照し、当該単語、語句を、抽出された商品識別潜在情報から排除する。排除される所定の単位情報は、例えば、余剰情報である。また、変換用辞書313bには、変換される単位情報が定義されており、パターン生成部31は、当該変換用辞書313bで定義された単位情報を対応する単位情報に変換する。変換される単位情報は、例えば、商品のメーカ名、商品名とすることができる。変換としては、半角から全角への変換、全角から半角への変換、英日、日英への変換、メーカ名、商品名の略称、通称の正式名称への変換とすることができる。1つの例では、パターン生成部31は、商品識別潜在情報に含まれる単位情報である商品の略称又は通称を、変換用辞書313bに基づいて、当該商品の正式名称に変換する。排除用AIは、排除対象の単位情報を、抽出された商品識別潜在情報から排除するモデルである。変換用AIは、変換対象の単位情報を、抽出された商品識別潜在情報から特定し、変換するモデルである。
【0042】
パターン生成部31は、上記の単位情報の変換後、重複した単位情報が存在する場合は、一方を排除しても良い。
【0043】
このように、パターン生成部31は、商品識別潜在パターンを生成する前に、排除又は変換の前処理を実行する。これにより、同一商品であるかの判定精度を向上させることができる。
【0044】
パターン生成部31は、前処理の実行後、変換した後の単位情報及び商品識別潜在情報に含まれる他の単位情報に基づいて、商品識別潜在パターンを生成する。ここでいう他の単位情報とは、前処理で排除されず、変換もされていない単位情報である。
【0045】
(商品識別潜在パターン)
商品識別潜在パターンは、商品識別潜在情報からその単位情報を排除、変換、又は抽出することにより生成される文字列のパターンである。ここでは、複数の商品識別潜在パターンは、第1パターン乃至第7パターンのいずれか、又はこれら2以上の組み合わせを含む。
【0046】
第1パターンは、商品識別潜在情報から所定の単位情報を排除又は変換し、かつ商品識別潜在情報に含まれるスペック情報を排除して生成された文字列パターンである。排除さえる所定の単位情報は、余剰情報である。スペック情報は、例えば、内容量、大きさ、重さ、容器タイプ、入数などである。スペック情報が内容量「500ml」である場合、第1パターンでは、商品識別潜在情報に含まれる「500ml」が排除される。第1パターンは、例えば、メーカ名、商品名を含み構成される文字列パターンである。
【0047】
第2パターンは、第1パターンを他の表現形式に変換した文字列パターンである。他の表記形式への変換とは、漢字、平仮名、片仮名、英字など元の表記形式とは異なる表記形式に変換することをいう。本実施形態では、1つの例では、商品識別潜在情報が漢字、平仮名、片仮名又はこれらの組み合わせを含む場合、これらの文字列をカナ表記に変換してなるカナ表記の文字列である。第2パターンでは、全角、半角間の変換をしたものであっても良い。
【0048】
第3パターンは、第1パターンからメーカ名を排除してなる文字列パターンである。第3パターンは、例えば、商品名又はブランド名を含む文字列パターンである。
【0049】
第4パターンは、商品識別潜在情報から所定の単位情報を排除又は変換し、かつ数値情報を排除して生成された文字列パターンである。排除又は変換される所定の単位情報は第1パターンと同様である。第4パターンは、例えば、メーカ名、商品名、ブランド名を含む文字列パターンである。数値情報は、数値とその単位を含めた情報である。
【0050】
第5パターンは、商品識別潜在情報に含まれるメーカ名のみの文字列パターンである。第5パターンは、例えば、メーカの正式名称であり、商品識別潜在情報にメーカの略称又は通称が含まれている場合に、変換用辞書313b等により正式名称に変換されたものであっても良い。また、第5パターンは、変換用辞書313bに商品名(商品の正式名称、略称、通称)とメーカ名が関連付けて定義されている場合に、パターン生成部31により商品識別潜在情報に含まれる商品名に変換して生成されても良い。
【0051】
第6パターンは、商品識別潜在情報に含まれる商品名(ブランド名)のみの文字列パターンである。第6パターンは、例えば、商品の正式名称であり、商品識別潜在情報に商品名(ブランド名)の略称又は通称が含まれている場合に、変換用辞書313b等により正式名称に変換されたものであっても良い。
【0052】
第7パターンは、商品識別潜在情報に含まれる商品のスペック情報のみの文字列パターンである。第7パターンは、例えば、内容量、大きさ、重さ、容器タイプ、又は入数のみの文字列パターンとすることができる。第7パターンは、内容量、大きさ、重さ、容器タイプ、入数等、スペック情報の種類毎に複数生成されても良い。
【0053】
商品識別潜在パターンは、第1パターン~第7パターンに限らず、商品識別潜在情報に基づくものであれば、任意のパターンとすることができる。
【0054】
図5は、同一商品判定に係るプロセスを説明するための図である。図5に示す例では、パターン生成部31は、商品データから、商品識別潜在情報として、商品識別潜在情報G1「送料無料 ショウワ 五右衛門 玄米茶 ペット 2000ml×6本」を特定及び抽出する。パターン生成部31は、商品識別潜在情報G1から単位情報を特定する。ここでは、例えば、パターン生成部31は、「送料」、「無料」、「ショウワ」、「五右衛門」、「玄米茶」、「ペット」、「2000ml」、「6本」などの単位情報を特定する。そして、パターン生成部31は、排除用辞書313aに定義されている「送料」、「無料」を商品識別潜在情報G1から排除し、学習済モデル、AI等によりスペック情報(ここでは、「ペット」、「2000ml×6本」)を特定して商品識別潜在情報G1から削除して第1パターンP1である「ショウワ五右衛門玄米茶」を生成する。
【0055】
パターン生成部31は、第1パターンP1をカナ表記及び半角形式に変換し、第2パターンP2を生成する。パターン生成部31は、第1パターンP1からメーカ名である「ショウワ」を、メーカ名を定義した辞書313、AI等により排除して第3パターンP3である「五右衛門玄米茶」を生成する。
【0056】
パターン生成部31は、第1パターンP1と同様に、商品識別潜在情報G1から「送料無料」、「2000ml×6本」を排除して、第4パターンP4である「ショウワ五右衛門玄米茶ペット」を生成する。パターン生成部31は、メーカ名を定義した辞書313、AI等を用いて、商品識別潜在情報G1からメーカ名「ショウワ」のみの第5パターンP5を生成する。パターン生成部31は、商品名又はブランド名を定義した辞書313、AI等を用いて、商品名又はブランド名「五右衛門」のみの第6パターンP6を生成する。
【0057】
パターン生成部31は、プログラム311、AI等により、スペック情報のみの第7パターンP7を生成する。ここでは、第7パターンP7は、内容量を示す「2000」の第7パターンP7a、容器タイプを示す「pet」の第7パターンP7b、入数を示す「6」の第7パターンP7cの3つが生成される。
【0058】
このように、パターン生成部31は、商品識別潜在情報を、単位情報を1つの単位として分解し、排除、変換、又は抽出することにより、複数の観点から商品識別潜在パターンを複数生成する。そのため、単位情報及び/又は変換後の単位情報の組み合わせからなる商品識別潜在パターンは、それぞれ人間が商品を識別する際に注目する単位情報に焦点を当てたものとすることができる。
【0059】
以上のように、パターン生成部31は、商品識別潜在情報に含まれる所定の単位情報を排除又は変換し、当該変換した後の単位情報及び商品識別潜在情報に含まれる他の単位情報に基づいて前記商品識別潜在パターンを生成する。
【0060】
なお、パターン生成部31は、基準となる商品データの商品識別潜在情報に、メーカ名又はその略称、通称、スペック情報が含まれていない場合は、当該商品データからこれらの情報を特定し、特定した情報に基づいて第5パターン、第7パターンを生成しても良い。基準となる商品データは、商品の同一判定の基準となる商品データであり、例えば、当該商品のメーカサイト上の当該商品に係るWebデータとすることができる。基準となる商品データは、基準商品データとも称する。
【0061】
再度図4を参照し、ベクトル情報生成部32は、商品データ毎に、各商品識別潜在パターンのベクトル情報をそれぞれ生成する。例えば、2つの商品データにつき、それぞれ第1~第5パターンの商品識別潜在パターンが生成されている場合、ベクトル情報生成部32は、一方の商品データの第1~第7パターンのベクトル情報をそれぞれ生成し、他方の商品データの第1~第7パターンのベクトル情報をそれぞれ生成する。図5に示す例では、ベクトル情報生成部32は、各商品データに対して、第1パターンP1~第7パターンP7のベクトル情報V1~V7をそれぞれ生成する。第7パターンP7a~P7cのベクトル情報は、ベクトル情報V7a~V7cである。
【0062】
ベクトル情報の生成には、文字列をベクトル(N次元の数値)に変換する公知のツールを用いることができる。例えば、Google社が提供するBert、Facebook社が提供するfast textを用いることができるが、これらに限定されない。
【0063】
ベクトル情報生成部32は、基準商品データに基づいて生成された第5パターン、第7パターンなどの各パターンのベクトル情報を生成しても良い。
【0064】
類似度算出部33は、商品識別潜在パターン毎に、2つの商品の商品データのベクトル情報に基づいて2つの商品の類似度をそれぞれ算出する。例えば、類似度算出部33は、一方の商品データの第iパターンのベクトル情報と、他方の商品データの第iパターンのベクトル情報とに基づいて、類似度を算出する(iは、1から商品識別潜在パターン数までの自然数である)。すなわち、類似度算出部33は、異なるパターンのベクトル情報同士を足し合わせたり、かけ合わせたりせず、パターン毎に独立して類似度を算出する。類似度は、例えば、一方の商品データの第iパターンのベクトル情報と、他方の商品データの第iパターンのベクトル情報との内積、コサイン類似度、又はユークリッド距離とすることができる。本実施形態では、類似度は、コサイン類似度である。類似度は、1つの例では、0に近い程類似しておらず、1に近い程類似していることを示す。
【0065】
判定部34は、類似度算出部33により算出された類似度に基づいて、2つの商品データが示す商品が同一であるか否かを判定する。
【0066】
1つの例では、判定部34は、複数の商品識別潜在パターンのうち、1つ以上のパターンで類似度が所定閾値以上である場合に、2つの商品データが示す商品が同一商品であると判定し、全てのパターンで類似度が所定閾値未満である場合に、2つの商品データが示す商品が異なる商品であると判定する。
【0067】
別の例では、判定部34は、複数の商品識別潜在パターンのうち、第1パターン~第4パターンの少なくとも1つ以上で類似度が所定閾値以上である場合に、2つの商品データが示す商品が同一商品であると判定し、そうでない場合に、2つの商品データが示す商品が異なる商品であると判定する。これにより、商品名の粒度で同一商品かどうかを判定することができる。
【0068】
さらに別の例では、判定部34は、複数の商品識別潜在パターンのうち、第1~第7パターンの全てで類似度が所定閾値以上である場合に、2つの商品データが示す商品が同一商品であると判定し、そうでない場合に、2つの商品データが示す商品が異なる商品であると判定する。これにより、JANコードなどの商品識別コードレベルの粒度で同一商品であるかどうかを判定することができる。
【0069】
なお、所定閾値は、各商品識別潜在パターンで異なっていても良し、0.6、0.7、0.8、0.9とするなど適宜設計変更可能である。また同一商品である条件を類似度が所定閾値以上であることとしたが、何れかの商品識別パターンにおいて、類似度が所定閾値を上回ることを条件としても良い。
【0070】
このように、商品識別潜在パターンの種類や数に応じて、どの程度の粒度で同一商品であると判定するかを調整することができる。
【0071】
同一商品判定部30は、基準となる商品データ(以下、基準商品データとも称する。)が存在する場合は、当該商品データと、当該商品データの商品と同一か否かが未判定の商品データ(以下、未判定商品データとも称する。)と、に基づき、各部31~34により同一商品判定を行うことができる。基準商品データは、当該商品のメーカサイト上の当該商品のWebデータとすることができる。また、基準商品データの有無に関わらず、2つの商品データが未判定商品データであっても、各部31~34により同一商品判定を行うことができる。
【0072】
ここで、図6図11を用いて、同一商品判定について、商品データとして、Webデータを用いた例、組織の商品マスタを用いた例を説明する。
【0073】
(Webデータを用いた例)
図6は、同一商品判定部30により商品0~3が同一商品と判定される例を示すための図である。商品識別潜在情報G1は、商品1は、「ショウワオレンジドリンク900ml1ケース(12本入)」(但し、「ショウワオレンジドリンク」は半角カタカナ表記である)、商品2は、「送料無料 ヘイセイ オレンジドリンク 900mlペットボトル×12本入」、商品3は、「ショウワ ヘイセイ オレンジドリンク 900ml×12本 1ケースKK」、商品0は「ヘイセイ オレンジドリンク」である。商品1~3の商品識別潜在情報G1は、ECサイトから得たものであり、商品0の商品識別潜在情報G1は、商品0のメーカサイトから得たものである。すなわち、商品0の商品データは、基準商品データである。
【0074】
排除用辞書313aには、「1ケース」、「送料無料」、「KK」等が定義されている。変換用辞書313bには、「ショウワ」、「オレンジドリンク」等の変換が定義されている。
【0075】
各商品0~3の第1パターンP1~第7パターンP7は、図6に示すようにパターン生成部31により生成される。図6に示すように第1~第6パターンでは余剰情報、数値情報が排除され、また、半角カタカタが全角に変換されている。但し、図6での商品識別潜在パターンの空欄(例えば、商品1の第6パターン、商品2の第5パターン、商品3の第7パターンPb)は、商品識別潜在情報G1に各単位情報が含まれていないことを示す。また、商品0の第5パターンP5、第7パターンP7は、基準商品データに基づいて、パターン生成部31により、メーカ名、各スペック情報を特定し、生成されたものである。なお、商品0の第7パターンP7cは、商品0が1ケースであることを示すものである。
【0076】
図6の下部に、各商品0~3の各パターンにおける類似度が示されている。各商品の各パターンの類似度は、ベクトル情報生成部32により生成されたものである。商品0~3の各パターンの類似度は、当該商品0~3の各パターンのベクトル情報と、商品0の各パターンのベクトル情報とに基づいて類似度算出部33により算出された値である。商品0の各パターンの類似度は、自身のベクトル情報のみに基づくため、各パターンで全て1.0である。なお、類似度が空欄又は0であるパターンは、当該パターンに対応する単位情報が商品識別潜在情報G1に含まれていないことを示す。
【0077】
図6に示す例では、商品1~3で1つ又は2つの類似度が空欄又は0であるパターンが在するものの、少なくとも第1パターンP1~第6パターンP6で、類似度が0.6以上のものが5つ以上存在しており、判定部34により、商品1~3は、商品0と同一商品であると判定される。
【0078】
図7は、同一商品判定部30により商品0、4~6が異なる商品であると判定される例を示すための図である。商品識別潜在情報G1は、商品4は、「[アウトレット] エルバー おいしいビタミンCオレンジ 1箱(24本入)」、商品5は、「名古屋居留地 オレンジ&カムカム 500mL PETボトル[24本]」、商品6は、「送料無料 ヘイセイ オレンジドリンク 200ml紙パック 24本入[ショウワ]」である。商品4~6の商品識別潜在情報G1は、ECサイトから得たものである。商品0は、図6の商品0と同じである。
【0079】
排除用辞書313aには、「アウトレット」、「1箱」、「送料無料」等が定義されている。変換用辞書313bには、{mL、ml}、{PETボトル、pet}、{紙パック、pack}の変換等が定義されている。
【0080】
各商品4~6の第1パターンP1~第7パターンP7は、図7に示すようにパターン生成部31により生成される。図7に示すように第1~第6パターンでは余剰情報、数値情報が排除され、また、単位が小文字に変換されている。但し、図7での商品識別潜在パターンの空欄(例えば、商品4の第6パターンP6、第7パターンP7a、P7b、商品5の第5パターンP5)は、商品識別潜在情報G1に各単位情報が含まれていないことを示す
【0081】
図7の下部に、各商品0、4~6の類似度が示されている。商品0、4~6の各パターンの類似度は、当該商品0、4~6の各パターンのベクトル情報と、商品0の各パターンのベクトル情報とに基づいて類似度算出部33により算出された値である。商品0の各パターンの類似度は、自身のベクトル情報のみに基づくため、各パターンで全て1.0である。なお、類似度が空欄又は0であるパターンは、当該パターンに対応する単位情報が商品識別潜在情報G1に含まれていないことを示す。
【0082】
図7に示す例では、商品4及び商品5は、類似度が空欄又は0であるパターンが多く、また算出された各パターンの類似度が一部を除いて0.7未満であるものことから、判定部34により商品0とは異なる商品であると判定される。商品6は、第1パターンP1~第6パターンP6の類似度が0.7以上であり、ブランド名の粒度では同一商品と判定することができる。しかし、スペック情報についての第7パターンP7の類似度が0.7未満であるように低く、判定部34により、商品0とは異なる商品であると判定される。実際、商品0はペットボトルの商品であるのに対し、商品6は紙パックの商品であることから、この判定は妥当である。換言すれば、第1~第6パターンの類似度だけでなく、スペック情報についての第7パターンの類似度を含めた全てのパターンが所定閾値以上であるかを同一商品の判定基準とすることでJANコードレベルの細かな粒度で同一商品判定を行うことができる。
【0083】
図8は、同一商品判定部30により、商品0とは異なる商品10~13が同一商品であると判定される例を示すための図である。商品0~6の商品カテゴリが飲料であったのに対し、商品10~13の商品カテゴリは、食品である。商品識別潜在情報G1は、商品11は、「横浜 ビーフラーメンどんぶり 12食入り×1ケース [クレジットカード決済のみ]」、商品12は、「横浜食品 横浜ビーフラーメンどんぶり(12個入り)防災」、商品13は、「<<ケース>> 横浜食品 ビーフラーメン どんぶり (85g)×12個 カップめん」、商品10は、「ビーフラーメンどんぶり」である。商品11~13の商品識別潜在情報G1は、ECサイトから得たものであり、商品10の商品識別潜在情報G1は、商品10のメーカサイトから得たものである。すなわち、商品10の商品データは、基準商品データである。
【0084】
排除用辞書313aには、「クレジットカード決済」、「のみ」、「1ケース」、「ケース」、「<<ケース>>」等が定義されている。変換用辞書313bには、{横浜、横浜食品}等が定義されている。
【0085】
各商品10~13の第1パターンP1~第7パターンP7は、図8に示すようにパターン生成部31により生成される。図8に示すように第1~第6パターンでは余剰情報、数値情報が排除され、また、メーカ名が正式名称「横浜食品」に変換されている。但し、図8での商品識別潜在パターンの空欄(例えば、商品11の第7パターンP7b、P7c、商品12の第7パターンP7b、P7c、商品13の第7パターンP7b)は、商品識別潜在情報G1に各単位情報が含まれていないことを示す。また、商品10の第5パターンP5、第7パターンP7は、基準商品データに基づいて、パターン生成部31により、メーカ名、各スペック情報を特定し、生成されたものである。商品10の第7パターンP7cは、商品10が1ケースであることを示すものである。
【0086】
図8の下部に、各商品10~13の各パターンにおける類似度が示されている。各商品の各パターンの類似度は、ベクトル情報生成部32により生成されたものである。商品10~13の各パターンの類似度は、当該商品10~13の各パターンのベクトル情報と、商品10の各パターンのベクトル情報とに基づいて類似度算出部33により算出された値である。商品10の各パターンの類似度は、自身のベクトル情報のみに基づくため、各パターンで全て1.0である。
【0087】
図8に示す例では、商品11~13で1又は2つの類似度が空欄又は0であるパターンが存在するものの、少なくとも第1パターンP1~第6パターンP6で、類似度が0.6以上のものが6つ以上存在しており、判定部34により、商品11~13は、商品10と同一商品であると判定される。
【0088】
図9は、同一商品判定部30により商品10、14~16が異なる商品であると判定される例を示すための図である。商品識別潜在情報G1は、商品14は、「おやまカンパニー チャイルドスターラーメン ビーフ 39g [菓子 1ケース 24袋]」、商品15は、「横浜 ビーフラーメンキャベサラダ あっさり香味醤油味 3食パック 120g」、商品16は、「S&X おやつラーメン(ビーフ味) 12食」である。商品14~16の商品識別潜在情報G1は、ECサイトから得たものである。商品10は、図8の商品10と同じである。
【0089】
排除用辞書313aには、「菓子」、「1ケース」等が定義されている。変換用辞書313bには、{横浜、横浜食品}の変換等が定義されている。
【0090】
各商品10、14~16の第1パターンP1~第7パターンP7は、図9に示すようにパターン生成部31により生成される。図9に示すように第1~第6パターンでは余剰情報、数値情報が排除され、また、メーカ名が正式名称「横浜食品」に変換されている。但し、図9での商品識別潜在パターンの空欄(例えば、商品14の第7パターンP7c、商品15の第7パターンP7c、商品16の第5パターンP5、第7パターンP7b、P7c)は、商品識別潜在情報G1に各単位情報が含まれていないことことを示す。
【0091】
図9の下部に、各商品10、14~16の各パターンにおける類似度が示されている。各商品の各パターンの類似度は、ベクトル情報生成部32により生成されたものである。商品10、14~16の各パターンの類似度は、当該商品10、14~16の各パターンのベクトル情報と、商品10の各パターンのベクトル情報とに基づいて類似度算出部33により算出された値である。商品10の各パターンの類似度は、自身のベクトル情報のみに基づくため、各パターンで全て1.0である。なお、類似度が空欄又は0であるパターンは、当該パターンに対応する単位情報が商品識別潜在情報G1に含まれていないことを示す。
【0092】
図9に示す例では、商品14~16は、算出された各パターンの類似度が一部を除いて0.7未満であることから、判定部34により商品10とは異なる商品であると判定される。
【0093】
(組織の商品マスタを用いた例)
図10は、同一商品判定部30により商品20~23について同一商品判定の例を示すための図である。商品識別潜在情報G1は、商品21は、「令和プロバオR-1 ドリンクタイプ 112ml」、商品22は、「令和(reiwa)「R-1」 112g」、商品23は、「令和 「R-1」 低脂肪 112g」、商品20は、「令和プロバオヨーグルトR-1 112g」である。商品21~23の商品識別潜在情報G1は、当該商品21~23を取り扱う組織(例えば、卸業者、小売業者など)の商品マスタから得たものであり、商品20の商品識別潜在情報G1は、商品20のメーカサイト又はメーカの商品マスタから得たものである。すなわち、商品20の商品データは、基準商品データである。
【0094】
排除用辞書313aには、種々の余剰情報が定義されている。変換用辞書313bには、{R-1、プロバオヨーグルトR-1}、{reiwa、reiwa}、{reiwa、令和}、{R-1、R-1}、{R-1、プロバオヨーグルトR-1}等の変換が定義されている。
【0095】
各商品20~23の第1パターンP1~第7パターンP7は、図10に示すようにパターン生成部31により生成される。図10に示すように第1~第6パターンでは余剰情報、数値情報が排除され、また、略称「R-1」、「R-1」が商品の正式名称「プロバオヨーグルトR-1」に変換され、全角英字表記「reiwa」が漢字表記「令和」に変換されている。但し、図10での商品識別潜在パターンの空欄(例えば、商品21の第7パターンP7a、商品22の第7パターンP7b、P7c、商品23の第7パターンP7b、P7c)は、商品識別潜在情報G1に各単位情報が含まれていないことを示す。また、商品20の第5パターンP5、第7パターンP7は、基準商品データに基づいて、パターン生成部31により、各スペック情報を特定し、生成されたものである。なお、商品20の第7パターンP7bは、その内容量の単位形式がml形式であり、正式な内容量の単位形式がg形式であることから、対応する単位情報が商品識別潜在情報G1に含まれていないことを示す。商品20の第7パターンP7cは、商品20がカップ形式であることを示すものである。すなわち、商品20は、内容量が112gの1カップの「プロバオヨーグルトR-1」という商品名のヨーグルトであり、食べるタイプのヨーグルトである。
【0096】
図10の下部に、各商品20~23の各パターンにおける類似度が示されている。各商品の各パターンの類似度は、ベクトル情報生成部32により生成されたものである。商品20~23の各パターンの類似度は、当該商品20~23の各パターンのベクトル情報と、商品20の各パターンのベクトル情報とに基づいて類似度算出部33により算出された値である。商品20の各パターンの類似度は、自身のベクトル情報のみに基づくため、各パターンで全て1.0である。
【0097】
図10に示す例では、商品22が、第7パターンP7b、P7cを除く全てのパターンで類似度が1.0であり、判定部34により商品20と同一商品であると判定される。すなわち、商品22は、商品20と同様、食べるタイプのヨーグルトである。一方、商品21は、類似度を有するパターンのうちの一部のパターンで類似度が0.8未満のものが複数あり(例えば、第1パターンP1~第6パターンP6が該当する)、判定部34により、商品20とは異なる商品であると判定される。実際、商品21は、商品20と同一ブランドであるが、ドリンクタイプであり、食べるタイプの商品20とは異なっている。換言すれば、第1~第4パターンP1~P4に「ドリンクタイプ」の文字列が含まれていたことが要因で、類似度が低下し、異なる商品であると判定されている。また、商品23は、多くのパターンで類似度が0.8以上であり、商品20との類似性があるが、第3パターンP3で類似度が閾値0.8未満の0.3であることから、判定部34により、商品20とは異なる商品であると判定される。実際、商品23は、商品20と同一ブランドであるが、低脂肪バージョンであり、第3パターンP3に「低脂肪」が含まれていたことが要因で、類似度が低下し、異なる商品であると判定されている。
【0098】
このように、商品データが組織の商品マスタである場合、かつ、商品の略称が商品識別潜在情報G1に含まれる場合であっても、正しく同一商品判定が可能であることが分かる。
【0099】
図11は、同一商品判定部30により商品30~33について同一商品判定の例を示すための図である。商品識別潜在情報G1は、商品31は、半角表記で「グッド ピュアンクレンズ ケアシャンプー」、商品32は、「グッドピュアン ナチュラル シャンプー340ml 詰め替え用」、商品33は、「花子 kako グッドピュアン ナチュラル シャンプー ポンプ 425ml」、商品30は、「グッドピュアン ナチュラル クレンズケアシャンプー 425ml」である。商品31~33の商品識別潜在情報G1は、当該商品31~33を取り扱う組織(例えば、卸業者、小売業者など)の商品マスタから得たものであり、商品30の商品識別潜在情報G1は、商品30のメーカサイト又はメーカの商品マスタから得たものである。すなわち、商品30の商品データは、基準商品データである。
【0100】
排除用辞書313aには、種々の余剰情報が定義されている。変換用辞書313bには、{kako、花子}、{グッド、花子}等の変換が定義されている。
【0101】
各商品30~33の第1パターンP1~第7パターンP7は、図11に示すようにパターン生成部31により生成される。図11に示すように第1~第6パターンでは余剰情報、数値情報が排除され、また、英字でメーカ名の呼称である「kako」が漢字表記「花子」に変換されている。商品31、32については、商品識別潜在情報G1にメーカ名「花子」が含まれていないが、商品31、32の第5パターンP5は、変換用辞書313bにより、商品名「グッド」からメーカ名「花子」に変換されて生成されたものである。但し、図11での商品識別潜在パターンの空欄(例えば、商品31の第7パターンP7、商品32の第7パターンP7b)は、商品識別潜在情報G1に各単位情報が含まれていないことを示す。また、商品30の第5パターンP5、第7パターンP7は、基準商品データに基づいて、パターン生成部31により、各スペック情報を特定し、生成されたものである。商品30は、内容量が425mlのボトル(ポンプ)タイプのシャンプーである。
【0102】
図11の下部に、各商品30~33の各パターンにおける類似度が示されている。各商品の各パターンの類似度は、ベクトル情報生成部32により生成されたものである。商品30~43の各パターンの類似度は、当該商品30~33の各パターンのベクトル情報と、商品30の各パターンのベクトル情報とに基づいて類似度算出部33により算出された値である。商品30の各パターンの類似度は、自身のベクトル情報のみに基づくため、各パターンで全て1.0である。
【0103】
図11に示す例では、商品33が、容器タイプ(包装タイプ)の第7パターンP7bを除いて全てのパターンで類似度が閾値0.7以上であり、判定部34により商品30と同一商品であると判定される。すなわち、商品33は、商品30と同様、ボトルタイプのシャンプーである。容器タイプ(包装タイプ)の第7パターンP7bの類似度が0.6と他のパターンと比べて低くなっているのは、基準の商品30の第7パターンP7bが「ボトル、ポンプ」と2つの単位情報が含まれていたためである。一方、商品31は、第1~6パターンで類似度が0.8であり閾値0.7超となっているが、第7パターンの類似度がなく、内容量及び容器タイプ(包装タイプ)が不明である。そのため、ブランド名レベルでは同一商品であると判定できるが、JANコードレベルでは同一商品か異なる商品かの判定ができない。商品32は、約半数のパターンで類似度が0.6であり閾値0.7を下回っており、判定部34により商品30とは異なる商品であると判定される。すなわち、商品32は、「詰め替え用」のシャンプーであり、ボトルタイプのシャンプーとは異なるため、半数のパターンで類似度が低く算出されたものと考えられる。
【0104】
(統合生成部)
図12は、統合生成部の詳細構成の一例を示す図である。統合生成部40は、複数の商品データを解析し、当該商品データに含まれる商品情報を当該商品情報のカテゴリ毎に分類し、各商品について、同一商品に係る複数の商品データに含まれる商品情報を当該商品情報のカテゴリ毎に統合して名寄せ商品マスタを生成する。
【0105】
具体的には、図12に示すように、統合生成部40は、商品データに含まれる商品情報のカテゴリを推定、分類、及び/又は区分する。例えば、統合生成部40は、商品データに含まれる商品情報のカテゴリをAI41により推定、分類、及び/又は区分する。そして、統合生成部40は、同一商品に係る商品データの商品情報を、区分したカテゴリ毎に統合してなる名寄せ商品マスタを生成する。
【0106】
統合生成部40は、商品データの商品情報から当該商品のカテゴリを推定する。商品のカテゴリは、例えば、食品、飲料、菓子、酒類、バッグ、化粧品等、あらゆる商品カテゴリの分類とすることができる。商品のカテゴリは、大分類、中分類、小分類など複数の区分に分類して推定しても良い。1つの例では、商品がビールである場合、統合生成部40は、食品を大分類とし、飲料を中分類とし、酒類又はお酒を小分類として商品カテゴリを推定する。商品カテゴリの推定は、例えば、辞書及び/又はAIにより行うことができる。統合生成部40は、商品カテゴリについての商品情報カテゴリを生成し、推定した商品カテゴリに生成した商品カテゴリに加えることで、商品カテゴリを商品情報カテゴリの1つとして名寄せ商品マスタに加えることができる。
【0107】
統合生成部40は、統合の際、区分したカテゴリ毎の商品情報の重複を排除しても良い。例えば、統合生成部40は、商品名のカテゴリに、2つの商品データから同一の商品名を関連付けるが、そのうちの一方を排除する。
【0108】
統合生成部40は、統合の際、区分したカテゴリ毎の商品情報の表現を正規化しても良い。正規化は、例えば、カテゴリ内の商品情報に含まれる単位の統一、当該商品情報である単語、語句の揺らぎの統一である。正規化には、正規化用辞書42、正規化用AI43を用いることができる。正規化用辞書42、正規化用AI43は、例えば、lをmlに、mをcmに変換するなど単位を変換する辞書、AI、又は、例えば、全角文字列を半角文字列に変換するなど、商品情報である単語、語句の表記揺らぎを統一する辞書、AIである。正規化用辞書42、正規化用AI43は、単位統一用、表記統一用に独立して備えていても良い。
【0109】
(名寄せ商品マスタ)
名寄せ商品マスタは、二以上の商品データの商品情報が統合されて成る商品マスタである。名寄せ商品マスタは、縦方向に各商品を並べ、横方向に商品についての商品情報の区分されたカテゴリを並べたテーブルとすることができる。すなわち、名寄せ商品マスタは、各行に1つの商品についての商品情報が分類されたカラムに格納されたテーブルである。各カラムは、分類、区分されたカテゴリである。名寄せ商品マスタは、二以上の同一商品に係る商品データのうち、何れかのみにある商品情報カテゴリをカラムとして含む。すなわち、二以上の同一商品に係る商品データの商品情報は、名寄せ商品マスタに集約される。
【0110】
図13は、名寄せ商品マスタMの一例を示す図である。図13に示す例では、3つの商品についての商品情報が各行に集約されている。名寄せ商品マスタMは、各商品について、区分された商品情報カテゴリ(カラム)C10~C17を少なくとも有する。カラムC10~C17は、それぞれ、商品名、商品識別子(ここではJANコード)、商品カテゴリ、容量、エネルギー、商品サイズ、特徴/評価情報、ベクトル情報である。特徴/評価情報及びベクトル情報は、後述するように特徴/評価情報生成部50、商品グラフ生成部60により生成され、情報付加部70により名寄せ商品マスタMに付加されたものである。なお、図13の名寄せ商品マスタMの商品の数は3つとしたが、これに限定されない。名寄せ商品マスタMは、商品データが取得可能な商品数を有することができる。
【0111】
(特徴/評価情報生成部)
図14は、特徴/評価情報生成部の詳細構成の一例を示す図である。特徴/評価情報生成部50は、商品データに含まれる商品の特徴を示すデータから商品の特徴/評価情報を生成する。具体的には、特徴/評価情報生成部50は、特定部51、生成部52、カテゴリ推定部53を有する。
【0112】
特定部51は、商品データに含まれる商品の特徴を示すデータを特定する。商品の特徴を示すデータは、ここでは、商品を説明するテキストデータであるが、商品の特徴を示すデータであれば、画像データ、音響データであっても良い。特定部51は、特定したテキストデータから当該商品の特徴を示す単語、語句を特定する。これらの特定は、辞書51a若しくはAI又はこれらの両方により、行うことができる。また商品データの種類に応じてプログラムにより特定しても良い。
【0113】
1つの例では、商品データがECサイトから取得したHTMLデータである場合、特定部51は、当該データのdescriptionタグが付された箇所又は範囲に含まれる商品説明文を特定し、抽出する。当該箇所又は範囲は、例えば、図3では、符号G3が付された箇所又は範囲である。そして、特定部51は、抽出された商品説明文をAIにより自然言語解析して単語、語句に分解し、商品特徴を示す単語、語句を特定する。商品説明文を単語に分解する過程は、形態素解析を用いることができる。形態素解析の解析ツールとしては、例えば、MeCab、Juman ++、Janomeを用いることができるが、これらに限定されない。
【0114】
図3に示す例では、特定部51は、商品の特徴/評価を示す情報G3の「キムチとごま油の旨辛スープが自慢。キムチや卵が備え付けの具材として入っています。さらにニラを入れるともはや悪魔級にうまい、、、!ヤミツキになることうけあい。」から、「キムチ」、「ごま油」、「旨辛」、「旨辛スープ」、「卵」、「悪魔級」、「ヤミツキ」などの単語を特定する。
【0115】
生成部52は、特定された単語、語句に関連付けて特徴/評価情報を生成する。具体的には、名寄せ商品マスタの商品情報カテゴリ(カラム)の1つとして特徴/評価情報のカラムを生成し、当該カラムと、特定された単語、語句とを関連付けることで特徴/評価情報を生成する。
【0116】
図3に示す例では、生成部52は、特徴/評価情報カラムを生成し、当該特徴/評価情報カラムと、「キムチ」、「ごま油」、「旨辛」、「旨辛スープ」、「卵」、「悪魔級」、「ヤミツキ」などの単語とを関連付けることで特徴/評価情報を生成する。
【0117】
図13に示す例では、名寄せ商品マスタMの最上段の商品「ABCコーヒー」の特徴/評価情報は、「ブラック」、「マンデリン」、「すっきり」、「フルーツ」である。名寄せ商品マスタMの中段の商品「DEFスポーツドリンク」の特徴/評価情報は、「スポーツ」、「大容量」、「グレープフルーツ風味」である。名寄せ商品マスタMの最下段の商品「GHIスナック」の特徴/評価情報は、「コーン」、「サクサク」、「BBQ」、「限定」である。これらの単語、語句が各商品において特徴/評価情報カラムC16と関連付けられて特徴/評価情報が生成される。
【0118】
また、生成部52は、カテゴリ推定部53により推定又は生成された商品情報カテゴリと、特定された単語、語句とを関連付けても良い。この商品情報カテゴリは、特徴/評価情報カラム、又は、特徴/評価情報カラムに含まれる、特定された単語、語句に意味付けされたカテゴリ分類又はカテゴリ区分である。すなわち、生成部52は、特定された単語、語句の意味に関わらず、特徴/評価情報カラムと、当該特定された単語、語句とを関連付けることができ、また、特定された単語、語句の意味に応じた特徴/評価情報カラムと、当該特定された単語、語句とを関連付けても良いし、特徴/評価情報カラムの中で、さらに特定された単語、語句の意味内容と当該特定された単語、語句とを関連付けても良い。図13に示す例では、後述するようにカテゴリ推定部53により、「マンデリン」、「コーン」から原材料カラムを生成し、これらの単語、語句と当該カラムを関連付け、また、「すっきり」、「サクサク」から印象カラムを生成し、これらの単語、語句と当該カラムを関連付けても良い。この場合、特徴/評価情報カラムC16の中に、「マンデリン」、「コーン」を含む原材料カラムや「すっきり」、「サクサク」を含む印象カラム等が含まれる。
【0119】
カテゴリ推定部53は、特定された単語、語句に対応する商品情報のカテゴリを推定又は生成する。この推定又は生成には、辞書53a、自然言語処理ライブラリ53b、AI又はこれらの2以上により行うことができる。換言すれば、カテゴリ推定部53は、特定された単語、語句に意味付けを行う。意味付けとは、単語、語句に対応する商品情報カテゴリ(カラム)を推定又は生成することをいう。
【0120】
1つの例では、カテゴリ推定部53は、単語、語句の品詞を判別し、判別した品詞を当該単語、語句に関連付ける。品詞は、名詞、形容詞、形状詞、副詞などを含む。形状詞は、商品の形状を示す単語である。品詞の判別には、辞書53a、自然言語処理ライブラリ53b、AI又はこれらの2以上を用いることができる。カテゴリ推定部53は、判別した品詞を商品情報のカテゴリとして推定、生成し、或いは、判別した品詞に相当する商品情報カテゴリを生成する。
【0121】
別の例では、カテゴリ推定部53は、単語、語句の意味を判別し、当該意味を包括する商品情報カテゴリを推定又は生成する。すなわち、カテゴリ推定部53は、単語、語句の意味から、商品情報のカテゴリ(すなわち、カラム)の1つを推定又は生成する。この判別には、辞書53a、自然言語処理ライブラリ53b、AI又はこれらの2以上を用いることができる。
【0122】
具体的には、カテゴリ推定部53は、単語、語句の意味が商品の主観的な意味に該当する場合に、商品の主観的な意味となる商品情報カテゴリを推定又は生成する。1つの例では、カテゴリ推定部53は、単語、語句が、商品情報のカテゴリ(すなわち、カラム)の1つとして、印象、雰囲気、テイスト、質感、品質、及び用途のいずれかに該当するかを判別する。判別された単語、語句に対応する商品情報カテゴリはこれらに限定されず、商品に合わせて任意に推定又は生成しても良い。例えば、「すっきり」、「もちもち」、「ふわふわ」などの単語、語句は、印象カラムに該当する。意味付けする商品情報カテゴリは、主観的なものに限らず、商品の原材料、素材など客観的なものとしても良い。推定又は生成には、辞書53a、自然言語処理ライブラリ53b、AI又はこれらの2以上を用いることができる。
【0123】
さらに別の例では、カテゴリ推定部53は、単語、語句の係り受けを有する単語又は語句の組み合わせを生成する。係り受けは、主語と述語、修飾語と被修飾語、何に対するどんな言及かを示す文のように、異なる単語、語句が意味の上で繋がっている関係をいう。係り受けは、例えば、「鮮やか_カラー」、「スタイリッシュ_雰囲気」などであるが、これらに限定されず、商品の特徴/評価を示す情報に基づいて、当該商品に適したものとすることができる。組み合わせの生成には、辞書53a、自然言語処理ライブラリ53b、AI又はこれらの2以上を用いることができる。
【0124】
印象などの主観的な意味の特徴/評価情報、係り受けの特徴/評価情報は、検索キーワードで入力される可能性が高いため、名寄せ商品マスタのデータベースを検索する際に利用価値が高く、例えばECサイトのメタ情報として利用価値が高い。
【0125】
特徴/評価情報生成部50は、生成した全ての特徴/評価情報を一纏まりにした特徴/評価情報を生成する。本明細書では、この特徴/評価情報を全体特徴/評価情報と称し、上記の単語、語句又は単語、語句の組み合わせに係る特徴/評価情報を個別特徴/評価情報と称する場合がある。全体特徴/評価情報は、全ての個別特徴/評価情報の単語、語句のつなぎ合わせた文字列であり、生成部52により生成された、特徴/評価情報カラムの1つである全体特徴/評価情報カラムと関連付けられている。
【0126】
(特徴/評価情報)
特徴/評価情報は、商品の特徴を示す文字列であり、メタタグとも称する。本実施形態では、特徴/評価情報は、商品特徴を示す単語、語句、係り受けを有する単語又は語句の組み合わせである。特徴/評価情報は、その単語、語句及び組み合わせと、対応する商品情報カテゴリとが関連付けられている。特徴/評価情報は、情報付加部70により、対応する商品に対して名寄せ商品マスタに関連付けられる。特徴/評価情報は、名寄せ商品マスタに付加される付加情報の1つである。
【0127】
(商品グラフ生成部)
図15は、商品グラフ生成部の詳細構成の一例を示す図である。商品グラフ生成部60は、特徴/評価情報に基づいて、商品間の関係性を示す商品グラフを生成する。具体的には、商品グラフ生成部60は、ベクトル情報算出部61、距離算出部62、グラフ生成部63を有する。
【0128】
ベクトル情報算出部61は、特徴/評価情報に基づくベクトル情報を算出する。例えば、ベクトル情報算出部61は、特徴/評価情報の文字列をベクトル情報に変換する。このベクトル情報の算出(変換)には、文字列をベクトル(N次元の数値)に変換する公知のツールを用いることができる。例えば、Google社が提供するBert、Facebook社が提供するfast textを用いることができるが、これらに限定されない。
【0129】
ベクトル情報算出部61は、全ての特徴/評価情報、すなわち、全ての個別特徴/評価情報及び全体特徴/評価情報についてのベクトル情報を算出する。本明細書では、個別特徴/評価情報のベクトル情報を個別ベクトル情報と称し、全体特徴/評価情報を全体ベクトル情報と称する場合がある。算出された各ベクトル情報は、対応の商品及び名寄せ商品マスタと関連付けて記憶装置1bに記憶される。この関連付けは、例えば情報付加部70により行うことができる。
【0130】
距離算出部62は、ベクトル情報に基づいて、商品間の距離を算出する。この距離は、例えば、ベクトル情報同士の内積、ユークリッド距離とすることができる。
【0131】
商品間の距離は、個別ベクトル情報同士の距離(「特徴/評価情報間の距離」とも称する)と、全体ベクトル情報同士の距離(「商品間の距離」とも称する)に大別することができる。特徴/評価情報間の距離は、同一商品カテゴリ内の異なる商品の個別ベクトル情報同士の距離、異なる商品カテゴリ内の異なる商品の個別ベクトル情報同士の距離を含む。商品間の距離は、同一商品カテゴリ内の異なる商品の全体ベクトル情報同士の距離、異なる商品カテゴリ内の異なる商品の全体ベクトル情報同士の距離を含む。
【0132】
グラフ生成部63(商品グラフ生成部60)は、同一商品カテゴリの商品グラフ及び/又は複数の商品カテゴリ間の商品グラフを生成する。この生成は、距離算出部62により算出された距離に基づく。例えば、グラフ生成部63は、算出された距離が所定距離内の商品を含む商品グラフを生成する。商品グラフの生成は、ソーシャルグラフの作成方法など公知の手法を用いて行うことができる。
【0133】
図16は、商品グラフの一例を示す図である。図16の商品グラフは、A社、B社、C社のコンビニスイーツについての商品グラフである。すなわち、この商品グラフは、名寄せ商品マスタから、メーカ名が「A社」、「B社」、又は「C社」であり、「コンビニスイーツ」の特徴/評価情報カラムを有する商品について抽出し、グラフ上にプロットして得られたものである。商品グラフには、まとまりのある領域が丸で囲われ、各領域には、図16に示すように、特徴/評価情報が示す単語が付されている。例えば、材料の特徴/評価情報を有する商品の領域にはその材料(例えば、「イチゴ」、「ブルーベリー」など)が付され、商品カテゴリの特徴/評価情報を有する商品の領域にはそのカテゴリ(例えば、「ケーキ」、「プリン」など)が付され、印象の特徴/評価情報を有する商品の領域には、その印象(「なめらか」、「もちもち」、「しっとり」など)が付されている。この商品グラフにより、各社の競合関係を把握することができる。
【0134】
(商品グラフ)
同一商品カテゴリの商品グラフは、(1)単一の個別特徴/評価情報間の距離に基づく、同一商品カテゴリ内の商品間の関係性を示す商品グラフ、(2)複数の個別特徴/評価情報間の距離に基づく、同一商品カテゴリ内の商品間の関係性を示す商品グラフ、(3)全体特徴/評価情報間の距離に基づく、同一商品カテゴリ内の商品間の関係性を示す商品グラフを含む。上記(1)の商品グラフは、商品カテゴリと単一の個別特徴/評価情報が共通する商品についてのグラフ(マップ)である。上記(2)の商品グラフは、商品カテゴリと複数の個別特徴/評価情報が共通する商品についてのグラフ(マップ)である。上記(3)の商品グラフは、商品カテゴリが共通する商品についてのグラフ(マップ)である。
【0135】
複数の商品カテゴリ間の商品グラフは、(4)単一の個別特徴/評価情報間の距離に基づく、複数商品カテゴリ内の商品間の関係性を示す商品グラフ、(5)複数の個別特徴/評価情報間の距離に基づく、複数商品カテゴリ内の商品間の関係性を示す商品グラフ、(6)全体特徴/評価情報間の距離に基づく、複数商品カテゴリ内の商品間の関係性を示す商品グラフを含む。上記(4)の商品グラフは、単一の個別特徴/評価情報が共通する商品についてのグラフ(マップ)である。上記(5)の商品グラフは、複数の個別特徴/評価情報が共通する商品についてのグラフ(マップ)である。上記(6)の商品グラフは、複数の商品カテゴリの商品についてのグラフ(マップ)である。
【0136】
上記(1)~(6)の商品グラフは、特徴/評価情報の種類、数、商品カテゴリの数でそれぞれ異なる観点から商品間の関係性を提供することができるため、商品群の関係性を分析する際にユーザに気付きを与え易くすることができる。
【0137】
(情報付加部)
情報付加部70は、同一商品に係る特徴/評価情報を当該同一商品に関連付ける。具体的には、情報付加部70は、商品と関連付けられた特徴/評価情報を名寄せ商品マスタと関連付けて記憶装置1bに記憶させる。
【0138】
情報付加部70は、商品グラフ生成部60により生成された商品グラフを、対応する商品及び名寄せ商品マスタと関連付けて記憶装置1bに記憶する。情報付加部70は、ベクトル情報算出部61により算出されたベクトル情報を、対応する商品及び名寄せ商品マスタと関連付けて記憶装置1bに記憶しても良い。ベクトル情報算出部61により算出されたベクトル情報は、個別ベクトル情報及び/又は全体ベクトル情報であり、グラフベクトル情報とも称する。
【0139】
特徴/評価情報、商品グラフ、グラフベクトル情報は、名寄せ商品マスタに付加される付加情報に含まれる。商品グラフ、グラフベクトル情報は、商品グラフ情報に含まれる。情報付加部70は、特徴/評価情報及び/又は商品グラフ情報を名寄せ商品マスタに関連付ける場合、特徴/評価情報、商品グラフ、グラフベクトル情報の少なくとも1つ以上を名寄せ商品マスタに関連付ける。
【0140】
名寄せ商品マスタは、各商品につき、商品名、スペック情報、特徴/評価情報、商品グラフ情報を関連付けて記憶装置1bに記憶されていれば良い。この関連付けを前提として、商品名寄せシステム1は、統合生成部40により生成された名寄せ商品マスタデータベース、各商品についての特徴/評価情報を集めた特徴/評価情報データベース、各商品についての商品グラフ及び/又はグラフベクトル情報を集めた商品グラフ情報データベースを有するリレーショナルデータベースを備えていても良い。
【0141】
[2.動作]
[2-1.全体動作]
図17は、本実施形態の商品名寄せシステムの動作フローチャートの一例である。まず、商品名寄せシステム1は、商品データ取得部20により、2以上の商品データを取得する(S01:商品データの取得)。ここでは、商品データは、一又は複数のECサイトから2以上の商品データ(HTMLデータ)を取得するものとするが、上記の通り、これに限定されず、組織で使用される商品マスタを取得しても良い。
【0142】
次に、商品名寄せシステム1は、同一商品判定部30により、複数の商品データを解析し、同一商品に係る複数の商品データを特定する(S02:同一商品に係る商品データの特定)。具体的には、同一商品判定部30は、取得された2以上の商品データが同一商品に係るものかを判定する。同一商品判定部30は、取得された2以上の商品データが同一商品に係るものでないと判定する場合には、S01に戻る。同一商品判定部30は、取得された2以上の商品データが同一商品に係るものであると判定する場合には、次のS03に進む。
【0143】
取得された2以上の商品データが同一商品に係るものであると判定されると、統合生成部40により、2以上の商品データを解析し、当該商品データに含まれる商品情報を当該商品情報のカテゴリ毎に分類する(S03:商品情報のカテゴリ分類)。1つの例では、統合生成部40は、AI41により商品情報のカテゴリを推定及び分類し、区分する。そして、統合生成部40により、同一商品に係る2以上の商品データに含まれる商品情報を当該商品情報のカテゴリ毎に統合して名寄せ商品マスタを生成する(S04:名寄せ商品マスタの生成)。これにより、同一商品に係る商品データが統合されるので、一方の商品データに他方の商品データを手入力する手間を省くことができる。
【0144】
また、S04の際、統合生成部40は、区分したカテゴリ毎の商品情報の重複を排除する。その理由は、同一商品情報カテゴリに同一の情報は不要だからである。また、S04の際、統合生成部40は、区分したカテゴリ毎の商品情報の表現を正規化する。すなわち、統合生成部40は、正規化用辞書42、正規化用AI43により、カテゴリ内の商品情報に含まれる単位を統一し、当該商品情報である単語、語句の揺らぎを統一する。いずれの単位、単語、語句に統一するかは、正規化用辞書42で定義しても良いし、正規化用AI43により決定されても良い。
【0145】
特徴/評価情報生成部50により、商品データに含まれる商品の特徴を示すデータから商品の特徴/評価情報を生成する(S05:特徴/評価情報の生成)。1つの例では、特定部51により、各商品データに含まれる商品の特徴を示すテキストデータを、所定タグが付された箇所又は範囲に含まれる商品説明文を特定し、抽出する。そして、特定部51は、抽出された商品説明文をAIにより自然言語解析して単語、語句に分解し、商品特徴を示す単語、語句を特定する。生成部52により、当該単語に関連付けられた特徴/評価情報を生成する。より具体的には、カテゴリ推定部53により、特定された単語、語句に対応する商品情報のカテゴリを推定し、生成部52により、単語、語句及び商品情報カテゴリを関連付けられた特徴/評価情報を生成しても良い。
【0146】
商品グラフ生成部60により、生成された特徴/評価情報に基づいて、商品グラフを生成する(S06:商品グラフの生成)。具体的には、商品グラフ生成部60は、ベクトル情報算出部61により、特徴/評価情報に基づくベクトル情報(すなわち、グラフベクトル情報)を算出し、距離算出部62により、当該ベクトル情報に基づいて、商品間の距離を算出する。そして、グラフ生成部63により、算出された距離に基づいて、同一商品カテゴリの商品グラフ及び/又は複数の商品カテゴリ間の商品グラフを生成する。
【0147】
情報付加部70により、生成された特徴/評価情報及び/又は商品グラフ情報を、当該特徴/評価情報に対応する商品に関連付ける(S07:特徴/評価情報及び/又は商品グラフ情報の付加)。これにより、名寄せ商品マスタに付加情報である特徴/評価情報及び/又は商品グラフ情報が付加され、名寄せ商品マスタにより、各商品について統括的な情報を得ることができる。
【0148】
なお、上記では、商品グラフ情報を名寄せ商品マスタに関連付けたが、必ずしも関連付ける必要はない。また、商品グラフに代えて、ベクトル情報算出部61により算出されたベクトル情報を情報付加部70により、対応する商品及び名寄せ商品マスタに関連付けても良い。
【0149】
[2-2.名寄せ商品マスタ生成動作]
図18は、本実施形態の名寄せ商品マスタ生成装置の動作フローチャートの一例である。ここでは、名寄せ商品マスタ生成装置10は、同一商品判定部30及び統合生成部40を含み構成され、商品データ取得部20等により得られた商品データが名寄せ商品マスタ生成装置10に入力されるものとする。また、商品データは、一又は複数のECサイトから2以上の商品データ(HTMLデータ)を取得するものとするが、上記の通り、これに限定されず、組織で使用される商品マスタを取得しても良い。
【0150】
まず、パターン生成部31により、商品識別潜在情報に基づいて、複数の商品識別潜在パターンを複数の商品データ毎にそれぞれ生成する(S21:複数の商品識別潜在パターンの生成)。具体的には、パターン生成部31は、商品データに含まれる商品識別潜在情報を、プログラム311、AI、学習済モデル、又はこれらの組み合わせにより特定し、抽出する(S211:商品識別潜在情報の特定及び抽出)。そして、パターン生成部31は、プログラム311、AI、学習済モデル、又はこれらの組み合わせを用いて、商品識別潜在情報に含まれる一又は複数の単位情報を特定する(S212:単位情報の特定)。さらに、パターン生成部31は、辞書313又はAIに基づいて、商品識別潜在情報に含まれる所定の単位情報を排除及び/又は変換する(S213:所定の単位情報の排除及び/又は変換)。排除される所定の単位情報は、例えば、余剰情報であり、変換される単位情報は、例えば、商品のメーカ名、商品名とすることができる。変換としては、半角から全角への変換、全角から半角への変換、英日、日英への変換、メーカ名、商品名の略称、通称の正式名称への変換とすることができる。
【0151】
このように、所定の単位情報の排除及び/又は変換後、変換した後の単位情報及び商品識別潜在情報に含まれる他の単位情報に基づいて複数の商品識別潜在パターンを生成する(S214:複数の商品識別潜在パターンの生成)。商品識別潜在パターンは、ユーザが求める商品の同一性の粒度に基づいて決定することができる。例えば、同一性の粒度が商品名(ブランド名)レベルである場合、すなわち商品名が同一であれば商品を同一商品と判定する場合、第1パターン~第6パターンの少なくとも1以上のパターンをパターン生成部31が生成すれば良い。同一性の粒度が、販売形態を含めたJANコードなどの商品識別コードレベルである場合、すなわち、商品名、メーカ名、各種スペック情報が同一であれば商品を同一商品と判定する場合、パターン生成部31は、第1パターン~第7パターンを少なくとも含んで生成する。同一性判定の精度を向上させるために、スペック情報に係る第7パターンを複数生成すると良い。
【0152】
次に、ベクトル情報生成部32により、商品データ毎に、各商品識別潜在パターンのベクトル情報をそれぞれ生成する(S22:ベクトル情報の生成)。具体的には、ベクトル情報生成部32は、公知のツールを用いて、商品識別潜在パターンの文字列をN次元の数値の集まりであるベクトル情報に変換する。
【0153】
類似度算出部33により、商品識別潜在パターン毎に2つの商品の商品データのベクトル情報に基づいて当該2つの商品の類似度をそれぞれ算出する(S23:類似度の算出)。類似度は、ここではコサイン類似度であり、類似度が0に近い程類似しておらず、類似度が1に近い程類似していることを示す。
【0154】
判定部34により、類似度に基づいて2つの商品が同一であるか否かを判定する(S24:同一商品であるか?)。判定部34は、各パターンの類似度が所定閾値以上であるか否かに基づいて同一商品か否かを判定する。所定閾値及び同一商品と判定するパターンの数や種類は、ユーザが求める商品の同一性の粒度に応じて決定することができる。
【0155】
1つの例では、商品名が同一であれば同一商品と判定する場合、第1パターン~第6パターンの少なくとも1以上の類似度が所定閾値(例えば、0.7、0.8、又は0.9)以上である場合に同一商品であると判定し、全てのパターンで類似度が所定閾値を下回る場合に異なる商品であると判定する。
【0156】
別の例では、商品名、メーカ名、各種スペック情報が同一であれば商品を同一商品と判定する場合、第1パターン~第7パターンの全ての類似度が所定閾値(例えば、0.7、0.8、又は0.9)以上である場合に同一商品であると判定し、何れかのパターンで所定閾値を下回る場合に異なる商品であると判定する。
【0157】
判定部34が同一商品でないと判定する場合は(S24のNO)、S21より前の商品データの入力(例えば、S01)に戻る。判定部34が同一商品であると判定する場合は(S24のYES)、統合生成部40により、判定部34により同一であると判定された2つの商品データに含まれる商品情報を当該商品情報のカテゴリ毎に分類し(S03)、統合して名寄せ商品マスタを生成する(S04)。S03及びS04は、図17と同様であるので説明は省略する。なお、S04の際、統合生成部40は、区分したカテゴリ毎の商品情報の重複を排除し、及び/又は、区分したカテゴリ毎の商品情報の表現を正規化しても良い。
【0158】
[3.作用・効果]
(1)本実施形態の商品名寄せシステム1は、複数の商品データを取得する商品データ取得部20と、複数の商品データを解析し、同一商品に係る複数の商品データを特定する同一商品判定部30と、複数の商品データを解析し、当該商品データに含まれる商品情報を当該商品情報のカテゴリ毎に分類し、各商品について、同一商品に係る複数の商品データに含まれる商品情報を当該商品情報のカテゴリ毎に統合して名寄せ商品マスタを生成する統合生成部40と、商品データに含まれる商品の特徴を示すデータから商品の特徴/評価情報を生成する特徴/評価情報生成部50と、同一商品に係る特徴/評価情報を含む付加情報を当該同一商品に関連付ける情報付加部70と、を備えるようにした。
【0159】
これにより、商品情報の伝達及びデータ整備の手間や時間を省くことができるとともに、商品情報又は付加情報により、需要予測などのマーケティング分析、商品開発、又は商品のレコメンドに必要な商品に係る情報を提供することができる。
【0160】
(2)特徴/評価情報生成部50は、商品データに含まれる商品の特徴を示すテキストデータから当該商品の特徴を示す単語を特定する特定部51と、単語に関連付けて特徴/評価情報を生成する生成部52と、を有するようにした。
【0161】
これにより、様々な観点又は切り口からの商品の特徴を名寄せ商品マスタに関連付けられたデータとして持つことができ、これらの観点又は切り口から商品に係る情報を提供することができる。そのため、例えば、商品の検索性を向上させたり、マーケティング分析、商品開発、又は、商品のレコメンドに必要な商品に係る情報を提供することができる。1つの例では、ワインだけの商品群とするのではなく、ワインや日本酒、カクテルなどの他のカテゴリの商品も抽出することができ、幅広い分析やレコメンドを行うことができる。別の例では、名寄せ商品マスタを用いたECサイトにおいて、特徴/評価情報を検索タグとして用いることで商品の検索性を向上させることができる。
【0162】
(3)特徴/評価情報生成部50は、単語に対応する商品情報のカテゴリを推定するカテゴリ推定部53を有し、生成部52は、単語及びカテゴリに関連付けて特徴/評価情報を生成するようにした。
【0163】
これにより、特定部51により特定された単語のカテゴリの分類が可能になる。例えば、商品がすっきりとした味わいの飲料である場合、「すっきり」の単語を印象や風味といったカテゴリに分類することができる。また、当該カテゴリは、その概念の大きさに応じて、階層化することができる。その結果、様々な粒度の特徴/評価情報を検索キーとして名寄せ商品マスタのデータベースを検索することができるので、検索精度を向上させることができるとともに様々な角度からの商品グラフを生成することができ、ユーザに新たな気づきを与えることに繋げることができる。
【0164】
(4)特徴/評価情報は、商品の印象、雰囲気、テイスト、質感、品質、及び用途の少なくとも1つ以上の商品情報のカテゴリに含まれる情報であるようにした。これにより、商品の特徴を主観的又は感覚的な観点からの切り口として提供することができるので、マーケティング分析、商品開発、又は、商品のレコメンドのヒントを提供することができる。
【0165】
(5)特徴/評価情報に基づいて、商品間の関係性を示す商品グラフを生成する商品グラフ生成部60を備え、付加情報は、商品グラフ又は商品グラフを生成するためのグラフベクトル情報を含むようにした。これにより、ユーザに商品間の関係性を提示することができるので、需要予測などのマーケティング分析、商品開発、又は、商品のレコメンドに使用することができ、ユーザに商品に関する新たな気づきを与えることができる。
【0166】
(6)商品グラフ生成部60は、同一商品カテゴリの商品グラフを生成するようにした。これにより、同一商品カテゴリでの商品間の関係性を提示することができるので、同一商品カテゴリでの商品群について分析し易くすることができる。
【0167】
(7)商品グラフ生成部60は、複数の商品カテゴリ間の商品グラフを生成するようにした。これにより、特定の商品カテゴリに限られない横断的な商品間の関係性を提示することができるので、同一商品カテゴリでは得られない新たな気づきをユーザに与えることができる。例えば、複数商品カテゴリであっても同じテイストや質感の商品が商品グラフに提示されることで、小売業者には、商品の陳列に関する棚割りや商品発注のヒントを提供することができ、メーカには、商品開発のヒントを提供することができる。また、オンラインでの小売業者では、統一的なテイストや質感の商品をレコメンドすることができる。
【0168】
(8)商品グラフ生成部60は、特徴/評価情報に基づくベクトル情報を算出するベクトル情報算出部61と、ベクトル情報に基づいて、商品間の距離を算出する距離算出部62と、を有するようにした。これにより、種々の商品グラフを生成する材料を整えることができる。
【0169】
(9)複数の商品データのいずれかの商品データは、商品名、スペック情報、商品の物流情報、取引情報、顧客情報、及び購買情報の少なくとも1つを含むようにした。これにより、同一商品について、商品情報及び付加情報とこれらの物流情報、取引情報、顧客情報及び購買情報の少なくとも1つとの連携を自動的に図ることができるので、情報の取得及び入力の労力を無くすことができる。さらに、名寄せ商品マスタに商品の物流情報、取引情報、顧客情報、又は、購買情報が含まれることで、より高度なマーケティング分析、商品開発、又は、商品のレコメンドを実現することができる。
【0170】
例えば、商品データに購買情報が含まれている場合には、商品の売れ筋を購買情報から把握し、その上で、当該商品が売れている原因が名寄せ商品マスタに含まれる商品情報、付加情報の何れにあるかを分析することができる。この分析結果に基づき、小売店には商品の陳列に関する棚割りや商品発注のヒントを提供することができ、メーカには、商品開発のヒントを提供することができる。1つの例では、購買情報として、商品名及びその商品の販売データを含むPOSデータが知られているが、POSデータには商品のスペック情報などの商品情報は含まれておらず、商品情報及び付加情報を収集し、商品マスタに入力する手間が発生するが、本実施形態によれば、こうした収集及び手間を省略することができる。また、購買情報から販売動向を掴むことができ、この購買情報に名寄せ商品マスタには様々な観点からの商品情報、付加情報が関連付けられているので、売れている商品が有する商品情報、付加情報の共通性からその要因を分析することができる。
【0171】
また、商品名、スペック情報、商品の物流情報、取引情報、顧客情報、及び購買情報の全てを含むことで、当該商品の材料調達から製造、流通に至る、当該商品に関わるあらゆる情報を統合することができる。
【0172】
(10)複数の商品データは、異なる二以上の組織の商品データを含むようにした。これにより、異なる組織間の統一的な商品マスタを得ることができるので、商品情報、付加情報の手入力などの労力なしに、商品情報の異なる組織間での共有を迅速かつ適切に行うことができる。
【0173】
(11)同一商品判定部30は、商品データに含まれる少なくとも商品名を含む商品識別潜在情報に基づいて、複数の商品識別潜在パターンを複数の商品データ毎にそれぞれ生成するパターン生成部31と、商品データ毎に、各商品識別潜在パターンのベクトル情報をそれぞれ生成するベクトル情報生成部32と、商品識別潜在パターン毎に、2つの商品の商品データのベクトル情報に基づいて2つの商品の類似度をそれぞれ算出する類似度算出部33と、類似度に基づいて、2つの商品が同一であるか否かを判定する判定部34と、を有するようにした。これにより、名寄せ商品マスタを生成することができる。
【0174】
(12)統合生成部40は、判定部により同一であると判定された2つの商品データに含まれる商品情報を当該商品情報のカテゴリ毎に統合し、当該同一商品の商品マスタである名寄せ商品マスタを生成するようにした。これにより、複数の商品データを自動的に名寄せすることができるので、異なる組織間の商品データを統合する手間や時間を省くことができ、商品情報の伝達を容易に行うことができる。
【0175】
(13)パターン生成部31は、商品識別潜在情報に含まれる一又は複数の単位情報を特定し、当該単位情報に基づいて複数の商品識別潜在パターンを生成するようにした。これにより、商品識別潜在情報に含まれる情報の最小単位に基づき複数の商品識別潜在パターンを生成するので、複数の観点から多角的に同一商品であるかの判定を行うことができ、同一商品であるか否かの判定精度を向上させることができる。換言すれば、商品の取扱い実態に合わせて数の商品識別潜在パターンを生成することができるので、判定精度を向上させることができる。
【0176】
(14)パターン生成部31は、商品識別潜在情報に含まれる所定の単位情報を排除又は変換し、変換した後の単位情報及び排除した後の商品識別潜在情報に含まれる他の単位情報に基づいて商品識別潜在パターンを生成するようにした。これにより、商品識別潜在情報に含まれる同一商品判定に影響しない単位情報を排除したり、同一商品判定に影響するものの表記揺れを変換したりすることができるので、同一商品であるか否かの判定精度を向上させることができる。
【0177】
(15)パターン生成部31は、商品識別潜在情報に含まれる単位情報である商品の略称を当該商品の正式名称に変換するようにした。これにより、同一商品であるか否かの判定精度を向上させることができる。特に、卸業者などの特定の業者は、商品に係る商品マスタに、正式な商品の名称ではなく、当該商品の略称を入力し、商品の略称により商品を識別するという慣行がある。このような慣行の業界の商品データである商品マスタを取得した場合に、当該商品の略称に基づいて商品識別潜在パターンを生成すると、同一商品の判定精度が低下する場合がある。これに対し、本実施形態では、商品の略称を商品の正式名称に変換するようにしたので、判定精度を向上させることができる。
【0178】
(16)商品識別潜在情報は、商品のスペック情報をさらに含み、パターン生成部31は、スペック情報をさらに含む商品識別潜在パターンを生成するようした。これにより、同一商品の判定精度を向上させることができる。例えば、同じメーカの同じ商品名のペットボトルのお茶でも1本の容量が500mlのものを単体で販売したり、1箱12本入りで販売したり、容量が2lのものを単体で販売したり、販売形態が様々であるが、販売形態に合った商品毎にJANコードなどの商品識別コードが付されている。つまり、ブランド名が同じでも販売形態が異なると異なる商品であると識別されている。このような場合であっても、商品識別コードレベルの精度で同一商品であるかを判定することができる。換言すれば、容量や入数、重さ、大きさ、容器タイプなどのスペック情報に依らず、メーカやブランド名に基づいて同一商品であると判定するよりも、細かな粒度で同一商品判定を行うことができ、判定精度を向上させることができる。
【0179】
(17)統合生成部40は、スペック情報を商品情報とし、当該商品情報をカテゴリ毎に分類及び統合し、名寄せ商品マスタを生成するようにした。これにより、あらゆるスペック情報を名寄せ商品マスタに集約することができる。
【0180】
(18)複数の商品識別潜在パターンは、商品識別潜在情報から所定の単位情報を排除又は変換し、かつ商品識別潜在情報に含まれるスペック情報を排除した第1パターン、第1パターンを他の表記形式に変換した第2パターン、第1パターンから商品識別潜在情報に含まれるメーカ名を排除した第3パターン、商品識別潜在情報から所定の単位情報を排除又は変換し、かつ商品識別潜在情報に含まれる数値情報を排除した第4パターン、商品識別潜在情報に含まれるメーカ名のみの第5パターン、商品識別潜在情報に含まれる商品名のみの第6パターン、及び、商品識別潜在情報に含まれる商品のスペック情報のみの第7パターンの少なくとも1つを含むようにした。これにより、複数の組織での商品情報の伝達方式に対応して同一商品判定精度を向上させることができる。
【0181】
(19)統合生成部40は、統合の際、カテゴリ毎の商品情報の重複を排除するようにした。これにより、名寄せ商品マスタを使いやすくすることができる。
【0182】
(20)統合生成部40は、統合の際、カテゴリ毎の商品情報の表現を正規化するようにした。これにより、名寄せ商品マスタを使いやすくすることができる。
【0183】
(21)2つの商品の商品データのうち、一方は、商品の同一判定の基準となる基準商品データであり、他方が、判定部34で未判定であるの未判定商品データであり、判定部34により、未判定商品データが示す商品と基準商品データが示す商品とが同一商品であると判定された場合、当該未判定商品データを基準商品データの1つとするようにした。これにより、教師データ(正解データ)を蓄積することができ、単位情報の排除、変換などの学習モデルの学習に用いることができる。
【0184】
[4.他の実施形態]
本発明の他の実施形態では、上記で説明した本発明の実施形態の機能やフローチャートに示す情報処理を実現するプログラムや該プログラムを格納したコンピュータ読み取り可能な記憶媒体とすることもできる。また他の実施形態では、上記で説明した本発明の実施形態の機能やフローチャートに示す情報処理を実現する方法とすることもできる。また他の実施形態では、上記で説明した本発明の実施形態の機能やフローチャートに示す情報処理を実現するプログラムをコンピュータに供給することができるサーバとすることもできる。また他の実施形態では、上記で説明した本発明の実施形態の機能やフローチャートに示す情報処理を実現する仮想マシンとすることもできる。
【0185】
以上に説明した処理又は動作において、あるステップにおいて、そのステップではまだ利用することができないはずのデータを利用しているなどの処理又は動作上の矛盾が生じない限りにおいて、処理又は動作を自由に変更することができる。また以上に説明してきた各実施例は、本発明を説明するための例示であり、本発明はこれらの実施例に限定されるものではない。本発明は、その要旨を逸脱しない限り、種々の形態で実施することができる。
【0186】
上記の実施形態では、商品に係るデータ、情報を取り扱うようにしたが、商品に代えてサービスとしても良い。例えば、商品データに代えて、サービスに係るサービスデータとしても良い。この場合、システム1、装置10の各部の機能は、商品ではなくサービスに関する機能に置き換えることができる。
【符号の説明】
【0187】
1 商品名寄せシステム
1a プロセッサ
1b 記憶装置
1b-1 RAM
1b-2 ROM
1b-3 外部メモリ
1c 入力装置
1d 出力装置
1e 通信装置
1f バス
10 名寄せ商品マスタ生成装置
20 商品データ取得部
30 同一商品判定部
31 パターン生成部
311 プログラム
313 辞書
313a 排除用辞書
313b 変換用辞書
32 ベクトル情報生成部
33 類似度算出部
34 判定部
40 統合生成部
41 AI
42 正規化用辞書
43 正規化用AI
50 特徴/評価情報生成部
51 特定部
52 生成部
53 カテゴリ推定部
53a 辞書
53b 自然言語処理ライブラリ
60 商品グラフ生成部
61 ベクトル情報算出部
62 距離算出部
63 グラフ生成部
70 情報付加部
C10~C17 商品情報カテゴリ(カラム)
G0 商品の画像
G1 商品識別潜在情報
G2 スペック情報
G3 商品の特徴/評価を示す情報
M 名寄せ商品マスタ
P1~P7 第1パターン~第7パターン
V1~V7 第1パターン~第7パターンのベクトル情報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18