(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023184328
(43)【公開日】2023-12-28
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
G06Q 50/18 20120101AFI20231221BHJP
【FI】
G06Q50/18 310
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022098402
(22)【出願日】2022-06-17
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和4年2月1日 令和3年度卒業論文 業績要因・結果を用いた特許の価値判定のための関連性推定 令和3年度卒業論文 製品特徴に基づく製品発表プレスリリースの関連特許自動判定 令和3年度卒業論文予稿 業績要因・結果を用いた特許の価値判定のための関連性推定 令和3年度卒業論文予稿 製品特徴に基づく製品発表プレスリリースの関連特許自動判定を通じて発表、 令和4年2月1日から令和4年2月2日 2021年度 情報科学科 卒業研究発表会を通じて発表、 令和4年3月7日 https://www.anlp.jp/nlp2022/index.html#program_onlineより閲覧可能な参加者限定サイト を通じて発表、 令和4年3月14日から令和4年3月18日 言語処理学会 第28回年次大会 を通じて発表、 令和4年4月30日 https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/C3-4.pdf https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/C3-3.pdf https://www.anlp.jp/resource/annual_meeting/NLP-2022.zipを通じて発表。
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】397038037
【氏名又は名称】学校法人成蹊学園
(74)【代理人】
【識別番号】100115749
【弁理士】
【氏名又は名称】谷川 英和
(72)【発明者】
【氏名】酒井 浩之
(72)【発明者】
【氏名】三田 英理
(72)【発明者】
【氏名】中山 優輝
(72)【発明者】
【氏名】永並 健吾
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049CC33
(57)【要約】
【課題】従来、重要な特許であるか否かを判断することは容易ではなかった。
【解決手段】企業が行う事業に関する情報であり、文の集合を含む企業情報が格納される企業情報格納部11と、企業の1以上の各特許情報ごとに、企業情報と特許情報との関連度を取得する関連度取得部31と、関連度が抽出条件を満たす1以上の特許情報を決定する決定部32と、決定部32が決定した1以上の特許情報に関する選択特許情報を出力する選択特許出力部41とを具備する情報処理装置Aにより、企業が行う事業に関する企業情報を用いて、重要な特許を決定できる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
企業が行う事業に関する情報であり、文の集合を含む企業情報が格納される企業情報格納部と、
当該企業の1以上の各特許情報ごとに、前記企業情報と前記特許情報との関連度を取得する関連度取得部と、
前記関連度が抽出条件を満たす1以上の特許情報を決定する決定部と、
前記決定部が決定した前記1以上の特許情報に関する選択特許情報を出力する選択特許出力部とを具備する情報処理装置。
【請求項2】
前記関連度取得部は、
前記企業情報から、企業重要条件を満たす重要な情報である1以上の企業重要情報を取得する企業重要情報取得手段と、
前記1以上の各特許情報を用いて、前記特許情報ごとに、特許重要条件を満たす重要な情報である1以上の特許重要情報を取得する特許重要情報取得手段と、
前記1以上の企業重要情報と前記特許情報ごとの前記1以上の特許重要情報とを用いて、前記特許情報ごとに、前記企業情報と前記特許情報との関連度を取得する関連度取得手段とを具備する請求項1記載の情報処理装置。
【請求項3】
前記企業情報は、企業の決算短信情報であり、
前記企業重要情報取得手段は、
前記決算短信情報から業績要因文を取得する請求項2記載の情報処理装置。
【請求項4】
前記特許情報は、1以上の特許分類コードを含み、
前記特許重要情報取得手段は、
前記特許情報ごとに、前記特許情報に含まれる1以上の特許分類コードを取得し、当該1以上の各特許分類コードに対応する1以上の説明用語を含む説明情報を、特許分類コードと説明情報との組を1以上有するコード辞書から取得し、
前記関連度取得手段は、
前記特許情報ごとに、前記特許重要情報取得手段が取得した前記1以上の各説明用語の分散表現を取得し、当該分散表現の代表値である特許ベクトルを取得し、前記企業重要情報取得手段が取得した前記業績要因文に含まれる1以上の用語の分散表現を取得し、当該1以上の用語の分散表現の代表値である事業ベクトルを取得し、前記特許情報ごとに、前記特許ベクトルと前記事業ベクトルとの類似度である関連度を算出する請求項3記載の情報処理装置。
【請求項5】
前記企業情報は、企業の製品発表のプレスリリース記事情報である請求項2記載の情報処理装置。
【請求項6】
前記企業重要情報取得手段は、
前記プレスリリース記事情報が有する1以上の企業重要文を取得し、
前記特許重要情報取得手段は、
前記特許情報が有する発明の効果の項目の文を含む1以上の特許重要文を取得し、
前記関連度取得手段は、
前記1以上の企業重要文を用いた分散表現である事業ベクトルを取得し、前記1以上の特許重要文を用いた分散表現である特許ベクトルを取得し、前記特許情報ごとに、前記特許ベクトルと前記事業ベクトルとの類似度である関連度を算出する請求項5記載の情報処理装置。
【請求項7】
発明の効果の項目の文を正例とし、発明の効果の項目ではない項目の文を負例として、機械学習の学習処理により構築した学習モデルが格納されるモデル格納部をさらに具備し、
前記企業重要情報取得手段は、
前記プレスリリース記事情報が有する1以上の各文に対して、前記学習モデルを適用し、機械学習の予測処理を行い、当該予測処理により、前記1以上の文から、正例に該当する1以上の企業重要文を取得する請求項6記載の情報処理装置。
【請求項8】
前記選択特許情報に対応する特許情報の価値に関する価値情報を取得する価値情報取得部をさらに具備し、
前記出力部は、
前記選択特許情報に代えて、または前記選択特許情報に加えて、前記価値情報を出力する請求項1記載の情報処理装置。
【請求項9】
前記価値情報取得部は、
前記企業情報から企業の業績に関する数値である数値情報を取得し、当該数値情報を用いて、前記価値情報を取得する請求項8記載の情報処理装置。
【請求項10】
前記価値情報取得部は、
前記企業情報から一の事業カテゴリーに対応する業績に関する数値である第一数値情報を取得し、前記企業の事業全体の業績に関する数値である第二数値情報を取得し、当該第一数値情報と当該第二数値情報とを用いて、前記事業カテゴリーの企業における貢献を示す割合である第三数値情報を取得し、当該第三数値情報を用いて、前記価値情報を取得する請求項9記載の情報処理装置。
【請求項11】
前記企業情報は、企業の決算短信情報であり、
前記企業重要情報取得手段は、
前記決算短信情報から業績要因文を取得し、当該業績要因文に対応する業績結果文を取得し、
前記価値情報取得部は、
前記業績結果文から企業の業績に関する数値である数値情報を取得し、当該数値情報を用いて、前記価値情報を取得する請求項8記載の情報処理装置。
【請求項12】
前記価値情報取得部は、
前記業績結果文から売上高、営業利益または純利益である数値情報を取得し、当該数値情報を用いて、前記価値情報を取得する請求項11記載の情報処理装置。
【請求項13】
企業が行う事業に関する情報であり、文の集合を含む企業情報が格納される企業情報格納部と、関連度取得部と、決定部と、選択特許出力部とにより実現される情報処理方法であって、
前記関連度取得部が、当該企業の1以上の各特許情報ごとに、前記企業情報と前記特許情報との関連度を取得する関連度取得ステップと、
前記決定部が、前記関連度が抽出条件を満たす1以上の特許情報を決定する決定ステップと、
前記選択特許出力部が、前記決定部が決定した前記1以上の特許情報に関する選択特許情報を出力する重要特許出力ステップとを具備する情報処理方法。
【請求項14】
企業が行う事業に関する情報であり、文の集合を含む企業情報が格納される企業情報格納部にアクセス可能なコンピュータを、
当該企業の1以上の各特許情報ごとに、前記企業情報と前記特許情報との関連度を取得する関連度取得部と、
前記関連度が抽出条件を満たす1以上の特許情報を決定する決定部と、
前記決定部が決定した前記1以上の特許情報に関する選択特許情報を出力する選択特許出力部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、企業情報に関連する特許情報を決定する情報処理装置等に関するものである。なお、企業情報に関連する特許情報は、通常、企業の重要な事業に関連の強い特許の情報である。
【背景技術】
【0002】
従来から、特許分析に関する技術が、種々、存在する。例えば、特許文献中の重要語を用いたFタームの自動付与を行う技術があった(非特許文献1参照)。また、手がかり表現の種として与えることにより、技術調査に必要な情報を「ができる。」と「が可能である。」といった表現を特許から自動的に抽出する技術があった(非特許文献2参照)。
【0003】
また、関連特許検索を二値分類問題として扱う技術があった(非特許文献3参照)。また、特許文献における発明の作用・効果を抽出する技術があった(非特許文献4参照)。さらに、特許の機能表現に着目した類似特許検索法の技術があった(非特許文献5参照)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】佐々木 深,綱川 隆司,西田 昌史,西村 雅史:“特許文献中の重要語を用いた F ターム自動付与”,言語処理学会 第23回年次大会発表論文集, pp.450-453, 2017
【非特許文献2】酒井 浩之,野中 尋史,増山 繁:“特許明細書からの技術課題情報の抽出”,人工知能学会論文誌, vol.24, no.6,pp.531-540, 2009.
【非特許文献3】Dylan Myungchul Kang, Charles Cheolgi Lee, Suan Lee, Wookey Lee, “Patent Prior Art Search using Deep Learning Language Model” , IDEAS '20: Proceedings of the 24th Symposium on International Database Engineering & Applications(2020).
【非特許文献4】原田綾花,太田貴久,小林暁雄,増山繁,野中尋史,酒井浩之,“特許文書からの発明に関する特徴的技術とその効果の抽出”,言語処理学会第19回年次大会発表論文集,pp512-515,2013.
【非特許文献5】Jian-Hong Ma, Ning-Ning Wang, Shuang Yao, Zi-Mo Wei, Shuai Jin, “Similar Patent Search Method Based on a Functional Information Fusion”, IDEAS '20: Proceedings of the 24th Symposium on International Database Engineering & Applications
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術においては、ある企業にとって、当該企業の特許が重要な特許であるか否かを判断することは容易ではなかった。
【課題を解決するための手段】
【0006】
本第一の発明の情報処理装置は、企業が行う事業に関する情報であり、文の集合を含む企業情報が格納される企業情報格納部と、企業の1以上の各特許情報ごとに、企業情報と特許情報との関連度を取得する関連度取得部と、関連度が抽出条件を満たす1以上の特許情報を決定する決定部と、決定部が決定した1以上の特許情報に関する選択特許情報を出力する選択特許出力部とを具備する情報処理装置である。
【0007】
かかる構成により、企業が行う事業に関する企業情報を用いて、重要な特許を決定できる。
【0008】
また、本第二の発明の情報処理装置は、第一の発明に対して、関連度取得部は、企業情報から、企業重要条件を満たす重要な情報である1以上の企業重要情報を取得する企業重要情報取得手段と、1以上の各特許情報を用いて、特許情報ごとに、特許重要条件を満たす重要な情報である1以上の特許重要情報を取得する特許重要情報取得手段と、1以上の企業重要情報と特許情報ごとの1以上の特許重要情報とを用いて、特許情報ごとに、企業情報と特許情報との関連度を取得する関連度取得手段とを具備する情報処理装置である。
【0009】
かかる構成により、企業が行う事業に関する企業情報を用いて、重要な特許を決定できる。
【0010】
また、本第三の発明の情報処理装置は、第二の発明に対して、企業情報は、企業の決算短信情報であり、企業重要情報取得手段は、決算短信情報から業績要因文を取得する情報処理装置である。
【0011】
かかる構成により、決算短信を用いて、重要な特許を決定できる。
【0012】
また、本第四の発明の情報処理装置は、第三の発明に対して、特許情報は、1以上の特許分類コードを含み、特許重要情報取得手段は、特許情報ごとに、特許情報に含まれる1以上の特許分類コードを取得し、1以上の各特許分類コードに対応する1以上の説明用語を含む説明情報を、特許分類コードと説明情報との組を1以上有するコード辞書から取得し、関連度取得手段は、特許情報ごとに、特許重要情報取得手段が取得した1以上の各説明用語の分散表現を取得し、分散表現の代表値である特許ベクトルを取得し、企業重要情報取得手段が取得した業績要因文に含まれる1以上の用語の分散表現を取得し、1以上の用語の分散表現の代表値である事業ベクトルを取得し、特許情報ごとに、特許ベクトルと事業ベクトルとの類似度である関連度を算出する情報処理装置である。
【0013】
かかる構成により、決算短信を用いて、重要な特許を決定できる。
【0014】
また、本第五の発明の情報処理装置は、第二の発明に対して、企業情報は、企業の製品発表のプレスリリース記事情報である情報処理装置である。
【0015】
かかる構成により、製品発表プレスリリースを用いて、重要な特許を決定できる。
【0016】
また、本第六の発明の情報処理装置は、第五の発明に対して、企業重要情報取得手段は、プレスリリース記事情報が有する1以上の企業重要文を取得し、特許重要情報取得手段は、特許情報が有する発明の効果の項目の文を含む1以上の特許重要文を取得し、関連度取得手段は、1以上の企業重要文を用いた分散表現である事業ベクトルを取得し、1以上の特許重要文を用いた分散表現である特許ベクトルを取得し、特許情報ごとに、特許ベクトルと事業ベクトルとの類似度である関連度を算出する情報処理装置である。
【0017】
かかる構成により、製品発表プレスリリースを用いて、重要な特許を決定できる。
【0018】
また、本第七の発明の情報処理装置は、第六の発明に対して、発明の効果の項目の文を正例とし、発明の効果の項目ではない項目の文を負例として、機械学習の学習処理により構築した学習モデルが格納されるモデル格納部をさらに具備し、企業重要情報取得手段は、プレスリリース記事情報が有する1以上の各文に対して、学習モデルを適用し、機械学習の予測処理を行い、予測処理により、1以上の文から、正例に該当する1以上の企業重要文を取得する情報処理装置である。
【0019】
かかる構成により、製品発表プレスリリースを用いて、重要な特許を決定できる。
【0020】
また、本第八の発明の情報処理装置は、第一の発明に対して、選択特許情報に対応する特許情報の価値に関する価値情報を取得する価値情報取得部をさらに具備し、出力部は、
前記選択特許情報に代えて、または前記選択特許情報に加えて、価値情報を出力する情報処理装置である。
【0021】
かかる構成により、企業が行う事業に関する企業情報を用いて、特許の価値に関する価値情報を取得できる。
【0022】
また、本第九の発明の情報処理装置は、第八の発明に対して、価値情報取得部は、企業情報から企業の業績に関する数値である数値情報を取得し、数値情報を用いて、価値情報を取得する情報処理装置である。
【0023】
かかる構成により、企業が行う事業に関する企業情報を用いて、特許の適切な価値情報を取得できる。
【0024】
また、本第十の発明の情報処理装置は、第九の発明に対して、価値情報取得部は、企業情報から一の事業カテゴリーに対応する業績に関する数値である第一数値情報を取得し、企業の事業全体の業績に関する数値である第二数値情報を取得し、当該第一数値情報と当該第二数値情報とを用いて、前記事業カテゴリーの企業における貢献を示す割合である第三数値情報を取得し、当該第三数値情報を用いて、価値情報を取得する情報処理装置である。
【0025】
かかる構成により、企業が行う事業に関する企業情報を用いて、特許の適切な価値情報を取得できる。
【0026】
また、本第十一の発明の情報処理装置は、第八の発明に対して、企業情報は、企業の決算短信情報であり、企業重要情報取得手段は、決算短信情報から業績要因文を取得し、業績要因文に対応する業績結果文を取得し、価値情報取得部は、業績結果文から企業の業績に関する数値である数値情報を取得し、数値情報を用いて、価値情報を取得する情報処理装置である。
【0027】
かかる構成により、決算短信を用いて、特許の価値情報を取得できる。
【0028】
また、本第十二の発明の情報処理装置は、第十一の発明に対して、価値情報取得部は、業績結果文から売上高、営業利益または純利益である数値情報を取得し、数値情報を用いて、価値情報を取得する情報処理装置)である。
【0029】
かかる構成により、決算短信を用いて、特許の価値情報を取得できる。
【発明の効果】
【0030】
本発明による情報処理装置によれば、企業が行う事業に関する企業情報を用いて、重要な特許を決定できる。
【図面の簡単な説明】
【0031】
【
図1】実施の形態1における情報処理装置Aのブロック図
【
図3】同情報処理装置Aの動作例について説明するフローチャート
【
図4】同企業重要情報取得処理の例について説明するフローチャート
【
図5】同判断処理の例について説明するフローチャート
【
図6】同学習処理の例について説明するフローチャート
【
図7】同関連度取得処理の例について説明するフローチャート
【
図8】同特許重要情報取得処理の例について説明するフローチャート
【
図9】同関連度取得の詳細な処理の例について説明するフローチャート
【
図10】同価値情報取得処理の例について説明するフローチャート
【
図12】同情報処理装置Aの処理の概要を説明する図
【発明を実施するための形態】
【0032】
以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0033】
(実施の形態1)
本実施の形態において、企業情報と当該企業の特許情報との関連度を取得し、当該関連度を用いて、重要特許を決定する情報処理装置について説明する。なお、企業情報は、例えば、決算短信情報、製品発表プレスリリース記事情報である。
【0034】
また、本実施の形態において、企業情報から重要情報を抽出し、かつ特許情報を用いて重要情報を取得する。次に、重要情報間の類似度を算出し、当該類似度を用いて重要特許を決定する情報処理装置について説明する。
【0035】
さらに、本実施の形態において、重要特許の価値情報を取得し、出力する情報処理装置について説明する。
【0036】
なお、本実施の形態において、情報Xが情報Yに対応付いていることは、情報Xから情報Yを取得できること、または情報Yから情報Xを取得できることであり、その対応付けの方法は問わない。情報Xと情報Yとがリンク付いていても良いし、同じバッファに存在していても良いし、情報Xが情報Yに含まれていても良いし、情報Yが情報Xに含まれている等でも良い。
【0037】
図1は、本実施の形態における情報処理装置Aのブロック図である。情報処理装置Aは、格納部1、受付部2、処理部3、および出力部4を備える。格納部1は、企業情報格納部11、特許情報格納部12、コード辞書13、およびモデル格納部14を備える。処理部3は、関連度取得部31、決定部32、および価値情報取得部33を備える。関連度取得部31は、企業重要情報取得手段311、特許重要情報取得手段312、および関連度取得手段313を備える。出力部4は、選択特許出力部41、および価値情報出力部42を備える。
【0038】
情報処理装置Aを構成する格納部1には、各種の情報が格納される。各種の情報は、例えば、後述する企業情報、後述する特許情報、後述するコード説明情報、後述する学習モデルである。
【0039】
企業情報格納部11には、1または2以上の企業情報が格納される。企業情報とは、企業が行う事業に関する情報である。企業情報は、1以上の文の集合を含む。企業情報は、例えば、決算短信情報、有価証券報告書情報、プレスリリース記事情報、企業のウェブページ、新聞記事情報である。決算短信情報とは、決算短信が含まれる情報である。決算短信とは、証券取引所のルールにしたがって開示される書類で、現在、原則として決算日から45日以内に開示することが義務づけられている書類である。有価証券報告書情報とは、有価証券報告書が含まれる情報である。プレスリリース記事情報は、企業が行うプレスリリースの記事の情報である。プレスリリース記事情報は、例えば、企業の製品発表のプレスリリースの記事の情報である。企業のウェブページは、企業のホームページである。新聞記事情報は、企業が行う事業に関する情報が掲載された新聞記事の情報である。決算短信情報、有価証券報告書情報、プレスリリース記事情報、新聞記事情報は、例えば、ファイルであるが、その構造は問わない。
【0040】
特許情報格納部12には、1または2以上の特許情報が格納される。特許情報とは、特許に関する情報である。一の特許情報は、通常、一の特許の情報である。特許情報格納部12の特許情報は、企業情報に対応する企業が出願人または権利者である特許であることは好適である。ここでの特許は、登録特許でも良いし、出願中の特許等でも良い。特許のステータスは問わない。特許情報は、通常、特許識別子を含む。特許識別子とは、特許を識別する情報である。特許識別子は、例えば、登録番号、出願番号、公開番号、企業で付与された整理番号やIDである。特許情報は、特許請求の範囲、明細書を含むことは好適であるが、要約書だけでも良いし、図面だけでも良いし、1または2以上の特許分類コードだけでも良い。つまり、特許情報は、発明の内容を記載した文章を含むことは好適である。ただし、特許情報は、特許識別子と特許分類コードだけでも良い。
【0041】
コード辞書13には、1または2以上のコード説明情報が格納される。コード説明情報は、特許分類コードと説明情報との組である。
【0042】
特許分類コードは、例えば、IPCコード、Fターム、FIコード、CPCコードである。特許分類コードの種類や枝の深さは問わない。特許分類コードがIPCである場合、特許分類コードは、セクションのみ、メインクラス(またはクラス)まで、サブクラスまで、メイングループまで、サブグループまで等、問わない。ただし、特許分類コードであるIPCが、セクションからサブグループまで含むことは好適である。
【0043】
説明情報とは、特許分類コードの意味を説明する文または特許分類コードに対応する1以上の用語である。特許分類コードと説明情報との組は、例えば、
図2である。
図2は、コード説明管理表である。コード説明管理表は、「特許分類コード」「深さ」「説明情報」を有する2以上のレコードを管理する。
【0044】
モデル格納部14には、1または2以上の学習モデルが格納される。学習モデルとは、機械学習の予測処理に使用される情報である。学習モデルは、学習器、分類器、分類モデル等と言っても良い。
【0045】
学習モデルは、例えば、1以上の文の集合から重要情報(例えば、重要文)を決定するためのモデルである。
【0046】
なお、ここでの重要文は、例えば、発明の効果を説明する文である。学習モデルは、特許文書におけるタグ「発明の効果」の項目に含まれる文を正例とし、「発明の効果」の項目ではない項目(例えば、実施の形態)の中の文を負例として、機械学習の学習処理により構築したモデルである。
【0047】
なお、かかる学習処理は、図示しない学習部が行うとする。学習部は、情報処理装置Aが具備しても良いし、他の装置が具備しても良い。また、学習部を具備する装置は、1以上の正例と1以上の負例とを格納する格納部を有する、とする。また、特許文書(例えば、公開特許公報、特許公報)からタグ「発明の効果」の項目に含まれる文である正例を取得する技術、および「発明の効果」の項目ではない項目(例えば、実施の形態)の中の文である負例を取得する技術は公知技術である。
【0048】
また、機械学習のアルゴリズムは、深層学習、ランダムフォレスト、決定木、SVM等、問わない。また、機械学習には、例えば、TensorFlowのライブラリ、R言語のrandom forestのモジュール、fastText、TinySVM等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。
【0049】
受付部2は、各種の指示や情報を受け付ける。各種の指示や情報は、例えば、開始指示、企業情報、特許情報、コード説明情報、学習モデルである。
【0050】
各種の指示や情報の入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの等、何でも良い。
【0051】
処理部3は、各種の処理を行う。各種の処理は、例えば、関連度取得部31、決定部32、価値情報取得部33が行う処理である。
【0052】
関連度取得部31は、企業の1以上の各特許情報ごとに、企業情報と特許情報との関連度を取得する。関連度は、例えば、後述する類似度である。関連度は、例えば、企業情報が有する用語と特許情報が有する用語の中の同一用語の数、または同一用語の割合に基づく数値であっても良い。かかる場合、通常、同一用語の数同一用語の割合が多いほど、高い関連度となる。
【0053】
類似度は、例えば、事業ベクトルと特許ベクトルとの類似度である。事業ベクトルとは、企業情報を用いて構成されるベクトルである。特許ベクトルとは、特許情報を用いて構成されるベクトルである。ベクトルは、2以上の要素(情報)の集合であり、その構造は問わない。また、企業の特許情報とは、企業が出願人または権利者である特許の情報である。
【0054】
企業重要情報取得手段311は、企業情報格納部11の企業情報から、企業重要条件を満たす重要な情報である1以上の企業重要情報を取得する。
【0055】
企業重要条件とは、企業情報から企業重要情報に該当するための条件である。企業重要条件は、例えば、企業情報から後述する業績要因文を取得するための条件である。企業重要条件は、例えば、企業情報から後述する業績結果文を取得するための条件である。企業重要条件は、例えば、企業情報から後述する効果文を取得するための条件である。
【0056】
企業重要条件は、例えば、企業重要情報に該当する文を取得するための手がかり表現に合致することである。企業重要条件は、例えば、企業重要情報に該当する文を取得するための学習モデルを用いて、機械学習の予測処理を行い、正例(企業重要情報であること)に該当するとの予測結果が得られることである。
【0057】
企業重要情報取得手段311は、例えば、1以上の文を含む企業情報から、手がかり表現に合致する文である1以上の企業重要情報を取得する。
【0058】
企業重要情報取得手段311は、例えば、企業情報に含まれる1以上の各文に対して、学習モデルを用いて、機械学習の予測処理を行い、正例(企業重要情報であること)に該当するか否かの予測結果を取得し、正例に該当するとの予測結果に対応する1以上の企業重要情報を取得する。
【0059】
また、ここでの学習モデルは、図示しない学習部が、1以上の正例の文と、1以上の負例の文とを用いて、機械学習の学習処理を行い、取得したモデルである。
【0060】
企業重要情報取得手段311は、例えば、企業情報格納部11の決算短信情報から業績要因文を取得する。業績要因文とは、企業の業績が好調であった理由、または企業の業績が不振であった理由が記載されている文である。
【0061】
企業重要情報取得手段311は、例えば、以下の2つの処理のうちのいずれかの処理により、業績要因文を取得する。
(1)手がかり表現による場合
【0062】
企業重要情報取得手段311は、1以上の文を含む企業情報から、業績要因手がかり表現を含む文である業績要因文を取得する。業績要因手がかり表現とは、業績要因文を取得するための手がかり表現である。業績要因手がかり表現は、例えば、「が好調」「が不振」である。
【0063】
なお、業績要因手がかり表現は、公知のブートストラップ法によって、1または2以上の決算短信情報から自動収集された情報であることは好適である。
(2)学習モデルによる場合
【0064】
企業重要情報取得手段311は、1以上の文を含む企業情報の各文と、学習モデルとを用いて、機械学習の予測処理を行い、各文について、予測結果を取得する。予測結果とは、文が業績要因文であるか否か(正例であるか否か)を示す情報である。
【0065】
また、ここでの学習モデルは、図示しない学習部が、1以上の業績要因文を正例とし、1以上の非業績要因文を負例として、機械学習の学習処理を行い、取得したモデルである。非業績要因文とは、業績要因文では無い文である。
【0066】
また、ここでの機械学習のアルゴリズムは、BERTが好適であるが、上述した他のアルゴリズムや他のモジュールを使用しても良いことは言うまでもない。
【0067】
企業重要情報取得手段311は、例えば、企業情報格納部11のプレスリリース記事情報が有する1以上の企業重要文を取得する。なお、ここでの企業重要文は、プレスリリース記事に記載された文であり、例えば、効果文である。効果文とは、技術の効果が記載された文である。
【0068】
企業重要情報取得手段311は、例えば、以下の2つの処理により、プレスリリース記事の中の重要文を取得する。
(1)学習モデルによる場合
【0069】
企業重要情報取得手段311は、企業情報格納部11のプレスリリース記事情報が有する1以上の各文に対して、学習モデルを適用し、機械学習の予測処理を行い、1以上の文が正例(企業重要文)であるか否かを判断し、正例に該当する1以上の企業重要文を取得する。
【0070】
ここでの学習モデルは、例えば、図示しない学習部が、1または2以上の各特許情報が有する明細書の[発明の効果]の項目に存在する1または2以上の各文を正例とし、[発明の効果]の項目以外の項目(例えば、実施例、発明の実施の形態)に存在する1または2以上の各文を負例として、機械学習の学習処理を行い、取得したモデルである。なお、学習モデルは、1以上の企業重要文を正例とし、1以上の非企業重要文を負例として、機械学習の学習処理を行い、取得したモデルであれば良く、教師データ(正例、負例)の取得方法は問わない。教師データは、例えば、人手により作成された文でも良く、1以上のプレスリリース記事情報が有する1以上の各文の中で、手がかり表現(例えば、「できる。」「良くなった。」)を含む正例と、手がかり表現を含まない負例でも良い。
【0071】
また、ここでの機械学習のアルゴリズムは、BERTが好適であるが、上述した他のアルゴリズムや他のモジュールを使用しても良いことは言うまでもない。
(2)手がかり表現による場合
【0072】
企業重要情報取得手段311は、企業情報格納部11のプレスリリース記事情報が有する1以上の各文に対して、重要文手がかり表現に合致する文である重要文を取得する。
【0073】
重要文手がかり表現とは、重要文を取得するための手がかり表現である。重要文手がかり表現は、例えば、「できる。」「良くなった。」である。なお、重要文手がかり表現は、公知のブートストラップ法によって、1または2以上のプレスリリース記事情報または特許情報から自動収集された情報であることは好適である。
【0074】
企業重要情報取得手段311は、企業情報格納部11の企業情報から、企業重要条件を満たす1以上の業績結果文を取得する。企業重要情報取得手段311は、決算短信情報から業績要因文を取得し、当該業績要因文に対応する業績結果文を取得する。
【0075】
業績要因文に対応する業績結果文とは、例えば、業績要因文に続く、所定数の文の中で、特定の手がかり表現を含む文である。ここでの特定の手がかり表現は「売上高」「営業利益」「純利益」「万円」「億円」である。
【0076】
企業重要条件とは、企業重要情報に該当するための条件である。企業重要条件は、例えば、後述する業績要因文を取得するための条件である。企業重要条件は、例えば、業績結果文を取得するための条件である。
【0077】
業績結果文とは、業績要因が属する事業セグメントの売上に関する情報が記載されている文である。
【0078】
企業重要情報取得手段311は、例えば、業績要因手がかり表現を用いて、企業情報から業績結果文を取得する。なお、業績要因手がかり表現とは、業績要因文を取得するための手がかり表現である。業績要因手がかり表現は、例えば、「売上高」「営業利益」「純利益」、および「万円」「億円」である。ここでの企業重要条件は、例えば、「「売上高」「営業利益」「純利益」のいずれかを含む & 「万円」「億円」のいずれかを含む」である。
である。
【0079】
企業重要情報取得手段311は、例えば、対象の特許情報に対して、類似度が最も高い業績要因文の後ろの所定数の文(例えば、後の5文)を抽出する。次に、企業重要情報取得手段311は、例えば、特定のキーワード(例えば、「万円」または「億円」)をキーとするキーワード検索を実行し、当該キーワードを含む文を業績結果文として抽出する。なお、当該キーワードを含む文が存在しなかった場合、企業重要情報取得手段311は、例えば、次に類似度が高かった業績要因文の後ろの所定数の文に対してキーワード検索を行い、当該キーワードを含む文を業績結果文として抽出する。そして、当該キーワードを含む文が存在しなかった場合、さらに次の類似度が高かった業績要因文に基づいて、当該キーワードを含む文を見付けるまで繰り返す。
【0080】
特許重要情報取得手段312は、1以上の各特許情報を用いて、特許情報ごとに、特許重要条件を満たす重要な情報である1以上の特許重要情報を取得する。
【0081】
特許重要条件とは、特許重要情報に該当するための条件である。特許重要条件は、例えば、特許分類コードに対応する説明用語であることである。特許重要条件は、例えば、特許情報が有する明細書の発明の効果の項目の文であることである。特許重要条件は、例えば、特定の手がかり表現を含む文であることである。特定の手がかり表現は、例えば、「~により、~できる」である。
【0082】
特許重要情報取得手段312は、例えば、特許情報格納部12の1以上の各特許情報ごとに、特許情報に含まれる1以上の特許分類コードを取得し、当該1以上の各特許分類コードに対応する1以上の説明用語を含む説明情報をコード辞書13から取得する。かかる場合、1以上の説明情報または1以上の説明用語が、特許重要情報である。
【0083】
特許重要情報取得手段312は、特許情報格納部12の1以上の各特許情報ごとに、特許情報が有する発明の効果の項目の文を含む1以上の特許重要文を取得する。かかる場合、1以上の特許重要文または1以上の特許重要文に含まれる用語が、特許重要情報である。
【0084】
関連度取得手段313は、1以上の企業重要情報と1以上の特許重要情報とを用いて、特許情報ごとに、企業情報と特許情報との関連度を取得する。なお、関連度は、企業情報と特許情報との情報の類似度でも良い。
【0085】
関連度取得手段313は、特許情報ごとに、1以上の特許重要情報と1以上の企業重要情報とを用いて、企業情報と特許情報との関連度を取得する。
【0086】
以下、企業情報が決算短信情報である場合と、プレスリリース記事情報である場合とについて、企業情報と特許情報との関連度を取得する方法の2つの具体例について説明する。なお、企業情報と特許情報との関連度を取得する方法は、以下の2つ以外の方法でも良い。
(A)企業情報が決算短信情報である場合
(1)分散表現を用いる場合
【0087】
関連度取得手段313は、例えば、特許情報ごとに、特許重要情報取得手段312が取得した1以上の各説明用語の分散表現を取得する。次に、関連度取得手段313は、例えば、当該1以上の分散表現の代表値である特許ベクトルを取得する。なお、説明用語は、名詞であることは好適であるが、名詞を含む自立語等でも良い。また、説明用語の分散表現を取得する技術は公知技術である。また、2以上の分散表現の代表値は、例えば、2以上の分散表現であるベクトルが有する各要素の平均値を要素とするベクトルである。ただし、各要素の平均値に代えて、各要素の中央値等でも良い。
【0088】
また、関連度取得手段313は、例えば、企業重要情報取得手段311が取得した業績要因文に含まれる1以上の用語の分散表現を取得する。次に、関連度取得手段313は、例えば、当該1以上の用語の分散表現の代表値である事業ベクトルを取得する。
【0089】
次に、関連度取得手段313は、特許情報ごとに、特許ベクトルと事業ベクトルとの類似度である関連度を算出する。なお、2つのベクトルの類似度を取得する技術は公知技術である。
(2)同一の用語の数または割合を用いる場合
【0090】
関連度取得手段313は、例えば、特許情報ごとに、特許重要情報取得手段312が取得した1以上の各説明用語と、企業重要情報取得手段311が取得した業績要因文に含まれる1以上の用語との中で、同一の用語の数を取得する。また、関連度取得手段313は、同一の用語の数を用いて、同一の用語の割合を取得しても良い。
【0091】
次に、関連度取得手段313は、例えば、同一の用語の数または同一の用語の割合をパラメータとする増加関数により、特許情報ごとに、関連度を算出する。関連度取得手段313は、例えば、同一の用語の数または同一の用語の割合に対応する関連度を対応表から取得しても良い。対応表は、同一の用語の数または同一の用語の割合の幅と、関連度とを有する2以上の対応情報を有する。
(B)企業情報がプレスリリース記事情報である場合
(1)分散表現を用いる場合
【0092】
関連度取得手段313は、企業重要情報取得手段311が取得した1以上の企業重要文を用いた分散表現である事業ベクトルを取得する。なお、文の分散表現を取得する技術は公知技術である。
【0093】
また、関連度取得手段313は、特許重要情報取得手段312が取得した1以上の特許重要文を用いた分散表現である特許ベクトルを取得する。
【0094】
次に、関連度取得手段313は、例えば、特許情報ごとに、特許ベクトルと事業ベクトルとの類似度である関連度を算出する。
(2)同一の用語の数または割合を用いる場合
【0095】
関連度取得手段313は、企業重要情報取得手段311が取得した1以上の企業重要文が有する用語と、特許重要情報取得手段312が取得した1以上の特許重要文が有する用語との間で、同じ用語を検出し、当該同じ用語の数を取得する。また、関連度取得手段313は、同一の用語の数を用いて、同一の用語の割合を取得しても良い。
【0096】
次に、関連度取得手段313は、例えば、同一の用語の数または同一の用語の割合をパラメータとする増加関数により、特許情報ごとに、関連度を算出する。
【0097】
決定部32は、関連度取得部31が取得した関連度が抽出条件を満たす1以上の特許情報を決定する。
【0098】
抽出条件とは、選択する特許情報を決定するための条件である。抽出条件は、例えば、 関連度が閾値以上、または関連度が閾値より大きいことである。
【0099】
価値情報取得部33は、決定部32が決定した1以上の各選択特許情報の価値情報を取得する。価値情報とは、特許情報に対応する特許の価値に関する情報である。価値情報は、定量的な価値を示す情報であることは好適であるが、価値の有無を示す情報でも良いし、価値のランクを示す情報でも良いし、価値のカテゴリーを示す情報でも良い。
【0100】
価値情報取得部33は、例えば、以下の2つの方法のいずれかの方法により、価値情報を取得する。
(1)企業情報に対応する数値情報を用いる場合
【0101】
価値情報取得部33は、企業情報から数値情報を取得し、当該数値情報を用いて、価値情報を取得する。価値情報取得部33は、通常、大きな数値を示す数値情報であること、高い価値を示す価値情報を取得する。
【0102】
数値情報とは、企業の業績に関する数値である。数値情報は、例えば、売上高を示す情報、営業利益を示す情報、純利益を示す情報である。
【0103】
さらに具体的には、価値情報取得部33は、例えば、業績結果文から数値情報を取得し、当該数値情報を用いて、価値情報を取得する。価値情報取得部33は、通常、大きな数値情報ほど、高い価値を示す価値情報を取得する。
【0104】
価値情報取得部33は、例えば、企業重要情報取得手段311が取得した業績結果文から数値情報を取得し、当該数値情報を用いて、価値情報を取得する。なお、数値情報は、業績結果文が有する用語「万円」または「億円」の直前の数値と「万円」または「億円」とを繋げた情報である。
【0105】
次に、価値情報取得部33は、例えば、取得した数値情報をパラメータとする増加関数により、価値情報を取得する。
(2)割合を用いる場合
【0106】
価値情報取得手段332は、企業情報から一の事業カテゴリーに対応する業績に関する数値である第一数値情報を取得する。第一数値情報は、(1)における数値情報である。
【0107】
また、価値情報取得手段332は、企業の事業全体の業績に関する数値である第二数値情報を取得する。なお、第二数値情報は、例えば、企業の総売上高、企業の総利益である。
【0108】
価値情報取得手段332は、例えば、手がかり表現を用いて、業績結果文から第二数値情報を取得する。ここでの手がかり表現は、例えば、「総売上げ.*(億円|万円)」「総利益.*(億円|万円)」である。価値情報取得手段332は、例えば、手がかり表現を用いて、用語「万円」または「億円」の直前の数値と「万円」または「億円」とを繋げた文字列である第二数値情報を取得する。
【0109】
価値情報取得手段332は、例えば、図示しない企業データベースから、当該企業の企業識別子に対応する第二数値情報を取得しても良い。なお、企業識別子とは、例えば、企業名、企業のID(例えば、証券コード、銘柄コード)である。
【0110】
次に、価値情報取得手段332は、例えば、第一数値情報と第二数値情報とを用いて、当該事業カテゴリーの、当該企業における貢献を示す割合である第三数値情報を取得する。
【0111】
次に、価値情報取得手段332は、例えば、第三数値情報を用いて、価値情報を取得する。価値情報取得手段332は、第三数値情報が大きいほど、高い価値の価値情報を取得する。価値情報取得手段332は、例えば、第三数値情報をパラメータとする増加関数により、価値情報を算出する。
(3)関連度を用いる場合
【0112】
価値情報取得部33は、例えば、関連度取得手段313が取得した最大の関連度をパラメータとする増加関数により、価値情報を取得する。価値情報取得部33は、例えば、関連度が大きいほど、高い価値の価値情報を取得する。
【0113】
出力部4は、各種の情報を出力する。各種の情報とは、例えば、選択特許情報、価値情報である。
【0114】
ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
【0115】
選択特許出力部41は、決定部32が決定した1以上の特許情報に関する選択特許情報を出力する。なお、選択特許情報は、例えば、特許番号、出願番号である。選択特許出力部41は、例えば、価値情報取得部33に選択特許情報を渡す。
【0116】
価値情報出力部42は、価値情報取得部33が取得した価値情報を出力する。価値情報出力部42は、選択特許情報に対応付けて、価値情報を出力することは好適である。
【0117】
格納部1、企業情報格納部11、特許情報格納部12、コード辞書13、およびモデル格納部14は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0118】
格納部1等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部1等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部1等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部1等で記憶されるようになってもよい。
【0119】
受付部2は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0120】
処理部3、関連度取得部31、決定部32、価値情報取得部33、企業重要情報取得手段311、特許重要情報取得手段312、関連度取得手段313、カテゴリー決定手段331、および価値情報取得手段332は、通常、プロセッサやメモリ等から実現され得る。処理部3等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、CPU、MPU、GPU等であり、その種類は問わない。
【0121】
出力部4は、選択特許出力部41、および価値情報出力部42、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部4等は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0122】
次に、情報処理装置Aの動作例について、
図3のフローチャートを用いて説明する。なお、以下の処理は、例えば、開始指示の受け付けにより開始される。
【0123】
(ステップS301)企業重要情報取得手段311は、企業情報格納部11から1または2以上の企業情報を取得する。
【0124】
(ステップS302)企業重要情報取得手段311は、ステップS301で取得した1以上の企業情報から企業重要情報を取得する。かかる企業重要情報取得処理の例について、
図4のフローチャートを用いて説明する。
【0125】
(ステップS303)関連度取得部31は、カウンタiに1を代入する。
【0126】
(ステップS304)関連度取得部31は、i番目の特許情報が、特許情報格納部12に存在するか否かを判断する。i番目の特許情報が存在する場合はステップS305に行き、存在しない場合はステップS308に行く。
【0127】
(ステップS305))関連度取得部31は、i番目の特許情報を特許情報格納部12から取得する。
【0128】
(ステップS306)関連度取得部31は、関連度取得処理を行う。関連度取得処理の例について、
図7のフローチャートを用いて説明する。
【0129】
(ステップS307)関連度取得部31は、カウンタiを1、インクリメントする。ステップS304に戻る。
【0130】
(ステップS308)決定部32は、関連度取得部31が取得した関連度が抽出条件を満たす1以上の特許情報を決定する。なお、決定された特許情報は、選択された特許情報であるので、適宜、選択特許情報と言う。
【0131】
(ステップS309)価値情報取得部33は、選択特許情報の価値情報を出力するか否かを判断する。価値情報を出力する場合はステップS310に行き、出力しない場合はステップS315に行く。なお、価値情報を出力するか否かは、例えば、予め決められている、とする。
【0132】
(ステップS310)関連度取得部31は、カウンタjに1を代入する。
【0133】
(ステップS311)価値情報取得部33は、ステップS308で取得した選択特許情報の中に、j番目の選択特許情報が存在するか否かを判断する。j番目の選択特許情報が存在する場合はステップS312に行き、存在しない場合は処理を終了する。
【0134】
(ステップS312)価値情報取得部33は、j番目の選択特許情報に対する価値情報を取得する処理を行う。かかる価値情報取得処理の例について、
図10のフローチャートを用いて説明する。
【0135】
(ステップS313)価値情報出力部42は、ステップS312で取得された価値情報を出力する。なお、価値情報出力部42は、対応する選択特許情報と対に、価値情報を出力することは好適である。
【0136】
(ステップS314)関連度取得部31は、カウンタjを1、インクリメントする。ステップS311に戻る。
【0137】
(ステップS315)選択特許出力部41は、ステップS308で取得された1以上の選択特許情報を出力する。処理を終了する。
【0138】
次に、ステップS302の企業重要情報取得処理の例について、
図4のフローチャートを用いて説明する。
【0139】
(ステップS401)企業重要情報取得手段311は、カウンタiに1を代入する。
【0140】
(ステップS402)企業重要情報取得手段311は、ステップS302で取得された1以上の企業情報の中に、i番目の文が存在するか否かを判断する。i番目の文が存在する場合はステップS403に行き、存在しない場合は上位処理にリターンする。
【0141】
(ステップS403)企業重要情報取得手段311は、i番目の文が企業重要条件を満たすか否かを判断する。かかる判断処理の例について、
図5のフローチャートを用いて説明する。
【0142】
(ステップS404)ステップS403において、企業重要条件を満たす場合はステップS404に行き、企業重要条件を満たさない場合はステップS406に行く。
【0143】
(ステップS405)企業重要情報取得手段311は、i番目の文を図示しないバッファに一時蓄積する。なお、i番目の文は、企業重要情報である。i番目の文は、例えば、業績要因文である。
【0144】
(ステップS406)企業重要情報取得手段311は、カウンタiを1、インクリメントする。ステップS402に戻る。
【0145】
次に、ステップS403の判断処理の例について、
図5のフローチャートを用いて説明する。
【0146】
(ステップS501)企業重要情報取得手段311は、学習モデルをモデル格納部14から取得する。なお、かかる学習モデルは、文が企業重要情報であるか否かを判断するための二値分類のモデルである。
【0147】
(ステップS502)企業重要情報取得手段311は、検査対象の文(
図4のi番目の文)を取得する。
【0148】
(ステップS503)企業重要情報取得手段311は、学習モデルと検査対象の文とを、機械学習の予測処理を行うモジュールに与え、当該モジュールを実行する。
【0149】
(ステップS504)企業重要情報取得手段311は、ステップS503における予測結果をリターン値として、上位処理にリターンする。
【0150】
なお、
図5のフローチャートのステップS503において、上述した通り、企業重要情報取得手段311は、手がかり表現(例えば、業績要因手がかり表現)を用いて、検査対象の文が企業重要情報であるか否かを判断しても良い。
【0151】
次に、
図5の処理で使用した学習モデルを構築する学習処理の例について、
図6のフローチャートを用いて説明する。
【0152】
(ステップS601)図示しない学習部は、カウンタiに1を代入する。
【0153】
(ステップS602)学習部は、学習対象の文の集合のうち、i番目の文が存在するか否かを判断する。i番目の文が存在する場合はステップS603に行き、存在しない場合はステップS608に行く。
【0154】
(ステップS603)学習部は、学習対象の文の集合からi番目の文を取得する。
【0155】
(ステップS604)学習部は、i番目の文が企業重要条件に合致するか否かを判断する。企業重要条件に合致する場合はステップS605に行き、企業重要条件に合致しない場合はステップS606に行く。
【0156】
(ステップS605)学習部は、i番目の文に正例フラグを対応付ける。ステップS607に行く。
【0157】
(ステップS606)学習部は、i番目の文に負例フラグを対応付ける。
【0158】
(ステップS607)学習部は、カウンタiを1、インクリメントする。
【0159】
(ステップS608)学習部は、正例フラグに対応する1以上の文を正例とし、負例フラグに対応する1以上の文を負例として、機械学習の学習処理を行い、学習モデルを取得する。
【0160】
(ステップS609)学習部は、ステップS608で取得した学習モデルを蓄積する。処理を終了する。
【0161】
次に、ステップS306の関連度取得処理の例について、
図7のフローチャートを用いて説明する。
【0162】
(ステップS701)関連度取得手段313は、関連度の取得のために使用する企業重要情報を取得する。なお、かかる企業重要情報は、ステップS302で取得された情報である。
【0163】
(ステップS702)特許重要情報取得手段312は、対象特許の特許重要情報を取得する処理を行う。かかる特許重要情報取得処理の例について、
図8のフローチャートを用いて説明する。
【0164】
(ステップS703)関連度取得手段313は、ステップS701で取得された企業重要情報とステップS702で取得された特許重要情報とを用いて、企業情報と特許情報との関連度を取得する。上位処理にリターンする。かかる関連度の取得の詳細の例について、
図9のフローチャートを用いて説明する。なお、かかる処理を、関連度詳細処理と言う。
【0165】
次に、ステップS702の特許重要情報取得処理の例について、
図8のフローチャートを用いて説明する。
【0166】
(ステップS801)特許重要情報取得手段312は、特許情報から1または2以上の特許分類コードを取得する。
【0167】
(ステップS802)特許重要情報取得手段312は、カウンタiに1を代入する。
【0168】
(ステップS803)特許重要情報取得手段312は、i番目の特許分類コードが存在するか否かを判断する。i番目の特許分類コードが存在する場合はステップS804に行き、存在しない場合は上位処理にリターンする。
【0169】
(ステップS804)特許重要情報取得手段312は、i番目の特許分類コードに対応する1または2以上の説明情報をコード辞書13から取得し、図示しないバッファに一時蓄積する。なお、ここでの説明情報は、特許重要情報である。
【0170】
(ステップS805)特許重要情報取得手段312は、カウンタiを1、インクリメントする。ステップS803に戻る。
【0171】
なお、
図8のフローチャートにおいて、特許重要情報取得手段312は、特許情報の[発明の効果]に含まれる1以上の文を特許重要情報として、取得しても良い。
【0172】
次に、ステップS703の関連度詳細処理の例について、
図9のフローチャートを用いて説明する。
【0173】
(ステップS801)関連度取得手段313は、企業重要情報から1以上の用語を取得する。なお、かかる用語は、企業重要情報が有するすべての用語(単語)でも良いし、予め決められた条件を満たす用語のみでも良い。条件は、例えば、名詞であること、tf/idf値が閾値以上であることである。
【0174】
(ステップS802)関連度取得手段313は、カウンタiに1を代入する。
【0175】
(ステップS803)関連度取得手段313は、ステップS801で取得した用語の中で、i番目の用語が存在するか否かを判断する。i番目の用語が存在す場合はステップS804に行き、存在しない場合はステップS806に行く。
【0176】
(ステップS804)関連度取得手段313は、i番目の用語の分散表現を取得する。なお、分散表現は、例えば、Word2Vecにより取得するが、取得手段は問わない。
【0177】
(ステップS805)関連度取得手段313は、カウンタiを1、インクリメントする。ステップS803に戻る。
【0178】
(ステップS806)関連度取得手段313は、ステップS804で取得した1以上の分散表現の代表値を取得する。かかる分散表現の代表値であるベクトルは、事業ベクトルである。
【0179】
(ステップS807)関連度取得手段313は、特許重要情報から1以上の用語を取得する。なお、かかる用語は、企業重要情報が有するすべての用語(単語)でも良いし、予め決められた条件を満たす用語のみでも良い。条件は、例えば、名詞であることである。
【0180】
(ステップS808)関連度取得手段313は、カウンタjに1を代入する。
【0181】
(ステップS809)関連度取得手段313は、ステップS807で取得した用語の中で、j番目の用語が存在するか否かを判断する。j番目の用語が存在す場合はステップS810に行き、存在しない場合はステップS812に行く。
【0182】
(ステップS810)関連度取得手段313は、j番目の用語の分散表現を取得する。
【0183】
(ステップS811)関連度取得手段313は、カウンタjを1、インクリメントする。ステップS809に戻る。
【0184】
(ステップS812)関連度取得手段313は、ステップS810で取得した1以上の分散表現の代表値を取得する。かかる分散表現の代表値であるベクトルは、特許ベクトルである。
【0185】
(ステップS813)関連度取得手段313は、ステップS806で取得した事業ベクトルとステップS812で取得した特許ベクトルとの類似度を算出する。上位処理にリターンする。
【0186】
なお、ここでの類似度は、関連度である。また、関連度取得手段313は、通常、関連度を、事業ベクトルの元になった企業重要情報、企業情報、および特許ベクトルの元になった特許重要情報、特許情報に対応付ける。
【0187】
なお、
図8のフローチャートにおいて、企業重要情報が1以上の文である場合、関連度取得手段313は、当該1以上の文から分散表現を取得し、当該分散表現を事業ベクトルとしても良い。また、特許重要情報が1以上の文である場合、関連度取得手段313は、当該1以上の文から分散表現を取得し、当該分散表現を特許ベクトルとしても良い。そして、関連度取得手段313は、事業ベクトルと特許ベクトルとの類似度を算出しても良い。
【0188】
ステップS312の価値情報取得処理の例について、
図10のフローチャートを用いて説明する。
【0189】
(ステップS1001)価値情報取得部33は、選択特許情報に対応する1以上の業績要因文を取得する。なお、1以上の各業績要因文には、関連度が対応付いている、
【0190】
(ステップS1002)価値情報取得部33は、関連度をキーとして、降順に業績要因文をソートする。
【0191】
(ステップS1003)価値情報取得部33は、カウンタiに1を代入する。
【0192】
(ステップS1004)価値情報取得部33は、i番目の業績要因文が存在するか否かを判断する。i番目の業績要因文が存在する場合はステップS1005に行き、存在しない場合はステップS1014に行く。
【0193】
(ステップS1005)価値情報取得部33は、i番目の業績要因文に対応する1以上の業績結果文の候補を取得する。
【0194】
(ステップS1006)価値情報取得部33は、カウンタjに1を代入する。
【0195】
(ステップS1007)価値情報取得部33は、ステップS1005で取得した文の中に、j番目の文が存在するか否かを判断する。j番目の文が存在する場合はステップS1008に行き、存在しない場合はステップS1013に行く。
【0196】
(ステップS1008)価値情報取得部33は、j番目の文が条件を満たすか否かを判断する。j番目の文が条件を満たす場合はステップS1009に行き、満たさない場合はステップS1012に行く。なお、条件は、業績結果文を取得するための条件である。
【0197】
(ステップS1009)価値情報取得部33は、j番目の文を取得し、図示しないバッファに一時蓄積する。なお、j番目の文は、業績要因文に対応する業績結果文である。
【0198】
(ステップS1010)価値情報取得部33は、ステップS1009で取得した業績結果文から数値情報を取得する。
【0199】
(ステップS1011)価値情報取得部33は、ステップS1010で取得した数値情報を用いて、価値情報を取得する。価値情報取得部33は、当該価値情報を特許情報に対応付ける。上位処理にリターンする。
【0200】
(ステップS1012)価値情報取得部33は、カウンタjを1、インクリメントする。ステップS1007に戻る。
【0201】
(ステップS1013)価値情報取得部33は、カウンタiを1、インクリメントする。ステップS1004に戻る。
【0202】
(ステップS1014)価値情報取得部33は、価値情報に「不明」を示す情報を代入する。価値情報取得部33は、当該価値情報を特許情報に対応付ける。上位処理にリターンする。
【0203】
なお、
図10のフローチャートにおいて、業績結果文の取得方法は問わない。
図10のフローチャートにおいて、業績結果文が有する数値情報を取得し、当該数値情報を用いて、価値情報を取得すれば良い。
【0204】
また、
図10のフローチャートにおいて、業績結果文を取得する処理は、企業重要情報取得手段311が行っても良い。
【0205】
以下、本実施の形態における情報処理装置Aの具体的な動作例について説明する。ここで、2つの具体例を説明する。具体例1は、企業情報が決算短信情報である場合である。具体例2は、企業情報が製品発表プレスリリース情報である場合である。
【0206】
(具体例1)
今、情報処理装置Aの企業情報格納部11に、
図11に示す「AAA株式会社」の決算短信情報が格納されている、とする。
【0207】
また、特許情報格納部12には、「AAA株式会社」が権利者または出願人である特許情報が多数、格納されている、とする。特許情報は、1以上のIPCコード、および発明の名称を含む、とする。
【0208】
また、コード辞書13には、
図2に示す特許分類コードと説明情報との組の集合が格納されている、とする。
【0209】
さらに、モデル格納部14には、決算短信情報から業績要因文を抽出する学習モデルが格納されている、とする。学習モデルは、決算短信情報が有する1以上の各文が正例(業績要因文)であるか否かを判断するためのモデルである。
【0210】
以上の状況において、例えば、ユーザが情報処理装置Aに動作の開始指示を入力した、とする。すると、受付部2は、動作の開始指示を受け付ける。
【0211】
そして、上述した処理により、情報処理装置Aの企業重要情報取得手段311は、
図11の決算短信情報から、業績要因文「国内食品事業 「AAA株式会社」については、指定医薬部外品『○○錠』やサプリメント『XXXナチュラ』などの主要商品に加え、ダイエットサポート食品『BBBアップスリム』や栄養調整食品『CCCバー』なども好調に推移したことなどにより、売上高が前年同期より伸長しました。」を取得する。
【0212】
また、上述した処理により、企業重要情報取得手段311は、
図11の決算短信情報から、業績結果文「以上の結果、食品事業の売上高は、東日本大震災の影響を受けたものの、グループ各社が主力商品のブランド強化に取り組んだことにより、前年同期比4.5%増の476億3千3百万円となりました。」を取得する。
【0213】
また、特許重要情報取得手段312は、2以上の各特許情報の1以上のIPCコードを、特許情報から取得する。そして、特許重要情報取得手段312は、2以上の各特許情報ごとに、1以上の各IPCコードに対応する1以上の用語をコード辞書13から取得する。なお、ここでは、特許重要情報取得手段312は、階層化されているIPCコードの各階層の説明情報の用語をすべて取得する、とする。つまり、IPCコードがサブグループ
「A01B 1/02」である場合、特許重要情報取得手段312は、「A01B 1/02」の上記のノード(メイングループ,サブクラス,クラス,セクション)に対応付くすべての用語「生活必需品,農業,林業,畜産,狩猟,捕獲,漁業,農業,林業,土作業,農業機械,器具,部品, 細部,附属具一般,手作業具,鋤,ショベル」を取得する、とする。
【0214】
次に、関連度取得手段313は、企業重要情報である業績要因文から多数の名詞を取得する。次に、関連度取得手段313は、各名詞の分散表現を取得する。次に、関連度取得手段313は、各名詞の分散表現の平均値のベクトルである事業ベクトルを取得する。
【0215】
また、関連度取得手段313は、2以上の各特許情報ごとに、特許重要情報取得手段312が取得した1または2以上の各用語の分散表現を取得する。次に、関連度取得手段313は、各用語の分散表現の平均値のベクトルである特許ベクトルを取得する。
【0216】
次に、関連度取得手段313は、2以上の各特許情報ごとに、事業ベクトルと特許ベクトルとの類似度を算出する。次に、関連度取得手段313は当該類似度である関連度を、特許情報に対応付ける。
【0217】
次に、決定部32は、最も大きい関連度に対応する特許情報を取得する。ここで、決定部32は、特許情報「<発明の名称>血中アセトアルデヒド低減剤」を取得した、とする。なお、特許情報は、特許番号や出願番号を有することは好適である。
【0218】
次に、価値情報取得部33は、企業重要情報取得手段311が取得した上記の業績結果文から、数値情報条件(「万円」「億円」を含む数値を構成する文字列」)に合致する数値情報「476億3千3百万円」を取得する。なお、数値情報条件とは、数値情報を取得するための条件である。
【0219】
また、価値情報取得部33は、AAA株式会社の23年12月期の全体の売上高「651、661百万円」を、
図11の決算短信情報から取得する。
【0220】
次に、価値情報取得部33は、数値情報「476億3千3百万円」の、全体の売上高「651、661百万円」に占める割合(7.3%)を取得する。
【0221】
次に、価値情報取得部33は、当該割合をパラメータとする増加関数により、価値情報(V)を算出する。
【0222】
次に、選択特許出力部41は、特許情報「<発明の名称>血中アセトアルデヒド低減剤」を出力する。また、価値情報出力部42は、価値情報取得部33が算出した価値情報(V)を、特許情報に対応付けて蓄積する。
【0223】
以上、具体例1によれば、決算短信情報から重要な特許が選択できた。また、決算短信情報から当該特許の価値を取得できた。
【0224】
(具体例2)
具体例2において、情報処理装置Aの処理の概要を説明する
図12を用いて説明する。今、情報処理装置Aの格納部1に、特許情報およびプレスリリース記事情報から重要文を抽出するための学習モデルを構築するための特許情報が、多数、格納されている。なお、特許情報の数は、ここでは、1万2千件である。また、ここでの特許情報は、特許の明細書を含む。
【0225】
そして、情報処理装置Aの図示しない学習部は、1万2千件の各特許情報の明細書の[発明の効果]の項目から文を取得する。かかる文は、正例である。また、学習部は、1万2千件の各特許情報の明細書の[実施例](実施の形態)の項目から文を取得する。かかる文は、負例である。つまり、ここでは、発明の効果を構成する文は重要情報であり、実施例を構成する文は非重要情報である。
次に、学習部は、正例の文と負例の文とを教師データ(
図12の1201)として、機械学習の学習処理を行い、学習モデルを取得し、モデル格納部14に蓄積する。なお、ここでの機械学習の学習処理により作成された学習モデルは、いわゆるBERT(Bidirectional Encoder Representations from Transformers)(
図12の1202)である。
【0226】
また、ここで、情報処理装置Aの企業情報格納部11には、S社のカメラについてのプレスリリース記事情報が格納されている。
【0227】
さらに、特許情報格納部12には、S社の特許の特許情報が、1以上、格納されている。なお、特許情報は、[発明の効果]を含む、とする。
【0228】
以上の状況において、例えば、ユーザが情報処理装置Aに動作の開始指示を入力した、とする。すると、受付部2は、動作の開始指示を受け付ける。
【0229】
そして、上述した処理により、企業重要情報取得手段311は、学習モデル(BERT)を用いて、プレスリリース記事情報の各文に対して、機械学習の予測処理を行い、重要文であるか否かを判断する。そして、企業重要情報取得手段311は、プレスリリース記事情報から1以上の重要文1203を取得する。重要文1203は、例えば、
図13の各文である。
【0230】
また、特許重要情報取得手段312は、特許情報ごとに、1以上の各特許情報が有する各文に対して、学習モデル(BERT)を用いて、機械学習の予測処理を行い、重要文であるか否かを判断する。そして、特許重要情報取得手段312は、1以上の各特許情報から1以上の重要文1204を取得する。重要文1204は、例えば、
図14の各文である。
【0231】
なお、ここでは、プレスリリース記事情報から重要文を取得するために用いる学習モデルと、特許情報から重要文を取得するために用いる学習モデルとは、同一である。
【0232】
次に、関連度取得手段313は、
図13の2以上の文を含む文書の分散表現1205を取得する。かかる分散表現は、事業ベクトルである。また、関連度取得手段313は、特許情報ごとに、1以上の文を含む文書(例えば、
図14)の分散表現1206を取得する。かかる分散表現は、特許ベクトルである。
【0233】
次に、関連度取得手段313は、特許情報ごとに、事業ベクトル1205と特許ベクトル1206との類似度を算出する(1207)。なお、かかる類似度は、関連度である。
【0234】
以上により、特許情報ごとの、プレスリリース記事情報との関連度が取得できた。
【0235】
次に、決定部32は、関連度が抽出条件を満たす特許情報を決定する。ここで、抽出条件は、関連度が閾値以上であり、かつ関連度の順位が5位以上であること、とする。また、決定部32は、5つの特許情報を決定した、とする。
【0236】
次に、選択特許出力部41は、決定部32が決定した5つの各特許情報が有する特許番号または出願番号を出力する。
【0237】
次に、価値情報取得部33は、5つの各特許情報の特許分類コード(例えば、IPCコードを取得する。次に、価値情報取得部33は、5つの各特許情報ごとに、特許分類コードに対応する説明情報をコード辞書13から取得する。次に、価値情報取得部33は、5つの各特許情報ごとに、取得した説明情報と事業分野学習モデルとを用いて、機械学習の予測処理を行い、事業分野を取得する。次に、価値情報取得部33は、5つの各特許情報ごとに、当該事業分野と対になる数値情報(例えば、売上高)を売上高管理表から取得する。
【0238】
なお、事業分野学習モデルとは、1以上の用語を含む説明情報と事業分野とを有する2以上の教師データを用いて、機械学習の学習処理を行い、取得された学習モデルである。事業分野学習モデルは、モデル格納部14に格納されている、とする。
【0239】
また、売上高管理表とは、S社の事業分野ごとの売上高を管理する表である。売上高管理表は、事業分野と売上高とを有する2以上のレコードを管理する表である。売上高管理表は、格納部1に格納されている、とする。
【0240】
次に、価値情報取得部33は、5つの各特許情報ごとに、取得した数値情報(例えば、売上高)をパラメータとする増加関数により、価値情報を取得する。
【0241】
次に、価値情報出力部42は、5つの各特許情報ごとに、価値情報を出力する。なお、価値情報出力部42は、例えば、5つの各特許情報ごとに、特許番号と価値情報とを対応付けて出力する。
【0242】
以上、本実施の形態によれば、企業が行う事業に関する企業情報を用いて、重要な特許を決定できる。
【0243】
また、本実施の形態によれば、決算短信情報を用いて、重要な特許を決定できる。
【0244】
また、本実施の形態によれば、製品発表プレスリリース情報を用いて、重要な特許を決定できる。
【0245】
また、本実施の形態によれば、企業が行う事業に関する企業情報を用いて、特許の価値に関する価値情報を取得できる。
【0246】
また、本実施の形態によれば、決算短信情報を用いて、特許の価値に関する価値情報を取得できる。
【0247】
さらに、本実施の形態によれば、製品発表プレスリリース情報を用いて、特許の価値に関する価値情報を取得できる。
【0248】
なお、本実施の形態において、情報処理装置Aは、選択特許情報を出力したり、特許の価値情報を出力したりするサーバでも良い。かかる場合、情報処理装置Aは、例えば、企業情報(例えば、決算短信情報)を受け付け、当該企業情報と関連度が高い1以上の選択特許情報を決定し、出力する。また、情報処理装置Aは、1以上の選択特許情報の価値情報を出力する。
【0249】
また、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置Aを実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、企業が行う事業に関する情報であり、文の集合を含む企業情報が格納される企業情報格納部にアクセス可能なコンピュータを、当該企業の1以上の各特許情報ごとに、前記企業情報と前記特許情報との関連度を取得する関連度取得部と、前記関連度が抽出条件を満たす1以上の特許情報を決定する決定部と、前記決定部が決定した前記1以上の特許情報に関する選択特許情報を出力する選択特許出力部として機能させるためのプログラムである。
【0250】
また、
図15は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置Aを実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。
図15は、このコンピュータシステム300の概観図であり、
図16は、システム300のブロック図である。
【0251】
図15において、コンピュータシステム300は、CD-ROMドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
【0252】
図16において、コンピュータ301は、CD-ROMドライブ3012に加えて、MPU3013と、CD-ROMドライブ3012等に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0253】
コンピュータシステム300に、上述した実施の形態の情報処理装置Aの機能を実行させるプログラムは、CD-ROM3101に記憶されて、CD-ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD-ROM3101またはネットワークから直接、ロードされても良い。
【0254】
プログラムは、コンピュータ301に、上述した実施の形態の情報処理装置Aの機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
【0255】
なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
【0256】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0257】
また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0258】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0259】
以上のように、本発明にかかる情報処理装置Aは、企業が行う事業に関する企業情報を用いて、重要な特許を決定できるという効果を有し、情報処理装置等として有用である。
【符号の説明】
【0260】
A 情報処理装置
1 格納部
2 受付部
3 処理部
4 出力部
11 企業情報格納部
12 特許情報格納部
13 コード辞書
14 モデル格納部
31 関連度取得部
32 決定部
33 価値情報取得部
41 選択特許出力部
42 価値情報出力部
311 企業重要情報取得手段
312 特許重要情報取得手段
313 関連度取得手段
331 カテゴリー決定手段
332 価値情報取得手段