【文献】
灘本 裕紀 Hironori Nadamoto,ブロガーの注目情報を用いた株価変動予測の試み,FIT2007 第6回情報科学技術フォーラム 一般講演論文集 第2分冊 データベース 自然言語・音声・音楽 人工知能・ゲーム 生体情報科学 Forum on Information Technology 2007,日本,社団法人情報処理学会,2007年 8月22日,369−370ページ
【文献】
一瀬 航 Ko ICHINOSE,フィルタリングと機械学習に基づくWebニュースからの日経平均株価予測 Stock market prediction from Web news using filtering and machine learning,電子情報通信学会技術研究報告 Vol.115 No.70 IEICE Technical Report,日本,一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2015年 5月28日,第115巻 No.70,91−96ページ
【文献】
渕井 亮 Ryo FUCHII,サポートベクターマシンを利用した株価の値動き予測 Prediction of Stock Price Fluctuation using Support Vector Machine,電子情報通信学会技術研究報告 Vol.110 No.386 IEICE Technical Report,日本,社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2011年 1月17日,第110巻 No.38,43−48ページ
【文献】
吉原 輝 AKIRA YOSHIHARA,ニュース記事の時間的特性を考慮した株価動向予測,情報処理学会 研究報告 数理モデル化と問題解決(MPS) 2015−MPS−102 [online],日本,情報処理学会,2015年 2月24日,2015−MPS−102,1−6ページ
(58)【調査した分野】(Int.Cl.,DB名)
前記分類部は、過去に記録された前記第1群の株価に関するテキスト情報を前記第1群のテキスト情報に分類し、過去に記録された前記第2群の株価に関するテキスト情報を前記第2群のテキスト情報に分類するように学習された前記分類器を用いて、前記取得部により取得された前記テキスト情報を分類する、
請求項1に記載の株価分析装置。
前記分類部は、前記第1群の株価及び前記第2群の株価について、当該株価の過去の推移と比較して相対的に大きな変動が発生したタイミングより過去に記録された前記第1群の株価に関するテキスト情報及び前記第2群の株価に関するテキスト情報に基づいて学習された前記分類器を用いて、前記テキスト情報を分類する、
請求項1又は2に記載の株価分析装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
株価に関する情報に基づいて株価の将来の推移を予測する場合、過去に記録された株価の推移と、株価に影響を及ぼしたであろう情報との関係を分析して、過去に記録された情報と類似する情報が取得された場合に、株価が過去に記録された推移と類似した変化をするであろうと仮定して、株価の将来の推移を予測することがある。
【0006】
しかしながら、過去に記録された情報と類似する情報が取得された場合であっても、株価は必ずしも過去に記録された推移と類似した変化をするとは限らない。例えば、一見して株価の上昇を示唆する情報が取得された場合であっても、事実と異なる情報であったり、株価の行き過ぎた上昇を示す情報であったりする場合もある。
【0007】
そこで、本発明は、株価に関する情報から、株価の上昇及び下落両方の蓋然性を読み取って、株価の将来の推移を予測する株価分析装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一態様に係る株価分析装置は、株価に関する情報を取得する取得部と、所定の期間に上昇した第1群の株価に関する情報が入力された場合と、所定の期間に下落した第2群の株価に関する情報が入力された場合とで異なる値を出力するように学習された第1関数に基づいて、株価の将来の上昇度を算出する第1算出部と、第1群の株価に関する情報が入力された場合と、第2群の株価に関する情報が入力された場合とで異なる値を出力するように学習され、第1群の株価に関する情報及び第2群の株価に関する情報に対して第1関数と異なる依存性を有するように学習された第2関数に基づいて、株価の将来の下落度を算出する第2算出部と、上昇度及び下落度を組み合わせて、株価の将来の推移を予測するスコアを算出する第3算出部と、を備える。
【0009】
この態様によれば、第1算出部によって、株価に関する情報から株価の上昇度を算出し、第2算出部によって、株価に関する情報から株価の下落度を算出して、それらを組み合わせてスコアを算出することで、株価に関する情報から、株価の上昇及び下落両方の蓋然性を読み取って、株価の将来の推移を予測することができる。
【0010】
上記態様において、取得部は、株価に関する数値情報及びテキスト情報を取得し、第1群の株価に関するテキスト情報及び第2群の株価に関するテキスト情報に基づいて学習された分類器を用いて、取得部により取得されたテキスト情報を第1群のテキスト情報又は第2群のテキスト情報に分類する分類部をさらに備え、第1算出部は、分類部による分類結果に基づいてテキスト情報を定量化した値を第1関数に入力して、上昇度を算出し、第2算出部は、分類部による分類結果に基づいてテキスト情報を定量化した値を第2関数に入力して、下落度を算出してもよい。
【0011】
この態様によれば、株価に関するテキスト情報を定量化して、株価に関する数値情報とともに第1関数及び第2関数に入力することで、より多様な情報に基づいて株価の将来の推移を予測することができる。
【0012】
上記態様において、分類部は、過去に記録された第1群の株価に関するテキスト情報を第1群のテキスト情報に分類し、過去に記録された第2群の株価に関するテキスト情報を第2群のテキスト情報に分類するように学習された分類器を用いて、取得部により取得されたテキスト情報を分類してもよい。
【0013】
この態様によれば、テキスト情報の内容に関わらず、第1群の株価に関するテキスト情報を第1群のテキスト情報に分類し、第2群の株価に関するテキスト情報を第2群のテキスト情報に分類するように分類器を学習させることで、テキスト情報が示唆する株価への影響を正しく評価することができるようになる。
【0014】
上記態様において、分類部は、第1群の株価及び第2群の株価について、当該株価の過去の推移と比較して相対的に大きな変動が発生したタイミングより過去に記録された第1群の株価に関するテキスト情報及び第2群の株価に関するテキスト情報に基づいて学習された分類器を用いて、テキスト情報を分類してもよい。
【0015】
この態様によれば、株価の過去の推移と比較して相対的に大きな変動が発生したタイミングによってイベントの発生日を特定し、イベント発生日以前に記録されたテキスト情報を用いて分類器を学習させることで、テキスト情報を第1群又は第2群のいずれに分類すべきか精度良く判定できるようになる。
【0016】
上記態様において、数値情報は、株価に関する財務情報を含み、テキスト情報は、株価に関するニュース情報及び株価に関する評判情報のうち少なくともいずれかを含み、第3算出部は、ニュース情報、財務情報及び評判情報のうちいずれかに対応したスコアを算出してもよい。
【0017】
この態様によれば、複数の情報源に対応した複数のスコアを算出することで、複数の異なる観点から株価の将来の推移を予測することができる。
【発明の効果】
【0018】
本発明によれば、株価に関する情報から、株価の上昇及び下落両方の蓋然性を読み取って、株価の将来の推移を予測する株価分析装置が提供される。
【発明を実施するための形態】
【0020】
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
【0021】
図1は、本発明の実施形態に係る株価分析装置10のネットワーク構成を示す図である。本実施形態に係る株価分析装置10は、通信ネットワークNを介して、IR(Investor Relations)情報サーバ20、ニュース配信サーバ30、SNS(Social Networking Service)サーバ40及び株価関連情報データベースDBに接続される。株価分析装置10は、IR情報サーバ20、ニュース配信サーバ30、SNSサーバ40及び株価関連情報データベースDBから取得した株価に関する情報に基づいて、株価の将来の推移を予測するスコアを算出する。なお、
図1では、IR情報サーバ20、ニュース配信サーバ30、SNSサーバ40及び株価関連情報データベースDBをそれぞれ1台ずつ示しているが、複数台のIR情報サーバ20、ニュース配信サーバ30、SNSサーバ40及び株価関連情報データベースDBが通信ネットワークNに接続されていてもよい。
【0022】
通信ネットワークNは、有線又は無線の通信網であり、例えばインターネットであってよい。IR情報サーバ20は、企業のIR情報を開示するサーバである。IR情報は、投資家に対する公報情報であり、四半期ごとの決算に関する財務情報や、企業の経営方針に関する情報等を含む。ニュース配信サーバ30は、株価に関するニュース情報を配信するサーバである。株価に関するニュース情報は、企業の経営に関するニュースや業績に関するニュース等を含む。なお、ニュース情報は、IR情報を含む場合があるが、IR情報は企業から配信されるのに対して、ニュース情報は報道機関から配信されるという違いがある。
【0023】
SNSサーバ40は、SNS利用者による投稿データに関する情報を提供するサーバである。株価分析装置10は、例えば、API(Application Program Interface)を利用することにより、SNSサーバ40から投稿データに関する情報を取得することができる。より具体的には、株価分析装置10は、例えば、株価に関連する特定のキーワードを含む投稿データをSNSサーバ40から取得することができる。取得された投稿データは、例えば、株価に関する評判情報を含む。株価に関する評判情報は、株価に関する噂や個人の見解等を含む。株価関連情報データベースDBは、過去に記録された株価を、当該株価に関するIR情報、ニュース情報及び評判情報とともに記憶するデータベースである。
【0024】
図2は、本発明の実施形態に係る株価分析装置10の物理的な構成を示す図である。株価分析装置10は、ハードウェアプロセッサに相当するCPU(Central Processing Unit)10aと、メモリに相当するRAM(Random Access Memory)10bと、メモリに相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fとを有する。これら各構成は、バスを介して相互にデータ送受信可能に接続される。
【0025】
CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、株価分析に関するプログラム(株価分析プログラム)を実行する演算装置である。CPU10aは、入力部10eや通信部10dから種々の入力データを受け取り、入力データの演算結果を表示部10fに表示したり、RAM10bやROM10cに格納したりする。
【0026】
RAM10bは、データの書き換えが可能な記憶部であり、例えば半導体記憶素子で構成される。RAM10bは、CPU10aが実行するアプリケーション等のプログラムやデータを記憶する。
【0027】
ROM10cは、データの読み出しのみが可能な記憶部であり、例えば半導体記憶素子で構成される。ROM10cは、例えばファームウェア等のプログラムやデータを記憶する。
【0028】
通信部10dは、株価分析装置10を通信ネットワークNに接続するインターフェースであり、例えば、有線又は無線回線のデータ伝送路により構成されたLAN(Local Area Network)、WAN(Wide Area Network)、インターネット等の通信ネットワークNに接続される。
【0029】
入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボードやマウス、タッチパネルで構成される。
【0030】
表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成される。
【0031】
株価分析プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。株価分析装置10では、CPU10aが株価分析プログラムを実行することにより、次図を用いて説明する様々な機能が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、株価分析装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
【0032】
図3は、本発明の実施形態に係る株価分析装置10の機能ブロック図である。株価分析装置10は、取得部11、算出部12、抽出部13、分類部14及び検出部15を備える。
【0033】
取得部11は、株価に関する情報を取得する。ここで、株価に関する情報とは、特定の株式に関する情報のみならず、株価指数に関する情報や業種全体に関する情報等、市場に影響を及ぼし得る情報をいう。取得部11は、株価に関する数値情報及びテキスト情報を取得してよい。ここで、数値情報は、株価に関する財務情報を含み、テキスト情報は、株価に関するニュース情報及び株価に関する評判情報のうち少なくともいずれかを含んでよい。取得部11は、通信ネットワークNを介して、IR情報サーバ20から財務情報を取得し、ニュース配信サーバ30からニュース情報を取得し、SNSサーバ40から評判情報を取得してよい。また、取得部11は、株価関連情報データベースDBから、過去に記録された株価に関する情報を取得してよい。
【0034】
算出部12は、第1算出部12a、第2算出部12b、第3算出部12c及び第4算出部12dを含む。第1算出部12aは、所定の期間に上昇した第1群の株価に関する情報が入力された場合と、所定の期間に下落した第2群の株価に関する情報が入力された場合とで異なる値を出力するように学習された第1関数に基づいて、株価の将来の上昇度を算出する。ここで、上昇度とは、株価が将来上昇する蓋然性を数値化した量である。第1関数については、後に詳細に説明する。また、所定の期間は、任意に設定し得るが、例えば1年間である。
【0035】
第2算出部12bは、第1群の株価に関する情報が入力された場合と、第2群の株価に関する情報が入力された場合とで異なる値を出力するように学習され、第1群の株価に関する情報及び第2群の株価に関する情報に対して第1関数と異なる依存性を有するように学習された第2関数に基づいて、株価の将来の下落度を算出する。より具体的には、第2算出部12bは、第1群の株価に関する情報及び第2群の株価に関する情報に対して第1関数と反対の依存性を有するように学習された第2関数に基づいて、株価の将来の下落度を算出する。ここで、下落度とは、株価が将来下落する蓋然性を数値化した量である。第2関数については、後に詳細に説明する。
【0036】
第3算出部12cは、株価の将来の上昇度及び下落度を組み合わせて、株価の将来の推移を予測するスコアを算出する。より具体的には、第3算出部12cは、株価の将来の上昇度と下落度の差に基づいて、スコアを算出する。また、第3算出部12cは、財務情報、ニュース情報及び評判情報のうちいずれかに対応したスコアを算出してよい。すなわち、第3算出部12cは、情報源に対応した複数種類のスコアを算出してよい。
【0037】
第4算出部12dは、スコアについて、株価に対する先行度を算出する。先行度は、スコアが株価に対して何日程度先行するか示す値である。先行度については、後に詳細に説明する。
【0038】
抽出部13は、所定の期間に記録された複数の株価のうち、価格の騰落率が上位の株式の中から第1群の株式を抽出し、騰落率が下位の株式中から第2群の株式を抽出する。抽出部13は、騰落率が上位1σ(1標準偏差)以上の株式であって、ボラティリティが上位の株式の中から第1群の式を抽出してよい。ここで、騰落率の標準偏差は、上場株式全体に関する騰落率分布の標準偏差であってよい。また、価格の騰落率が下位−1σ(−1標準偏差)以下の株式であって、ボラティリティが上位の株式中から第2群の株式を抽出してよい。本明細書では、第1群の株式の価格を第1群の株価と称し、第2群の株式の価格を第2群の株価と称する。
【0039】
分類部14は、第1群の株価に関するテキスト情報及び第2群の株価に関するテキスト情報に基づいて学習された分類器を用いて、取得部11により取得されたテキスト情報を第1群のテキスト情報又は第2群のテキスト情報に分類する。ここで、第1群のテキスト情報は、株価の上昇を示唆すると判断されたテキスト情報であり、第2群のテキスト情報は、株価の下落を示唆すると判断されたテキスト情報である。分類部14は、過去に記録された第1群の株価に関するテキスト情報を第1群のテキスト情報に分類し、過去に記録された第2群の株価に関するテキスト情報を第2群のテキスト情報に分類するように学習された分類器を用いて、取得部11により取得されたテキスト情報を分類してよい。
【0040】
第1算出部12aは、分類部14による分類結果に基づいてテキスト情報を定量化した値を第1関数に入力して、上昇度を算出する。より具体的には、第1算出部12aは、第1群のテキスト情報が全体に占める割合及び第2群のテキスト情報が全体に占める割合によってテキスト情報を定量化した値を第1関数に入力して、上昇度を算出する。また、第2算出部12bは、分類部14による分類結果に基づいてテキスト情報を定量化した値を第2関数に入力して、下落度を算出する。より具体的には、第2算出部12bは、第1群のテキスト情報が全体に占める割合及び第2群のテキスト情報が全体に占める割合によってテキスト情報を定量化した値を第2関数に入力して、下落度を算出する。
【0041】
検出部15は、第1群の株価及び第2群の株価について、当該株価の過去の推移と比較して相対的に大きな変動が発生したタイミングを検出する。分類部14は、検出部15により検出されたタイミングより過去に記録された第1群の株価に関するテキスト情報及び第2群の株価に関するテキスト情報に基づいて学習された分類器を用いて、テキスト情報を分類してよい。
【0042】
図4は、本発明の実施形態に係る株価分析装置10により実行されるスコア算出処理のフローチャートである。スコア算出処理は、予め学習された分類器、第1関数及び第2関数を用いて、株価の将来の推移を予測するスコアを算出する処理である。
【0043】
はじめに、株価分析装置10は、取得部11によって、株価に関する数値情報及びテキスト情報を取得する(S10)。ここで、数値情報については規格化を行うこととしてよい。数値情報の規格化は、例えば、数値を0から1までの範囲に変換することによって行ってよい。もっとも、数値情報の規格化は必ずしも行わなくてもよい。
【0044】
株価分析装置10は、分類部14によって、テキスト情報を第1群のテキスト情報又は第2群のテキスト情報に分類する(S11)。分類部14は、例えば、予め学習された単純ベイズ分類器によって、テキスト情報を第1群のテキスト情報又は第2群のテキスト情報に分類してよい。もっとも、分類部14は、任意の分類器を用いてテキスト情報の分類を行ってよい。
【0045】
株価分析装置10は、第1群のテキスト情報が全体に占める割合及び第2群のテキスト情報が全体に占める割合によって、テキスト情報を定量化する(S12)。例えば、N個(Nは任意の自然数)のテキスト情報が取得された場合であって、分類部14によってN1個(N1≦N)のテキスト情報が第1群に分類され、N2個(N2=N−N1)のテキスト情報が第2群に分類された場合、株価分析装置10は、第1群のテキスト情報が全体に占める割合をp1=N1/Nによって算出し、第2群のテキスト情報が全体に占める割合をp2=N2/Nによって算出してよい。
【0046】
株価分析装置10は、第1算出部12aによって、第1関数に基づいて上昇度を算出する(S13)。上昇度は、第1関数の値であってよい。i個(iは任意の自然数)の数値情報をx1,x2,…,xiと表し、第1群のテキスト情報が全体に占める割合をp1と表し、第2群のテキスト情報が全体に占める割合をp2と表す場合、第1関数は、f1(x1,x2,…,xi,p1,p2)=a1×x1+a2×x2+…+ai×xi+b1×p1+b2×p2と表される。ここで、a1,a2,…,ai,b1,b2は、事前に行われる学習処理によって決定される係数である。第1関数の関数形は上記に限られず、非線形関数を採用することもできる。
【0047】
株価分析装置10は、第2算出部12bによって、第2関数に基づいて下落度を算出する(S14)。下落度は、第2関数の値であってよい。i個(iは任意の自然数)の数値情報をx1,x2,…,xiと表し、第1群のテキスト情報が全体に占める割合をp1と表し、第2群のテキスト情報が全体に占める割合をp2と表す場合、第2関数は、f2(x1,x2,…,xi,p1,p2)=c1×x1+c2×x2+…+ci×xi+d1×p1+d2×p2と表される。ここで、c1,c2,…,ci,d1,d2は、事前に行われる学習処理によって決定される係数である。第2関数の関数形は上記に限られず、非線形関数を採用することもできる。
【0048】
なお、株価分析装置10は、情報源ごとにテキスト情報を定量化した値を算出してもよい。例えば、取得部11によってニュース配信サーバ30からK個(Kは任意の自然数)のニュース情報が取得され、SNSサーバ40からL個(Lは任意の自然数)の評判情報が取得された場合は、以下のようにテキスト情報を定量化してよい。まず、分類部14によってニュース情報をK1個(K1≦K)の第1群のニュース情報と、K2個(K2=K−K1)の第2群のニュース情報に分類し、評判情報をL1個(L1≦L)の第1群の評判情報と、L2個(L2=L−L1)の第2群の評判情報に分類する。次に、第1群のニュース情報が全体に占める割合をK1/Kによって算出し、第2群のニュース情報が全体に占める割合をK2/Kによって算出し、第1群の評判情報が全体に占める割合をL1/Lによって算出し、第2群の評判情報が全体に占める割合をL2/Lによって算出する。
【0049】
情報源ごとにテキスト情報を定量化した値を算出し、テキスト情報を定量化した値がp1,p2,…,pjのようにj個(jは任意の自然数)存在する場合、第1関数は、f1(x1,x2,…,xi,p1,p2,…,pj)=a1×x1+a2×x2+…+ai×xi+b1×p1+b2×p2+…+bj×pjと表される。ここで、a1,a2,…,ai,b1,b2,…,bjは、事前に行われる学習処理によって決定される係数である。また、第2関数は、f2(x1,x2,…,xi,p1,p2,…,pj)=c1×x1+c2×x2+…+ci×xi+d1×p1+d2×p2+…+dj×pjと表される。ここで、c1,c2,…,ci,d1,d2,…,djは、事前に行われる学習処理によって決定される係数である。
【0050】
第1算出部12aは、複数の情報源ごとに定義された複数の第1関数を用いて、複数の情報源に対応する複数の上昇度を算出してもよい。同様に、第2算出部12bは、複数の情報源ごとに定義された複数の第2関数を用いて、複数の情報源に対応する複数の下落度を算出してもよい。例えば、数値情報x1,x2,…,xiに対応する第1関数をg1(x1,x2,…,xi)=a1×x1+a2×x2+…+ai×xiとして、数値情報に対応する第2関数をg2(x1,x2,…,xi)=c1×x1+c2×x2+…+ci×xiとしてよい。また、ニュース情報を定量化した値をp1,p2と表すとき、ニュース情報に対応する第1関数をh1(p1,p2)=b1×p1+b2×p2として、ニュース情報に対応する第2関数をh2(p1,p2)=d1×p1+d2×p2としてよい。評判情報に対応する第1関数及び第2関数は、ニュース情報に対応する第1関数及び第2関数の場合と同様に構成することができる。
【0051】
株価分析装置10は、第3算出部12cによって、上昇度と下落度の差に基づいて、株価の将来の推移を予測するスコアを算出する(S15)。第3算出部12cは、第1関数の値と第2関数の値の差、すなわちf1−f2によって、スコアを算出してよい。
【0052】
複数の情報源ごとにスコアを算出する場合、例えば、数値情報に対応する第1関数g1と第2関数g2の差g1−g2によって、数値情報に対応するスコアを算出してよい。また、ニュース情報に対応する第1関数h1と第2関数h2の差h1−h2によって、ニュース情報に対応するスコアを算出してよい。評判情報に対応するスコアを算出する場合も同様である。
【0053】
株価分析装置10は、算出したスコアが所定の条件を満たすか否かを判断する(S16)。ここで、所定の条件とは、例えば、スコアが上側閾値を上回った又は下側閾値を下回ったという条件であってもよいし、スコアの符号が逆転したという条件であってもよいし、スコアを標準化した指標値が上側閾値を上回った又は下側閾値を下回ったという条件であってもよい。ここで、スコアを標準化した指標値は、スコアの値からスコアの平均値を引き、スコアの標準偏差で割った値であってよい。複数の情報源ごとにスコアを算出した場合、複数のスコアそれぞれについて所定の条件を設定して、条件を満たすか否かを判断してよい。複数のスコアを算出した場合、所定の条件は、複数種類のスコアの関係性に基づく条件であってもよい。例えば、所定の条件は、2種類のスコアの大小関係が逆転したという条件であってもよい。
【0054】
算出したスコアが所定の条件を満たす場合(S16:Yes)、株価分析装置10は、ユーザに対してシグナルを通知する(S17)。一方、算出したスコアが所定の条件を満たさない場合(S16:No)、処理を終了する。以上で、本実施形態に係る株価分析装置10によるスコア算出処理が終了する。
【0055】
本実施形態に係る株価分析装置10によれば、第1算出部12aによって、株価に関する情報から株価の上昇度を算出し、第2算出部12bによって、株価に関する情報から株価の下落度を算出して、それらを組み合わせてスコアを算出することで、株価に関する情報から、株価の上昇及び下落両方の蓋然性を読み取って、株価の将来の推移を予測することができる。
【0056】
また、株価に関するテキスト情報を定量化して、株価に関する数値情報とともに第1関数及び第2関数に入力することで、より多様な情報に基づいて株価の将来の推移を予測することができる。
【0057】
さらに、複数の情報源に対応した複数のスコアを算出することで、複数の異なる観点から株価の将来の推移を予測することができる。
【0058】
図5は、本発明の実施形態に係る株価分析装置10により実行される分類器の学習処理のフローチャートである。分類器の学習処理は、分類部14により用いられる分類器を、過去に記録されたテキスト情報に基づいて学習させる処理である。
【0059】
はじめに、株価分析装置10は、抽出部13によって、過去に記録された株価のうち価格の騰落率が上位1σ以上の株式の中から、第1群の株式を抽出する(S20)。また、株価分析装置10は、抽出部13によって、過去に記録された株価のうち価格の騰落率が下位−1σ以下の株式の中から、第2群の株式を抽出する(S21)。このように、予め定められた基準に従って第1群の株式と第2群の株式を抽出することで、人為性を排除して分類器を学習させることができ、より客観的なテキスト情報の分類を行うことができる。もっとも、第1群の株式及び第2群の株式の抽出は、必ずしも抽出部13によって行わなくてもよく、ユーザによる指定に基づいて行ってもよい。
【0060】
株価分析装置10は、第1群の株式の価格である第1群の株価に関するテキスト情報に第1タグを付与し(S22)、第2群の株式の価格である第2群の株価に関するテキスト情報に第2タグを付与する(S23)。ここで、第1タグは、株価の上昇を示唆するタグであり、第2タグは、株価の下落を示唆するタグである。
【0061】
次に、株価分析装置10は、検出部15によって、第1群の株価及び第2群の株価について、当該株価の過去の推移と比較して相対的に大きな変動が発生したタイミングをイベント発生日として検出する。具体的には、株価が、移動平均線から3σ(3標準偏差)以上まで上昇した日をイベント発生日として特定するか又は移動平均線から−3σ(−3標準偏差)以下まで下落した日をイベント発生日として検出する(S24)。ここで、任意の日数の移動平均を用いることができるが、例えば25日移動平均を用いてよい。
【0062】
株価分析装置10は、イベント発生日より過去に記録された第1群の株価に関するテキスト情報及び第2群の株価に関するテキスト情報に基づいて、分類器を学習させる(S25)。具体的には、第1タグが付与されたテキスト情報を第1群のテキスト情報に分類し、第2タグが付与されたテキスト情報を第2群のテキスト情報に分類するように、分類器を学習させる。すなわち、株価分析装置10は、過去に記録された第1群の株価に関するテキスト情報を第1群のテキスト情報に分類し、過去に記録された第2群の株価に関するテキスト情報を第2群のテキスト情報に分類するように分類器を学習させる。以上により、分類器の学習処理が終了する。
【0063】
本実施形態に係る株価分析装置10によれば、テキスト情報の内容に関わらず、第1群の株価に関するテキスト情報を第1群のテキスト情報に分類し、第2群の株価に関するテキスト情報を第2群のテキスト情報に分類するように分類器を学習させることで、テキスト情報が示唆する株価への影響を正しく評価することができるようになる。
【0064】
また、株価の過去の推移と比較して相対的に大きな変動が発生したタイミングによってイベントの発生日を特定し、イベント発生日以前に記録されたテキスト情報を用いて分類器を学習させることで、イベントの発生に先立って現れる傾向にあるテキスト情報によって分類器を学習させることができ、テキスト情報を第1群又は第2群のいずれに分類すべきか精度良く判定できるようになる。
【0065】
図6は、本発明の実施形態に係る株価分析装置10により実行される第1関数及び第2関数の学習処理のフローチャートである。第1関数及び第2関数の学習処理は、第1算出部12a及び第2算出部12bによりそれぞれ用いられる第1関数及び第2関数を学習させる処理である。具体的には、線形回帰分析を行う処理であり、第1関数f1の係数a1,a2,…,ai,b1,b2等を決定する処理と、第2関数f2の係数c1,c2,…,ci,d1,d2等を決定する処理を含む。
【0066】
株価分析装置10は、第1関数を、所定の期間に上昇した第1群の株価に関する情報が入力された場合と、所定の期間に下落した第2群の株価に関する情報が入力された場合とで異なる値を出力するように学習させる。具体的には、第1群の株価に関する情報が入力された場合に1を出力し、第2群の株価に関する情報が入力された場合に0を出力するように、第1関数を学習させる(S30)。すなわち、第1関数がf1(x1,x2,…,xi,p1,p2)=a1×x1+a2×x2+…+ai×xi+b1×p1+b2×p2と表される場合、第1群の株価に関する情報x1,x2,…,xi,p1,p2を代入して、1=a1×x1+a2×x2+…+ai×xi+b1×p1+b2×p2という条件を課し、第2群の株価に関する情報x1,x2,…,xi,p1,p2を代入して、0=a1×x1+a2×x2+…+ai×xi+b1×p1+b2×p2という条件を課して、係数a1,a2,…,ai,b1,b2を決定する。
【0067】
また、株価分析装置10は、第2関数を、第1群の株価に関する情報が入力された場合と、第2群の株価に関する情報が入力された場合とで異なる値を出力するように学習させ、第1群の株価に関する情報及び第2群の株価に関する情報に対して第1関数と異なる依存性を有するように学習させる。本実施形態に係る株価分析装置10は、第2関数を、第1群の株価に関する情報及び第2群の株価に関する情報に対して第1関数と反対の依存性を有するように学習させる。具体的には、第1群の株価に関する情報が入力された場合に0を出力し、第2群の株価に関する情報が入力された場合に1を出力するように、第2関数を学習させる(S31)。すなわち、第2関数がf2(x1,x2,…,xi,p1,p2)=c1×x1+c2×x2+…+ci×xi+d1×p1+d2×p2と表される場合、第1群の株価に関する情報x1,x2,…,xi,p1,p2を代入して、0=c1×x1+c2×x2+…+ci×xi+d1×p1+d2×p2という条件を課し、第2群の株価に関する情報x1,x2,…,xi,p1,p2を代入して、1=c1×x1+c2×x2+…+ci×xi+d1×p1+d2×p2という条件を課して、係数c1,c2,…,ci,d1,d2を決定する。以上により、第1関数及び第2関数の学習処理が終了する。
【0068】
本実施形態に係る株価分析装置10によれば、第1関数及び第2関数を、第1群の株価に関する情報及び第2群の株価に関する情報に対して互いに反対の依存性を有するように学習させることで、株価の上昇度と下落度を共通の尺度で評価することができる。
【0069】
図7は、本発明の実施形態に係る株価分析装置10により算出されたスコアと株価の推移を示すグラフである。同図では、縦軸にスコアの値及び規格化した株価の値を示し、横軸に日付を示している。グラフには、株価SPが実線で示され、評判情報に対応する第1スコアSC1が破線で示され、財務情報に対応する第2スコアSC2が一点鎖線で示され、ニュース情報に対応する第3スコアSC3が二点鎖線で示されている。また、スコアが株価の将来の推移を示唆しているタイミングを、第1タイミングT1、第2タイミングT2、第3タイミングT3及び第4タイミングT4として上向き矢印によって示している。
【0070】
第1タイミングT1では、ニュース情報に対応する第3スコアSC3が株価SPに先行して下落している。ここで、評判情報に対応する第2スコアSC2は、株価SPとほぼ同時に下落しており、財務情報に対応する第1スコアSC1は、四半期中変動しないため、変化していない。このことは、例えば、否定的なニュース情報が報道された後に株価SPが下落したと解釈でき、評判情報は、株価SPの下落を噂する情報を含んでいると解釈できる。
【0071】
第2タイミングT2では、財務情報に対応する第1スコアSC1の下落に先立って、ニュース情報に対応する第3スコアSC3が下落しており、その後株価SPが下落している。このことは、例えば、ニュース情報が、業績の下方修正等の否定的な予想を含んでおり、企業から発表された財務情報が実際に下方修正を含むものであり、株価SPが下落したと解釈できる。
【0072】
第3タイミングT3では、評判情報に対応する第2スコアSC2が株価SPに先行して下落している。このことは、例えば、株価SPに関する悪い噂がインターネット上で流布した後、実際に株価SPが徐々に下落したと解釈できる。
【0073】
第4タイミングT4では、ニュース情報に対応する第3スコアSC3、財務情報に対応する第1スコアSC1、評判情報に対応する第2スコアSC2の順でスコアが回復している。この後、株価SPも回復している。このことは、例えば、ニュース情報が、業績の上方修正等の肯定的な予想を含んでおり、企業から発表された財務情報が実際に上方修正を含むものであり、株価SPに関する良い噂がインターネット上で出回った後、実際に株価SPが徐々に上昇したと解釈できる。
【0074】
このように、本実施形態に係る株価分析装置10によれば、株価に先行して変動するスコアを算出することができる。また、複数の情報源に対応する複数のスコアを算出して、情報源の特性に応じた株価予測を行うことができる。
【0075】
図8は、本発明の実施形態に係る株価分析装置10により実行される先行度の算出処理のフローチャートである。先行度の算出処理は、スコアが株価に対してどの程度先行するかを表す先行度を算出する処理である。
【0076】
株価分析装置10は、スコアを所定の日数だけ遅行させた遅行スコアを算出する(S40)。例えば、株価分析装置10は、スコアを10日単位で100日まで遅行させた10種類の遅行スコアを算出してよい。
【0077】
次に、株価分析装置10は、遅行スコアと株価の一致度を算出する(S41)。ここで、遅行スコアと株価の一致度は、遅行スコアと規格化した株価の差に基づいて算出してよい。例えば、スコアを10日単位で100日まで遅行させた10種類の遅行スコアを算出した場合、10種類の遅行スコアそれぞれについて株価との一致度を算出してよい。
【0078】
株価分析装置10は、一致度が最も高い遅行日数を特定する(S42)。例えば、スコアを10日単位で100日まで遅行させた10種類の遅行スコアを算出した場合、10種類の遅行スコアそれぞれについて算出した一致度が最大となる遅行スコアを特定し、当該特定された遅行スコアの遅行日数を、一致度が最も高い遅行日数として特定してよい。
【0079】
株価分析装置10は、第4算出部12dによって、スコアについて、株価に対する先行度を算出する(S43)。先行度は、一致度が最も高い遅行日数そのものであってもよいし、遅行日数を指数化した量であってもよい。以上で先行度の算出処理が終了する。
【0080】
本実施形態に係る株価分析装置10によれば、先行度を算出することで、スコアが株価に対してどの程度先行するものであるのか把握することができ、投資のタイムスパンに応じたスコアの使い分けをすることができる。
【0081】
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。