2008年9月26日金曜日

ロト6予測準備(1)

しばらくWEKAでの直接予測はお休みして、データを整理中。
今まで対象でなかったボーナス数字を含め、再構築しようかなと。これは目標をワンランク下げる事を意味する。2等でも期待値は1.000万円であり、なかなか手が届くものではない。残念ながら過去を振り返ると軌道修正も止む無しと判断した次第。
したがって7通りの組み合わせを予測の対象とすることになる。
具体的にはボーナス数字を含めた履歴を昇り順でソートする作業から始める。データ上は1等、2等の区別無く、今現在で約2.800組超ほどの組み合わせとなり、データ行は一回の抽選ごとに7組づつ増えていくことになる。
目的は組み合わせの特徴を探る事。

現段階でボーナス数字を含めた履歴を昇り順でソートする作業は完了した。
ざっとWEKAにて分布を確認している最中だけれども、非常に特徴的だ。本来の分布でいえば山の頂点に来なければならない数字が極端に凹んでいる部分などがある。大方の分布は理論どおりなのだが、局所的におかしい。特にミドルレンジあたりで顕著だ。
この分布にみられる特性は、実際の組み合わせにおいてどう生かされるものなのか?
どう利用できるんだろうか?単純に頻度の高いものを選んだだけでは上手くいかないはず。

このデータでの分類についてはbaysnetでの結果が良好だ。約90%は上手く分類されている。
一方J-48では著しく精度を欠いた。なぜだろう?そもそもbaysnetが何であるか?もよく解ってないんだが(笑)設定はいずれも初期設定のままだ。
分類の意味を改めて整理すると、選んだclassifyにしたがって過去データでのpredictを行い、実際のactualと比較して最後にそのモデルを評価するといった流れになっている。
したがって、このモデルで予測した結果は約90%の確率で正解するだろう。(笑)
本当か?

Baysnet  6 16 15 23 32 41 39

どうも予測数値を再確認した印象はあまりよくない。上手く分類されたモデルが次回予測で好成績を出すとは限らない。というか、モデルは過去に対してのみ有効であり、未来に対して有効であるというのはFALSEなのだ。
ちなみに予測した、上の数値を実際の数値として再度、同じ条件で分類してみた。結果は 23 32 39 のみ正しく分類され、残りは誤って分類されて、先ほどとは違う予測数値を出している。このことは予測した数値が同じ考え方の元で否定されたことを意味する。
本来なら一致してしかるべきなんだけどな。どこかlogicが間違っているだろうか?

新たな試みで7数字で分析を始めたところだが、一つ気になることがある。
7数字で14分割のデータをつくり、その組み合わせについて調べている最中であるけれども、どうも全ての組み合わせが一致する回がない。
まだ途中なので断定はできないが非常に少ない感触である。
当然部分的に一致するのはたくさんある。総合して考えると多く共通するパートを基本とし、まだ出現していない組み合わせを候補としたほうが可能性が高い気がする。
14分割というと、およそ1/3に集約されるのだけれど想像以上にバラけている。だから・・
来てないところがポイントになるんじゃないか?

0 コメント: