しばらくWEKAでの直接予測はお休みして、データを整理中。
今まで対象でなかったボーナス数字を含め、再構築しようかなと。これは目標をワンランク下げる事を意味する。2等でも期待値は1.000万円であり、なかなか手が届くものではない。残念ながら過去を振り返ると軌道修正も止む無しと判断した次第。
したがって7通りの組み合わせを予測の対象とすることになる。
具体的にはボーナス数字を含めた履歴を昇り順でソートする作業から始める。データ上は1等、2等の区別無く、今現在で約2.800組超ほどの組み合わせとなり、データ行は一回の抽選ごとに7組づつ増えていくことになる。
目的は組み合わせの特徴を探る事。
現段階でボーナス数字を含めた履歴を昇り順でソートする作業は完了した。
ざっとWEKAにて分布を確認している最中だけれども、非常に特徴的だ。本来の分布でいえば山の頂点に来なければならない数字が極端に凹んでいる部分などがある。大方の分布は理論どおりなのだが、局所的におかしい。特にミドルレンジあたりで顕著だ。
この分布にみられる特性は、実際の組み合わせにおいてどう生かされるものなのか?
どう利用できるんだろうか?単純に頻度の高いものを選んだだけでは上手くいかないはず。
このデータでの分類についてはbaysnetでの結果が良好だ。約90%は上手く分類されている。
一方J-48では著しく精度を欠いた。なぜだろう?そもそもbaysnetが何であるか?もよく解ってないんだが(笑)設定はいずれも初期設定のままだ。
分類の意味を改めて整理すると、選んだclassifyにしたがって過去データでのpredictを行い、実際のactualと比較して最後にそのモデルを評価するといった流れになっている。
したがって、このモデルで予測した結果は約90%の確率で正解するだろう。(笑)
本当か?
Baysnet 6 16 15 23 32 41 39
どうも予測数値を再確認した印象はあまりよくない。上手く分類されたモデルが次回予測で好成績を出すとは限らない。というか、モデルは過去に対してのみ有効であり、未来に対して有効であるというのはFALSEなのだ。
ちなみに予測した、上の数値を実際の数値として再度、同じ条件で分類してみた。結果は 23 32 39 のみ正しく分類され、残りは誤って分類されて、先ほどとは違う予測数値を出している。このことは予測した数値が同じ考え方の元で否定されたことを意味する。
本来なら一致してしかるべきなんだけどな。どこかlogicが間違っているだろうか?
新たな試みで7数字で分析を始めたところだが、一つ気になることがある。
7数字で14分割のデータをつくり、その組み合わせについて調べている最中であるけれども、どうも全ての組み合わせが一致する回がない。
まだ途中なので断定はできないが非常に少ない感触である。
当然部分的に一致するのはたくさんある。総合して考えると多く共通するパートを基本とし、まだ出現していない組み合わせを候補としたほうが可能性が高い気がする。
14分割というと、およそ1/3に集約されるのだけれど想像以上にバラけている。だから・・
来てないところがポイントになるんじゃないか?
2008年9月26日金曜日
2008年9月25日木曜日
第477回ミニロト予測(1)
今回の試行は各数字別そして枠別に今までの経験値から出現比率を割り出し、それをもとに候補を出すという作業。
仕事量は大変多くなるだろう。ただ一度出してしまえば短期間に大幅に変化することはまずないので後々の事を考えれば有効打になりえるかも。
考えてる事は、上のデータと、任意に区切った期間でのそれぞれの出現状況とを照らし合わせ、全体と部分が同じような比率になっているだろうという推測のもと、数字を割り出す作戦。ただし上手くいかない可能性も多分にある。
それは一口で言えばムラ。時系列でみると物凄いムラがある。第一枠は右下がりに滑り台のようなカーブ、第五枠は逆に右上がりだ。これは大局からみると理想的な形だ。ただ時間的経過のもとで観測するといったいどんな風に見えるのだろうか?
確実に順番はめちゃくちゃで、次第に出現頻度に差が出てあのような形になるんじゃなかろうか?これを予測するためにはどんな方法がもっとも現実的で有効なのか?
すでにWEKAにて枠別出現回数は把握しているので、後は%スタイルにしろ、何にせよ数値をまとめるだけである。
単にグラフ情報を数値情報に変換しただけではあるが。
数学はすごく苦手だからどうしてこういう分布になるのか?は説明できない。ただ、5枠に分けているから、ああいう風な曲線を描くのは理解できる。第一枠は最も小さい数字だから必然的に重心が小さい方に偏るし、逆に第五枠は大きい方に片寄る。まったく見事に重心がスライドしていく様が観測できる。
だからと言って常に組み合わせが最も期待値の高いもの同士になるか?
実際には違う。
すでに今回の試行準備はできた。現時点での出現比率で期待値の高いものを集めても、すべての当選者?を含む予測ができるだろうか?
今回違ったアプローチとして独断で異常値と思われる数値をピックアップしておく。
これらは理由は分からないけどグラフから受ける印象が特異なものである。
第一では3と4が逆転しており、第二ではまたも逆転している。
13と14の逆転、 11 13 の突出、15 18 23の凹み 第四枠27からの崖、第五での23のコブと22から始まる印象。なんだか上手くまとめられないが、どうもパターンによって偏りは確実にある。
結局、現時点での結論は
「各枠において特定の数字が出るパターンが存在する」
以下に参考として、ある予想サイトから一つの予想をコピーさせてもらった。勝手に載せていいものか分からないが、書き手を非難するのが目的じゃないからお許しいただきたい。
MINI477 初心者 : 2008/09/26(Fri) 17:29 No.180
4,5,10,11,16,18,20,24,25,31
5 10 11 18 31(穴)
4 10 16 20 31(最近の傾向から)
1 12 19 20 26(裏)
・9月に0回の目はない、30という日に0回は8,25
・過去180回から前回出目より出現期待値が高いのは
11,12,16,22,30 一番悪いのは29
・19週連続してB数字からの連荘はありません。13はずせ
・5週連続して前回の目から数字が2個連荘する現象が起きている。
少ない口数の購入ならば前回の目を2個入れて買うのも手だね!
------------------------------------------------------------------------
各ラインの数字のドツボ地獄状態(どれも20週以上出てないぞ)
第一数字2、9/第二数字6、(極悪14)/第三数字(極悪11)/第四数字(極悪19)、26、28、(極悪29)/第五数字22,(極悪25)
極悪とは30週以上、そのラインでは出てない数字であきらかに確率以上に出てない!
少ない口数の購入ならばいつくるか不明な各ラインの数字はさけろ!仮に25を書くならば第4数字となるのが人情。
それを超えた何かが見えるアナタならば1等が狙えるかも?僕は単に過去の状態を報告するしかできない凡人!
過去データから、どんな風に推定しているのかよくわかる。
枠別に出現回数を集計したグラフと上の説明を比較して見てみると・・・
まず第一数字・・2と9、グラフで見る限り特に異常値とは感じられない。むしろ3,8,10の三つが目に付く。
第二数字・・現時点でのピークは10。6は若干少なめか?14は多めに出現しており、現在ハマリ中というのは理論値からみると正常に作用しているように思える。
第三数字・・11もグラフでは突出しており、第二と同じようにハマリ中というのはなぜか納得できる。
第四数字・・19はおそらく過去のある時点で突出して出現した時期があり、その反動でハマッたものと推測、26は出現多発ゾーンにありながら、なぜか少ない。この枠の特徴として27を過ぎると、つまり28になると急激に出現頻度が下がる。上の予想では28が少ないと言っているのだが、もともと28は四枠で選ぶべき数字ではないと思う。組み合わせのパターンによるけれど。29も同様。
第五数字・・22は第五数字での区切り数字に見える。22から途端に回数が伸びていくからだ。
グラフでは22も25も異常は感じられない。現時点の頻度はごく自然に見える。特に目に付く数字は23。グラフでみるとわずかだが、ちょっと出過ぎの感がある。
ここしばらくwekaでの機械的予測は行っていないが毎回何らかの予測はして、実際に買ってはいる。
方法はパターンのあぶり出しから始まって、そこから選ぶという形だ。どうも選ぶ数字によって組み合わせが、ある程度かたまっているような気がしてならない。特定の枠で、特定の数字を選ぶと、なぜか繰り返し現れるパターン、数字が出てくる。場合によっては(大いにあるのだけれど)一度も出現しない数字があったりして、どうも組み合わせを考える時に、消極的になったりする。今後そういった数字も徐々に出現してくることは、ほぼ確実だろうけど、(本当に確実だろうか?)もうすでに元型といったものが出尽くしている可能性はないだろうか?
微妙に揺れながらいくつかのパターンが入れ替わり現れている感じがするのだけれど。時系列で次回を読む事は本当に難しい。
そういうわけで今後の方向性はやはりシナリオということになるんじゃないだろうか?
いくつかパターンをつくり確率で決定木をつくるという方法。面白みは全然ないけど、もっとも理に適っていて誰でも思いつく考え方かも?
WEKAで実際にシュミレートできるのか?
今回の1点予測 1 12 17 20 31
仕事量は大変多くなるだろう。ただ一度出してしまえば短期間に大幅に変化することはまずないので後々の事を考えれば有効打になりえるかも。
考えてる事は、上のデータと、任意に区切った期間でのそれぞれの出現状況とを照らし合わせ、全体と部分が同じような比率になっているだろうという推測のもと、数字を割り出す作戦。ただし上手くいかない可能性も多分にある。
それは一口で言えばムラ。時系列でみると物凄いムラがある。第一枠は右下がりに滑り台のようなカーブ、第五枠は逆に右上がりだ。これは大局からみると理想的な形だ。ただ時間的経過のもとで観測するといったいどんな風に見えるのだろうか?
確実に順番はめちゃくちゃで、次第に出現頻度に差が出てあのような形になるんじゃなかろうか?これを予測するためにはどんな方法がもっとも現実的で有効なのか?
すでにWEKAにて枠別出現回数は把握しているので、後は%スタイルにしろ、何にせよ数値をまとめるだけである。
単にグラフ情報を数値情報に変換しただけではあるが。
数学はすごく苦手だからどうしてこういう分布になるのか?は説明できない。ただ、5枠に分けているから、ああいう風な曲線を描くのは理解できる。第一枠は最も小さい数字だから必然的に重心が小さい方に偏るし、逆に第五枠は大きい方に片寄る。まったく見事に重心がスライドしていく様が観測できる。
だからと言って常に組み合わせが最も期待値の高いもの同士になるか?
実際には違う。
すでに今回の試行準備はできた。現時点での出現比率で期待値の高いものを集めても、すべての当選者?を含む予測ができるだろうか?
今回違ったアプローチとして独断で異常値と思われる数値をピックアップしておく。
これらは理由は分からないけどグラフから受ける印象が特異なものである。
第一では3と4が逆転しており、第二ではまたも逆転している。
13と14の逆転、 11 13 の突出、15 18 23の凹み 第四枠27からの崖、第五での23のコブと22から始まる印象。なんだか上手くまとめられないが、どうもパターンによって偏りは確実にある。
結局、現時点での結論は
「各枠において特定の数字が出るパターンが存在する」
以下に参考として、ある予想サイトから一つの予想をコピーさせてもらった。勝手に載せていいものか分からないが、書き手を非難するのが目的じゃないからお許しいただきたい。
MINI477 初心者 : 2008/09/26(Fri) 17:29 No.180
4,5,10,11,16,18,20,24,25,31
5 10 11 18 31(穴)
4 10 16 20 31(最近の傾向から)
1 12 19 20 26(裏)
・9月に0回の目はない、30という日に0回は8,25
・過去180回から前回出目より出現期待値が高いのは
11,12,16,22,30 一番悪いのは29
・19週連続してB数字からの連荘はありません。13はずせ
・5週連続して前回の目から数字が2個連荘する現象が起きている。
少ない口数の購入ならば前回の目を2個入れて買うのも手だね!
------------------------------------------------------------------------
各ラインの数字のドツボ地獄状態(どれも20週以上出てないぞ)
第一数字2、9/第二数字6、(極悪14)/第三数字(極悪11)/第四数字(極悪19)、26、28、(極悪29)/第五数字22,(極悪25)
極悪とは30週以上、そのラインでは出てない数字であきらかに確率以上に出てない!
少ない口数の購入ならばいつくるか不明な各ラインの数字はさけろ!仮に25を書くならば第4数字となるのが人情。
それを超えた何かが見えるアナタならば1等が狙えるかも?僕は単に過去の状態を報告するしかできない凡人!
過去データから、どんな風に推定しているのかよくわかる。
枠別に出現回数を集計したグラフと上の説明を比較して見てみると・・・
まず第一数字・・2と9、グラフで見る限り特に異常値とは感じられない。むしろ3,8,10の三つが目に付く。
第二数字・・現時点でのピークは10。6は若干少なめか?14は多めに出現しており、現在ハマリ中というのは理論値からみると正常に作用しているように思える。
第三数字・・11もグラフでは突出しており、第二と同じようにハマリ中というのはなぜか納得できる。
第四数字・・19はおそらく過去のある時点で突出して出現した時期があり、その反動でハマッたものと推測、26は出現多発ゾーンにありながら、なぜか少ない。この枠の特徴として27を過ぎると、つまり28になると急激に出現頻度が下がる。上の予想では28が少ないと言っているのだが、もともと28は四枠で選ぶべき数字ではないと思う。組み合わせのパターンによるけれど。29も同様。
第五数字・・22は第五数字での区切り数字に見える。22から途端に回数が伸びていくからだ。
グラフでは22も25も異常は感じられない。現時点の頻度はごく自然に見える。特に目に付く数字は23。グラフでみるとわずかだが、ちょっと出過ぎの感がある。
ここしばらくwekaでの機械的予測は行っていないが毎回何らかの予測はして、実際に買ってはいる。
方法はパターンのあぶり出しから始まって、そこから選ぶという形だ。どうも選ぶ数字によって組み合わせが、ある程度かたまっているような気がしてならない。特定の枠で、特定の数字を選ぶと、なぜか繰り返し現れるパターン、数字が出てくる。場合によっては(大いにあるのだけれど)一度も出現しない数字があったりして、どうも組み合わせを考える時に、消極的になったりする。今後そういった数字も徐々に出現してくることは、ほぼ確実だろうけど、(本当に確実だろうか?)もうすでに元型といったものが出尽くしている可能性はないだろうか?
微妙に揺れながらいくつかのパターンが入れ替わり現れている感じがするのだけれど。時系列で次回を読む事は本当に難しい。
そういうわけで今後の方向性はやはりシナリオということになるんじゃないだろうか?
いくつかパターンをつくり確率で決定木をつくるという方法。面白みは全然ないけど、もっとも理に適っていて誰でも思いつく考え方かも?
WEKAで実際にシュミレートできるのか?
今回の1点予測 1 12 17 20 31
ミニロト予測準備段階(3)と413ロト6の覚え書
このところデータ作成や方法の模索に追われてまともに予測ができていない。今回の試行はセット球とパターンの相関について。
WEKAにて分類を試した結果、有効と思われる数値は出なかった。残念ながらまるで相関は無い模様。人によってはセットでの予測が有効だというけどM氏としてはセット球という属性はほとんど無視してもよいと考える。まだ試してはいないがロト6においてもおそらく相関はないだろう。
これは数字そのものについてではなく、あくまでもM氏の設定したパターンにおいての話し。
出目のムラについてはもちろん承知している。特定のセットにおいて出現回数の多い数字と、少ない数字、あるいはまったく出現なしというケースもあるか?
とにかくパターンとセットには相関がない。
ついでだが第413回ロト6の参考資料として以下の数字を記録しておく。
4回
02 06 15 16 24 27 30 33
3回
04 10 13 17 19 22 26 35 36 42
第413回 2 14 15 26 35 37
これは過去25回の出現回数だ。そのなかで3,4回出現した数字をピックアップしてみた。
これを3回出現をベースに、できるだけバラバラに組み合わせると良い組み合わせができるらしい。結果は本日の19時ごろには分かるだろう。
正解したのは 2 15 26 35 の4個。18分の4です。
14が5回、37が7回出現グループからそれぞれ当選した。今回だけ見れば確かに効果があるように感じる。場合によっては6個すべてこのグループに入る可能性もある。引き続き効果を追っていきたい。
WEKAにて分類を試した結果、有効と思われる数値は出なかった。残念ながらまるで相関は無い模様。人によってはセットでの予測が有効だというけどM氏としてはセット球という属性はほとんど無視してもよいと考える。まだ試してはいないがロト6においてもおそらく相関はないだろう。
これは数字そのものについてではなく、あくまでもM氏の設定したパターンにおいての話し。
出目のムラについてはもちろん承知している。特定のセットにおいて出現回数の多い数字と、少ない数字、あるいはまったく出現なしというケースもあるか?
とにかくパターンとセットには相関がない。
ついでだが第413回ロト6の参考資料として以下の数字を記録しておく。
4回
02 06 15 16 24 27 30 33
3回
04 10 13 17 19 22 26 35 36 42
第413回 2 14 15 26 35 37
これは過去25回の出現回数だ。そのなかで3,4回出現した数字をピックアップしてみた。
これを3回出現をベースに、できるだけバラバラに組み合わせると良い組み合わせができるらしい。結果は本日の19時ごろには分かるだろう。
正解したのは 2 15 26 35 の4個。18分の4です。
14が5回、37が7回出現グループからそれぞれ当選した。今回だけ見れば確かに効果があるように感じる。場合によっては6個すべてこのグループに入る可能性もある。引き続き効果を追っていきたい。
2008年9月23日火曜日
ミニロト予測準備段階(2)
Rにてパターンと出目の相関関係をみてみる。
当然の結果であるけど、第二、第三、第一の順に影響を受けやすい。
もっとも安定しているのは第五でありパターンによる出目の変化は少ない。
つぎに第四が安定している。言い方を変えると、第一、第四、第五を軸にして、第二、第三の枠に変化を持たせた選び方というのがベストな組み合わせ方ではないか?
大雑把な考えではあるが、最小の資金で最大の効果を考えた場合、第二、第三の枠に最も多く予想数字を入れるべきではないかと思う。
今度はWEKAにて枠別出現の分布をグラフで確認する。
と、ほぼ理論どおりの分布となっている。
しかし詳細に見ていくと必ずしもなめらかな曲線を描いているわけではない。つまり理論上ではもっと出ていいいはずの数字が極端に少なかったり、あるいは多かったりする。
いずれ綺麗なカーブを描くはずだというのは大方の見方ではあるだろうけど、いつそういう風なカーブになるというのだろうか?思うに将来も現状のような感じで推移していくのではないだろうか?急に凹んでいる数字が伸びたり、あるいは伸びてる数字がぱったりと止まったりはしなだろう。
M氏としてはほぼ現状のままの波で拡大していくものと推測する。だから出やすい数字はそのままの頻度で出るだろうし、出ない数字の頻度もあまり変わらない感じがする。
番台別のパターンを時系列でみる。
コレといった特徴も見出せず、ただ雑然とデタラメに並んでいるといった印象しか受けない。
だからこのデータから何か得ようとするのはどうも難しい気がする。次回にどんなパターンが来るのか?はいくつか選択肢をあげてシナリオを考えた方が現実的だ。パターン別に候補数字を選んでいくという方法だ。
すでにパターン別に過去履歴を分類してあるので、どの数字が何回出ているのか?については調べるのが容易だ。特定のパターンで特定の数字が複数回出ているのもあれば、同じようにまったく出ていないものもあって、どうもこのデータに関しては複数回出現しているものを選んだ方が可能性が高いという印象を受ける。ぴったりと一致しているものは非常に、というか、あるいはまったくないが、(笑)3個一致は多い。そして微妙に数字がずれているものも多い。時系列分析でもこの傾向はハッキリしていたんだけど、やはり中心みたいなものは存在する気がする。(出やすい=集まりやすい)と考えれば。その周りを揺れているようなイメージだ。だからパターン分析は無意味ではないと思う。出ない組み合わせはこの先何回抽選しても絶対に出ない。また何回も出る組み合わせは今後も出続けるだろう。
当然の結果であるけど、第二、第三、第一の順に影響を受けやすい。
もっとも安定しているのは第五でありパターンによる出目の変化は少ない。
つぎに第四が安定している。言い方を変えると、第一、第四、第五を軸にして、第二、第三の枠に変化を持たせた選び方というのがベストな組み合わせ方ではないか?
大雑把な考えではあるが、最小の資金で最大の効果を考えた場合、第二、第三の枠に最も多く予想数字を入れるべきではないかと思う。
今度はWEKAにて枠別出現の分布をグラフで確認する。
と、ほぼ理論どおりの分布となっている。
しかし詳細に見ていくと必ずしもなめらかな曲線を描いているわけではない。つまり理論上ではもっと出ていいいはずの数字が極端に少なかったり、あるいは多かったりする。
いずれ綺麗なカーブを描くはずだというのは大方の見方ではあるだろうけど、いつそういう風なカーブになるというのだろうか?思うに将来も現状のような感じで推移していくのではないだろうか?急に凹んでいる数字が伸びたり、あるいは伸びてる数字がぱったりと止まったりはしなだろう。
M氏としてはほぼ現状のままの波で拡大していくものと推測する。だから出やすい数字はそのままの頻度で出るだろうし、出ない数字の頻度もあまり変わらない感じがする。
番台別のパターンを時系列でみる。
コレといった特徴も見出せず、ただ雑然とデタラメに並んでいるといった印象しか受けない。
だからこのデータから何か得ようとするのはどうも難しい気がする。次回にどんなパターンが来るのか?はいくつか選択肢をあげてシナリオを考えた方が現実的だ。パターン別に候補数字を選んでいくという方法だ。
すでにパターン別に過去履歴を分類してあるので、どの数字が何回出ているのか?については調べるのが容易だ。特定のパターンで特定の数字が複数回出ているのもあれば、同じようにまったく出ていないものもあって、どうもこのデータに関しては複数回出現しているものを選んだ方が可能性が高いという印象を受ける。ぴったりと一致しているものは非常に、というか、あるいはまったくないが、(笑)3個一致は多い。そして微妙に数字がずれているものも多い。時系列分析でもこの傾向はハッキリしていたんだけど、やはり中心みたいなものは存在する気がする。(出やすい=集まりやすい)と考えれば。その周りを揺れているようなイメージだ。だからパターン分析は無意味ではないと思う。出ない組み合わせはこの先何回抽選しても絶対に出ない。また何回も出る組み合わせは今後も出続けるだろう。
2008年9月19日金曜日
ミニロト予測準備段階(1)
当選数字を分類する。これは全体の傾向を把握するためである。
分類法は注目する要素によっていくらでも考える事ができる。今回はいきなり分割を始めるのではなく、考えられる中でも最も大きな要素からはじめて次第に小分割していく形をとってみる。最初に注目したのは第一数字。これが0番台か否か?
結果は圧倒的に0番台が多い。388例に対し 9 以上のパターンは 61例である。
これだけを見ても継続して買う場合は一桁数字を必ず1個は選ぶべきだ。長い目で考えた場合、確率と言っていいか分からないけど可能性としてはやはり上がるんじゃないか?
あまりに当たり前すぎて分析するのもバカバカしいが、(笑)大まかな組み合わせモデルとして3分割してみた。現実的な選択肢として以下の組み合わせを挙げてみる。
第一数字 0番台 10番台
第二数字 0番台 10番台
第三数字 0番台 10番台 20番台30,31含む
第四数字 10番台 20番台30,31含む
第五数字 10番台 20番台30,31含む
パターン1 0 0 0 10 10
以下pt 2 0 0 0 10 20
3 0 0 0 20 20
4 0 0 10 10 10
5 0 0 10 10 20
6 0 0 10 20 20
7 0 0 20 20 20
8 0 10 10 10 10
9 0 10 10 10 20
10 0 10 10 20 20
11 0 10 20 20 20
12 10 10 10 10 10
13 10 10 10 10 20
14 10 10 10 20 20
15 10 10 20 20 20
頻繁に起こる実際の組み合わせは上の15組だと思う。滅多に起こらない組み合わせとして第一が0番台または10番台ではないものがあるが、それは除外した。いつ起きるか解らない、つまり起こる確率の非常に低いものを予測しても意味が無いと判断、結果15パターンに分類することにした。
分析上データに欠損値があると上手く機能しないと言う理由から、実際には21パターンとした。
ここで改めて気付いた事がある。それは最低どの番台から何個選べばすべてのパターンを組み合わせる事が可能か?と言う事。
実際には自分が組むパターンのみで良いのだが、ある程度カバーできる最低の数ということで以下のように設定した。
0番台 ×2
10番台×3
20番台~×3
以上8個で332例、割合にして過去履歴の約70%程度を占める番台の組み合わせ(番台組み合わせの上位6パターン)を作る事ができる。これらのデータをよく見ていくと面白いことに気付く。それは特定のパターンで出にくい、または出やすい数字があるという事実。確率信者?に言わせればいずれ平均化して出現するだろうと言いそうなもんだが、M氏はそうは思わない。
パターン10、6、5は最も多く出るパターン。
第二勢力 11、9、15
第三の勢力(笑) 14、7、2 といったところ。
とりあえず予測の準備として経験値に基づいた生情報を得ることは無意味ではなかろう。知っていれば可能性の高い方を選べるから。あとは具体的に数字を選ぶだけだ。パターンに当てはめて組み合わせを考えれば出来上がりというわけだ。
分類法は注目する要素によっていくらでも考える事ができる。今回はいきなり分割を始めるのではなく、考えられる中でも最も大きな要素からはじめて次第に小分割していく形をとってみる。最初に注目したのは第一数字。これが0番台か否か?
結果は圧倒的に0番台が多い。388例に対し 9 以上のパターンは 61例である。
これだけを見ても継続して買う場合は一桁数字を必ず1個は選ぶべきだ。長い目で考えた場合、確率と言っていいか分からないけど可能性としてはやはり上がるんじゃないか?
あまりに当たり前すぎて分析するのもバカバカしいが、(笑)大まかな組み合わせモデルとして3分割してみた。現実的な選択肢として以下の組み合わせを挙げてみる。
第一数字 0番台 10番台
第二数字 0番台 10番台
第三数字 0番台 10番台 20番台30,31含む
第四数字 10番台 20番台30,31含む
第五数字 10番台 20番台30,31含む
パターン1 0 0 0 10 10
以下pt 2 0 0 0 10 20
3 0 0 0 20 20
4 0 0 10 10 10
5 0 0 10 10 20
6 0 0 10 20 20
7 0 0 20 20 20
8 0 10 10 10 10
9 0 10 10 10 20
10 0 10 10 20 20
11 0 10 20 20 20
12 10 10 10 10 10
13 10 10 10 10 20
14 10 10 10 20 20
15 10 10 20 20 20
頻繁に起こる実際の組み合わせは上の15組だと思う。滅多に起こらない組み合わせとして第一が0番台または10番台ではないものがあるが、それは除外した。いつ起きるか解らない、つまり起こる確率の非常に低いものを予測しても意味が無いと判断、結果15パターンに分類することにした。
分析上データに欠損値があると上手く機能しないと言う理由から、実際には21パターンとした。
ここで改めて気付いた事がある。それは最低どの番台から何個選べばすべてのパターンを組み合わせる事が可能か?と言う事。
実際には自分が組むパターンのみで良いのだが、ある程度カバーできる最低の数ということで以下のように設定した。
0番台 ×2
10番台×3
20番台~×3
以上8個で332例、割合にして過去履歴の約70%程度を占める番台の組み合わせ(番台組み合わせの上位6パターン)を作る事ができる。これらのデータをよく見ていくと面白いことに気付く。それは特定のパターンで出にくい、または出やすい数字があるという事実。確率信者?に言わせればいずれ平均化して出現するだろうと言いそうなもんだが、M氏はそうは思わない。
パターン10、6、5は最も多く出るパターン。
第二勢力 11、9、15
第三の勢力(笑) 14、7、2 といったところ。
とりあえず予測の準備として経験値に基づいた生情報を得ることは無意味ではなかろう。知っていれば可能性の高い方を選べるから。あとは具体的に数字を選ぶだけだ。パターンに当てはめて組み合わせを考えれば出来上がりというわけだ。
2008年9月18日木曜日
第412回ロト6ゾーン予測
Randumforestにて予測を行う。第一、第二枠を以下の条件で設定し、残り第三~第六のみ予測する。条件とは第一枠と第二にabcの3ブロックで出来る組み合わせのすべてを使うというもの。
したがってパターンは全部で6個となる。
aacfjj
abcgik
acdgik
bbceij
bcdeij
ccdhij
今初めてRにて上記のゾーン組み合わせに一致する抽選回を抽出してみたのだが、驚いた事に一致した件数はわずか3件のみ!ちなみにbcdeijで149、238、375である。のこり5組の組み合わせは皆無であった・・全体の分布から推測すると第一、第二そして第五、第六は比較的ゾーンが集中してるはず。それを踏まえてもう一度パターンを再考することにする。
スタート数字と同じように第五、第六も三つのゾーンですべての組み合わせを作る。すなわちijkで・・・
ii
ij
ik
jj
jk
kk
以上6個の組み合わせだ。第一、第二枠の6個の組み合わせと合わせると全部で36パターンとなる。今度もRにて該当する組み合わせを抽出してみた。4個一致するものとなると、それなりに例は増えてくるが、それでも未出現の組み合わせは存在する。今後回数を重ねれば当然それらも出現の可能性はあるが、ここはあえてより多く出ているパターンを選択したい。複数出るものがある一方、出ない組み合わせはやはり出にくいのだ。したがって未出現パターンは今のところ可能性ゼロとして削除する。
最終的に88組の当選番号が残った。パターンは27個となる。問題はこのデータをどう扱うか?
全回分の11分割データに第一、第二、第五そして第六のあらかじめ決めておいたゾーンをセット、Randomforest,Kstarの二つを用い予測してみた。スキームは他にも試してみたが正解率の高さから上記2個の数値に決定、偶然かどうかは判断できないが両者とも同じ結果を出してくれた。
abbgij が今回の予測ゾーンとなる。Rにて同じゾーンの出現状況を試してみると第348回が一件だけヒットした。
4 5 6 27 36 38 である。前回が 2 4 6 24 35 39 で非常に似ている。あんまり関係ないと思うけど。。一応予測ゾーンの数値を並べてみよう。
1 2 3 4
5 6 7 8
25 26 27 28
33 34 35 36
37 38 39 40
とりあえず直感で 4 6 8 26 34 37 かな。出現のリズムから 8 は×、 6 も×、 4 は◎。 したがってbからは 5 7 か? 26 は×、代わりに27で。 35が連荘可能性あり◎、36も怪しい○。37も引き戻し濃厚、39引き戻し激アツといったところか。
4 5 7 27 35 39
1 は次回が7回目となるのでもしかしたら出るかも? 2 も連荘可能性有りだ。3 はリズムからみるとたぶん無し。5 は要素が見られないから×、6は413回に要注意。7は要素なし、34はやや戻す可能性あり。
リズムからだと 1 2 4 27 35 39 かなり片寄った出目となる。前回から4個も引っ張る形となるがどうだろうか?せっかくのゾーン予測を無視することになるが、ハマリっぷりからみて要因が薄い?から仕方あるまい。
もしかして最後2個はこんな形? 35 37 と 37 39 ?
いろいろ悩むが逆に考えてみると・・出現リズムというか引き戻しに関しては多くの人が公開されてるデータを参考にすることは容易に推測できる。自分もそうだから。だから同じ数字を怪しいと感じるだろう。したがって選ぶ数字も人気数字となりえる。今回はあえてそれらを外し、ハマリ数字も混ぜて直感で一口買いとしよう。ただしゾーンは予測どおりだ。
4 7 8 27 36 39
追記
2 6 7 9 16 19 ボーナス 33
ゾーンは abbcde んー abb までは良かったんだけどね。一致は 7 のみ。これは偶然だな。2 と 6 に関しては怪しかったんだけど安易すぎて買えなかった。後半はまったく読めてない。この出目でキャリー無しとはな。並みの感覚じゃ絶対買えない並びだと思う。
したがってパターンは全部で6個となる。
aacfjj
abcgik
acdgik
bbceij
bcdeij
ccdhij
今初めてRにて上記のゾーン組み合わせに一致する抽選回を抽出してみたのだが、驚いた事に一致した件数はわずか3件のみ!ちなみにbcdeijで149、238、375である。のこり5組の組み合わせは皆無であった・・全体の分布から推測すると第一、第二そして第五、第六は比較的ゾーンが集中してるはず。それを踏まえてもう一度パターンを再考することにする。
スタート数字と同じように第五、第六も三つのゾーンですべての組み合わせを作る。すなわちijkで・・・
ii
ij
ik
jj
jk
kk
以上6個の組み合わせだ。第一、第二枠の6個の組み合わせと合わせると全部で36パターンとなる。今度もRにて該当する組み合わせを抽出してみた。4個一致するものとなると、それなりに例は増えてくるが、それでも未出現の組み合わせは存在する。今後回数を重ねれば当然それらも出現の可能性はあるが、ここはあえてより多く出ているパターンを選択したい。複数出るものがある一方、出ない組み合わせはやはり出にくいのだ。したがって未出現パターンは今のところ可能性ゼロとして削除する。
最終的に88組の当選番号が残った。パターンは27個となる。問題はこのデータをどう扱うか?
全回分の11分割データに第一、第二、第五そして第六のあらかじめ決めておいたゾーンをセット、Randomforest,Kstarの二つを用い予測してみた。スキームは他にも試してみたが正解率の高さから上記2個の数値に決定、偶然かどうかは判断できないが両者とも同じ結果を出してくれた。
abbgij が今回の予測ゾーンとなる。Rにて同じゾーンの出現状況を試してみると第348回が一件だけヒットした。
4 5 6 27 36 38 である。前回が 2 4 6 24 35 39 で非常に似ている。あんまり関係ないと思うけど。。一応予測ゾーンの数値を並べてみよう。
1 2 3 4
5 6 7 8
25 26 27 28
33 34 35 36
37 38 39 40
とりあえず直感で 4 6 8 26 34 37 かな。出現のリズムから 8 は×、 6 も×、 4 は◎。 したがってbからは 5 7 か? 26 は×、代わりに27で。 35が連荘可能性あり◎、36も怪しい○。37も引き戻し濃厚、39引き戻し激アツといったところか。
4 5 7 27 35 39
1 は次回が7回目となるのでもしかしたら出るかも? 2 も連荘可能性有りだ。3 はリズムからみるとたぶん無し。5 は要素が見られないから×、6は413回に要注意。7は要素なし、34はやや戻す可能性あり。
リズムからだと 1 2 4 27 35 39 かなり片寄った出目となる。前回から4個も引っ張る形となるがどうだろうか?せっかくのゾーン予測を無視することになるが、ハマリっぷりからみて要因が薄い?から仕方あるまい。
もしかして最後2個はこんな形? 35 37 と 37 39 ?
いろいろ悩むが逆に考えてみると・・出現リズムというか引き戻しに関しては多くの人が公開されてるデータを参考にすることは容易に推測できる。自分もそうだから。だから同じ数字を怪しいと感じるだろう。したがって選ぶ数字も人気数字となりえる。今回はあえてそれらを外し、ハマリ数字も混ぜて直感で一口買いとしよう。ただしゾーンは予測どおりだ。
4 7 8 27 36 39
追記
2 6 7 9 16 19 ボーナス 33
ゾーンは abbcde んー abb までは良かったんだけどね。一致は 7 のみ。これは偶然だな。2 と 6 に関しては怪しかったんだけど安易すぎて買えなかった。後半はまったく読めてない。この出目でキャリー無しとはな。並みの感覚じゃ絶対買えない並びだと思う。
2008年9月16日火曜日
第475回ミニロト予測
過去20回ほど遡ってWEKAの結果と実際の数値をテストしてみた。
どう見ても上手く機能していない。現状の方法では予測不能と判断、新たな試みを模索しないといけない。毎回買うことが当選の絶対条件だと想っているので、今回はまったくの勘で一口買ってみる。
6 13 17 20 27
行ったテスト方法は過去2回の履歴を用い、単純にあるスキームで計算させるだけ。おそらくデータ量を変えてみても満足のいく結果は得られないだろう。ただしWEKAでの予測はこれで終わりではない。与えるデータを根本的に変えてトライする余地は十分にあると考えている。
試行のひとつとして過去何回かの平均値をもとに次回予測をする方法を試してみたが、これも上手く機能しなかった。考え方は過去の平均値と出目の相関から次回を予測するといった感じ。
考え方の基本は「条件と結果」。いくつかの条件を属性として考え、その結果が実際の抽選結果となる。
平均値は条件のひとつの属性である。それとアップダウン。これは前回の出目と比較して次回は上がるか?下がるか?というもの。これも過去に遡っていくつかの条件とともに属性として扱える要素だと考えた。今のところ想い付くのはそれぐらいだね。
どう見ても上手く機能していない。現状の方法では予測不能と判断、新たな試みを模索しないといけない。毎回買うことが当選の絶対条件だと想っているので、今回はまったくの勘で一口買ってみる。
6 13 17 20 27
行ったテスト方法は過去2回の履歴を用い、単純にあるスキームで計算させるだけ。おそらくデータ量を変えてみても満足のいく結果は得られないだろう。ただしWEKAでの予測はこれで終わりではない。与えるデータを根本的に変えてトライする余地は十分にあると考えている。
試行のひとつとして過去何回かの平均値をもとに次回予測をする方法を試してみたが、これも上手く機能しなかった。考え方は過去の平均値と出目の相関から次回を予測するといった感じ。
考え方の基本は「条件と結果」。いくつかの条件を属性として考え、その結果が実際の抽選結果となる。
平均値は条件のひとつの属性である。それとアップダウン。これは前回の出目と比較して次回は上がるか?下がるか?というもの。これも過去に遡っていくつかの条件とともに属性として扱える要素だと考えた。今のところ想い付くのはそれぐらいだね。
2008年9月10日水曜日
第411回ロト6予測
作業手順
1、全回分のデータ(ゾーンデータ、セット含む)をCSVからARFFファイルに変換
2、変換されたファイルのnumericとなっている項目をすべてnorminalに変換する。
3、最終的にARFFそしてnorminalとなった全回分データを用いて、まずルールを出す。
4、つぎに各枠別に「もっとも目的変数の予測に寄与している属性は何か?」言い換えれば一番相関のある属性は?ということで計算させる。
5、最後に枠別にもっとも寄与する説明変数だけを使用したデータにおいて推測する。
上においては全回分となっているが何故かPCの容量不足で止まってしまった。なので直近10回分のデータを用いた予測数値を以下に記録する。(どれくらいのデータ量が最適か?については試行を重ねないと解らない)
使用スキームはマルチレイヤー
3 18 20 23 24 33
ちなみに過去2回当選数字のみ(マルチレイヤー)での予測は・・・
8 13 20 27 28 33
select attribute をせずに全回分データで予測した結果
J-48 1 13 17 30 33 43
SMO 1 11 17 26 35 43
全回分データでのゾーン予測
J-48 第一 Aかつa 1 2 3 4
第二 B c 9 10 11 12
第三 C e 15 16
第四 D g 25 26 27 28
第五 E i 33 34 35
第六 F k 41 42 43
Best rules found:
1. zone11-1=a 182 ==> zone7-1=A 182 conf:(1)
2. zone11-6=k 141 ==> zone7-6=F 141 conf:(1)
3. zone11-6=j 141 ==> zone7-6=F 141 conf:(1)
4. zone7-5=F 131 ==> zone7-6=F 131 conf:(1)
5. zone7-6=F zone11-1=a 122 ==> zone7-1=A 122 conf:(1)
6. zone7-2=A 97 ==> zone7-1=A 97 conf:(1)
7. zone11-2=c 92 ==> zone7-2=B 92 conf:(1)
8. zone11-3=e 91 ==> zone7-3=C 91 conf:(1)
9. zone11-2=b 88 ==> zone7-1=A 88 conf:(1)
10. zone11-4=g 88 ==> zone7-4=D 88 conf:(1)
過去3回当選数字のみでの予測値
マルチ 7 16 19 24 35 37
SMO 7 15 19 25 35 37
第一枠がAの場合だった抽選回のみを抽出、仮に次回が第一がA、第六がFだとしてマルチで予測した結果は・・
ACDDFF
同じく第一枠がaの場合だった抽選回のみを抽出、仮に次回が第一がaだと仮定してマルチで予測してみた。
abbdjj
とりあえず撤退はないので今回は以下の数字で・・
5 13 20 24 35 41
結果と追記
2 4 6 24 35 39 B-34 24と35は過去3回当選数字のみでの予測値(マルチ)で一致したが、第一、第二、第三ともまるで見当違いとなった。第六についても予想外です。
今まで高精度だった過去2回当選数字のみでの予測値(マルチ)は全滅・・アルゴリズムは不変なので好不調の原因はデータそのもにあるのだろう。過去出目のパターンによってinstanseを変えるべきなのかも?
1、全回分のデータ(ゾーンデータ、セット含む)をCSVからARFFファイルに変換
2、変換されたファイルのnumericとなっている項目をすべてnorminalに変換する。
3、最終的にARFFそしてnorminalとなった全回分データを用いて、まずルールを出す。
4、つぎに各枠別に「もっとも目的変数の予測に寄与している属性は何か?」言い換えれば一番相関のある属性は?ということで計算させる。
5、最後に枠別にもっとも寄与する説明変数だけを使用したデータにおいて推測する。
上においては全回分となっているが何故かPCの容量不足で止まってしまった。なので直近10回分のデータを用いた予測数値を以下に記録する。(どれくらいのデータ量が最適か?については試行を重ねないと解らない)
使用スキームはマルチレイヤー
3 18 20 23 24 33
ちなみに過去2回当選数字のみ(マルチレイヤー)での予測は・・・
8 13 20 27 28 33
select attribute をせずに全回分データで予測した結果
J-48 1 13 17 30 33 43
SMO 1 11 17 26 35 43
全回分データでのゾーン予測
J-48 第一 Aかつa 1 2 3 4
第二 B c 9 10 11 12
第三 C e 15 16
第四 D g 25 26 27 28
第五 E i 33 34 35
第六 F k 41 42 43
Best rules found:
1. zone11-1=a 182 ==> zone7-1=A 182 conf:(1)
2. zone11-6=k 141 ==> zone7-6=F 141 conf:(1)
3. zone11-6=j 141 ==> zone7-6=F 141 conf:(1)
4. zone7-5=F 131 ==> zone7-6=F 131 conf:(1)
5. zone7-6=F zone11-1=a 122 ==> zone7-1=A 122 conf:(1)
6. zone7-2=A 97 ==> zone7-1=A 97 conf:(1)
7. zone11-2=c 92 ==> zone7-2=B 92 conf:(1)
8. zone11-3=e 91 ==> zone7-3=C 91 conf:(1)
9. zone11-2=b 88 ==> zone7-1=A 88 conf:(1)
10. zone11-4=g 88 ==> zone7-4=D 88 conf:(1)
過去3回当選数字のみでの予測値
マルチ 7 16 19 24 35 37
SMO 7 15 19 25 35 37
第一枠がAの場合だった抽選回のみを抽出、仮に次回が第一がA、第六がFだとしてマルチで予測した結果は・・
ACDDFF
同じく第一枠がaの場合だった抽選回のみを抽出、仮に次回が第一がaだと仮定してマルチで予測してみた。
abbdjj
とりあえず撤退はないので今回は以下の数字で・・
5 13 20 24 35 41
結果と追記
2 4 6 24 35 39 B-34 24と35は過去3回当選数字のみでの予測値(マルチ)で一致したが、第一、第二、第三ともまるで見当違いとなった。第六についても予想外です。
今まで高精度だった過去2回当選数字のみでの予測値(マルチ)は全滅・・アルゴリズムは不変なので好不調の原因はデータそのもにあるのだろう。過去出目のパターンによってinstanseを変えるべきなのかも?
2008年9月9日火曜日
第474回ミニロト予測
もうすでに抽選の最中であるが予測数字と使用データなどを記録しておく。
使用データは全回分。使用スキームと数字は以下のとおり。
MCC 2 7 15 20 28
J-48 1 10 19 27 31
SMO 2 7 15 26 28
Bayse Net 2 7 15 20 28
買った数字は・・・ 12 19 20 25 26
選び方はメチャクチャ(笑)とりあえずロト6でやってるやり方で出した数字をいろいろと眺めまわして、最終的に適当な感じ?で決めてしまった。過去記事を読み返し何かヒントがないものか考えてみたが、にわか思考?では良い考えも浮かぶはずもない。ちなみに上で示した数字は全部numericからnorminalへと変換してWEKAに読み込ませ、regressionでは使えないスキームも使用した結果である。
使用データは全回分。使用スキームと数字は以下のとおり。
MCC 2 7 15 20 28
J-48 1 10 19 27 31
SMO 2 7 15 26 28
Bayse Net 2 7 15 20 28
買った数字は・・・ 12 19 20 25 26
選び方はメチャクチャ(笑)とりあえずロト6でやってるやり方で出した数字をいろいろと眺めまわして、最終的に適当な感じ?で決めてしまった。過去記事を読み返し何かヒントがないものか考えてみたが、にわか思考?では良い考えも浮かぶはずもない。ちなみに上で示した数字は全部numericからnorminalへと変換してWEKAに読み込ませ、regressionでは使えないスキームも使用した結果である。
2008年9月8日月曜日
ミニロト傾向分析(1)第473回終了時点でのトータルです。
ミニロトの主催者?である「みずほ銀行」が実際の抽選結果をどう取り扱っているのか?つまり何かツールを用いて専門の部署が分析とかしてるのか?についてはまったく解らないわけだけど、ひょっとして公正な抽選のために異常な偏り、つまり明確な予測可能な状態を避けるために何らかの対策を施すためのデータを得るために分析をしていることは大いに有り得る。ちょっと意味が解りづらい言い回しかもしれないが、イカサマではないけれど明らかなクセが出ないようにするという意味です。つまり大方の期待を裏切ってくれないと魅力ある宝くじにはならない。(笑)
分析とは関係ないことを述べましたが主催者の意図?(あくまで憶測)とは別に結果をみると明らかに傾向はあると思うんですけど。以下にWEKAでの傾向分析を記します。
Scheme: weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -c -1
Relation: mini-5bunkatu
Instances: 473
Attributes: 5
5分割第一
5分割第二
5分割第三
5分割第四
5分割第五
上から解説します。まず一番上が分析に用いたスキームです。Relationはデータの名前(笑)
Instancesはデータの行のこと。Attributesは属性です。
Best rules found:
1. 5分割第四=E 153 ==> 5分割第五=E 153 conf:(1)
2. 5分割第二=A 103 ==> 5分割第一=A 103 conf:(1)
3. 5分割第一=A 5分割第四=E 86 ==> 5分割第五=E 86 conf:(1)
4. 5分割第三=D 5分割第四=E 84 ==> 5分割第五=E 84 conf:(1)
5. 5分割第二=A 5分割第五=E 65 ==> 5分割第一=A 65 conf:(1)
6. 5分割第二=B 5分割第四=E 56 ==> 5分割第五=E 56 conf:(1)
7. 5分割第二=C 5分割第四=E 54 ==> 5分割第五=E 54 conf:(1)
8. 5分割第一=B 5分割第四=E 51 ==> 5分割第五=E 51 conf:(1)
9. 5分割第二=A 5分割第三=B 47 ==> 5分割第一=A 47 conf:(1)
10. 5分割第三=B 5分割第五=E 56 ==> 5分割第一=A 54 conf:(0.96)
途中でずらずらと計算過程?らしきものが出てきますが重要なのは最後の部分です。スキームによってはほんとに長ったらしいのが出てきます。
このスキームの場合、各属性の関係を上から重要なものから、つまり分類例が多いと言う意味において上から順に示してくれます。
Best rules found 文字通りベストなルールが見つかったというわけです。(笑)
日本語マニュアルを見てこの記事を書いているわけではないので、どこかに間違いや勘違いがあることを承知で見て頂きたい。
一応解説を。一例だけしておきます。
1. 5分割第四=E 153 ==> 5分割第五=E 153 conf:(1)
これはもっとも例の多いケースで、5分割第四=E 153 というのは5分割で見た場合、第四数字が E ブロックだった場合、第五数字も E だったのが全体で153例あるということを示している。当たり前だね。(笑)たぶんこんな風に見ていくんだろうけど、大きな組み合わせを考えるときには使えるかも。それに上で使用したデータは全体を通してのものなので、短期的トレンド?は反映していない。ごく当然のルールしか出てこないな。(笑)
下の数値は10分割ゾーンを数値にして相関係数を計算したもの。表の見方は縦と横、それぞれが交わる数値がお互いの相関度合いを表している。ちなみに計算に用いたソフトはRです。
X10分割第一 X10分割第五 X10分割第三 X10分割第四 X10分割第二
X10分割第一 1.0000000 0.1897637 0.4561763 0.2906758 0.6275653
X10分割第五 0.1897637 1.0000000 0.4227798 0.5926932 0.3057410
X10分割第三 0.4561763 0.4227798 1.0000000 0.7043353 0.6724843
X10分割第四 0.2906758 0.5926932 0.7043353 1.0000000 0.4860062
X10分割第二 0.6275653 0.3057410 0.6724843 0.4860062 1.0000000
第四と第三が一番高い数値となっている。だからどちらかを基に予測するとき、かなり高い確率で予測できるはず。
こちらはWEKAによる10分割と5分割を一緒に分析した結果です。
Best rules found:
1. 10分割第五=j 253 ==> 5分割第五=E 253 conf:(1)
2. 10分割第一=a 180 ==> 5分割第一=A 180 conf:(1)
3. 10分割第五=j 5分割第一=A 155 ==> 5分割第五=E 155 conf:(1)
4. 5分割第四=E 153 ==> 5分割第五=E 153 conf:(1)
5. 10分割第五=j 5分割第四=E 137 ==> 5分割第五=E 137 conf:(1)
6. 10分割第一=b 131 ==> 5分割第一=A 131 conf:(1)
7. 10分割第一=a 5分割第五=E 128 ==> 5分割第一=A 128 conf:(1)
8. 10分割第四=i 108 ==> 5分割第四=E 108 conf:(1)
9. 10分割第四=i 108 ==> 5分割第五=E 108 conf:(1)
10. 10分割第四=i 5分割第五=E 108 ==> 5分割第四=E 108 conf:(1)
こちらの方はやや使い物になるかも?予測の流れとしては、まず5分割で大枠を決めた後、10分割で緩やかに絞り込んで後、具体的な数字を出すという感じかな。考え方の基本は最大公約数的?で、もっとも頻繁に有りそうなパターンを見つけ出すというもの。予測というより経験値から有りそうだど予想する方法だ。局所的に限って言えば、次回来るかどうかは全くの未知数ではあるけれど、継続して初めて値打ちのあるやり方だと思う。
さて上のデータの話に戻るが、データでは左から右に結果が記されている。当然?かどうかは解らないが、細かい条件から粗い条件へと流れている。(たぶん正しい考え方ではないだろうけど)今後を予測する場合、逆に読んでも差し支えは無いように思える。なぜなら上の分類は実測値をただ分類しただけだからだ。類例の多いものは以後の抽選でも繰り返し再現されるであろうことは容易に推測できる。つづく。
分析とは関係ないことを述べましたが主催者の意図?(あくまで憶測)とは別に結果をみると明らかに傾向はあると思うんですけど。以下にWEKAでの傾向分析を記します。
Scheme: weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -c -1
Relation: mini-5bunkatu
Instances: 473
Attributes: 5
5分割第一
5分割第二
5分割第三
5分割第四
5分割第五
上から解説します。まず一番上が分析に用いたスキームです。Relationはデータの名前(笑)
Instancesはデータの行のこと。Attributesは属性です。
Best rules found:
1. 5分割第四=E 153 ==> 5分割第五=E 153 conf:(1)
2. 5分割第二=A 103 ==> 5分割第一=A 103 conf:(1)
3. 5分割第一=A 5分割第四=E 86 ==> 5分割第五=E 86 conf:(1)
4. 5分割第三=D 5分割第四=E 84 ==> 5分割第五=E 84 conf:(1)
5. 5分割第二=A 5分割第五=E 65 ==> 5分割第一=A 65 conf:(1)
6. 5分割第二=B 5分割第四=E 56 ==> 5分割第五=E 56 conf:(1)
7. 5分割第二=C 5分割第四=E 54 ==> 5分割第五=E 54 conf:(1)
8. 5分割第一=B 5分割第四=E 51 ==> 5分割第五=E 51 conf:(1)
9. 5分割第二=A 5分割第三=B 47 ==> 5分割第一=A 47 conf:(1)
10. 5分割第三=B 5分割第五=E 56 ==> 5分割第一=A 54 conf:(0.96)
途中でずらずらと計算過程?らしきものが出てきますが重要なのは最後の部分です。スキームによってはほんとに長ったらしいのが出てきます。
このスキームの場合、各属性の関係を上から重要なものから、つまり分類例が多いと言う意味において上から順に示してくれます。
Best rules found 文字通りベストなルールが見つかったというわけです。(笑)
日本語マニュアルを見てこの記事を書いているわけではないので、どこかに間違いや勘違いがあることを承知で見て頂きたい。
一応解説を。一例だけしておきます。
1. 5分割第四=E 153 ==> 5分割第五=E 153 conf:(1)
これはもっとも例の多いケースで、5分割第四=E 153 というのは5分割で見た場合、第四数字が E ブロックだった場合、第五数字も E だったのが全体で153例あるということを示している。当たり前だね。(笑)たぶんこんな風に見ていくんだろうけど、大きな組み合わせを考えるときには使えるかも。それに上で使用したデータは全体を通してのものなので、短期的トレンド?は反映していない。ごく当然のルールしか出てこないな。(笑)
下の数値は10分割ゾーンを数値にして相関係数を計算したもの。表の見方は縦と横、それぞれが交わる数値がお互いの相関度合いを表している。ちなみに計算に用いたソフトはRです。
X10分割第一 X10分割第五 X10分割第三 X10分割第四 X10分割第二
X10分割第一 1.0000000 0.1897637 0.4561763 0.2906758 0.6275653
X10分割第五 0.1897637 1.0000000 0.4227798 0.5926932 0.3057410
X10分割第三 0.4561763 0.4227798 1.0000000 0.7043353 0.6724843
X10分割第四 0.2906758 0.5926932 0.7043353 1.0000000 0.4860062
X10分割第二 0.6275653 0.3057410 0.6724843 0.4860062 1.0000000
第四と第三が一番高い数値となっている。だからどちらかを基に予測するとき、かなり高い確率で予測できるはず。
こちらはWEKAによる10分割と5分割を一緒に分析した結果です。
Best rules found:
1. 10分割第五=j 253 ==> 5分割第五=E 253 conf:(1)
2. 10分割第一=a 180 ==> 5分割第一=A 180 conf:(1)
3. 10分割第五=j 5分割第一=A 155 ==> 5分割第五=E 155 conf:(1)
4. 5分割第四=E 153 ==> 5分割第五=E 153 conf:(1)
5. 10分割第五=j 5分割第四=E 137 ==> 5分割第五=E 137 conf:(1)
6. 10分割第一=b 131 ==> 5分割第一=A 131 conf:(1)
7. 10分割第一=a 5分割第五=E 128 ==> 5分割第一=A 128 conf:(1)
8. 10分割第四=i 108 ==> 5分割第四=E 108 conf:(1)
9. 10分割第四=i 108 ==> 5分割第五=E 108 conf:(1)
10. 10分割第四=i 5分割第五=E 108 ==> 5分割第四=E 108 conf:(1)
こちらの方はやや使い物になるかも?予測の流れとしては、まず5分割で大枠を決めた後、10分割で緩やかに絞り込んで後、具体的な数字を出すという感じかな。考え方の基本は最大公約数的?で、もっとも頻繁に有りそうなパターンを見つけ出すというもの。予測というより経験値から有りそうだど予想する方法だ。局所的に限って言えば、次回来るかどうかは全くの未知数ではあるけれど、継続して初めて値打ちのあるやり方だと思う。
さて上のデータの話に戻るが、データでは左から右に結果が記されている。当然?かどうかは解らないが、細かい条件から粗い条件へと流れている。(たぶん正しい考え方ではないだろうけど)今後を予測する場合、逆に読んでも差し支えは無いように思える。なぜなら上の分類は実測値をただ分類しただけだからだ。類例の多いものは以後の抽選でも繰り返し再現されるであろうことは容易に推測できる。つづく。
2008年9月4日木曜日
予測とデータに関する覚え書きと第412回ロト6予測
現状を省みると、どうもデータ作成に問題がある。WEKAは非常に優秀であるにもかかわらず結果がともなわないということは使用者に責任がある。(笑)そこで改めてWEKAの資料にあたるとともにロト予測における最適なデータとはどういう形か?ということについて記録しようと思う。
まず単純に「~の条件のとき」
↓
「~は、こういう結果だった」
というような形でどうだろうか?条件は複数でよい。過去の履歴から要素を選ぶ、あるいは創作?する方向で目的変数に寄与する因子と呼べるものを見出さないと先へ進めないような気がする。その際ストレートに履歴を使うのではなく、何かのルールに従って作り出した変数を用意しなければならない。
分析の方向は時系列ではなく分類になると思う。横軸での重回帰分析か?結果の出力としては単純に yes or no という形がベストかなと。
例えば第一に a が出るかどうか?など。WEKAのexampleなどを見ると、「ある条件において~はどう振舞うか?」といったような予測の仕方が王道のようではある。では具体的にどんなデータをつくればいいのだろう?
1、過去のある時点において各数字 1~43 がどういう状態であったか?
2、あるいはゾーンはどうであったか?
3、???
要するに予測しようとしている時の状況を恣意的にファクターすること。予測するとき、ほとんどの人が無意識か、あるいは意識的に行っていることを何らかの数値に変換して横軸に並べていく作業。
ところでロト6 第412回から以降の予測にあたり、データの整理をしてみたい。過去から導き出される大前提というべきものを自分なりに探したいと思う。
まず11分割による組み合わせの状況から絞り込んでみようと想う。圧倒的多数の人が同じ事を試みているはずであるが、けっして無駄ではないはず。もっとも多いパターンは今後も突出して出続けるだろうという推測は間違っていないと思う。
411回終了時点で第一枠は aが183、 bは114、 合わせて297回の出現。72%ほどは1~8の数字が第一数字として出現している。
これを基本としてさらに第六枠をjまたはkとし、残り、なか四枠を予測することを元型としてみる。ヒストグラムというのだろうけど、統計でグラフを見てみるともっとも片寄った出方をするのは第一枠と第六枠だ。これは数学的?にそうなるべきであって、でたらめな事ではない。言い方を変えれば安定しているポジションといえるだろう。
だからといって必ず揃って出現するわけではない。ここが非常にいやらしいところだ。だからできるだけ予測の的中可能性を高めるために範囲を広げるしかない。
今後第一枠は a または b として、第六枠は j または k として固定してみようと思う。
さてWEKAの話しに戻るが、今回は R にて上で述べた固定ゾーンを過去履歴からすべて抽出し、そのうえで改めてWEKAにて中四枠のみ予測する方法をとった。
使用スキームはrandomforest.選んだ理由は正解率が抜群に良いからだ。ただし過去データにぴったりくるというだけで、未来に関しては保障されない。(笑)
結果はbdhiで以下に数値として羅列しておく。
(1 2 3 4) (5 6 7 8) (13 14 15 16) (29 30 31 32) (33 34 35 36) (37 38 39 40) (41 42 43)
2 8 11 22 38 41←過去二回のマルチ
以下は固定の組み合わせだ。たった二つのゾーンであるが、56通りにもなる。
(1 2 3 4)×(37 38 39 40)
(1 2 3 4)×(41 42 43)
(5 6 7 8)×(37 38 39 40)
(5 6 7 8)×(41 42 43)
また追記で。
まず単純に「~の条件のとき」
↓
「~は、こういう結果だった」
というような形でどうだろうか?条件は複数でよい。過去の履歴から要素を選ぶ、あるいは創作?する方向で目的変数に寄与する因子と呼べるものを見出さないと先へ進めないような気がする。その際ストレートに履歴を使うのではなく、何かのルールに従って作り出した変数を用意しなければならない。
分析の方向は時系列ではなく分類になると思う。横軸での重回帰分析か?結果の出力としては単純に yes or no という形がベストかなと。
例えば第一に a が出るかどうか?など。WEKAのexampleなどを見ると、「ある条件において~はどう振舞うか?」といったような予測の仕方が王道のようではある。では具体的にどんなデータをつくればいいのだろう?
1、過去のある時点において各数字 1~43 がどういう状態であったか?
2、あるいはゾーンはどうであったか?
3、???
要するに予測しようとしている時の状況を恣意的にファクターすること。予測するとき、ほとんどの人が無意識か、あるいは意識的に行っていることを何らかの数値に変換して横軸に並べていく作業。
ところでロト6 第412回から以降の予測にあたり、データの整理をしてみたい。過去から導き出される大前提というべきものを自分なりに探したいと思う。
まず11分割による組み合わせの状況から絞り込んでみようと想う。圧倒的多数の人が同じ事を試みているはずであるが、けっして無駄ではないはず。もっとも多いパターンは今後も突出して出続けるだろうという推測は間違っていないと思う。
411回終了時点で第一枠は aが183、 bは114、 合わせて297回の出現。72%ほどは1~8の数字が第一数字として出現している。
これを基本としてさらに第六枠をjまたはkとし、残り、なか四枠を予測することを元型としてみる。ヒストグラムというのだろうけど、統計でグラフを見てみるともっとも片寄った出方をするのは第一枠と第六枠だ。これは数学的?にそうなるべきであって、でたらめな事ではない。言い方を変えれば安定しているポジションといえるだろう。
だからといって必ず揃って出現するわけではない。ここが非常にいやらしいところだ。だからできるだけ予測の的中可能性を高めるために範囲を広げるしかない。
今後第一枠は a または b として、第六枠は j または k として固定してみようと思う。
さてWEKAの話しに戻るが、今回は R にて上で述べた固定ゾーンを過去履歴からすべて抽出し、そのうえで改めてWEKAにて中四枠のみ予測する方法をとった。
使用スキームはrandomforest.選んだ理由は正解率が抜群に良いからだ。ただし過去データにぴったりくるというだけで、未来に関しては保障されない。(笑)
結果はbdhiで以下に数値として羅列しておく。
(1 2 3 4) (5 6 7 8) (13 14 15 16) (29 30 31 32) (33 34 35 36) (37 38 39 40) (41 42 43)
2 8 11 22 38 41←過去二回のマルチ
以下は固定の組み合わせだ。たった二つのゾーンであるが、56通りにもなる。
(1 2 3 4)×(37 38 39 40)
(1 2 3 4)×(41 42 43)
(5 6 7 8)×(37 38 39 40)
(5 6 7 8)×(41 42 43)
また追記で。
2008年9月3日水曜日
第410回ロト6予測
まず6分割でのゾーン予測から。
方法としてWEKAでrandam forestというスキームを使用。データは第一回から409回まですべて使用。
「直前の当選データが次回に対して影響を与えている」という考え方で予測対象とする属性?(つまり何を予測するのか)を順次入れ替えて予測してみた。
AACDEE
A(1,2,3,4,5,6,7) B(8,9,10,11,12,13,14) C(15,16,17,18,19,20,21) D(22,23,24,25,26,27,28)
E(29,30,31,32,33,34,35) F(36,37,38,39,40,41,42,43)
予測されたデータの見方というか指標はスキームによっていろいろあるが、今回上記を採用したのは、「正しく分類されたinstanseの数」?という指数が非常に良好だったから。理解不足?かも知れないが。
同じように11分割でも予測してみよう。
1 3 6 7 9 10
1(1,2,3,4) 2(5,6,7,8) 3(9,10,11,12) 4(13,14,15,16) 5(17,18,19,20) 6(21,22,23,24)
7(25,26,27,28) 8(29,30,31,32) 9(33,34,35,36) 10(37,38,39,40) 11(41,42,43)
まあ、とりあえず最初の試みでもあるので様子見といったところか。
当然というべきかどうか解らないが、両方の属性に一致する数字は第一、第三、第五か?
次にJ-48というスキームで6分割ゾーン予測を行った結果を示す。使用データは上と同じ。
ACCEFF
正解率は大体65%~75%となった。この数値の示す意味は作成された予測モデルで与えられたデータを分析した場合、正しく分類(予測)されたケースが全体の何パーセントにあたるか?を表している。
だから上に示したゾーンの組み合わせは大体65%~75%の確率で正解するだろうと言えるはず。
同じように11分割を予測した結果が以下である。
1 3 5 7 9 11
両方あわせて考えてみると・・・
第一Aかつ1= 1 2 3
第二Cかつ3= 該当なし(強いて挙げると 9 10 11 12 15 16)
第三Cかつ5= 17 18 19 20
第四Eかつ7= 該当なし(これも強いて挙げるならば 25 26 27 28 29 30 31 32 33 34 35)
第五Fかつ9= 36
第六Fかつ11=41 42 43
となった。これだけ挙げても当選数字を全部拾うことがはたして出来ているのか?疑問だ。
最後に過去2回の履歴をマルチで予測した数値を挙げておく。
9 16 20 27 29 34
最終的にこれらの数字から選ぶわけだが一応、軸数字として 16 20 27 を挙げる。
第一は 1 2 3 のどれか。
第五は 36
第六は 41 42 43 のどれかとする。
予測の追記です。
使用データ 第1回から第409回までのすべての履歴。
11分割データの数値を数字からa~kまでの記号に変換した。予測方法は追記前とは変えて、単純に現在までの流れから次回を予測する方法とした。使用スキームとゾーンの組み合わせは以下のとおり。両スキームでの重複ゾーンは c e g と j の4箇所。
SMO = b c e g h j
AttributeSelectedClassifier = a c e g i j
2(5,6,7,8)3(9,10,11,12)5(17,18,19,20)7(25,26,27,28) 8(29,30,31,32)10(37,38,39,40)
1(1,2,3,4)3(9,10,11,12)5(17,18,19,20)7(25,26,27,28) 9(33,34,35,36)10(37,38,39,40)
参考にLinearRegressionでの予測も示しておく。
6.572 12.868 18.748 25.046 31.543 37.523
追記の前の予測とはまったく違う結果となってしまって、もはやどれを信じていいの?といった状況。
ちなみにweka でのLinearRegressionは赤池AICを評価基準にしてattributeを絞り込んでいるので、単純な重回帰よりも優れているらしい。赤池AICというのは聞いたことがあるけど、どういうものかは理解不能(笑)。ただ目的変数に寄与するものに重きを置いて計算するのは確かなようである。(変数の個数が異なるモデル間でのモデルの良し悪しを比較するために用いる規準)
今回はゾーンとLinearRegressionで得た数値を見比べて数字を組合わせてみることにする。
7 12 19 25 32 38 これでどうだろうか?何のことは無いほとんどそのまま!(笑)ただしゾーンはSMOで予測したものです。
追記その2
第二を 13 にしようか迷っている。まあ初回なので様子見で、ズバリとは言えないまでも各枠+-1ぐらいまで接近できれば成功としたい。またこれも初めての試行だけどLinearRegressionでのzone11予測も記しておく。(数字で表しているのはスキームによって属性が制限されているためである。numeric と norminal だっけ?)
結果 2 4 5 7 8 10 端数は四捨五入とした数値だ。このスキームでのsummaryを見てみると予測精度が各枠で違うのが確認できる。第一から順に 0.619 0.8086 0.8443 0.8146 0.7776 0.6337
となっている。この結果はいつもの方法で予測していた結果と不思議と符合している気がする。過去2~3回ぐらいの履歴を用い、マルチもしくはSVMあたりで一括して予測した第二、第三、第四あたりが特に精度が高いなと感じていたからである。(まったくの我流ではあるけれど)そういうわけで全然まとまらない(笑)わけだが。使えるかどうかは今後しばらく様子を見るしかない。
追記その3 結果を見る。
2 12 16 20 42 43 ボーナスは 28
A B C C F F
a c d e k k
やっぱり過去2回データを用いたマルチ予測は精度が高い。ピンポイント予測でずばり2個正解していた。(20、16)いつもは確度の高い第二が、なぜか予測できなかったが。
今回特に目立ったこと、それは J-48 を用いたゾーン予測からの一連の予測の結果が非常に良好だったことである。今後の予測の方向性を示してくれたとも言える。
偶然かも?という疑念もあるが、全部で28個挙げた中からボーナス数字も含め(ボーナス数字は真性の偶然です。)本数字がすべて出現した。「28個も挙げれば全部入るだろ?」と思う人はたった6個の削除でも失敗することがあることを忘れないでいただきたい。とにかくM氏にとっては画期的!な事なのだ。
ただ残念なのは J-48を使った一連の予測でゾーンと各枠、そしてマルチレイヤーでの各数値がシンクロしていない!ということだ。具体的に言うと、せっかく挙げた「正解じゃないか?」という数字をゾーンやら枠に気を取られ、捨ててしまったということだ。これは非常にもったいない。予算もあるし、購入を検討するときの自信の如何にもよるのだけど。
今回のまとめ
過去2回データでのMultilayerPerceptron ◎ ただし第二~第四まで
J-48でのゾーン予測 ○ ただし 分割の合わせ技(分割は恣意的に決めればいいんじゃないか?)
最後に分析結果を総合して自身で決める。
方法としてWEKAでrandam forestというスキームを使用。データは第一回から409回まですべて使用。
「直前の当選データが次回に対して影響を与えている」という考え方で予測対象とする属性?(つまり何を予測するのか)を順次入れ替えて予測してみた。
AACDEE
A(1,2,3,4,5,6,7) B(8,9,10,11,12,13,14) C(15,16,17,18,19,20,21) D(22,23,24,25,26,27,28)
E(29,30,31,32,33,34,35) F(36,37,38,39,40,41,42,43)
予測されたデータの見方というか指標はスキームによっていろいろあるが、今回上記を採用したのは、「正しく分類されたinstanseの数」?という指数が非常に良好だったから。理解不足?かも知れないが。
同じように11分割でも予測してみよう。
1 3 6 7 9 10
1(1,2,3,4) 2(5,6,7,8) 3(9,10,11,12) 4(13,14,15,16) 5(17,18,19,20) 6(21,22,23,24)
7(25,26,27,28) 8(29,30,31,32) 9(33,34,35,36) 10(37,38,39,40) 11(41,42,43)
まあ、とりあえず最初の試みでもあるので様子見といったところか。
当然というべきかどうか解らないが、両方の属性に一致する数字は第一、第三、第五か?
次にJ-48というスキームで6分割ゾーン予測を行った結果を示す。使用データは上と同じ。
ACCEFF
正解率は大体65%~75%となった。この数値の示す意味は作成された予測モデルで与えられたデータを分析した場合、正しく分類(予測)されたケースが全体の何パーセントにあたるか?を表している。
だから上に示したゾーンの組み合わせは大体65%~75%の確率で正解するだろうと言えるはず。
同じように11分割を予測した結果が以下である。
1 3 5 7 9 11
両方あわせて考えてみると・・・
第一Aかつ1= 1 2 3
第二Cかつ3= 該当なし(強いて挙げると 9 10 11 12 15 16)
第三Cかつ5= 17 18 19 20
第四Eかつ7= 該当なし(これも強いて挙げるならば 25 26 27 28 29 30 31 32 33 34 35)
第五Fかつ9= 36
第六Fかつ11=41 42 43
となった。これだけ挙げても当選数字を全部拾うことがはたして出来ているのか?疑問だ。
最後に過去2回の履歴をマルチで予測した数値を挙げておく。
9 16 20 27 29 34
最終的にこれらの数字から選ぶわけだが一応、軸数字として 16 20 27 を挙げる。
第一は 1 2 3 のどれか。
第五は 36
第六は 41 42 43 のどれかとする。
予測の追記です。
使用データ 第1回から第409回までのすべての履歴。
11分割データの数値を数字からa~kまでの記号に変換した。予測方法は追記前とは変えて、単純に現在までの流れから次回を予測する方法とした。使用スキームとゾーンの組み合わせは以下のとおり。両スキームでの重複ゾーンは c e g と j の4箇所。
SMO = b c e g h j
AttributeSelectedClassifier = a c e g i j
2(5,6,7,8)3(9,10,11,12)5(17,18,19,20)7(25,26,27,28) 8(29,30,31,32)10(37,38,39,40)
1(1,2,3,4)3(9,10,11,12)5(17,18,19,20)7(25,26,27,28) 9(33,34,35,36)10(37,38,39,40)
参考にLinearRegressionでの予測も示しておく。
6.572 12.868 18.748 25.046 31.543 37.523
追記の前の予測とはまったく違う結果となってしまって、もはやどれを信じていいの?といった状況。
ちなみにweka でのLinearRegressionは赤池AICを評価基準にしてattributeを絞り込んでいるので、単純な重回帰よりも優れているらしい。赤池AICというのは聞いたことがあるけど、どういうものかは理解不能(笑)。ただ目的変数に寄与するものに重きを置いて計算するのは確かなようである。(変数の個数が異なるモデル間でのモデルの良し悪しを比較するために用いる規準)
今回はゾーンとLinearRegressionで得た数値を見比べて数字を組合わせてみることにする。
7 12 19 25 32 38 これでどうだろうか?何のことは無いほとんどそのまま!(笑)ただしゾーンはSMOで予測したものです。
追記その2
第二を 13 にしようか迷っている。まあ初回なので様子見で、ズバリとは言えないまでも各枠+-1ぐらいまで接近できれば成功としたい。またこれも初めての試行だけどLinearRegressionでのzone11予測も記しておく。(数字で表しているのはスキームによって属性が制限されているためである。numeric と norminal だっけ?)
結果 2 4 5 7 8 10 端数は四捨五入とした数値だ。このスキームでのsummaryを見てみると予測精度が各枠で違うのが確認できる。第一から順に 0.619 0.8086 0.8443 0.8146 0.7776 0.6337
となっている。この結果はいつもの方法で予測していた結果と不思議と符合している気がする。過去2~3回ぐらいの履歴を用い、マルチもしくはSVMあたりで一括して予測した第二、第三、第四あたりが特に精度が高いなと感じていたからである。(まったくの我流ではあるけれど)そういうわけで全然まとまらない(笑)わけだが。使えるかどうかは今後しばらく様子を見るしかない。
追記その3 結果を見る。
2 12 16 20 42 43 ボーナスは 28
A B C C F F
a c d e k k
やっぱり過去2回データを用いたマルチ予測は精度が高い。ピンポイント予測でずばり2個正解していた。(20、16)いつもは確度の高い第二が、なぜか予測できなかったが。
今回特に目立ったこと、それは J-48 を用いたゾーン予測からの一連の予測の結果が非常に良好だったことである。今後の予測の方向性を示してくれたとも言える。
偶然かも?という疑念もあるが、全部で28個挙げた中からボーナス数字も含め(ボーナス数字は真性の偶然です。)本数字がすべて出現した。「28個も挙げれば全部入るだろ?」と思う人はたった6個の削除でも失敗することがあることを忘れないでいただきたい。とにかくM氏にとっては画期的!な事なのだ。
ただ残念なのは J-48を使った一連の予測でゾーンと各枠、そしてマルチレイヤーでの各数値がシンクロしていない!ということだ。具体的に言うと、せっかく挙げた「正解じゃないか?」という数字をゾーンやら枠に気を取られ、捨ててしまったということだ。これは非常にもったいない。予算もあるし、購入を検討するときの自信の如何にもよるのだけど。
今回のまとめ
過去2回データでのMultilayerPerceptron ◎ ただし第二~第四まで
J-48でのゾーン予測 ○ ただし 分割の合わせ技(分割は恣意的に決めればいいんじゃないか?)
最後に分析結果を総合して自身で決める。
2008年9月2日火曜日
第473回ミニロト予測
10分割ゾーンの予測は・・・
2 5 6 8 10
したがって第一から3個づつ書き出してみると・・・
4 5 6 13 14 15 16 17 18 22 23 24 28 29 30 31
方法は過去3回のゾーンデータをnumericとしてARFF形式ファイルにて作成。
スキームはマルチレイヤーで予測してみた。
一方でいつものように過去2回のデータでSVMにて予測した数値は・・・
9 16 19 22 26
今回は勘で買ってみるとしよう。
6 16 18 24 29
以上。以下は結果です。
第473回 04,05,18,20,26,(03)
ゾーンは第一、第三のみ正解ですか・・・トホホな結果となりましたね。
SVM予測の方は第六のみ正解、第三数字も良い感触です。新たな良い分析法もよく解らず、試行錯誤している現状、なんとかブチ破るべく努力すべしだな。
しかしゾーンを外すとまったくの激ハズレとなりますね。ピンポイント予測で外すのとは感覚がまるで違う。惜しいというような感覚がまるで無い。(笑)ゾーンに関しては分析の余地がたくさんありそうな気がする。今までほとんど手付かず状態だった。
ところでWEKAのスキームにはたくさん種類がある。なかでも使えそうなのは分類のジャンル。ピンポイント予測では主に回帰分析が中心でした。regressionというヤツです。それとは別にtreeというのがあります。
これは決定木と言われ、因子のつながりをグラフィックで表してくれるものです。
理解に間違いがあるかもしれませんが、組み合わせを考える時に使えそうな予感がします。
あくまで確率的というか統計的に、ということですけど。したがってピンポイントでずばり数字を出してくれるというわけではない。例えて言うと横軸です。時系列を縦とすると横なんです。
予算に余裕のある方には有効な考え方でしょうな。
2 5 6 8 10
したがって第一から3個づつ書き出してみると・・・
4 5 6 13 14 15 16 17 18 22 23 24 28 29 30 31
方法は過去3回のゾーンデータをnumericとしてARFF形式ファイルにて作成。
スキームはマルチレイヤーで予測してみた。
一方でいつものように過去2回のデータでSVMにて予測した数値は・・・
9 16 19 22 26
今回は勘で買ってみるとしよう。
6 16 18 24 29
以上。以下は結果です。
第473回 04,05,18,20,26,(03)
ゾーンは第一、第三のみ正解ですか・・・トホホな結果となりましたね。
SVM予測の方は第六のみ正解、第三数字も良い感触です。新たな良い分析法もよく解らず、試行錯誤している現状、なんとかブチ破るべく努力すべしだな。
しかしゾーンを外すとまったくの激ハズレとなりますね。ピンポイント予測で外すのとは感覚がまるで違う。惜しいというような感覚がまるで無い。(笑)ゾーンに関しては分析の余地がたくさんありそうな気がする。今までほとんど手付かず状態だった。
ところでWEKAのスキームにはたくさん種類がある。なかでも使えそうなのは分類のジャンル。ピンポイント予測では主に回帰分析が中心でした。regressionというヤツです。それとは別にtreeというのがあります。
これは決定木と言われ、因子のつながりをグラフィックで表してくれるものです。
理解に間違いがあるかもしれませんが、組み合わせを考える時に使えそうな予感がします。
あくまで確率的というか統計的に、ということですけど。したがってピンポイントでずばり数字を出してくれるというわけではない。例えて言うと横軸です。時系列を縦とすると横なんです。
予算に余裕のある方には有効な考え方でしょうな。
登録:
投稿 (Atom)