国内マーケットデータを準備する
Pages: 1 2 3 4 5 6 7

検討した結果、一括して複数のデータの加工・処理を行う方法として、今回は自作したプログラムを利用することにした。

私のようなプログラム初心者がどのように自作したのかについては説明を省略するが、これによりかなり作業時間が短縮できた。
そしてデータはコードごとのCSVファイルとして保存することにした。

データは前にも書いたように2000年以降のものは

株価データ倉庫

に掲載されている。

株についてはテキスト1ファイルにつき上場株の日足データが書いてある。
1行目はYYYYMMDDの形で年月日が書かれ
2行目以降は

コード 会社名 始値 高値 安値 終値 出来高

がTABで区切られて書かれている。

これを

日付 , コード , 始値 , 高値 , 安値 , 終値 , 出来高,

という形式に変換し、すべてのファイルを1つにまとめるか、またはコードごとにファイルを分けるところまで行う。

また2000年以前のデータについてはベクターのサイトに
「パンローリング 相場データCD-ROM 国内相場版」
というデータがあり、これを利用する。

このページに

”東証1・2部銘柄の1975年~、大証1・2部銘柄1987年8月~2003年9月の日足データ
(四本値・出来高、東証銘柄には権利落ち乗数を含む)・・・・を、タブ区切りテキストファイルで収録しました。 ”

と書いてあるように、ダウンロードしたデータはコードごとにテキストファイルとして保存されている。

各ファイルの中身は
日付 始値 高値 安値 終値 出来高
が書いてあり日付はYYMMDDの形である。

ファイル名はコード+市場の頭文字となっている。
東証であればコードT、大証であればコードOということだ。
これについてデータ倉庫のデータに関しては東証と大証の両方あるわけではなく”代表的な方”1つが入っている。

このデータも
日付 , コード , 始値 , 高値 , 安値 , 終値 , 出来高,
という形式に変換する必要がある。

2000年以前の年月から現在までのデータがほしい場合には、上記した2つのデータ(データ倉庫とパンローリングCD)を結合することにする。

本来ならばこの2つのデータの整合性がとれることを確認したうえで合わせるのだが、現時点ではデータマイニングの練習ということで考えないことにした。

以上をまとめると、行う作業は次のようになる。

Pages: 1 2 3 4 5 6 7
この記事のテーマ アイデア タグ: