livedoorグルメのデータで機械学習してみる④

Mahoutに読み込ませるデータのユーザーIDをlong型にしなければならない。
Hiveの関数を見てみたが文字列を数値に変換できそうなものがなかったので別の手段を使うことに。
簡単なプログラム書くだけなので何でもいいのだけれど、せっかくなので勉強してみようと思っていたPythonを使ってみる。

開発環境でコマンドを叩いてみると幸いデフォルトでインストール済みのよう。CentOS6のデフォルトで2.6.6とちょっと古めだが、大したことをするわけではないので特に問題はないだろうと思ってバージョンアップはしないまま使う。

さて、必要なプログラムの要件はとりあえず以下のような感じ。
・コマンドライン引数で入力ファイルと出力ファイルのパスを受け取る
・入力ファイルを1行ずつ読み込み、必要な項目を抜き出してレイアウトを整え、出力ファイルに出力する
・ユーザーID(データを見た感じ16進表記の数値っぽい)はJavaのlong型に変換可能な数値にして出力

Python初体験で構文も全く知らないド素人なので一歩ずつ進める。
参考にしたのは↓こちら。(微妙にバージョン違うけど…)

Python 2.7ja1 documentation
Python-ism

続きは別記事にて。

コメント

コメントする