猫になりたい

IT企業のデータ分析屋。pyてょnは3.6を使ってマスコレルウィンストングリーン。

バイアス バリアンストレードオフ(Bias-Variance Tradeoff)とは

概要 機械学習でバイアス−バリアンストレードオフ(Bias-Variance Tradeoff(Decomposition))の話をよく目にするので自分なりに整理をしました。 参考文献 参考文献は以下の通りです。 Bias–variance tradeoff - Wikipedia 計量経済学 計量経済学 ミクロデー…

Google datalabを使ってみる

最近Google datalabが流行っているらしいので、試しに環境を立ててデータをpandasに読み込んでみるところまでやってみました。 以下はその手順のメモです。 1. Datalabを使えるようにする まずは以下のクイックスタートを参考にDatalabのインスタンスを作成…

Dockerでデータ分析環境を整えた

2017/07/29 bzip2, vim, emacsが漏れていたのを追記 Docker内のUbuntu 16.04 LTSに分析環境を整えた時のメモ 最低限の環境だけ入れる docker run ubuntu しただけの環境で以下を実行する。 # 必要なパッケージとjulia, Rをインストール # iRkernelはひとまず…

Ubuntu 16.04 LTSにRをインストールする

UbuntuにRの最新版を入れるのにつまづいたのでまとめた。 やったこと Docker内のUbuntu 16.04 LTSにRをインストール 普通のUbuntuでも同じはず 概要 UbuntuにRを入れる時に apt-get install r-base とすると以下の様に古いバージョンがインストールされてし…

pythonで関数の実行時間を計測する

pyhtonで関数の実行時間を計測したい時今までは qiita.com に書いてある方法で実行したい部分を挟んであげていたんですが 毎回3行挿入するのは面倒だし読みにくいので任意の関数の実行時間を計測するモジュールを作成しました。 誰かが似たようなことやって…

Jupyterのmatplotlib inlineのメモリリークバグ

先日jupyterでmatplotlibに画像を吐き出させ続けていたところ1000枚ぐらい吐き出したあたりで突然jupyterのkernelが落ちました。嫌な予感がしてメモリの使用量を追ってみると処理を繰り返すに連れメモリの使用量が増加していき画像1000枚処理したあたりでメ…

How to read csv and excel file on pandas dataframe from website

Motivation Trying to use the Japanese Goverment statistics through an api I found it is useless due to the format and datasets which are provided. Instead I decided to read a csv and xls file directly from a website and load them on a pnad…