( 147740 )  2024/03/10 18:43:45  
00

ディープラーニング入門

インターネット上の情報についての重要な話


話題の分野なのでかなりの情報があるが、情報に触れる前にこれだけは覚えておいてほしい。

1.sklearnのfit関数が出てくるサイトは古いので参考にする順位は下げよう。

 lightgbm の train関数を呼んでいるものを見たほうが良い。

2.次に大きな地雷になるのは、early_stopping_rounds=20 の様な記述があるものは、lightgbm の 古いライブラリの書き方なので読み替えが必要。

 具体的には callbacks に書き換える。

 ここが見やすくて良かった。

 https://zenn.dev/local/articles/e2e6de3959e96d

3.この3種類のデータが出てこないサイトは見ても多分ちゃんと動かないので時間の無駄。

 訓練データ
 検証データ
 テストデータ

 最低限理解しないと進まないのでまずはこここを。

 https://zenn.dev/nekoallergy/articles/ml-basic-data

とにかく一旦コピペして動作させて、感じを掴んでから学んでいくというときに、上記の地雷はかなり時間をロスするので自身のためにもメモを残しておく。



( 164833 )  2024/04/28 22:09:36  
00

かなり激しく恥ずかしい間違いを書いた。

lightgbmはディープラーニングではなく、決定木の勾配ブースティングの機械学習アルゴリズムだ。

タイタニックデータセットのような2値分類の機械学習を使ってみたいという場合は、lightgbm から始めたほうが良いという感想は変わらないが恥ずかしい間違いは訂正させていただく。

( 164834 )  2024/04/28 22:25:27  
00

ついでにもう一点書いておきたい。

機械学習を始める前に環境を整える方法を書いてあるサイトも読まなくていいと思う。

そんなことをするよりも、GCP(Google Cloud Platform)を使えばすぐに試せる。

そして多分複雑なことをするようになったときにもGCPが必要になると思う。

 
 

IMAGE