元生技データサイエンティストのメモ帳

勉強したことの備忘録とか雑記とか

関西Kaggler会 参加レポ

先日参加した関西Kaggler会が楽しかった + 勉強になったので、忘れないうちにまとめておこうと思います。

オープニング

まずはいつもの「始まりの儀式」で開始。
過去の写真と見比べるとすごく参加者が増えましたね!

そしてmgnさんのオープニング。
いい感じに会場を暖めて笑いも引き出すトークは流石です。

「どんどんツートしましょう」ということでこんな仕掛けが。
他のイベントでも使えそうです。

ちなみに関西は「お行儀いい関東と違って笑いも」とのことです。

これは突然イジられるベルーガさん。

どりぃさん発表

まずは会場を提供くださったR3 instituteからどりぃさんが登壇。
素敵な会場を使わせていただき、ありがとうございます。
以下のリンクに会場の詳しい説明や写真があります。

たいちさん発表

ここからKaggleの話、と思いきや自作キーボードの話。

ちなみにこのレポの筆者はHHKBを愛用しています。
HHKBと同じぐらいの出費で自作キーボードの世界に入門できるそうで、かなり興味が湧きました(特に左右分離してるやつ)。

あと「自作キーボードを使うと持ち歩かないといけなくて重いんですが、、」という質問に「なら2つ持てばいい」と食い気味に回答していて、ここでも爆笑がw

ちなみに「持ち運ぶことが気にならなくなるくらい楽しい」とのことです。

ころんびあさん発表

続いてのころんびあさんの発表は「コンペに勝つには」。
こちらはコンペはコンペでもCVPRのお話。

ただ入りが全員で爆笑していただけに、技術の深い話になるとなんか会場が異様に静かに。。
(全員が全員画像のプロじゃないだけに、この辺の塩梅はすごい難しいですね)

結果、結論としては「いい感じに」やるということに。
(以降「いい感じに」「よしなに」が会場で流行り出すw)

ちなみに3D物体検出を「いい感じに」やれるようにはなるには、「とにかく論文読みましょう!」とのこと。
(後どれぐらい論文を読めば「いい感じに」扱えるようになるだろうか)

T88さん発表

こちらは関西Kaggler会に先立って開催されたコミュニティコンペをGPT-4にコードを書かせてみた、というもの。

こちらは「githubのissueにcv改善のアイディアを書けば、GPT-4がコードを書いてくれてcv下がったか確認してくれる」という優れもの。

ちゃんと確認しないと初歩的なミスをしたり、存在しない列名を指定してエラーを出したり、盛大にリークさせたりするものの、最終的にはなんとコミュニティコンペで11位相当スコアだったとのこと。

(このブログの筆者はギリギリでした。ただ私のsubmitは「特定の市の不動産価格を1.3倍する後処理」を入れているので、それを入れない条件で揃えるとGPT-4に負けます)

ronさん発表

お次はパパさんKagglerで社会人博士で出張の多いronさんによる「時間のないKagglerのすすめ」。

「いかに隙間時間でKaggleをするか」がポイントとのこと。

スマホからGPUマシンにアクセスしたり、
子どもを寝かしつけながらスマホでdiscussion読んだり、
スマホでsubmitしたり、

とにかくスマホを大活用してます(キーボードいらないとか言わない)。

関東Kaggler会でも「Redbullは1日1本まで」と言うお話でしたが、こちらでは「RedbullとChilloutを交互に飲む」メソッドが紹介されてました。
(ronさん、お身体は大事にしてください。。)

あと「大自然の中でsubmitするといいスコアが出る」と言うお話でしたが、、

Jackさん発表

お次はJackさんから「Feature Importanceによる特徴量選択とリーク」のお話。

speakerdeck.com

Jackさんは少ないsub数で上位に入ることから「忍者」と呼ばれているそうで。

CV全体でFeature Importanceを平均しちゃうと、バリデーションデータのノイズ情報も入り込んでしまうとのこと。
あとは「全foldで改善しているか」と言う観点も重要だそうで。
その辺りを真面目に見ないことがあるので気をつけたいところです。

くるぴーさん発表

お次は最近Grand Masterに昇格されたくるぴーさんのLLMコンペの話。

実験を高速に回すコツを色々伺えました。

また「❌GPUを止めるな ⭕️思考を止めるな」「信じたアイディアと心中する」など、私含め多くのKagglerに刺ささる名言をいただきました。
(疲れてくると適当にハイパラだけ変えてGPU動かしたりしがち。。)

nejumiさん発表

お次はこの関西Kaggler会に先立って行われたコミュニティコンペを設計くださったnejumiさんから、まさしくコミュニティコンペの話。

speakerdeck.com

ここ数年で、商用利用がOKになったり、Visibilityが制御できるようになったり、Custom Metricが使えるようになったりと、何かと機能が増えて便利になっているようです。
「コンペ設計のポイント」という「開く側」でないとノウハウを積めない貴重なお話も伺えました。
「コンペを開く側」お話はなかなか伺えないので、非常に興味深かったです。

職場の有志とかでコミュニティコンペを開くのも面白そう、と思えるお話でした。

あとチーターは丸わかりらしいですよ!

johannyjm1さん発表

お次はjohannyjm1さんの「Polarsと遅延評価」

筆者は「遅延評価」をちゃんと分かってなかったのですが、"式の評価を「必要になるまで」行わない、サボる仕組みのこと" とのことです。
気になる方は↑の資料が非常にわかりやすいのでそちらをご覧ください。

polarsを使う時は、"df.lazy()" で遅延評価を使いましょう!

あまえびんさんLT

お次はあまえびんさんの「オレオレ開発Kaggle環境」。

speakerdeck.com

筆者はKaggle用のAWS環境を立てる際、これまではAWS推奨のTraning job用のDoeck imageを使ってましたが、ライブラリのバージョンやディレクトリの構成も考えるとKaggleに合わせたイメージを使う方が良さそうです。
今度からそれで開発してみようと思います。

すでに「オレオレ開発Kaggle環境」のユーザーもいらっしゃるようです。

ベルーガさんLT

お次はベルーガさんのLT。
ここはその場限りの話が多かったため、割愛させていただきます。

paoさんLT

最後はpaoさんのLT。
ABEJAさんの紹介や、Kaggleと実務に関して「Kagglerのどんなところが実務の中で役立っているのか」「Kagglerの安心感」などの話でした。

懇親会

夜の懇親会では新しくGMに上られたchunmajinさんとくるぴーさんに運営からお祝いにTシャツのプレゼントがあったり、

抽選会があったり、

コンペの賞の贈呈があったり

とイベントが盛り沢山な上に、普段そうそう会えない方々とお話しすることができ、大盛り上がりの楽しい & 勉強に場でした。

以上、関西Kaggler会 参加レポでした!
少しでも雰囲気をお届けできていたら幸いです。

最後に、このような非常に勉強になりかつ楽しい場を設けていただいた運営の方々、末筆ながら感謝申し上げます。
会場でお話しいただいた方々も、本当にありがとうございました!