データ分析の効率が1000倍上がるデータサイエンティストのためのChatGPTの活用術

programing

Python,SQL,初心者,データ分析,ChatGPT

ChatGPTを使ってデータサイエンティストの生産性を爆上げする活用術をまとめました!

データ前処理


「ChatGPTを使用すると、「データを分析可能な形に前処理して」といった大雑把なリクエストに対しても、すんなりと対応し、データ前処理を行ってくれます。」

今のところ、大量のデータを前処理する際にChatGPTを利用する場合は、ChatGPTに実際の前処理を行わせるのではなく、前処理用のサンプルコードを教えてもらう方が良いでしょう。

ただし、近い将来にはCSVやExcelを直接アップロード&ダウンロード可能な「Code Interpreter」というプラグインが追加される予定とのことで、実務利用が大いに現実味を帯びると考えられます。

詳細は以下のページで紹介しています!

https://qiita.com/embed-contents/link-card#qiita-embed-content__4e85e01c913dffc82bc5c0a05e66752e

ダミーデータ作成

条件を考えながら真面目に作ると意外と時間がかかるダミーデータの作成もChatGPTにお任せできます。


「POSデータのダミーデータを作って」の指示だけで、適切なカラムとそれっぽい数値を入れて作ってくれました!

ただ、大量のデータの作成はまだできないので、現段階では以下のように、ダミーデータを作るコードを教えてもらう方が実用的です。

スクリーンショット 2023-05-29 19.19.47.png

とはいえ、ダミーデータの作成も「Code Interpreter」が実装されれば、大量のデータもダウンロードできるようになるので、かなり実用的になると思います!

データ抽出(SQL)

SQLのコードも作成してもらえます。

スクリーンショット 2023-05-29 19.22.01.png

今回は先ほど作成してもらったデータを元に、架空のマスターテーブルとJOINして簡単な集計をするSQLのコードを教えてもらいました。

複雑なクエリでも問題なく作ってもらえるので、近い将来SQLを書かなくても誰でもデータ抽出ができるようになることを予感させてくれます。

ちなみに日本でも既に自然言語からSQLを生成してくれるサービスも登場しているみたいです!

データ分析の専門家に頼まなくても誰でも簡単にデータを抽出できる未来はすぐ来そうですね!

https://qiita.com/embed-contents/link-card#qiita-embed-content__1058031f851cdc3ed8c12ab1cd5d5cc1

予測モデル作成

驚くべきことにChatGPTのプラグイン「Notable」を使えば、予測モデルの作成までできちゃいます。

image.png

「Notable」はノートブック形式で、Python、SQL、Markdownを使用してデータを分析したり、可視化ができるプラグインです。

簡単な指示を出すだけで分析や可視化を行ってくれるためデータ分析の専門家でなくても複雑なデータ分析が可能になる優れものです。

image.png

裏ではこんな感じにChatGPTがコードを書いてくれています。

image.png

このようにChatGPT単体ではできないことでも、プラグインを使うことで可能になり、よりChatGPTを便利に使うことができるようになります!

ちなみに、「Notable」以外のおすすめのChatGPTのプラグインは以下のページで紹介しています。

https://qiita.com/embed-contents/link-card#qiita-embed-content__6d607bc10bfe6a62f9e9a4f3c7c067ab

しかもモデルの評価もお願いできるので、予測モデルの作成から評価まで簡単な指示だけで専門的な知識がなくても簡単に可能です。

詳細は以下の記事で記載しています!

https://qiita.com/embed-contents/link-card#qiita-embed-content__bcf3d257c246c66e52621fc908074261

予測モデルの精度改善

さらには、作成た予測モデルをChatGPTが自ら考えて、精度を改善することまで可能です。


自ら精度が上がるように特徴量を追加していることがわかります。


もう少し具体的な指示を出すことで、モデルの見直しまで行いさらに精度を向上しました。

データの可視化

もちろん可視化も可能です。

image.png

具体的な指示をしなくてもデータの特徴から、適切な可視化をしてくれます

恐ろしいです。

データ分析を全て任せる

https://qiita.com/embed-contents/link-card#qiita-embed-content__9f048b2750192a40826b32f395de05bd

上でも紹介したこの記事では、ChatGPTプラグインの「Notable」を使って、人間は簡単な指示を出すだけでデータ分析コンペに挑戦してみた話を書いています。

データ分析コンペで1位を獲得!」という華やかな結果には至りませんでしたが、ほぼ全自動で予想以上の成果が得られたので、ぜひ一度ご覧いただければと思います。

データサイエンティストの仕事は奪われないが使いこなせば強力な武器に!

以上がデータサイエンティストがChatGPTを有効に活用する方法になります。

現段階ではデータサイエンティストの仕事が置き換わるとは思えませんが、適切に活用することでデータ分析作業の大幅な効率化が期待できますね!

ちなみに近いうちにChatGPT上でPythonを使ったコードの実行や、ファイルのアップロード・ダウンロードができるようになるChatGPTの公式プラグイン「Code Interpreter」というのが公開になるそうです。

詳細は以下のページにまとめたので、こちらも参考にしてみてください。

https://qiita.com/embed-contents/link-card#qiita-embed-content__82444f97e05c409ddeff3387d1bf594eshare

コメント

タイトルとURLをコピーしました