Pandas vs Polars ― 10MレコードのCSVサンプルデータで速度比較!

こんにちは。スーパーソフトウエア東京オフィス 技術部の加藤です。

Python でデータ分析といえば、真っ先に思い浮かぶのは Pandas です。
長年の実績と豊富なエコシステムに支えられた、定番のデータ分析ライブラリです。

Pandas の名前の由来については、“panel data” という統計・計量経済学用語が語源という説が最も有力です。また、「Python Data Analysis」を意識した語呂合わせ説もよく語られますが、公式に確定されたものではありません。

一方の Polars は、名前の由来について明確な公式説明は見つかっていません。ただし、開発者は Polars を「高速でスケールする DataFrame ライブラリ」と説明しており、“冷たくて速い(cold and fast)” という印象から「北極(Polar)」をイメージして名付けられた可能性は十分考えられますし、Pandasとの対比でPolar Bear(ホッキョクグマ)が名付けられた可能性もあります。

近年、この Polars は急速に注目を集めています。Rust 製であり、マルチスレッド処理に強く、多くのケースで Pandas を上回る高速性が報告されています。

今回は、1,000 万レコード(10M)のサンプルデータを生成し、実際に Pandas と Polars の処理速度を比較してみたいと思います。

 

 

本記事の続きはこちらをご覧ください
https://note.com/ssltokyo_tech/n/na4f9f5205a88

スーパーソフトウエアの採用情報

あなたが活躍できるフィールドと充実した育成環境があります

blank
blank