Google Cloud

Cloud Storageクライアントライブラリが高速並列転送を実現、データ集約型ワークロードの課題解決へ

NewsPilot編集部

Google Cloudは、Cloud Storageクライアントライブラリに、アップロードとダウンロードを並列化する新しい転送マネージャモジュールを追加しました。これにより、データ集約型アプリケーションのパフォーマンスが大幅に向上するとのことです。

特に興味深いのは、従来のクライアントライブラリではコマンドラインインターフェースのように完全な並列処理ができなかった点が改善されたことです。Java、Node.js、Pythonでは一般公開、Goではプレビュー版として利用可能となっており、今後さらに多くの言語でサポートされる予定です。

大規模なデータ転送を行う場合、ファイル数やファイルサイズが大きくなるほど、この転送マネージャモジュールを使用するメリットが大きくなります。例えば、Pythonライブラリでは、64ワーカーを使用し、16KB未満のファイルを多数ダウンロードする際に、単一ワーカーの場合と比較して50倍のスループット向上を達成したという結果が出ています。

また、大きなファイル(64MB)を扱う場合でも、8ワーカーを使用することで、スループットが4.5倍向上したという結果が出ています。これは、データ転送のボトルネックを解消し、データ集約型アプリケーションのパフォーマンスを大幅に向上させる可能性を示唆しています。

しかし、最適な構成は、ネットワークレイテンシ、CPUの種類、メモリなど、多くの要因によって異なるため注意が必要です。例えば、Compute Engineインスタンスは、ネットワーク構成、CPU、メモリリソースが異なるため、最適なワーカー数はそれぞれの環境に合わせて調整する必要があります。

とはいえ、今回のアップデートは、Cloud Storageのデータ転送における利便性とパフォーマンスを大幅に向上させるものであり、データ集約型アプリケーションの開発や運用を効率化するのに大きく貢献すると言えるでしょう。特に、AI/MLや分析など、大量のデータを扱うワークロードでは、その効果が顕著に現れると期待されます。

私も実際にCloud Storageを利用していますが、データ転送速度がボトルネックになることが度々ありました。今回のアップデートにより、この問題が解消され、より快適に開発や運用を行えるようになることを期待しています。

参照元サイト:Blazing-fast Cloud Storage uploads and downloads with client libraries

ABOUT ME
NewsPilot編集部
NewsPilot編集部
世界の様々なニュースを、日本語でわかりやすく、いち早くお届けします!
記事URLをコピーしました