Vincent Granvilleは、データサイエンス中心の共同創設者であり、GenAI科学者および機械学習の専門家です。彼は、2024年2月17日に「よく使用する30のPythonライブラリ」という記事を公開しました。この記事では、GenAI、データアニメーション、LLM、合成データ生成と評価、ML最適化、科学計算、統計、ウェブクローリング、API、SQLなど、様々な用途に役立つ有名なライブラリや特化したライブラリを紹介しています。また、標準ライブラリで直面した問題や、自身で開発した機能についても言及しています。
合成データ生成には、SDVが最も人気のあるライブラリであり、Fakeライブラリが統合されていますが、Granvilleはその結果に失望し、Genai-EvaluationとNoGAN-Synthesizerという自作のツールを開発しました。自然言語処理では、NLTKライブラリを使用していますが、Stopwordsモジュールが彼のニーズに合わないため、特定のLLMコンポーネント用に別のストップワードリストを作成する必要がありました。
ウェブクローリングにはRequestsを使用しており、BeautifulSoupのテストはまだ行っていません。コンピュータビジョンでは、openCVとPillowを使用し、データビデオの制作にはMoviepyライブラリを活用しています。深層ニューラルネットワークにはTensorFlowとKerasの経験がありますが、NoGANを開発して問題を解決しました。
統計と機械学習では、Statsmodels、Scipy、Numpy、SKlearn、Seabornを使用していますが、時系列データや地理空間データには独自のアルゴリズムを使用しています。その他、Web APIの作成にはStreamlitを、SQLクエリの自動生成にはPandasを使用しています。Granvilleは、これらのツールや自作の関数がオープンソースであり、無料で、十分に文書化されていると述べています。彼はData Science Centralの共同創設者であり、MLTechniques.comとGenAItechLab.comのチーフAIサイエンティストです。
【ニュース解説】
Vincent Granvilleは、データサイエンスと機械学習の分野で広く知られた専門家であり、彼が頻繁に使用する30のPythonライブラリに関する記事を公開しました。この記事では、人工知能(AI)、データアニメーション、言語モデル(LLM)、合成データ生成、機械学習(ML)の最適化など、多岐にわたる用途で役立つライブラリを紹介しています。また、既存のライブラリに対する不満から自ら開発したツールについても触れています。
合成データ生成では、SDVやCTGanなどのライブラリがありますが、Granvilleはこれらのライブラリの結果に満足せず、より高速で優れた結果を提供する自作のツール「Genai-Evaluation」と「NoGAN-Synthesizer」を開発しました。自然言語処理(NLP)においては、NLTKライブラリを使用しつつも、特定のニーズに合わせて独自のストップワードリストを作成する必要があるなど、標準ライブラリの限界を感じています。
ウェブクローリングでは、Requestsライブラリを有効活用していますが、BeautifulSoupについてはまだ試していないとのことです。コンピュータビジョンに関しては、openCVやPillowを使用し、データビデオ制作にはMoviepyライブラリを利用しています。深層ニューラルネットワーク(DNN)の分野では、TensorFlowとKerasを使用してきましたが、訓練の遅さや結果の不安定さから、NoGANという自作のツールを開発しました。
統計と機械学習においては、StatsmodelsやScipy、Numpy、SKlearn、Seabornなどのライブラリを使用していますが、時系列データや地理空間データに対しては独自のアルゴリズムを用いています。また、Web APIの作成にはStreamlitを、SQLクエリの自動生成にはPandasを使用しており、これらのツールや自作の関数はオープンソースであり、無料で、十分に文書化されていると述べています。
この記事は、データサイエンスや機械学習の分野で活動する人々にとって、既存のツールの限界を超える新しいアプローチを模索する重要性を示しています。Granvilleの経験は、特定の問題に対して既存のライブラリが不十分である場合、独自のソリューションを開発することの価値を強調しています。また、彼の取り組みは、オープンソースコミュニティへの貢献としても価値があり、他の研究者や開発者が彼の成果を活用し、さらに発展させる可能性を秘めています。このような独自のツールの開発は、データサイエンスの分野におけるイノベーションを促進し、より効率的で効果的な解決策の創出につながるでしょう。
from 30 Python Libraries that I Often Use.