TOPニュースTechCrunchTechCrunchの2023年予測！データサイエンス分野における4つのトレンド【テッククランチ】

TechCrunchの2023年予測！データサイエンス分野における4つのトレンド【テッククランチ】

2023年1月18日

寄稿者

Torsten Grabs

Snowflakeの製品管理ディレクター。データエンジニアリング、データレイク、データサイエンスワークロード、Snowpark開発者エクスペリエンスを統括している。

データサイエンスは長い間、複雑なフレームワークや使用する言語を理解している筋金入りのデータ専門家の領域だったが、そうした専門家は絶対的に不足している。

幸い、ツールやフレームワークを取り巻く状況は絶えず進化している。2023年にはデータチームと企業の課題を共に軽減する新たな展開があると予想されている。

長い間待ち望まれていた「市民データサイエンティスト」が、差し迫った必要性と使用するツールやプラットフォームの簡素化によって、ついに分析において大きな役割を果たすようになるだろう。一方で、データ専門家は、よりシンプルになったツールの恩恵を受け、仕事を加速させることができるようになる。標準化の推進は業界全体に貢献することになるだろう。

データサイエンスはおそらく今、あらゆる企業テクノロジーの中で最もホットな分野であり、電光石火のスピードで進化している。

この記事では2023年のデータサイエンス分野に予想される4つのトレンドと、それを企業がどのように活用できるかを紹介する。

keyboard_arrow_down Pythonの利用はデータ専門家にとどまらず市民開発者にも拡大する
keyboard_arrow_down AutoMLは市民開発者とデータサイエンティストの間の緊張を和らげる
keyboard_arrow_down データサイエンティストは業界や分野に特化した、予め構築されたMLモデルをさらに採用する
keyboard_arrow_down データサイエンスと機械学習のコミュニティはより多くの標準化を受け入れる
keyboard_arrow_down おわりに

Pythonの利用はデータ専門家にとどまらず市民開発者にも拡大する

ビジネスパーソンは、データサイエンティストが必要な分析を提供してくれるのを待つ余裕がないため、自分たちの手で問題を解決するようになっている。あらかじめ設定されたクラウドのランタイムや、数値データを処理するのに使うNumPy、予測用のProphet、地理空間データ用のH3といった入手しやすいツールが利用できるようになったPythonは、専門家ではない人々にとってより親しみやすいものになってきた。その結果、2023年にはPythonの利用はデータ専門家にとどまらず、ビジネスアナリストや専門家ほどテックに精通していないユーザーにも広がっていくだろう。

Python初心者のユーザーは、独自のランタイム環境を構築しようとせず、ビルトインのセキュリティとガバナンスを提供する最新のクラウドプラットフォームなどを選択すべきだ。Anacondaは、アップデートと依存関係が適切に管理されるようにする人気のPythonディストリビューションを提供し、Snowflakeはこれらのパッケージを当社のクラウドベースのPythonランタイムにインストールしている。

RealPythonの包括的な初心者向けガイドなど、専門家でなくてもPythonを使い始めることができるオンラインリソースが多数ある。

市民開発者はPythonを学びたくない同僚と仕事の成果を共有する方法も必要としており、2023年にはPythonの成果を製品化した形で共有するツールがさらに進化・改善されると筆者は予想している。これらのツールにより、マーケティングチームなどIT専門でないユーザーにとっても、Pythonコードは意味のあるユーザーエクスペリエンスを提供することが可能になる。15～20年前にセルフサービスのビジネスインテリジェンスツールが主流になったように、Pythonは今、さらに強力な分析機能をビジネスユーザーの手に届け始めている。

AutoMLは市民開発者とデータサイエンティストの間の緊張を和らげる

2023年には市民開発者と筋金入りのデータサイエンティストの間に存在する人工的な壁が崩れ始めるだろう。この2つのグループは、歴史的に市民開発者が独自のシンプルな人工知能（AI）モデルを構築できる自動機械学習（AutoML）のメリットをめぐって対立してきたのだ。

データサイエンティストや機械学習エンジニアは、伝統的にハンドコーディングのMLモデルを好んでおり、AutoMLの利点や効果に懐疑的だった。

Pythonと同様、AutoMLは急速に成熟しており、より広く受け入れられるようになっている。2023年には、データ専門家は自身のMLモデルの初期ドラフトを実現し、改良するためのより速い方法としてAutoMLを探求するようになると筆者は予想する。

また、テックにさほど精通していない社員がAutoMLを使用することも、データプロジェクトに携わる人々の幅を広げることになるため、より積極的にサポートすることをお勧めする。市民開発者がAutoMLを使うことで、データサイエンティストや機械学習エンジニアは内部の複雑なMLエンジンを理解し、微調整するためにボンネットを開けてのぞくことができる。データ専門家によるAutoMLの受け入れと導入が進めば、この2つのグループの間にある緊張関係は双方がwin-winの相乗効果に変わる。

データサイエンティストは業界や分野に特化した、予め構築されたMLモデルをさらに採用する

2023年にはデータサイエンティストが利用できる事前構築されたMLモデルの数が増えるだろう。これらのMLモデルには、各分野の専門知識が初期がカプセル化されており、データ専門家とその組織のTime-to-Value（顧客が商品やサービスの価値を実感するまでにかかる時間）とTime-to-Market（製品化までの時間）を加速させる。例えば、あらかじめ構築されたMLモデルによって、データサイエンティストが特定の垂直産業のユースケース用にモデルをトレーニングし、微調整する時間が短縮される。

これらのモデルの新しいソースは常に出現している。Hugging FaceのAIコミュニティは、すぐに使えるMLモデルのマーケットプレイスをつくるという重要な仕事をした。そして来年、Hugging Faceや他のグループからさらに多くのモデルがリリースされると予想している。

データサイエンティストは、このような業界や分野に特化したモデルを採用すべきだ。というのも、既存の明確に定義されたデータセットを利用して狙った問題に取り組むことができ、通常組織のニーズの中核ではない特定分野の専門家になるのに時間を費やすことを避けられるからだ。

データサイエンスと機械学習のコミュニティはより多くの標準化を受け入れる

データサイエンスとMLツールの市場は、イノベーションのペースが非常に速いこともあり、非常に細分化されている。2023年には特に2つの要素が標準化を推進するだろう。従来のPythonコミュニティは、Pythonコードを製品化するためのより良い方法を求めており、Pythonの重要なステークホルダーとなる企業の数は増えている。

これらのグループはどちらも、より安定した一貫性のあるプラットフォームを構築することで利益を得ることができる。4つの主要なMLフレームワーク（skikit-learn、XGBoost、PyTorch、TensorFlow）の間ではすでに標準化が始まっている。つまり、イノベーターは標準化が進んでいない代替品よりも、これらのフレームワークに引き寄せられることになる。2023年には、MLオペレーションやML向けフィーチャーストアなどの分野でさらなる標準化が進む。これはLinux周りの標準化がそのコミュニティを助けたのと同様に、市場全体に利益をもたらす。