実用的なビッグデータ:データサイエンティストとエンジニアのギャップを埋める方法

ビッグデータを巡る話題は、誤解を生んでいます。単なるデータの存在は、企業に実用的な洞察と前向きなビジネス成果をもたらすというものです。 現実はもう少し複雑です。 ビッグデータから価値を引き出すには、それをふるいにかけるデータ科学者の有能なチームが必要です。 2016年から2019年にかけてデータサイエンティストの仕事が15倍から20倍に増加していることからもわかるように、企業はほとんどの場合これを理解しています。ただし、データサイエンティストの有能なチームが手元にいる場合でも、それらのアイデアを生産に投入します。 真のビジネス価値を実現するには、エンジニアとデータサイエンティストが互いに協力して作業するようにする必要があります。 データサイエンティストは中心的に、会社が毎日摂取するデータから新しいアイデアや考えを抽出するイノベーターであり、エンジニアはそれらのアイデアを基に構築し、データを表示する持続可能なレンズを作成します。 データサイエンティストは、ビジネスを成功に導くために、データの解読、操作、マーチャンダイジングを行う必要があります。 この偉業を達成するために、彼らはデータマイニングから統計分析に至るまでのさまざまなタスクを実行します。 データの収集、整理、解釈はすべて、重要な傾向と関連情報を特定するために行われます。 エンジニアは確かにデータサイエンティストと協力して作業しますが、2つの役割にはいくつかの明確な違いがあります。 基本的な違いの1つは、エンジニアがシステムの「運用準備」に明らかに高い価値を置くことです。 データサイエンティストによって生成されたモデルの復元力とセキュリティから実際の形式とスケーラビリティに至るまで、エンジニアはシステムが高速で信頼性の高い機能であることを望んでいます。 言い換えると、データサイエンティストとエンジニアリングチームは日々の懸念が異なります。 これは疑問を投げかけます。成功のために両方の役割をどのように位置付け、最終的にデータから最も有意義な洞察を抽出することができますか? その答えは、データとエンジニアリングの関係を完成させるために時間とリソースを費やすことにあります。 データセット周辺の乱雑さや「ノイズ」を減らすことが重要であるのと同様に、ビジネスの成功に重要な役割を果たす2つのチーム間のあらゆる摩擦をスムーズにすることも重要です。 これを実現するための3つの重要なステップを次に示します。 数人の科学者と数人のエンジニアを部屋に置いて、世界の問題を解決するように依頼するだけでは十分ではありません。 まず、相手の用語を理解し、同じ言語を話し始める必要があります。 これを行う1つの方法は、チームをクロストレーニングすることです。 科学者とエンジニアを2つのポッドに組み合わせることで、共有学習を促進し、障壁を打ち破ることができます。 これは、データサイエンティストにとって、コーディングパターンの学習、より体系的な方法でのコードの記述、そしておそらく最も重要なこととして、モデルを本番環境に導入することに伴う技術スタックとインフラストラクチャのトレードオフを理解することを意味します。 7wData.beに投稿されました