今後10年の技術革新のキーとなるビッグデータ、それをビジネス現場で活用するデータサイエンティストに興味があるビジネスマンは多くいると思います。
データサイエンスを学ぶにあたって大事なのはデータセットです。学習用のアルゴリズムを組んだり、データの前処理といった練習を行うにもある程度の量のデータがないと勉強になりません。
それを解決する一つの案が「オープンソースのデータを使ってデータサイエンスの勉強をする」です。
希少な生産現場のオープンデータ
しかし、「生産管理」「プラントオペレーター」など工場・現場で活躍している人が活用できる技術系のオープンデータは、各企業が保有しているために公開されているものは少ないです。
しかし、探す場所と探し方のコツさえ抑えてしまえば、きっと自分にあったオープンデータを見つけることができます。
この記事では、技術系エンジニアの中でも特に「生産管理」「プラントオペレーター」向けの現場寄りなオープンデータを紹介していきます。
この記事を最後まで読み終えた方が、下記のことが出来るようになっていることを目的に書いております!
- オープンデータの候補の中から自分の興味がある物を選択することができる。
- そしてそれを用いたデータサイエンスの自主学習を行うことができる。
- 今実際に企業でデータサイエンスを実務として扱っているデータサイエンティストにとっては、同業他社がどのような形でデータを蓄積しているかを知ることができる。
検索したオープンデータソースサイト
まずはじめに私が検索で使用したオープンデータソースサイトを2つ紹介します。
Kaggle
Kaggle(カグル)とは、世界中の機械学習・データサイエンスに携わっている約40万人の方が集まるコミニティーです。
Kaggleでは、企業や政府などの組織とデータ分析のプロであるデータサイエンティスト/機械学習エンジニアを繋げるプラットフォームとなっています。単純なマッチングではなく、Kaggleの最大の目玉とも言える「Competetion」がKaggleの特徴の一つです。
Competitionは、企業や政府がCompetition形式(競争形式)で課題を提示し、賞金と引き換えに最も制度の高い分析モデルを買い取るという、最近でいう一種のクラウドファンディングに近いような仕組みとなります。
Kaggleに参加している人たちは無料でこれらのCompetitionに参加が可能で、企業から提供されているトレーニング用のデータセットを利用して、モデルの学習を行い、さらにテストセットで評価までも可能です。
UCI Machine Learning Repository
UCI Machine Learning Repositoryとは、米カルフォルニア大学アーバイン校が管理しているデータセットです。現時点で約500件近いデータセットが公開されており、知名度も高く、また無料で簡単にダウロード可能です。
上で紹介したKaggleとは違いコンペティションやディスカッションなどはありませんが、純粋なデータセットとして利用することができます。
生産管理・プラントオペレーター向けオープンデータの検索Word
それでは、いよいよオープンデータを上の2つのサイトから探していきます。
実際に自分が業務で携わっているデータがあればいいのですが、冒頭で述べたように工場・現場で活躍している人が活用できる技術系のオープンデータは、企業が保有している場合が多く公開されているものは少ないです。
そんなときは自分が業務で用いているものと類似した代替となるデータセットを探すことをお勧めします。
この代替データセットとはどんなものかと言うと、例えば、 あなたが化学プラント会社で働いているエンジニアで、化学プラントの運転管理情報やエネルギーの使用状況をモニタリングしたデータを用いて、そのプラントのエネルギー使用量を予測するモデルを作りたいとします。
しかしオープンデータで化学プラントの運転データが見つからなかった場合、代替データセットとして分析の対象と類似するデータ、例えば火力発電所の運転データや建物などのエネルギー使用データを活用することができます。
データサイエンスを学習するため、もしくは これから業務でどのようなデータを集めるかという構想をしている段階の人にとっては、代替モデルを用いて自分の検証したいモデルにはどのような情報が必要・不必要なのか意識して計画を立てることが大事です。
オープンデータを検索するにあたって、私がそれぞれのサイトで生産管理・プラントオペレーター向けの検索キーワードを以下に示します。
plant operation, compressor, turbine, leak, gas, noise, sound, fire, explosion, corrosion, erosion, energy, chemical
次にこれらの検索キーワードでヒットしたオープンデータの中から面白そうなものを紹介していきます。
冷水、電気、温水、蒸気の各メーターによる建物のエネルギー使用量予測モデルの開発
出典:Kaggle ASHRAE – Great Energy Predictor III How much energy will a building consume?
このデータには、過去の冷水、電気、温水、蒸気の使用率と観測された天気に基づいてモデルを構築することができ、世界中のさまざまな場所の1,000を超える建物からの3年間の1時間ごとのメーター読み取り値が含まれています。
Kaggleコンペティションの目的は、建物のエネルギー使用量の正確な予測モデルをつくることです。その予測モデルは、建物のエネルギー効率改善の結果、工事前のエネルギー消費量からどれだけのエネルギーを節約することができたのか、その差分を算出するのに必要なのです。
つまり、ある建物が改善工事なしでどれだけのエネルギーを使用したかを知る方法がないため、その予測モデルを作成するのです。
AMS 2013-2014 太陽光エネルギー予測
出典:Kaggle AMS 2013-2014 Solar Energy Prediction Contest
このデータセットは太陽光発電によるエネルギー生産量の短期予測を行うためのものです。ある場所の98箇所の1日あたりの総入射太陽エネルギーを予測します。データには天気予報データ、観測データの緯度・経度、発電量が含まれます。
風力発電のエネルギー予測
出典:Kaggle Global Energy Forecasting Competition 2012 – Wind Forecasting
このデータセットは、過去の測定値と追加の風予報情報に基づいて、7つの風力発電所での毎時発電の48時間先の予測をシミュレートすることに焦点を当てています。
データには、日付、7つの風力発電所の正規化された風力測定値、風力予報などのデータが得られます。
自動ビニール包装機の金属プレートの摩耗予測
出典:Kaggle Vega shrink-wrapper component degradation
OCMEのVega自動ビニール包装機は、ボトルまたは缶を設定されたパッケージサイズにグループ化し、プラスチックフィルムで包みフィルムを熱収縮させてパッケージにします。
このときプラスチックフィルムを必要な長さに切断するのに、ブレードが使用されます。このブレードは回転速度が速いため、動作中にブレードを視覚的に検査することはできません。
このブレードを運転を止めることなく劣化の予測を行うことで、機械の信頼性が向上し、切断に失敗することで生じる予期しない作業停止時間を削減することができます。
データには、1年を通したブレードの摩耗データ、交換時期、8つの異なる運転モード、運転速度があります。
ガスタービン(GT)推進プラントの経時的パラメータの変化
出典:Kaggle Maintenance of Naval Propulsion Plants Data Set
このデータセットは、ガスタービン(GT)を推進源とする海軍艦艇の数値データです。このデータから、GTコンプレッサーやタービンなどのGTコンポーネントの経時的なパフォーマンスの低下を予測することもできます。
データは、推進システムの動作として船速、GTシャフトトルク、GT回転速度、タービン出口温度、GTコンプレッサー出口空気温度、燃料流量、コンプレッサー劣化係数、タービン劣化係数などかなりプロセスリッチな情報を得ることができます。
車の騒音レベル
出典:Kaggle car_noise_specification
このデータセットは車の騒音レベルについてのもので、車の状態と製造品質の両方の指標となる可能性があります。
データは、ブランド、モデル、年、および仕様など様々な条件の車の各速度でのノイズレベルを示したものです。
リモートセンシングデータ(衛星観測データ)を用いた発電プラントからの排出係数の予測
出典:Kaggle DS4G: Environmental Insights Explorer, Exploring alternatives for emissions factor calculations
発電プラントでは、燃料を燃やして発電しております。その発電のために燃焼ガスが排出され、排出量が多いと地球温暖化などの原因となります。その量を「排出係数」と呼びます。
排出係数をより適切にモデル化するためにリモートセンシング技術を使用した衛星観測データを使用します。
データ分析では、地方地域の平均年間年間排出係数を計算するモデルの開発、より高い/低い排出係数をもたらす条件の説明と、作成したモデルと同様の手法を使用して別の国・地域での電気の排出係数を計算するための適用方法について考えます。
データがそろったら、データ分析をしてみよう!
オープンデータを得ることができたら後はそれを使ってモデルの作成評価を行います。 その際には、データ分析のためのスキルやノウハウが必要です。
今回紹介したデータの多くは「Kaggle」から選んだものです。
参考までにこの『Kaggleで勝つデータ分析の技術』という本を参照すれば様々なアルゴリズムやデータの前処理のためのテクニックを知ることができます。
一般的な技術本で取り扱っているような「機械学習」「統計学」「 Python」 というような単元ごとの技術書でなく、特徴量の作成→モデルの作成→モデルの評価→モデルのチューニング→アンサンブル、というようにデータサイエンスの実務の流れに沿って紹介してくれており、私も愛用しております。
Kaggleに参加する予定のある人もない人もデータ分析の参考書としてお勧めできる良本です。
これからデータサイエンティストを目指す人へ
今回の情報が同じく人工知能を学んだりデータサイエンティストを目指している人の役に立てればなと思います。
データサイエンティストには高度な知識が要求されて、学習するのが大変!と思う人も多いかと思いますが、この記事で紹介されているように今後10年、20年先の鍵となる知識・技術です。
もし、独学での学習である程度の領域まで達成できた後は実践だ、という人やスクールに通ってもっと専門的な知識を学びたいという方には、以下のデータサイエンティスト向けの講座がおすすめです。なぜなら国の補助金制度を活用しながら自分の専門性を高めることができるからです。
自分に適した学習方法を確立させて将来のためのスキルアップを目指しましょう!
AIやITに興味がある方でさらに学びたいという方は以下に、様々なAIの紹介やそれを学習するための書籍やサイトが紹介されているので是非ごらんください。
最後に
本記事では「オープンソースのデータを使ったデータサイエンスの勉強」をしたい「生産管理」「プラントオペレーター」など工場・現場で活躍している人に向けた現場寄りなオープンデータを紹介しました。
この記事を読み終えた方が、オープンデータの候補の中から自分の興味がある物を選択することができ、それを用いたデータサイエンスの自主学習を行うことができるようになれればなと思っております。
自主学習の目的でなくても、今実際に企業でデータサイエンスを実務として扱っているデータサイエンティストにとっては、同業他社がどのような形でデータを蓄積しているかを知ることで自社のデータ分析計画の参考にすることができます。
コメント