プログラミングを学んでいくなかで、jupyter notebookを使いこなすことは、学習効率をあげるうえで大切です。書籍では、学習に用いるinputデータやあらかじめコードが入力されているサンプルファイルをダウンロードして用いることがあります。しかし、肝心のダウンロードが行えてもその保存したフォルダの指定のファイルを開くという作業は書籍では紹介されておりません。ここでは、学習するうえで必要な「ファイルの開き方」を紹介していきます。
Jupyter notebookでファイルを開く 方法を紹介
学習を進めていく中で、書籍や参考書によってはサンプルデータや学習用ファイルを提供してくれるものがあります。それらを自分のPCにダウンロードして開こうと思っても、「うまく開けない」となると、学ぶ楽しみを経験する前に嫌になってしまいますよね。
ここでは、
- 自分のPC (ローカル)に保存しているファイルを開く
- ネット上のオープンデータソースのURLから直接開く
の2通りの方法について説明します。
自分のPC (ローカル)に保存しているファイルを開きたい
ダウンロードフォルダの保存場所の表示
フォルダ保存場所を開いて確認
自分でどこに保存したか明確な場合は、フォルダの場所をアクセスして上部のパスをコピーします。
ファイル・フォルダの「プロパティ」-「場所」から確認
該当のフォルダを「右クリック」して「プロパティを表示」させたのち、「場所」からそのファイルの保存場所をコピーします。
Jupyter notebookでファイルを開く
以下のコードを参考に入力して、os.chdirの後に先ほど確認したフォルダの場所へ移動します。この「import os」を忘れずに入力してください。
1 2 3 4 5 6 7 8 9 10 11 12 |
# pandasをimport (csvデータをpandasで開くため) import pandas as pd # フォルダへの移動 import os os.chdir('C:\\Users\\〇〇\\Python\\Python learning statistics\\sample')# データのインポート # 現在のディレクトリの確認 os.getcwd() # ファイルの読み込み sample (任意の変数) = pd.read_csv("sample.csv") |
ネット上のオープンデータソースのURLから直接開きたい
ここでは、Git hub上で公開されているcsvデータを、URLをコピーするのみでJupyter notebookで開くための方法を紹介します。
Git hubのデータをどうやってダウンロードするか
Git hubのデータをダウンロードする流れは以下の通りです。
- ダウンロードしたいcsvファイルのあるページへ行く
- github でリポジトリの中のファイルを見た時の Rawボタンを押す
- そのページのURLをコピーする この URL がファイル単体の URL になっています
- Jupyter notebook上で読み込む
それぞれ画面を交えながら説明します。
今回はJohns Hopkins 大学の Center for Systems Science and Engineering (CSSE) が GitHubで公開している、COVID-19 の2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE を例として用います。
使用データはtime_series_covid19_confirmed_global.csvです。
なお、Jupyternotebookで読み込む際には上のページの‘Raw’ボタンを押して現れるページのURLを指定してcsvファイルの読み込みを行ってください。
ダウンロードしたいcsvファイルのあるページへ行く
2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSEのページに行くと以下の画面のように表示されます。
緑色で表示されている”Clone or download”ボタンを押すと、対象のファイルが一括Zip形式でダウンロードできます。
この場合は、すべてのファイルをダウンロードしてしまいますので時間がかかります。
例えばその中の一つのデータのtime_series_covid19_confirmed_global.csvのみを使用したい場合の方法を紹介します。
github でリポジトリの中のファイルを見た時の Rawボタンを押す
time_series_covid19_confirmed_global.csvのページでRawボタンを押す。
そのページのURLをコピーする
すると、‘Raw’ボタンを押して現れるページが出てきますのでこの URLをコピーします。これ がファイル単体の URL になっています
Jupyter notebook上で読み込む
先ほどコピーしたURLを以下のように[pd.read_csv()]の中に貼り付けます。
1 2 |
import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv') |
最後に これからエンジニア/データサイエンティストを目指す人へ
学習に用いるinputデータやあらかじめコードが入力されているサンプルファイルをダウンロードしてもその保存したフォルダの指定のファイルが開けなければ学習はそこでストップしてしまいます。学習するうえで必要な「ファイルの開き方」は基本中の基本ですので、ここでつまずくことなく自己学習をすすめていけたらと思います。
Jupyter notebookの基本は以下の記事で紹介してます。
また、既にJupyter notebookを使用していて学習を進めているかたは以下の記事も学習に役立つかと思いますので併せてご覧ください。
今回の情報が同じく人工知能を学んだりデータサイエンティストを目指している人の役に立てればなと思います。
データサイエンティストには高度な知識が要求されて、学習するのが大変!と思う人も多いかと思いますが、この記事で紹介されているように今後10年、20年先の鍵となる知識・技術です。
もし、独学での学習である程度の領域まで達成できた後は実践だ、という人やスクールに通ってもっと専門的な知識を学びたいという方には、以下のデータサイエンティスト向けの講座がおすすめです。なぜなら国の補助金制度を活用しながら自分の専門性を高めることができるからです。
自分に適した学習方法を確立させて将来のためのスキルアップを目指しましょう!
コメント