Jupyter notebookでファイルを開く [Pythonの学習お助け情報]

プログラミングを学んでいくなかで、jupyter notebookを使いこなすことは、学習効率をあげるうえで大切です。書籍では、学習に用いるinputデータやあらかじめコードが入力されているサンプルファイルをダウンロードして用いることがあります。しかし、肝心のダウンロードが行えてもその保存したフォルダの指定のファイルを開くという作業は書籍では紹介されておりません。ここでは、学習するうえで必要な「ファイルの開き方」を紹介していきます。

Jupyter notebookでファイルを開く 方法を紹介

学習を進めていく中で、書籍や参考書によってはサンプルデータや学習用ファイルを提供してくれるものがあります。それらを自分のPCにダウンロードして開こうと思っても、「うまく開けない」となると、学ぶ楽しみを経験する前に嫌になってしまいますよね。

ここでは、

  1. 自分のPC (ローカル)に保存しているファイルを開く
  2. ネット上のオープンデータソースのURLから直接開く

の2通りの方法について説明します。

自分のPC (ローカル)に保存しているファイルを開きたい

ダウンロードフォルダの保存場所の表示

Jupyter notebookでファイルを開く

フォルダ保存場所を開いて確認

自分でどこに保存したか明確な場合は、フォルダの場所をアクセスして上部のパスをコピーします。

ファイル・フォルダの「プロパティ」-「場所」から確認

該当のフォルダを「右クリック」して「プロパティを表示」させたのち、「場所」からそのファイルの保存場所をコピーします。

Jupyter notebookでファイルを開く

以下のコードを参考に入力して、os.chdirの後に先ほど確認したフォルダの場所へ移動します。この「import os」を忘れずに入力してください。

上記の例では、ライブラリにpandas(pd.としてimport)を用いてcsv形式のファイルを出力しておりますが、ここの部分は各々が学習している書籍に形式があらわされているかと思いますので変えてください。
[os.chdir]中の’C:\\Users\\〇〇\\Python\\Python learning statistics\\sample’に、ファイルの場所を入力してください。個人個人のPC名やフォルダ構造によって異なります。

ネット上のオープンデータソースのURLから直接開きたい

ここでは、Git hub上で公開されているcsvデータを、URLをコピーするのみでJupyter notebookで開くための方法を紹介します。

Git hubのデータをどうやってダウンロードするか

Git hubのデータをダウンロードする流れは以下の通りです。

  1. ダウンロードしたいcsvファイルのあるページへ行く
  2. github でリポジトリの中のファイルを見た時の Rawボタンを押す
  3. そのページのURLをコピーする この URL がファイル単体の URL になっています
  4. Jupyter notebook上で読み込む

それぞれ画面を交えながら説明します。

今回はJohns Hopkins 大学の Center for Systems Science and Engineering (CSSE) が GitHubで公開している、COVID-19 の2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE を例として用います。

使用データはtime_series_covid19_confirmed_global.csvです。

なお、Jupyternotebookで読み込む際には上のページの‘Raw’ボタンを押して現れるページのURLを指定してcsvファイルの読み込みを行ってください。

ダウンロードしたいcsvファイルのあるページへ行く

2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSEのページに行くと以下の画面のように表示されます。

緑色で表示されている”Clone or download”ボタンを押すと、対象のファイルが一括Zip形式でダウンロードできます。

githubのdownloadボタン

この場合は、すべてのファイルをダウンロードしてしまいますので時間がかかります。

例えばその中の一つのデータのtime_series_covid19_confirmed_global.csvのみを使用したい場合の方法を紹介します。

github でリポジトリの中のファイルを見た時の Rawボタンを押す

time_series_covid19_confirmed_global.csvのページでRawボタンを押す。

githubのRawボタン

そのページのURLをコピーする

すると、‘Raw’ボタンを押して現れるページが出てきますのでこの URLをコピーします。これ がファイル単体の URL になっています

githubのRawページ

Jupyter notebook上で読み込む

先ほどコピーしたURLを以下のように[pd.read_csv()]の中に貼り付けます。

最後に これからエンジニア/データサイエンティストを目指す人へ

学習に用いるinputデータやあらかじめコードが入力されているサンプルファイルをダウンロードしてもその保存したフォルダの指定のファイルが開けなければ学習はそこでストップしてしまいます。学習するうえで必要な「ファイルの開き方」は基本中の基本ですので、ここでつまずくことなく自己学習をすすめていけたらと思います。

Jupyter notebookの基本は以下の記事で紹介してます。

また、既にJupyter notebookを使用していて学習を進めているかたは以下の記事も学習に役立つかと思いますので併せてご覧ください。

今回の情報が同じく人工知能を学んだりデータサイエンティストを目指している人の役に立てればなと思います。

データサイエンティストには高度な知識が要求されて、学習するのが大変!と思う人も多いかと思いますが、この記事で紹介されているように今後10年、20年先の鍵となる知識・技術です。

もし、独学での学習である程度の領域まで達成できた後は実践だ、という人やスクールに通ってもっと専門的な知識を学びたいという方には、以下のデータサイエンティスト向けの講座がおすすめです。なぜなら国の補助金制度を活用しながら自分の専門性を高めることができるからです。

自分に適した学習方法を確立させて将来のためのスキルアップを目指しましょう!

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

%d人のブロガーが「いいね」をつけました。