Pandas基本操作とデータの書き読み

Pandas基本操作とデータの書き読み

前回同様、機械学習の基礎を強くするために、今回はPandasの基本操作を改めてまとめていきます。

今回のゴールは、自分で作ったCSVファイルのデータを編集して、再度アップロードするところまでをやっていこうと思います!

Pandasとは

Pandasとは、Numpyと同じような、Pythonのライブラリで、主にデータ解析の時に用いられます。

今回改めて確認する、データの整理や準備などをするときに、使います。

Google Colaboratoryがとてもとても便利だから、今回も使っていこうと思います。

使う前にちゃんとインポートしておきます

import pandas as pd

型の整理

Pandasには2種類の型が存在していて、Seires型とDataFrame型に分類することができます。

Series型

行列の「列」のこと。1次元データとも呼ぶ。

数学の数列ということばも、英訳すると数列と訳すので、Seriesというのは列。と印象付けておくと応用が利く。

Ex)

s = pd.Series("New York","Tokyo","London")
s

こちらの出力は

0 New York
1 Tokyo
2 Paris
3 London

このような形になります。

DataFrame型

Series型が複数集まったものをDataFrame型といいます。

こちらは、Series型に対して、2次元データと呼ばれます(複数の行と列)

つまり、DataFrame型から、1つのカラムを取り出すとSeries型になります。

Ex)

df = pd.DataFrame({"city": ["New York", "Tokyo", "Paris", "London"], 
                   "country": ["USA", "Japan", "France", "UK"],
                   "city_population": [8623000, 9273000, 2141000, 8136000],
                   "country_population": [327200000, 126800000, 66990000, 66040000]})

df

こちらは以下のように出力されます。

city country city_population country_population
0 New York USA 8623000 327200000
1 Tokyo Japan 9273000 126800000
2 Paris France 2141000 66990000
3 London UK 8136000 66040000

データの読み込み

CSVファイルを読み込むときはpd.read_csv()関数を使います。

引数にはファイルのパスを与えます。

google colabolatory上でファイルを読み込む場合は以下の手順を踏みます

①データの用意。
②google colabolatory上にファイルのアップロード
③関数を使って読み込み

ではやっていきます。

①データの用意

こちらは、今回は、僕が勉強しているプラットフォームで用意されたCSVファイルを使用します。

②google colabolatoryへアップロード

CSVファイルがPC上にあるだけの状態では、google colabolatoryで使用することができません。なので、左側のタブから、アップロードします。

そうすると、ファイルのアップロードという箇所があるのでそこからアップロードすればOKです。

こんな形で入っていれば完璧。

関数を使って読み込み

その後、

cities_df = pd.read_csv("cities.csv")

と記述すれば、読み込むことができます。

表示には、head()関数を使ってあげると見やすくて便利です。

こんな感じならOK

データの書き出し

データの書き出しにはto_csv()関数を用います。

引数に指定するのは、書き出したいファイルの名前です。

cities_df.to_csv("cities_df.csv", index=False)

こうすると、先ほど確認した作業ディレクトリに新しいファイルができているのが確認できます。

データの確認

データの確認には、describe()関数が便利です。

便利すぎてびっくりしました本当に。笑

また、info()関数でも確認できるので、どちらも出力を確認しておきます。

さっきのデータフレームを確認してみます。

info()関数

まず7行のデータが含まれていることがわかり、カラムそれぞれのデータ名もwかるようになります。

データの型もわかっちゃいますね

describe()関数

これは、データ数や平均値、標準偏差や、四分位数がわかります。

便利すぎる。

今日はこんな感じです!

Numpyの基本的な使い方を確認しておきました。