【Python】pandasのDataframe操作 - 2歩戻ったら2.5歩進みたい

どうもこんにちは。きゃにすたーです。

Pythonのデータ解析ライブラリであるpandasを使ったファイル操作で自分が使ったものをまとめました。雑多に使ったものをまとめたのでちょくちょく追記していきたい。間違いなどあればご指摘ください。バージョンはPython 3.6.3です。

$ python -V
$ Python 3.6.3 :: Anaconda, Inc.

.drop_duplicates(subset='カラム名')

df.drop_duplicates(subset='開始日') #日付が重複しているレコードは削除

指定したカラム(subset)において重複した値を持つレコードを削除する。

.merge(DataFrame, DataFrame, on= キーとするカラム名)

df1とdf2がkeysカラムをキーに持つ場合、

df3 = pd.merge(df1,df2,on='keys')

これで結合できる。結合の仕方は指定しなければ内部結合。

howにleftやright、outerを入れれば左側・右側・外部結合される。

.fillna(埋める値) column1の値が欠損したレコードを0で埋める場合、

data_bin['column1'] = data_bin['column1'].fillna(0)

これで0埋めできる。

書いている時、以下のように書いてしまってちょっとハマった。

data_bin = data_bin['column1'].fillna(0)

要するに列を指定して代入する方法が分からなかっただけなのだが、こう書いてしまうと、欠損値を持つレコードの全カラムが0で埋まってしまう。

df['column1'] = df['column1'].where(df1['column1'] == 0, 1)

ちょっとややこしいのだが、 .where(trueの時に元の値を残す条件,false時の値) で条件を指定して書き換えができる。

上の書き方をした時はcolumn1が欠損値を0で埋めている状態だったので、

0以外の値が入っているフィールドは全て1に書き換える、という感じ。

.where()で置換する時は新しいDataFrameを返すので、代入しないといけない。

.rename(columns={リネーム前,リネーム後})

df1 = df1(columns={'column1':'column_renamed'})

なんということはない。

この書き方は列を指定しているが、

df1.columns = ['column1','column2']

こう書くと頭のカラムから書き換えられる。

レコードを削除する場合：.drop('インデックス')

カラムを削除する場合：.drop('カラム名',axis=1)

df1 = df1.drop('1') #インデックスが1のレコードを削除

df1 = df1.drop('date',axis=1) #date列を削除

axisはデフォルト値が0なので、何も入れなければインデックスを指定してレコードを削除する。また、リスト形式で列名orインデックスを渡せば複数を一括で削除できる。

df2 = df1[['column1','column2']]

ピンとこなくて15分ぐらいハマったもののなんということはない。

df[カラム名]なのをリストで一括指定しているだけ。

とりあえず使ったものを雑多に並べてみた。初めてコーディングについて書いたので不得手なところもあるがこれからも定期的に書いていきたい。