Python 資料處理筆記 - 使用Panda進行數據處理

Yanwei Liu
3 min readNov 22, 2018

GitHub Repo: https://github.com/e96031413/Python-PM2.5-DataAnalyzing

20210915更新:4個用來處理大資料集的Libraries
4 Python Libraries that Make It Easier to Work with Large Datasets

20210803更新:25個你可能不知道的pandas函式:
25 Pandas Functions You Didn’t Know Existed | P(Guarantee) = 0.8 | Towards Data Science

20210904更新:9個value_counts()的使用方式
9 Pandas value_counts() tricks to improve your data analysis | by B. Chen | Towards Data Science

先備知識

Rows為行(上到下)=0
Columns為列(左到右)=1
讀檔
df = pd.read_csv('./csv檔案位置') #可讀CSV和txt檔案
df = pd.read_csv('./csv檔案位置',header=None) #如果想要自行設定標題列(最左列),應該先將header設定為None,再自行指定Column為header
df = pd.read_excel('./xlsx檔案位置')
df = pd.read_html('./html檔案位置') #html中的表格
df = pd.read_json('./json檔案位置')
df = pd.read_sql('./sql檔案位置')
df = pd.read_clipboard('網址或剪貼簿') #讀取網頁表格或剪貼簿的內容

初始化

import pandas as pd #引入Pandas模組 as pd
import matplotlib.pyplot as plt
pd.set_option("display.max_rows", 1000) #設定最大能顯示1000rows
pd.set_option("display.max_columns", 1000) #設定最大能顯示1000columns
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['Microsoft YaHei']
# 指定默認字形:解決plot不能顯示中文問題
mpl.rcParams['axes.unicode_minus'] = False

讀取檔案

以OpenData的AQI資料為例:https://opendata.epa.gov

--

--

No responses yet