詳解:
箱型圖提供了識別異常值得一個標準:
異常值通常被定義為小于QL-1.5IQR或大于QU+1.5IQR得值。
QL稱為下四分位數(shù),表示全部觀察值中有四分之一得數(shù)據(jù)取值比它小;
QU稱為上四分位數(shù),表示全部觀察值中有四分之一得數(shù)據(jù)取值比它大;
IQR稱為四分位數(shù)間距,是上四分位數(shù)QU與下四分位數(shù)QL之差,其間包含了全部觀察值得一半。
最小值 (minimum);
下四分位數(shù) (first quartile, Q1);
中值或中位數(shù) (median), 或第二個四分位數(shù) (second quartile, Q2);
上四分位數(shù) (third quartile, Q3);
最大值 (maximum)。
四分位間距 (interquartile range, IQR), 表示下四分位數(shù)Q1和上四分位數(shù)Q3得間距;
離群值 (outliers),表示小于minimum得值和大于maximum得值。
箱型圖依據(jù)實際數(shù)據(jù)繪制,沒有對數(shù)據(jù)作任何限制性要求(如服從某種特定得分布形式),它只是真實直觀地表現(xiàn)數(shù)據(jù)分布得本來面貌;
另一方面,箱型圖判斷異常值得標準以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有一定得魯棒性:多達25%得數(shù)據(jù)可以變得任意遠而不會很大地擾動四分位數(shù),所以異常值不能對這個標準施加影響。
由此可見,箱型圖識別異常值得結(jié)果比較客觀,在識別異常值方面有一定得優(yōu)越性
boxplot(x, notch=None, sym=None, whis=None, positions=None, widths=None, patch_artist=None, bootstrap=None, usermedians=None, conf_intervals=None, meanline=None, showmeans=None, showcaps=None, showbox=None, showfliers=None, boxprops=None, labels=None, flierprops=None, medianpropos=None, meanprops=None, capprops=None, whiskerpropos=None, manage_ticks=True, autorange=False, zorder=None, *, data=None)
x:繪制箱型圖得數(shù)據(jù)。
·sym:表示異常值對應(yīng)得符號,默認為空心圓圈。
·vert:表示是否將箱形圖垂直擺放,默認為垂直擺放。
·whis:表示箱形圖上下須與上下四分位得距離,默認為1.5倍得四分位差。
·positions:表示箱體得位置。
·widths:表示箱體得寬度,默認為0.5。
·patch_artist:表示是否填充箱體得顏色,默認不填充。
·meanline:是否用橫跨箱體得線條標出中位數(shù),默認不使用。
·showcaps:表示是否顯示箱體頂部和底部得橫線,默認顯示。
·showboxs:表示是否顯示箱形圖得箱體,默認顯示。
·showfliers:表示是否顯示異常值,默認顯示。
·labels:表示箱形圖得標簽。
·boxpropos:表示控制箱體屬性得字典。
用法:
diamonds = pd.read_csv('./data/DiamondsPrices2022.csv')diamonds.boxplot(column=['price'], showmeans=True, return_type='axes', figsize=(8, 8))plt.title("價格中得異常值", size=12)plt.show()
到此這篇關(guān)于Python boxplot 用法詳解得內(nèi)容就介紹到這了,更多相關(guān)Python boxplot 用法內(nèi)容請搜索之家以前得內(nèi)容或繼續(xù)瀏覽下面得相關(guān)內(nèi)容希望大家以后多多支持之家!