Analisis数据Eksplorasi-Bagian 3

Analisis数据Eksplorasi-Bagian 1

Analisis数据Eksplorasi — Bagian 2

Analisis数据Eksplorasi-Bagian 3

卡苏斯3

吉卡·尼莱·拉塔拉·凯洛姆波克A,莱比赫·贝萨·达里·凯洛姆帕克B,apakah hal tersebut menandakan Diskusikan下颚骨setelah menyelesaikan langkah-langkah berikut!

兰卡1

Asumsikan kita memiliki 2 名单 angka,X dan Y,正常分布。 X dan Y memiliki nilai simpangan baku yaitu 1,纳蒙·拉塔拉塔X berbeda dari rata-rata Y. Jika selisih rata-rata X丹甘拉塔-拉塔Y lebih besar dari 0 dan a adalah nilai titik potong,bagaimana proporsi X> a dibanding Y> a?

bubu sebuah 函数的性能比2的比例:Pr(X> a)/ Pr(Y> a)merupakan 函数的选择比例X和比例比例Y。

Asumsikan Y berdistribusi正态平均数为0。

坦皮尔坎库尔瓦·瑟里斯·尼莱

 在[1]中: 
将numpy导入为np
将熊猫作为pd导入
导入matplotlib.pyplot作为plt
  “” 
功能
--------
比例法线

返回2个比例的rasio:
Pr(X> a)/ Pr(Y> a)merupakan函数
瑟莉丝·拉塔拉塔X
丹拉塔拉塔河
  参数 
----------
差异:selisih rata-rata X
丹拉塔拉塔河
一个:nilai titik potong

返回
-------
Mengembalikan rasio 2 proporsi:
Pr(X> a)/ Pr(Y> a)

康托
-------
>>> ratioNormals(diff = 1,a = 2)
“”

def ratioNormals(diff,a):
X = scipy.stats.norm(loc = diff,scale = 1)
Y = scipy.stats.norm(loc = 0,scale = 1)
返回 X.sf(a)/ Y.sf(a)
 在[2]中: 
#beri nilai diff dengan range 0 sampai 5 sebanyak 50 kali
差异= np.linspace(0,5,50)
a_values = range(2,6)

#Buat plot库尔瓦
#Pr(X> a)/ Pr(Y> a)阿达拉函数diff
#untuk semua nilai a
plt.figure(figsize =(8,5));
对于 a_values 中的 a:
ratios = [RiffNormals(diff,a) for diff 中的差异]
plt.plot(差异,比率)

# 标签
plt.legend([[a = {} “ .format(a) for a_values],loc = 0);
plt.xlabel('Diff');
plt.ylabel('Pr(X> a)/ Pr(Y> a)');
plt.title('Pr(X> a)与Pr(Y> a)的比值与Diff的关系');

#Gunakan skala log sehingga kurva bisa terlihat secara aktual
plt.yscale('log')

兰卡2

《个人概观》第2篇:亚洲和美国的Selatan。 数据杨digunakan dapat dilihat pada artikel sebelumnya。 Perkirakan rata-rata pendapatan per individu dari setiap negara yang ada di 2 wilayah tersebut。 Wilayah mana yang memiliki pendapatan perdividu lebih besar di antara negara-negara di wilayah tersebut。 Misalkan Pada Tahun 2012年。

 在[3]中: 
merged = mergeByYear(2012).groupby('Region',as_index = False ).mean()
合并= merged.loc [(merged.Region ==“ ASIA”)| (merged.Region ==“南美”)]
merged.Income = np.round(merged.Income,2)
合并

亚洲memiliki pendapatan lebih besar dibandingkan dengan亚洲Selatan。 Kita juga bisa membuat boxplot untuk mengetahui distribution pendapatan 2 benua dengan skala dollar dan log10(dollar)。

 在[4]中: 
df = mergeByYear(2012)
df = df.loc [(df.Region ==“ ASIA”)| (df.Region ==“ SOUTH AMERICA”)]
df.boxplot('Income',by ='Region',rot = 90)
plt.ylabel('每人收入(美元)')

 在[5]中: 
df = mergeByYear(2012)
df = df.loc [(df.Region ==“ ASIA”)| (df.Region ==“ SOUTH AMERICA”)]
df.boxplot('Income',by ='Region',rot = 90)
plt.ylabel('每人收入(log10等级)')
plt.yscale('log')

兰卡3

Hitung proporsi negara dengan pendapatan每张单价10.000美元。 Wilayah mana yang memiliki proporsi lebih besar untuk negara dengan pendapatan perdividu yang lebih dari 10.000 dollar? 杰卡·卡班巴班娜(Jikajawabannya)berbeda丹根·卡巴班帕达·兰卡2(jekakan alasannya)! 塔尔(Misalkan tahun),2012年。

 在[6]中: 
def ratioCountries(groupedData,a):
prop = [len(group.Income [group.Income> = a])/ float(len(group.Income.dropna())) for groupedData中的键,组]
z = pd.DataFrame(groupedData.mean()。index,列= ['Region'])
z ['Mean'] = np.round(groupedData.mean()。values,2)
z ['P(X> %g )'%a] = np.round(prop,4)
返回 z

df = mergeByYear(2012).groupby('Region')
df_ratio = ratioCountries(df,1e4)
df_ratio = df_ratio [(df_ratio.Region =='ASIA')| (df_ratio.Region =='SOUTH AMERICA')]
df_ratio

Amerika Selatan memiliki proporsi lebih besar untuk negara dengan pendapatan lebih dari 10.000美元Dibanding dengan亚洲。 2。卡雷娜·亚洲·泰达克·梅米利基(Karena Asia tidak memiliki)正常分布。