Analisis数据Eksplorasi-Bagian 3 小小书 XXshu

Analisis数据Eksplorasi-Bagian 1

Analisis数据Eksplorasi — Bagian 2

Analisis数据Eksplorasi-Bagian 3

卡苏斯3

吉卡·尼莱·拉塔拉·凯洛姆波克A，莱比赫·贝萨·达里·凯洛姆帕克B，apakah hal tersebut menandakan Diskusikan下颚骨setelah menyelesaikan langkah-langkah berikut！

兰卡1

Asumsikan kita memiliki 2 名单 angka，X dan Y，正常分布。 X dan Y memiliki nilai simpangan baku yaitu 1，纳蒙·拉塔拉塔X berbeda dari rata-rata Y. Jika selisih rata-rata X丹甘拉塔-拉塔Y lebih besar dari 0 dan a adalah nilai titik potong，bagaimana proporsi X> a dibanding Y> a？

bubu sebuah 函数的性能比2的比例：Pr（X> a）/ Pr（Y> a）merupakan 函数的选择比例X和比例比例Y。

Asumsikan Y berdistribusi正态平均数为0。

坦皮尔坎库尔瓦·瑟里斯·尼莱

 在[1]中： 
 将numpy导入为np 
 将熊猫作为pd导入 
 导入matplotlib.pyplot作为plt

  “” 
  功能 
  -------- 
  比例法线 

  返回2个比例的rasio： 
  Pr（X> a）/ Pr（Y> a）merupakan函数 
  瑟莉丝·拉塔拉塔X 
  丹拉塔拉塔河

  参数 
  ---------- 
  差异：selisih rata-rata X 
  丹拉塔拉塔河 
  一个：nilai titik potong 

  返回 
  ------- 
  Mengembalikan rasio 2 proporsi： 
  Pr（X> a）/ Pr（Y> a） 
    
  康托 
  ------- 
  >>> ratioNormals（diff = 1，a = 2） 
  “” 

  def ratioNormals（diff，a）： 
  X = scipy.stats.norm（loc = diff，scale = 1） 
  Y = scipy.stats.norm（loc = 0，scale = 1） 
  返回 X.sf（a）/ Y.sf（a）

 在[2]中： 
  ＃beri nilai diff dengan range 0 sampai 5 sebanyak 50 kali 
 差异= np.linspace（0，5，50） 
  a_values = range（2,6） 

  ＃Buat plot库尔瓦 
  ＃Pr（X> a）/ Pr（Y> a）阿达拉函数diff 
  ＃untuk semua nilai a 
  plt.figure（figsize =（8,5））; 
  对于 a_values 中的 a： 
  ratios = [RiffNormals（diff，a） for diff 中的差异] 
  plt.plot（差异，比率） 

  ＃ 标签 
  plt.legend（[[a = {} “ .format（a） for a_values]，loc = 0）; 
  plt.xlabel（'Diff'）; 
  plt.ylabel（'Pr（X> a）/ Pr（Y> a）'）; 
  plt.title（'Pr（X> a）与Pr（Y> a）的比值与Diff的关系'）; 

  ＃Gunakan skala log sehingga kurva bisa terlihat secara aktual 
  plt.yscale（'log'）

兰卡2

《个人概观》第2篇：亚洲和美国的Selatan。数据杨digunakan dapat dilihat pada artikel sebelumnya。 Perkirakan rata-rata pendapatan per individu dari setiap negara yang ada di 2 wilayah tersebut。 Wilayah mana yang memiliki pendapatan perdividu lebih besar di antara negara-negara di wilayah tersebut。 Misalkan Pada Tahun 2012年。

 在[3]中： 
  merged = mergeByYear（2012）.groupby（'Region'，as_index = False ）.mean（） 
 合并= merged.loc [（merged.Region ==“ ASIA”）|  （merged.Region ==“南美”）] 
  merged.Income = np.round（merged.Income，2） 
 合并

亚洲memiliki pendapatan lebih besar dibandingkan dengan亚洲Selatan。 Kita juga bisa membuat boxplot untuk mengetahui distribution pendapatan 2 benua dengan skala dollar dan log10（dollar）。

 在[4]中： 
  df = mergeByYear（2012） 
  df = df.loc [（df.Region ==“ ASIA”）|  （df.Region ==“ SOUTH AMERICA”）] 
  df.boxplot（'Income'，by ='Region'，rot = 90） 
  plt.ylabel（'每人收入（美元）'）

 在[5]中： 
  df = mergeByYear（2012） 
  df = df.loc [（df.Region ==“ ASIA”）|  （df.Region ==“ SOUTH AMERICA”）] 
  df.boxplot（'Income'，by ='Region'，rot = 90） 
  plt.ylabel（'每人收入（log10等级）'） 
  plt.yscale（'log'）

兰卡3

Hitung proporsi negara dengan pendapatan每张单价10.000美元。 Wilayah mana yang memiliki proporsi lebih besar untuk negara dengan pendapatan perdividu yang lebih dari 10.000 dollar？杰卡·卡班巴班娜（Jikajawabannya）berbeda丹根·卡巴班帕达·兰卡2（jekakan alasannya）！塔尔（Misalkan tahun），2012年。

 在[6]中： 
  def ratioCountries（groupedData，a）： 
  prop = [len（group.Income [group.Income> = a]）/ float（len（group.Income.dropna（））） for groupedData中的键，组] 
  z = pd.DataFrame（groupedData.mean（）。index，列= ['Region']） 
  z ['Mean'] = np.round（groupedData.mean（）。values，2） 
  z ['P（X> ％g ）'％a] = np.round（prop，4） 
  返回 z 

  df = mergeByYear（2012）.groupby（'Region'） 
  df_ratio = ratioCountries（df，1e4） 
  df_ratio = df_ratio [（df_ratio.Region =='ASIA'）|  （df_ratio.Region =='SOUTH AMERICA'）] 
  df_ratio

Amerika Selatan memiliki proporsi lebih besar untuk negara dengan pendapatan lebih dari 10.000美元Dibanding dengan亚洲。 2。卡雷娜·亚洲·泰达克·梅米利基（Karena Asia tidak memiliki）正常分布。