星期日, 四月 24, 2011

R语言中如何调用世界银行数据来比较金砖五国的GDP

将数据进行可视化是探索分析的首要步骤。R语言中有两大高级绘图扩展包,即是lattice与ggplot2。它们各自都有很强的绘图能力。不过只有工具是不够的,巧妇难为无米之炊,你还得有数据。World Bank Data是世界银行组织构建的一个开放数据库,其中包括了世界各国关于经济、环境、人口等信息。数据获取的一种方法是从其网站上下载数据再导入R软件,另一种是利用WDI扩展包,直接读取想要的数据。

下面我们用WDI包的WDI函数,将中国、俄罗斯、南非、印度、巴西这五国的GDP数据载入内存,选取的时间为1990-2009年,在选择国家时需使用ISO-2标准的国家代码,数据指标是世界银行的特定编码,你可以通过WDIsearch("gdp")命令来得到所有关于GDP的编码。

---------------
library(ggplot2)
library(WDI)

DF = WDI(country=c("CN","RU","BR","ZA","IN"),
          indicator="NY.GDP.MKTP.KD.ZG",
          start=1990, end=2010)
head(DF)
---------------

   country iso2c year NY.GDP.MKTP.KD.ZG
63  Brazil    BR 1990        -4.3000000
62  Brazil    BR 1991         1.5120675
61  Brazil    BR 1992        -0.4669149
60  Brazil    BR 1993         4.6651509
59  Brazil    BR 1994         5.3343599
58  Brazil    BR 1995         4.4168320


然后用ggplot2包来绘图,以不同颜色来区分不同国家的数据
---------------
ggplot(DF, aes(year, NY.GDP.MKTP.KD.ZG, color=country))+
  geom_line()+geom_point()+xlab("Year")+
  opts(title="Annual GDP Growth rate (%)")+ylab("")
---------------

没有评论:

发表评论