您好,登錄后才能下訂單哦!
本篇文章為大家展示了R語言抓取網站數據,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
今天看到有人用Python爬取了鏈家網成都站的樓盤信息,我嘗試用R做了同樣的事情,具體代碼如下:
library(rvest)
url0 <- 'http://cd.fang.lianjia.com/loupan/'
name=area=price=type=address=status=NULL
for(i in 1:10)
{
url <- paste(url0,"pg",i,sep = '')
web <- read_html(url)
name <- c(name,web %>% html_nodes('div.info-panel') %>%
html_nodes('a') %>% html_text())
address <- c(address,web %>% html_nodes('div.info-panel') %>%
html_nodes('div.where') %>% html_nodes('span.region') %>%
html_text())
b=web %>% html_nodes('div.info-panel') %>% html_nodes('div.area')
are=rep(0,length(b))
for (i in 1:length(b))
{
if (str_length(b[i]) > 60){
are[i] = b[i]%>% html_nodes('span') %>% html_text()
}else{
are[i] = 0
}
}
area=c(area,ifelse(are=='0','0',unlist(str_extract(are,'[0-9]+~[0-9]+|[0-9]+'))))
a <- web %>% html_nodes('div.info-panel') %>% html_nodes('div.average')
price=rep(0,length(a))
for (i in 1:length(a))
{
if (str_length(a[i]) > 100){
price[i] = a[i]%>% html_nodes('span.num') %>% html_text()
}else{
price[i] = 0
}
}
price=c(price,price)
type <-c(type, web %>% html_nodes('div.info-panel') %>%
html_nodes('div.type') %>% html_nodes('span.live') %>% html_text())
status <-c(status, web %>% html_nodes('div.info-panel') %>%
html_nodes('div.type') %>% html_nodes('span.onsold') %>% html_text())
}
data=data.frame(name,address,area,price=as.numeric(price),type,status)
DT::datatable(data)
部分結果如下
然后又爬取了北京、上海、深圳、廣州等17個城市的新建樓盤,然后進行了分析
#雷達圖
#繪制面積圖
##條形圖
##層次聚類
##樓盤在哪里(有些坐標可能有誤,但總體趨勢還行)
上述內容就是R語言抓取網站數據,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業(yè)資訊頻道。
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。