叶雨梧桐BLOG

Python爬虫实战:爬取伯乐在线python文章

发布时间:2015年12月22日 / 分类:Python / 吐槽

有码有真相

#coding:utf8

from bs4 import BeautifulSoup
import urllib2

#访问链接

def get_html_cont(root_url):

html_cont = urllib2.urlopen(root_url).read()

return html_cont

#获取文章列表

def get_article_list(html_cont):

data = BeautifulSoup(html_cont,'html5lib',from_encoding='utf-8')

data_list = data.find("div",class_="grid-8").find_all("a",class_="archive-title")

for artic in data_list:
    print artic.get_text(),artic['href'],"\n"

#爬去固定页面数
def get_all_page(start,end):

base_url = "http://python.jobbole.com/all-posts/page/"
for i in range(start,end):
    root_url="%s%d"%(base_url,i)
    print "======开始爬取第%d页内容======\n"%(i)
    html_cont = get_html_cont(root_url)
    get_article_list(html_cont)
    print "======第%d页爬取完成======\n"%(i)

if name == "main":

get_all_page(1,31)

标签:没有标签呢

版权声明:除特殊注明外,均由叶雨梧桐原创,转载请保留文章出处;
本文链接:http://gt520.com/py/344.html
订阅叶雨梧桐BLOG RSS
分类
最新文章
最近回复
  • 今日头条: 文章不错非常喜欢
  • 码客: 定时任务我直接用cron
  • 鸟叔: 此时此刻鸟叔想吟诗一首:梧桐夜雨涨秋迟……
  • 夏目贵志: 三年了后偶遇这博客了!
  • 钟水洲博客: 拜个早年
  • 鸟叔の窝: 最近一直在关注贵博客,加个友情链接可否?
  • 荆棘鸟: 请教博主 评论自动发邮件怎么弄 我的域名邮箱老是配置不成功咋回事?
  • thornbird: 为何这样麻烦 直接安装LNMP即可
  • 态度xiaomi: 支持下
  • 梦青年: 我的网站下线了,你可以把我的友链去掉了,感谢多年的支持和关注~ 梦青年。
归档