叶雨梧桐BLOG

Python爬虫实战:爬取伯乐在线python文章

发布时间:2015年12月22日 / 分类:Python / 吐槽

有码有真相

#coding:utf8

from bs4 import BeautifulSoup
import urllib2

#访问链接

def get_html_cont(root_url):

html_cont = urllib2.urlopen(root_url).read()

return html_cont

#获取文章列表

def get_article_list(html_cont):

data = BeautifulSoup(html_cont,'html5lib',from_encoding='utf-8')

data_list = data.find("div",class_="grid-8").find_all("a",class_="archive-title")

for artic in data_list:
    print artic.get_text(),artic['href'],"\n"

#爬去固定页面数
def get_all_page(start,end):

base_url = "http://python.jobbole.com/all-posts/page/"
for i in range(start,end):
    root_url="%s%d"%(base_url,i)
    print "======开始爬取第%d页内容======\n"%(i)
    html_cont = get_html_cont(root_url)
    get_article_list(html_cont)
    print "======第%d页爬取完成======\n"%(i)

if name == "main":

get_all_page(1,31)

标签:没有标签呢

版权声明:除特殊注明外,均由叶雨梧桐原创,转载请保留文章出处;
本文链接:http://gt520.com/py/344.html
订阅叶雨梧桐BLOG RSS
分类
最新文章
最近回复
  • 森七: 想转去ty,收藏了贵站肯定会用到 make
  • 寻芜兮: 博主您好,您写的《Xshell 进行科学上网的正确姿势》中图片已经挂掉了,可以再补档一次吗。
  • 天津网站建设: 感谢博主分享
  • 博客大全: 钻研精神会让你学到更多,加油!
  • 麦麦米: 不错的文章呢
  • 薇洛迪兰: 应该是服务器的问题吧
  • 关于我们: 弱弱的问下博主,接受友情链接吗?
  • 今日头条: 文章不错非常喜欢
  • 今日头条: 文章不错非常喜欢
  • 码客: 定时任务我直接用cron
归档