首页 > 生活服务 > 程序猿源

程序猿源

最简单的爬虫

一碗稀饭 3年前 1988浏览
# -*- coding: utf-8 -*-

import urllib.request
import re

#该函数用于获取html内容
#使用到urlopen的函数
def getHtml(url):
    page = urllib.request.urlopen(url)
    #3.0直接使用read()函数会出现报错,提示是编码有问题。在后面加上编码就ok了。
    html = page.read().decode("utf-8")
    return html

def getImg(html):
    #reg为正则替换,这边是根据贴吧的帖子的图片在html中的状态拼的,只适用于贴吧帖子下图
    #正则的详细教程见:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
    reg = r'href="(.+?\.css)"'
    #compile比较简单的解释是制作一个漏斗,规则如reg,只有符合的才能够通过。
    imgre = re.compile(reg)
    imgList = re.findall(imgre, html)
    x = 0
    for imgurl in imgList:
        #print ("for test %s" % x) 查看是否走到循环用的print
        #urlretrieve() 方法直接将远程数据下载到本地
        urllib.request.urlretrieve(imgurl,'%s.css' % x)
        x += 1

#html变量定义一个需要读取的网址,这边选择的是某个贴吧的帖子。
html = getHtml("https://mac.macxf.com/ftlist/1_1.html")
#执行操作
getImg(html)

print("all over!")



版权声明:本文为原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
关注微信公众号:"cq_xifan";

评论

收藏

评论列表

  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

Powered By 重庆饭哥 © 2014-2022 教学资源分享站 渝ICP备20005643号-1

相信有一天,理想主义终将所向披靡.

Design by © 2021 XIFAN. Powered by 重庆饭哥

站点声明: 本站转载作品版权归原作者及来源网站所有,原创内容作品版权归作者所有,任何内容转载、商业用途等均须联系原作者并注明来源。

友情链接: 官方网站 饭哥在线工具 饭哥导航 在线运行 博客交流社区 重庆艺术工程职业学院