`
Mr_Tank_
  • 浏览: 21160 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

Python3 urllib抓取指定URL的内容

 
阅读更多

最近在研究Python,熟悉了一些基本语法和模块的使用;现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的,自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。

Python爬虫主要使用的是urllib模块,Python2.x版本是urllib2,很多博客里面的示例都是使用urllib2的,因为我使用的是Python3.3.2,所以在文档里面没有urllib2这个模块,import的时候会报错,找不到该模块,应该是已经将他们整合在一起了。

下面是一个简单的代码示例:

#encoding:UTF-8
import urllib.request
def getdata():
    url="http://www.baidu.com"
    data=urllib.request.urlopen(url).read()
    print(data)

getdata()

结果:


中文转码,修改一下代码:

#encoding:UTF-8
import urllib.request
def getdata():
    url="http://www.baidu.com"
    data=urllib.request.urlopen(url).read()
    z_data=data.decode('UTF-8')
    print(z_data)

getdata()

结果如下:



研究Python到现在有差不多一周的时间这样,由于是刚入门,所以还有多东西需要学习的。比如这里需要使用正则表达式提取数据还需要进一步学习。

好了,以后再慢慢研究。欢各路前辈指导。

分享到:
评论

相关推荐

    Python爬虫 urllib2的使用方法详解

    所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载,导入即可使用) urllib2官网...

    零基础写python爬虫之使用urllib2组件抓取网页内容

    所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。  类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 在Python中,我们...

    Python3简单爬虫抓取网页图片代码实例

    现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。 ...

    python3用urllib抓取贴吧邮箱和QQ实例

    #抓取贴吧页面数量信息 def gettiebalistnumbers(name): #计算搜索的关键词有多少页 输入名字 返回页数 url="https://tieba.baidu.com/f?" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) Apple...

    python基于BeautifulSoup实现抓取网页指定内容的方法

    本文实例讲述了python基于BeautifulSoup实现抓取网页指定内容的方法。分享给大家供大家参考。具体实现方法如下: # _*_ coding:utf-8 _*_ #xiaohei.python.seo.call.me:) #win+python2.7.x import urllib2 from bs4...

    python抓取360百科词条

    学习python一周,学着写了一个爬虫,用来抓取360百科的词条,在这个过程中,由于一个小小的改动,程序出现一些问题,又花了几天时间研究,问了各路高手,都没解决,最终还是自己解决了,其实就是对list列表理解不够...

    Python爬虫抓取指定网页图片代码实例

    想要爬取指定网页中的图片主要需要以下三个步骤: (1)指定网站链接,抓取该网站的源代码(如果使用...import urllib.request # python自带的爬操作url的库 import re # 正则表达式 # 该方法传入url,返回url的html的

    Python简单实现网页内容抓取功能示例

    本文实例讲述了Python简单实现网页内容抓取功能。分享给大家供大家参考,具体如下: 使用模块: import urllib2 import urllib 普通抓取实例: #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2 url = ...

    Python urllib、urllib2、httplib抓取网页代码实例

    使用urllib2,太强大了 试了下用代理登陆拉取cookie,跳转抓图片…… 文档:http://docs.python.org/library/urllib2.html 直接上demo代码了 包括:直接拉取,使用Reuqest(post/get),使用代理,cookie,跳转处理 #!/...

    Python使用正则表达式抓取网页图片的方法示例

    本文实例讲述了Python使用正则表达式抓取网页图片的方法。分享给大家供大家参考,具体如下: #!/usr/bin/python import re import urllib #获取网页信息 def getHtml(url): page = urllib.urlopen(url) ...

    Python使用urllib2模块抓取HTML页面资源的实例分享

    先把要抓取的网络地址列在单独的list文件中 //www.jb51.net/article/83440.html //www.jb51.net/article/83437.html //www.jb51.net/article/83430.html //www.jb51.net/article/83449.html 然后我们来看程序操作...

    python使用自定义user-agent抓取网页的方法

    下面python代码通过urllib2抓取指定的url的内容,并且使用自定义的user-agent,可防止网站屏蔽采集器 import urllib2 req = urllib2.Request('http://192.168.1.2/') req.add_header('User-agent', 'Mozilla 5.10')...

    使用Python的urllib和urllib2模块制作爬虫的实例教程

    urllib 学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫课程后,将心得整理如下,供后续翻看....@ urllib为python自带的一个网络库 @ urlo

    Python3学习urllib的使用方法示例

    urllib是python的一个获取url(Uniform Resource Locators,统一资源定址符)了,可以利用它来抓取远程的数据进行保存,本文整理了一些关于urllib使用中的一些关于header,代理,超时,认证,异常处理处理方法。 1.基本方法...

    Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理)

    我们可以利用urllib来抓取远程的数据进行保存哦,以下是python3 抓取网页资源的多种方法,有需要的可以参考借鉴。 1、最简单 import urllib.request response = urllib.request.urlopen('http://python.org/') ...

    python多线程抓取天涯帖子内容示例

    使用re, urllib, threading 多线程抓取天涯帖子内容,设置url为需抓取的天涯帖子的第一页,设置file_name为下载后的文件名 复制代码 代码如下:#coding:utf-8 import urllibimport reimport threadingimport os, ...

    Python爬虫获取页面所有URL链接过程详解

    在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL。 什么是Beautiful Soup? Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树...

    Python使用urllib模块的urlopen超时问题解决方法

    在新的公司开始上班,今天工作的主题内容是市场部门需要抓取一些论坛用户的邮箱,以便发送营销邮件。 于是用了一个python脚本来执行,前面抓了几个都没有什么问题,后来碰到一个论坛,在执行urlopen的地方总是提示...

    python3使用urllib模块制作网络爬虫

    本文给大家介绍的是利用urllib模块通过指定的URL抓取网页内容 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地,有需要的小伙伴可以参考下

    Python入门网络爬虫之精华版

    Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。 首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:宁哥的小站-...

Global site tag (gtag.js) - Google Analytics