Python3 urllib抓取指定URL的内容 - Mr_Tank_ - ITeye博客

`

Mr_Tank_

浏览: 21160 次
性别:

最近访客更多访客>>

wukun_kevin

javacold

w592376568

lu3180

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Python3 urllib抓取指定URL的内容

阅读更多

最近在研究Python，熟悉了一些基本语法和模块的使用；现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的，自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。

Python爬虫主要使用的是urllib模块，Python2.x版本是urllib2，很多博客里面的示例都是使用urllib2的，因为我使用的是Python3.3.2，所以在文档里面没有urllib2这个模块，import的时候会报错，找不到该模块，应该是已经将他们整合在一起了。

下面是一个简单的代码示例：

#encoding:UTF-8
import urllib.request
def getdata():
    url="http://www.baidu.com"
    data=urllib.request.urlopen(url).read()
    print(data)

getdata()

结果：

中文转码，修改一下代码：

#encoding:UTF-8
import urllib.request
def getdata():
    url="http://www.baidu.com"
    data=urllib.request.urlopen(url).read()
    z_data=data.decode('UTF-8')
    print(z_data)

getdata()

结果如下：

研究Python到现在有差不多一周的时间这样，由于是刚入门，所以还有多东西需要学习的。比如这里需要使用正则表达式提取数据还需要进一步学习。

好了，以后再慢慢研究。欢各路前辈指导。

分享到：

Python3 urllib GET方式获取数据 | 使用Maven构建Spring MVC项目的简单示例

2013-11-03 11:16
浏览 1987
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python爬虫 urllib2的使用方法详解: 所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载，导入即可使用) urllib2官网...

零基础写python爬虫之使用urllib2组件抓取网页内容: 所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端的响应资源。在Python中，我们...

Python3简单爬虫抓取网页图片代码实例: 现在网上有很多python2写的爬虫抓取网页图片的实例，但不适用新手（新手都使用python3环境，不兼容python2），所以我用Python3的语法写了一个简单抓取网页图片的实例，希望能够帮助到大家，并希望大家批评指正。 ...

python3用urllib抓取贴吧邮箱和QQ实例: #抓取贴吧页面数量信息 def gettiebalistnumbers(name): #计算搜索的关键词有多少页输入名字返回页数 url="https://tieba.baidu.com/f?" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) Apple...

python基于BeautifulSoup实现抓取网页指定内容的方法: 本文实例讲述了python基于BeautifulSoup实现抓取网页指定内容的方法。分享给大家供大家参考。具体实现方法如下： # _*_ coding:utf-8 _*_ #xiaohei.python.seo.call.me:) #win+python2.7.x import urllib2 from bs4...

python抓取360百科词条: 学习python一周，学着写了一个爬虫，用来抓取360百科的词条，在这个过程中，由于一个小小的改动，程序出现一些问题，又花了几天时间研究，问了各路高手，都没解决，最终还是自己解决了，其实就是对list列表理解不够...

Python爬虫抓取指定网页图片代码实例: 想要爬取指定网页中的图片主要需要以下三个步骤：（1）指定网站链接，抓取该网站的源代码（如果使用...import urllib.request # python自带的爬操作url的库 import re # 正则表达式 # 该方法传入url,返回url的html的

Python简单实现网页内容抓取功能示例: 本文实例讲述了Python简单实现网页内容抓取功能。分享给大家供大家参考，具体如下：使用模块： import urllib2 import urllib 普通抓取实例： #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2 url = ...

Python urllib、urllib2、httplib抓取网页代码实例: 使用urllib2，太强大了试了下用代理登陆拉取cookie，跳转抓图片…… 文档：http://docs.python.org/library/urllib2.html 直接上demo代码了包括：直接拉取，使用Reuqest(post/get),使用代理，cookie,跳转处理 #!/...

Python使用正则表达式抓取网页图片的方法示例: 本文实例讲述了Python使用正则表达式抓取网页图片的方法。分享给大家供大家参考，具体如下： #!/usr/bin/python import re import urllib #获取网页信息 def getHtml(url): page = urllib.urlopen(url) ...

Python使用urllib2模块抓取HTML页面资源的实例分享: 先把要抓取的网络地址列在单独的list文件中 //www.jb51.net/article/83440.html //www.jb51.net/article/83437.html //www.jb51.net/article/83430.html //www.jb51.net/article/83449.html 然后我们来看程序操作...

python使用自定义user-agent抓取网页的方法: 下面python代码通过urllib2抓取指定的url的内容，并且使用自定义的user-agent，可防止网站屏蔽采集器 import urllib2 req = urllib2.Request('http://192.168.1.2/') req.add_header('User-agent', 'Mozilla 5.10')...

使用Python的urllib和urllib2模块制作爬虫的实例教程: urllib 学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫课程后,将心得整理如下,供后续翻看....@ urllib为python自带的一个网络库 @ urlo

Python3学习urllib的使用方法示例: urllib是python的一个获取url(Uniform Resource Locators,统一资源定址符)了，可以利用它来抓取远程的数据进行保存，本文整理了一些关于urllib使用中的一些关于header,代理,超时,认证,异常处理处理方法。 1.基本方法...

Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理): 我们可以利用urllib来抓取远程的数据进行保存哦，以下是python3 抓取网页资源的多种方法，有需要的可以参考借鉴。 1、最简单 import urllib.request response = urllib.request.urlopen('http://python.org/') ...

python多线程抓取天涯帖子内容示例: 使用re, urllib, threading　多线程抓取天涯帖子内容，设置url为需抓取的天涯帖子的第一页，设置file_name为下载后的文件名复制代码代码如下:#coding:utf-8 import urllibimport reimport threadingimport os, ...

Python爬虫获取页面所有URL链接过程详解: 在Python中可以使用urllib对网页进行爬取，然后利用Beautiful Soup对爬取的页面进行解析，提取出所有的URL。什么是Beautiful Soup？ Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树...

Python使用urllib模块的urlopen超时问题解决方法: 在新的公司开始上班，今天工作的主题内容是市场部门需要抓取一些论坛用户的邮箱，以便发送营销邮件。于是用了一个python脚本来执行，前面抓了几个都没有什么问题，后来碰到一个论坛，在执行urlopen的地方总是提示...

python3使用urllib模块制作网络爬虫: 本文给大家介绍的是利用urllib模块通过指定的URL抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地，有需要的小伙伴可以参考下

Python入门网络爬虫之精华版: Python学习网络爬虫主要分3个大的版块：抓取，分析，存储另外，比较常用的爬虫框架Scrapy，这里最后也详细介绍一下。首先列举一下本人总结的相关文章，这些覆盖了入门网络爬虫需要的基本概念和技巧：宁哥的小站-...

Global site tag (gtag.js) - Google Analytics