使用Selenium渲染页面并提取数据 - Mr_Tank_ - ITeye博客

`

Mr_Tank_

浏览: 21245 次
性别:

最近访客更多访客>>

wukun_kevin

javacold

w592376568

lu3180

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

使用Selenium渲染页面并提取数据

阅读更多

最近使用java爬虫收集数据，遇到js动态数据的时候使用如jsoup是获取不到数据的，所以要先进行页面的渲染。

下面是以京东商城数据为例，使用Selenium需要先下好相应的驱动，我使用的是Chrome；还需要加入common-exec包

import org.openqa.selenium.By;

import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;


/**
 * Created with IntelliJ IDEA.
 * User: Mr_Tank_
 * Date: 13-11-29
 * Time: 下午9:52
 * To change this template use File | Settings | File Templates.
 */
public class seleniumTest {


    public static void main(String args[]){
        System.getProperties().setProperty("webdriver.chrome.driver", "E:\\driver\\chromedriver.exe");
        WebDriver webDriver =new ChromeDriver();
        webDriver.get("http://list.jd.com/9987-653-655-0-0-0-0-0-0-0-1-1-1-1-1-72-4137-33.html");

        WebElement webElement = webDriver.findElement(By.xpath("//div[@id='plist']"));

        System.out.println(webElement.getAttribute("outerHTML"));

        WebElement li=webElement.findElement(By.xpath("//li[@index='1']"));

        String name=li.findElement(By.xpath("//li[@index='1']//div[@class='p-name']/a")).getText();
        System.out.println("商品名:"+name);

        String price=li.findElement(By.xpath("//li[@index='1']//div[@class='p-price']/strong")).getText();
        System.out.println("价格:"+price);

        String eva=li.findElement(By.xpath("//li[@index='1']//span[@class='evaluate']/a[@target='_blank']")).getText();
        System.out.println("评价:"+eva);

        webDriver.close();
    }
}

结果：

分享到：

Windows下Redis2.6.12的使用 | Python3 自定义迭代器

2013-11-30 17:31
浏览 588
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python爬虫代码，用于处理带有动态加载内容的网页，其中使用了Requests、Selenium和BeautifulSoup: 这个示例代码适用于处理带有动态加载内容的网页，通过使用Selenium进行JavaScript渲染，确保获取到完整的页面内容，然后使用BeautifulSoup进行解析和数据提取。你可以根据需要进行进一步的数据处理和操作。

使用Python的Requests、Selenium和BeautifulSoup结合的爬虫示例代码，用于爬取带有分页的动态网页: 示例代码中，我们使用Selenium库创建一个浏览器驱动，并使用循环处理多个分页。...请注意，在处理分页时，我们通过循环遍历每个分页并使用Selenium加载渲染后的内容，以确保获取到每个分页的数据。

chromedriver.exe【版本：120.0.6099.35、谷歌浏览器驱动，自动化测试框架，Web自动化，浏览器交互】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver.exe执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

如何通过三个小项目入门Python爬虫.pdf: 2. 动态网页爬取,如使用Selenium获取JS渲染页面 3. 爬取图片,文件或API,处理各种数据格式这三个项目可以覆盖从简单到复杂的不同场景,让学习者快速熟悉正则表达式,Beautiful Soup,Selenium,请求模块等核心知识,并...

chromedriver.exe【版本：121.0.6167.16、谷歌浏览器驱动，自动化测试框架，Web自动化，浏览器交互】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver.exe执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

chromedriver.exe【版本：117.0.5938.22、谷歌浏览器驱动，自动化测试框架，Web自动化，浏览器交互】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver.exe执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

linux版chromedriver【版本：116.0.5845.96、64位、chrome驱动，自动化测试框架，Web自动化】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

chromedriver.exe【版本：120.0.6099.109、谷歌浏览器驱动，自动化测试框架，Web自动化】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver.exe执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

mac版chromedriver【版本：116.0.5845.96、arm64、chrome驱动，自动化测试框架，Web自动化】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

chromedriver.exe【版本：116.0.5845.96、win64位、谷歌浏览器驱动，自动化测试框架，Web自动化】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver.exe执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

mac版chromedriver【版本：116.0.5845.96、x64架构、谷歌浏览器驱动，自动化测试框架，Web自动化】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

chromedriver.exe【版本：116.0.5845.96、win32位、谷歌浏览器驱动，自动化测试框架，Web自动化】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver.exe执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

chromedriver.exe【版本：124.0.6367.91、谷歌浏览器驱动，自动化测试框架，Web自动化，浏览器交互】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver.exe执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

chromedriver.exe【版本：123.0.6312.122、谷歌浏览器驱动，自动化测试框架，Web自动化，浏览器交互】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver.exe执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

chromedriver.exe【版本：123.0.6312.105、谷歌浏览器驱动，自动化测试框架，Web自动化，浏览器交互】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver.exe执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

chromedriver.exe【版本：123.0.6312.86、谷歌浏览器驱动，自动化测试框架，Web自动化，浏览器交互】: 2. 网页抓取：可用于爬虫和数据抓取，模拟浏览器访问网页并提取所需数据。 3. 脚本执行：开发者可以使用chromedriver.exe执行浏览器相关的任务，如页面截图、页面渲染和自动化交互。【其他说明】 1. 版本兼容性：...

Global site tag (gtag.js) - Google Analytics