当前位置:首页--java爬虫

MinerUtil.java 爬虫工具类

 MinerUtil.java 爬虫工具类 package com.iteye.injavawetrust.miner; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.Outp......

阅读全文

Java网络蜘蛛/网络爬虫 Spiderman

 Spiderman - 又一个Java网络蜘蛛/爬虫 Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。 主要特点 * 灵活、可扩展性强,微内核+插件式架构,Spiderman提供了多达 10 个扩展点。横跨蜘蛛线程的整个生命周期。 * 通过简单的配置就可以将复杂的网页内容解析为自己需要的业务数据,无需编......

阅读全文

高效敏捷的Java爬虫框架SeimiCrawler示例

 SeimiCrawler是一个强大的,高效敏捷的,支持分布式的爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发很大,同时融合了Java语言本身特点与Sp......

阅读全文

【网络爬虫】【java】微博爬虫(三):庖丁解牛——HTML结构分析与正则切分

         在上一篇文章中已经通过请求的url地址把html页面爬取下来了,这里分别以网易微博的html和新浪微博的html为例来分析如何提取微博数据。 一、网易微博解析         相比新浪微博的html结构,网易微博的比较容易明显地看出来,也容易找到微博数据。查看其html结构不是网页里右键→“查看网页源代码”,那里的微博正文是以html标签形式显示的,而程序实际请求返回得到的html......

阅读全文

Java爬虫之下载全世界国家的国旗图片

 介绍   本篇博客将继续上一篇博客:Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗 的内容,将用Java来实现这个爬虫,下载全世界国家的国旗图片。项目不再过多介绍,具体可以参考上一篇博客。   我们将全世界国家的名称放在一个txt文件中,每一行一个国家名字,该文件位于E盘flag目录下,名称为countries.txt, 部分内容如下: 爬虫程......

阅读全文

基于HttpClient4.0的网络爬虫基本框架(Java实现)

 上个学期做了很久的新浪爬虫,修修改改一直没时间做个整理,趁着开学前,重新整理了下思路和代码结构,做一个总结吧。 本来是雄心壮志的想实现一个Java版本的、比较通用的爬虫框架的,但是整理后又发现此法真的是非常的简单粗暴,跟scrapy等没得比,其实没得比都是正常的啦,我自己本来就水,而且没有深入的去进行实现设计,所以,姑且总结一下当前的能力吧。 实现语言:Java 模拟HTTP请求:HttpClie......

阅读全文

java爬虫12306,爬取所有的站点和车次,并导入postgreSQL数据库

 准备 安装postgreSQL数据库,和可视化工具pgadmin3,或者其他数据库 实现功能,抓取12306全部的站点,并实现通过站点查询出所有经过次站点的车次,通过车次查出次列车经过的城市 分析 分析12306,找合适的接口,最符合要求的是查询车次的这张页面,但是有验证码,无形增加了难度 经过分析,合适的页面是车票预订的页面,查询两个站点直接的车次,用火狐自带的f12工具,点击查询清晰的看到只有......

阅读全文

Java分布式爬虫Nutch参数配置——http.content.limit

 对于大部分使用Nutch的用户来说,项目配置文件conf/nutch-default.xml中的http.content.limit是必须修改的参数,配置文件中对http.content.limit的默认配置如下:   http.content.limit   65536   The lengt......

阅读全文

用java写一个简单的爬虫示例

 一、基础知识   关于xml、html基本的标签标签文本知识 二、问题描述 完成一个单线程的爬虫程序。对给定的网址可以提取出其中所有的A标签中的包含的网址(href属性); 并根据这些网址再获得更多的网址。 要求:   输入参数:网址,最大采集的网页数量。 输出:采集的网页文件 三、代码 import java.io.*; import org.jsoup.Jsoup; import org.......

阅读全文

JAVA 爬虫Gecco

 主要代码: 1 Gecco(matchUrl="https://github.com/{user}/{project}", pipelines="consolePipeline") 2 public class MyGithub implements HtmlBean { 3 4 private static final long serialVersionUID......

阅读全文
1 2 3 4 下一页 尾页