搜索资源列表
usdsi
- 本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。 如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。 配置文件采用ini的格式. spider_config.ini蜘蛛的配置 1. maxThreads 爬虫的线程数 2. startURL 爬虫开始的URL 3. checkFilter 爬虫只抓取指定的URL(采用正则表达式匹配) 4. urlFilter 爬虫提供给分析器的URL(采用正则表达式匹配) sucker
本站作为网络服务提供者,仅为网络服务对象提供信息存储空间,仅对用户上载内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。