关键词挖掘平台及私有化工具

01-16 +关注
支持同时采集多个搜索引擎(已内置了百度,搜狗,360),结构模块化,很方便进行扩展,可以
地址: https://github.com/super-l/superl-url 地点: |国内| 变现: |白白|
内容形式: |其他|   终端UI: |PC|
|工具|
No.235
点击: 476

推荐理由: |工具|

N/P: 自然语言处理·HanLP/失信被执行人名单老赖中国最高裁判文书网

站点详情

>返回列表

关键词挖掘平台及私有化工具


战神 5118 熊猫 aizhan行业

  • 支持同时采集多个搜索引擎(已内置了百度,搜狗,360),结构模块化,很方便进行扩展,可以无限添加。

  • 获取到的是搜索引擎的搜索结果的真实URL地址

  • 跨平台,采用Python开发,所有代码完整开源.并且无捆绑后门风险,更新方便。网上大部分URL采集软件为WINDOWS下的可执行文件,并且很多都在搜索引擎更新后无法正常使用。

  • 强大的过滤功能。可过滤多种顶级域名,可过滤指定标题中包含某关键子的URL,比如搜索结果中过滤属于youku.com的子域名URL。支持TXT配置过滤。

  • 可自动去除重复URL

  • 可灵活的通过配置文件自定义要保存的结果格式。比如只输出带参数的原始真实URL,或者只输出域名,或者同时输出标题,搜索引擎名称。

  • 可灵活的开启与关闭参与采集的搜索引擎,比如只想使用百度

  • 同时兼容python3和python2版本运行!良心开源小产品啊~~~

  • 可分别自定义不同搜索引擎每页显示数量(如果搜索引擎自身支持的话)

  • 支持多进程同时采集,每个搜索引擎一个进程

  • 可自定义每页采集时间间隔,防止被屏蔽

  • 实时显示采集到的网页的【真实URL】以及【标题】。前面的【ID】对应的是当前页搜索引擎结果的第X条数据

  • 自动保存结果到result目录的txt文件,文件名为搜索的 关键词.txt