webant pom

a distribution crawler.

License

License

Categories

Categories

Ant Build Tools
GroupId

GroupId

org.webant
ArtifactId

ArtifactId

webant
Last Version

Last Version

1.0.0
Release Date

Release Date

Type

Type

pom
Description

Description

webant pom
a distribution crawler.
Source Code Management

Source Code Management

https://github.com/sutine/webant

Download webant

Filename Size
webant-1.0.0.pom 20 KB
Browse

How to add to project

<!-- https://jarcasting.com/artifacts/org.webant/webant/ -->
<dependency>
    <groupId>org.webant</groupId>
    <artifactId>webant</artifactId>
    <version>1.0.0</version>
    <type>pom</type>
</dependency>
// https://jarcasting.com/artifacts/org.webant/webant/
implementation 'org.webant:webant:1.0.0'
// https://jarcasting.com/artifacts/org.webant/webant/
implementation ("org.webant:webant:1.0.0")
'org.webant:webant:pom:1.0.0'
<dependency org="org.webant" name="webant" rev="1.0.0">
  <artifact name="webant" type="pom" />
</dependency>
@Grapes(
@Grab(group='org.webant', module='webant', version='1.0.0')
)
libraryDependencies += "org.webant" % "webant" % "1.0.0"
[org.webant/webant "1.0.0"]

Dependencies

compile (6)

Group / Artifact Type Version
org.scala-lang : scala-actors jar 2.11.8
org.slf4j : slf4j-api jar 1.7.21
org.apache.logging.log4j : log4j-slf4j-impl jar 2.6.2
org.apache.logging.log4j : log4j-1.2-api jar 2.6.2
org.apache.logging.log4j : log4j-core jar 2.6.2
org.apache.logging.log4j : log4j-api jar 2.6.2

test (2)

Group / Artifact Type Version
org.scalatest : scalatest_2.11 jar 3.0.0
junit : junit jar 4.12

Project Modules

  • webant-commons
  • webant-queen
  • webant-worker
  • webant-soldier
  • webant-extension

License PRs Welcome GitHub stars GitHub forks

webant简介

webant是一套易扩展,易部署,易管理的网络爬虫系统。webant意指“web ant”,即“网络蚂蚁”,寓意有很多蚂蚁在网络上爬走,采集有用的信息。

webant具备如下主要特性:

  1. 支持多种部署模式。运行简单任务或调试时可以单进程部署,也可以嵌入到别的应用程序中通过API进行管理,也可以部署为服务器并由提供的客户端进行管理,也可以支持分布式部署并通过蚁后节点管理整个集群。
  2. 支持多任务,多站点管理。可以同时运行多个任务,每个任务可以同时爬取一个或多个站点,任务和站点由配置文件进行描述,大大减少开发工作量。支持对任务和站点进行启动、暂停、停止等实时进度管理。
  3. 支持插件式扩展爬虫逻辑。自定义数据采集的内容和逻辑,以极少的工作量完成一个大规模爬虫的开发和部署工作。
  4. 可以作为一个数据同步系统,支持多种格式的数据源。包括web网络上的网站内容、数据库、邮箱、各种格式的文档、ftp等等,并且支持扩展以解析新的格式。
  5. 支持多种数据持久化形式。内置支持嵌入式数据库H2、Hsqldb、Berkeleydb,json文件,mysql,elasticsearch等不同的持久化形式。

Versions

Version
1.0.0