webant soldier pom

a distribution crawler.

License

License

Categories

Categories

Ant Build Tools
GroupId

GroupId

org.webant
ArtifactId

ArtifactId

webant-soldier
Last Version

Last Version

1.0.0
Release Date

Release Date

Type

Type

jar
Description

Description

webant soldier pom
a distribution crawler.
Source Code Management

Source Code Management

https://github.com/sutine/webant

Download webant-soldier

How to add to project

<!-- https://jarcasting.com/artifacts/org.webant/webant-soldier/ -->
<dependency>
    <groupId>org.webant</groupId>
    <artifactId>webant-soldier</artifactId>
    <version>1.0.0</version>
</dependency>
// https://jarcasting.com/artifacts/org.webant/webant-soldier/
implementation 'org.webant:webant-soldier:1.0.0'
// https://jarcasting.com/artifacts/org.webant/webant-soldier/
implementation ("org.webant:webant-soldier:1.0.0")
'org.webant:webant-soldier:jar:1.0.0'
<dependency org="org.webant" name="webant-soldier" rev="1.0.0">
  <artifact name="webant-soldier" type="jar" />
</dependency>
@Grapes(
@Grab(group='org.webant', module='webant-soldier', version='1.0.0')
)
libraryDependencies += "org.webant" % "webant-soldier" % "1.0.0"
[org.webant/webant-soldier "1.0.0"]

Dependencies

compile (7)

Group / Artifact Type Version
org.webant : webant-commons jar 1.0.0
org.scala-lang : scala-actors jar 2.11.8
org.slf4j : slf4j-api jar 1.7.21
org.apache.logging.log4j : log4j-slf4j-impl jar 2.6.2
org.apache.logging.log4j : log4j-1.2-api jar 2.6.2
org.apache.logging.log4j : log4j-core jar 2.6.2
org.apache.logging.log4j : log4j-api jar 2.6.2

test (2)

Group / Artifact Type Version
org.scalatest : scalatest_2.11 jar 3.0.0
junit : junit jar 4.12

Project Modules

There are no modules declared in this project.

License PRs Welcome GitHub stars GitHub forks

webant简介

webant是一套易扩展,易部署,易管理的网络爬虫系统。webant意指“web ant”,即“网络蚂蚁”,寓意有很多蚂蚁在网络上爬走,采集有用的信息。

webant具备如下主要特性:

  1. 支持多种部署模式。运行简单任务或调试时可以单进程部署,也可以嵌入到别的应用程序中通过API进行管理,也可以部署为服务器并由提供的客户端进行管理,也可以支持分布式部署并通过蚁后节点管理整个集群。
  2. 支持多任务,多站点管理。可以同时运行多个任务,每个任务可以同时爬取一个或多个站点,任务和站点由配置文件进行描述,大大减少开发工作量。支持对任务和站点进行启动、暂停、停止等实时进度管理。
  3. 支持插件式扩展爬虫逻辑。自定义数据采集的内容和逻辑,以极少的工作量完成一个大规模爬虫的开发和部署工作。
  4. 可以作为一个数据同步系统,支持多种格式的数据源。包括web网络上的网站内容、数据库、邮箱、各种格式的文档、ftp等等,并且支持扩展以解析新的格式。
  5. 支持多种数据持久化形式。内置支持嵌入式数据库H2、Hsqldb、Berkeleydb,json文件,mysql,elasticsearch等不同的持久化形式。

Versions

Version
1.0.0