用Java抓取RSS生成Mobi文件发送到Kindle



最近写了个小工具,通过抓取RSS生成适合Kindle展示的Mobi格式的文件,并发送到Kindle 个人图书馆,也算是继续“自动化”之旅。



代码前前后后写了个把月,趁着放假期间,决定把它搞定。使用方法什么的就不多说了,项目开源到Github上去了,上面有使用说明

这篇文章简单得聊聊项目本身以及总结的一些问题。

# 项目简介

首先来看看项目的组织结构图:



大致分为三大部分:

core:核心部分,定义了RSS相关的基本数据抽象(base)以及所有流程的接口抽象(contract) component:组件(可选),两个组件,一个是对mobi文件进行strip处理,以很好得控制最终文件的大小,另一个是邮件发送
* impl:对core以及component的实现。
其他几个部分:util中定义了一些帮助方法,Service是程序的入口,也是各个流程接口方法的衔接与组合调用,resources(不包含在上图中)定义了一大堆各种配置。用Java写程序就是这样,你懂的。

core


base包不必多说,一个RSS源大概可以分解为三个对象:一个Feed包含了N个Entry,每个Entry都包含了文本内容(desc)以及若干个Image。
说说核心流程的抽象:(按照流程顺序说明,不按照图中接口顺序)

AbstractConfigManager

是一个抽象类,维护了项目最核心的配置文件(resources/rtms.properties),并对其中的配置完整性进行检查。

IFeedLinkProvider

要抓取RSS,必须要有RSS Source(RSS URL)。该接口作为Feed link 的 provider 定义了一个方法来获取所有需要抓取的链接:
/
get parsing rss links
@return the String array of all links /
String[] getFeedLinks();


## IRSSParser
获取到feed的链接之后,就需要去一个个parse它们,该接口定义了parse方法:
/
parse feed with given urls
@param urls the URL Array @return the BaseFeed Array
*/
BaseFeed[] parse(URL[] urls);

返回生成的Feed对象集合,由于有些RSS源不提供全文输出(只是提供一个摘要,比如看这里),所以这时候就需要一个全文输出处理,来从给定的URL获取原文

IFullTxtOutput

该接口定义了输出全文的协议:
/*
      output full text from a entrylink
@param entryLink the string of the entry link url
@return the full text /
String fullTextFrom(String entryLink);

在parse的过程中,难免会遇到<img />标签,我们在parse时候先对其src属性进行处理,但图片并不在此进行下载,所以需要将其先存起来,在需要下载的时候,在取出来下载,这时,我们需要一个“图片运输器“

IImgTransporter

该接口定义了图片的保存与获取协议:
/
push a img obj to the image store
@param img the instance of BaseImage /
public void push(BaseImage img);

/

get all image objs with the feed
@param feed the instance of BaseFeed @return the map of all the images per feed
*/
public Map<String, BaseImage> getAllImageObjsWithFeed(BaseFeed feed);

由于我们认为一个RSS Feed是一个基准单位(一个mobi文件以一个个feed组合而成)所以图片的获取以feed为单位整取(当然也可以粒度再细一点以feed里每个entry为基准)。

如果不需要额外的功能,我们已经能够生成mobi文件了:

IMobiGenerator

该接口定义了生成mobi需要实现的方法:
/*
      generate mobi file with a list of feeds
@param feeds the List of BaseFeed instances
@return return the generated mobi file path /
String generate(List<BaseFeed> feeds);

通过传入一个BaseFeed对象的集合,最终输出mobi文件的全路径即可。
以上这些接口,定义了将RSS生成Mobi文件的最基本的流程,如果需要一些附加功能,可以有选择的实现component package中的一些接口。

component

该package大概提供了三个扩展:

IEntryTransporter

上面在说到IfullTxt的时候,我们通过实现该接口,完成了全文输出。出于效率与性能考虑,我们有必要将最近处理过的feed的一些entry“缓存”起来。这是因为,该项目有可能被构建为daily task,而有些RSS 源并不是每日更新,即便更新过,如果不多,还是会抓取到一些旧的。这时我们会先去查看这些entry是否曾经已被处理过,如果已经处理过,那么就没必要再去处理了(特别是全文输出还是很耗时的),协议:
/
save a entry
@param entry the instance of BaseEntry /
void save(BaseEntry entry);

/

check is entry exists
@param entry the instance of BaseEntry @return if exists return true otherwise return false
/
boolean entryExists(BaseEntry entry);

/**
get processed entry (the func for cache entry)
@param entry the instance of BaseEntry
@return return the processed entry /
BaseEntry getProcessedEntry(BaseEntry entry);

/
get a feed’s all entry (processed)
@param feed the instance of BaseFeed @return the map of the feed’s entries (key is entry’s link)
*/
Map<String, BaseEntry> getAllEntryPerFeed(BaseFeed feed);


## IFileStripHandler
由于生成适合kindle的mobi文件,大致的手段是通过amazon提供的kindlegen命令行工具实现,但通过他生成的文件非常大(大到几十兆)。这样非常不便于网络传输(特别是邮件发送),在不影响阅读的情况下,是有办法大幅减小其大小的,所以,我们定义类该接口,供需要的扩展实现:
/
do strip @param originalFilePath the original file path
@param newFilePath the new path /
void doStrip(String originalFilePath, String newFilePath);

最后,如果有必要,可以将生成的文件发生到kindle接受的图书馆(一个认可的邮件地址),这时我们需要抽象出,邮件发送的接口:

IMailSender

它定义了发送带附件的邮件接口:
/*
      send mobi file from path
@param filePath the mobi file path /
void sendFrom(String filePath);


# impl
该package默认实现了core以及component里所有的接口(既然全都实现了,还抽出接口来干嘛?)。这里,我只是提供了默认实现,抽出接口的原因是为了保证流程的稳定性,从而不必过份关注实现(下面你会看到实现的方式可能并不是唯一的),即使实现变了,也只是某个对象的内部发生改变,不至于扩大影响。

抽象与实现

哪里可能存在变化呢?因为我本机装了redis,所以我对图片对象以及entry对象的存储借助于redis,如果你不熟悉redis你可以更改其他的存储方式。FeedLink我默认存放在一个properties配置文件里,你可以存放在其他数据源内。RSSParser采用的是ROM+jsoup的解析方式,FullTxt 以及 Strip mobi借助于python来实现。。。由于有很多开源库可供选择,所以,如果你对某个库更熟悉,你可以更改它的实现,而不必伤筋动骨。

库与技术点总结

(1)mobi文件生成其实是可以基于html文件的,因而可以定义出固定的templete,填充内容后直接生成即可,这里使用的是freemarker
(2)解析Feed以及对html进行过滤处理使用的是ROM+jsoup
(3)json处理采用gson
(4)全文输出借助于python的两个强大的开源库(feedparser / readability-lxml)。原理大概是解析dom,对某些元素的父元素计算特征值,可参考这篇文章 以及 这篇文章
(5)mobi文件生成,借助于amazon提供的 for mac平台的kindlegen
(6)邮件发送采用的是javamail
(7)strip减小mobi文件大小也借助于python的实现,通过删除文件内部大量无用的空白等
(8)图片多线程下载,采用的是线程池,这边还有待重新处理

TODO

(1)重新实现多线程图片下载
(2)用node.js 起一个http server或者构建一个linux定时任务,做daily task

具体的使用方法以及后续更新请关注:https://github.com/yanghua/RssToMobiService





版权声明:本文为博主原创文章,未经博主允许不得转载。