一种自动抓取经济学人生成电子书的方法

chenxiaxin4年前电脑技术1456

calibre是一款电子书管理软件。也可以抓取网页直接生成电子书。


0.1 任务:

  • 在服务器端使用脚本每周五上午10点20分执行economist爬取脚本。

  • 保存为mobi epub docx文件。用于HTTP下载。

0.2 系统:

  • Ubuntu版本:18.04

  • carlibre

  • python:3.6.7

  • apache (web目录:/var/www/html/te

1.py脚本编写

  • 在root目录新建文件,编写python脚本 保存为 /root/eco.py

#!/usr/bin/python3import datetime,os

dt=datetime.datetime.now()day=dt.strftime('%Y%m%d')filename='te'+day

os.chdir('/var/www/html/te')cmd1='ebook-convert \"The Economist.recipe\" '+filename+'.mobi --output-profile=kindle'cmd2='ebook-convert '+filename+'.mobi ' + filename+'.epub'cmd3='ebook-convert '+filename+'.mobi ' + filename+'.docx'os.system(cmd1)os.system(cmd2)os.system(cmd3)

2. 控制cron

  • 编辑crontab:
    vim /etc/crontab

  • 在末尾增加一行:关闭保存
    20 10 * * 5 root python3 /root/eco.py

  • 意思是:每个周五上午10点20分执行脚本。

  • 重启cron:
    service cron restart

3.执行结果:

每周五10点20分过几分钟后,通过http下载所需文件。
下载链接样式为 http://www.*.com/te/teyyyyymmdd.mobi

4.直接下载:

最后,嫌搭建服务器麻烦的,不想自己折腾的,

也可以到下面这个网站通过网盘直接下载 te
http://www.te2022.xyz
每周五更新最新一期。


相关文章

ubuntu中安装tget工具

tget是一款ubuntu上的磁力链下载工具。tget is wget for torrents.# if you use npm npm ...

ubuntu中使用docker和coolq 运行自己的QQ机器人的方法

ubuntu中使用docker和coolq 运行自己的QQ机器人的方法

曾经的一篇文章。放在这里算纪念吧。coolq社区已停运。停运的原因可以看这里。https://www.zhihu.com/question/411466505正文:在ubuntu中运用docker运行...

使用Cloudflare中添加域名

具体实施步骤如下1.1、在Cloudflare添加域名,并确保域名能在Cloudflare正常使用;1.1.1、登陆到Cloudflare,进入域名管理页面,点击“Add a Site”按钮;1.1....

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。