为抗击新肺炎贡献一份技术力量

写在开头

我不擅长写一些有意思的话,技术也如我的博客名字一样很普通,但是在这个春节,新肺炎肆虐武汉,更不停有扩散在全国的案例消息。

我不是什么专业人士,也无法贡献医疗力量,只能尽我所能看是否能为这件事做一点点的贡献。

这次的新肺炎专家组说了可防可控,但前提是所有人都有防护意识。经常接触互联网的同学们可能防护意识都已经提升起来了,但我相信有不少同学一定听说过或者正在面临着老人防护意识不强,抵制戴口罩,说破嘴皮子,也说服不了平时最爱养生的爸爸妈妈们,不要走亲戚,不要串门,即使有事要出门一定记得戴口罩等等。

我在想这些老人听进去,讲不通道理,归根结底是信息获取不到位,无法感知到形式有多么的严峻。几乎没隔几分钟、十几分钟全国各地都会不停有新的应急措施启动,新的案例产生,全国都处于高度绷紧的状态,这种态势却并没有被老人们清晰的感知到。

如果他们能意识到这些问题的严重性,相信每个人都知道生命是珍贵的,应该重视注意。

获取实时动态

现在网上谣言漫天飞,可靠的官方信息来源是很重要的。人民日报和丁香医生做了一个实时动态的页面,发布的都是经过可靠验证的实时最新信息-实时播报

但是,这是一个web页面可以通过关注,想要给长辈讲解问题的严重性,及事态的发展,做到有理有据,需要不停地查看这个页面,变得非常的不方便。

我的想法很简单,把这个页面的信息做成接口,这样就可以很方便的作出很多拓展方案。例如,我想通过微信机器人实时通知到群里(由于没有闲置微信老号做机器人未完成),后来又想通过邮件实时发送新动态(这个做了,后面会说),甚至我还想做一个app,将新动态推送的手机上,用语音播放自动朗读出来,成为一个行走的态势宣传喇叭 o(╥﹏╥)o等等,都是需要一个方便的接口才能完成。

所以,就有了下面的内容。

网页转接口

我第一想法是用 Puppeteer 简单粗暴抓取一下,通常情况下是简单快捷。打开页面分析了一下,发现数据其实都直接放在页面的 <script> 里了,就是的 JavaScript 对象。

这种情况下,其实直接取对象是更快捷的方式。所以采取了 axios + cheerio + node vm 的方案。

网页数据提取

代码很简单直接贴了:

  • app.js
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    const url = `https://3g.dxy.cn/newh5/view/pneumonia_peopleapp?from=timeline&isappinstalled=0`;
    async function getData(){
    let response = await Axios.get(url);
    let html = await response.data;
    let $ = Cheerio.load(html);
    let script = $('body > script');
    console.log(script.length);
    var global = {
    window:{}
    };
    for(let i = 0; i < script.length; i++){
    if(script[i] && script[i].children.length>0){
    let scriptContent = script[i].firstChild.data;
    vm.createContext(global);
    vm.runInContext(scriptContent, global);
    }
    }
    return global.window;
    }

    async function main(){
    let data = await getData();
    await fs.writeJSON('data/data.json',data)//保存数据
    }

    main().catch((error) => {
    console.log(error);
    process.exit();
    });
    为了防止对数据源造成压力,这里直接将数据保存到了本地 json 存储,通过 pm2 控制2分钟刷新一次。开放接口直接访问本地的 json 数据,这样对数据源完全没有任何影响。

在我们通过技术手段去采集一些信息时,尽可能避免对数据源产生影响是一种基本的技术道德。

提供接口

使用 koa 对外提供接口。

  • api.js
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    //获取所有信息
    router.get('/data/all', async (ctx, next) => {
    let data = await fs.readJSON('data/data.json');
    ctx.response.body = data;
    });

    //获取指定省份的信息
    router.get('/data/getAreaStat/:provice', async (ctx, next) =>{
    var provice = ctx.params.provice;
    console.log(ctx.params)
    let data = await fs.readJSON('data/data.json');
    let areaStat = data.getAreaStat;
    if(provice){
    let body = [];
    for(let i = 0; i<areaStat.length; i++){
    let area = areaStat[i];
    if(area.provinceName == provice || area.provinceShortName == provice){
    body.push(area);
    break;
    }
    }
    ctx.response.body = body;
    }else{
    ctx.response.body = areaStat;
    }

    });

    //获取信息时间线
    router.get('/data/getTimelineService', async (ctx,next) => {
    let data = await fs.readJSON('data/data.json');
    let timeline = data.getTimelineService;
    ctx.response.body = timeline;
    });

    //获取整体统计信息
    router.get('/data/getStatisticsService', async (ctx,next) => {
    let data = await fs.readJSON('data/data.json');
    let statistics = data.getStatisticsService;
    ctx.response.body = statistics;
    });

    // add router middleware:
    app.use(router.routes());

    app.listen(3001);

接口说明

  • /data/getTimelineService

按时间线获取事件

  • /data/getStatisticsService

获取整体统计信息

  • /data/getAreaStat/:provice

    获取指定省份信息
    例如:/data/getAreaStat/山东

  • /data/all

获取所有信息

  • /data/getNewest/:lastid

    获取最新事件
    lastid 代表上次获取到的最后的id

    例如:/data/getNewest/281

    将会返回id为281的事件之后发生的事件集合。

线上服务

我在服务器上跑了一份,方便有需要的同学使用:

地址:http://49.232.173.220:3001
测试:http://49.232.173.220:3001/data/getTimelineService

项目代码在这

邮件通知服务

由于没有闲置的微信老号,制作微信机器人进行通知的想法没有实现,实现了相对成本最低的邮件通知方案。

效果:

image-20200126015202788

image-20200126015230276

image-20200126015134091

如果有需要邮件通知的同学,可以留言你的邮箱,我帮你添加上,就能够收到邮箱通知了。

文章作者: 普通程序员
文章链接: https://programmerauthor.github.io/2020/01/26/code-for-people/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 普通程序员