在时下互联网信息的浪潮下,信息的传播速度远超我们的想象.现已经被公认为是继报纸、广播、电视外的第四媒体,显示出巨大的-能量.如微博里一条大V的帖子,朋友圈的一个状态更新,热门论坛的一条新闻,可能会产生数以万计的转发,关注,点赞.如果是一些非理性负面的评论会激发人们的负面感,给相关涉事主体造成难以估计的损失.所以需要一个高效的全网舆情分析系统,帮助政企单位实时的监测分析舆情.
设计一个全网舆情的存储分析平台,我们需要处理好抓取,存储,分析,搜索和展示.具体我们需要解决如下问题:
1.如何高效存储百亿级别的网页原始信息,为了提高舆情分析的全面性,准确性,我们往往希望可以尽可能多的爬取网页信息,再根据我们设置的权重聚合.在数据量如此之大的情况下,我们还需要做到读写毫秒级别的低延时,这使得传统数据库难以满足需求.
2.如何在爬虫爬取网页之前判断是否之前已经爬取过,针对普通网页,舆情在意他们的时效性,可能我们对同一个网页只希望爬取一次,那我们就可以利用网页地址做爬取前去重,减少不必要的网页资源浪费.
3.如何新增原始网页存储完成后进行实时的结构化提取,并存储提取结果.提取出文章的标题,作者,发布时间等.这些内容为后续舆情情感分析提供必要的结构化数据.
4.如何高效的对接计算平台,流式新增提取后的结构化数据进行实时的计算.这里我们需要根据网页,消息描述的内容做分类,进行情感识别,识别后的结果统计分析.由于全量分析时效性差,加上舆情往往关注最新的新闻,评论,所以我们必须做增量分析.
5.如何提供高效的舆情搜索,用户除了订阅固定关键词的舆情以外,做一些关键词搜索.
6.如何实现新增舆情的实时推送,为了保证舆情的时效性,我们不仅需要持久化舆情分析结果,同时也要支持推送舆情结果.推送的内容通常是我们实时分析出来的新增舆情.
针对上述的问题,蚁坊软件提供以下舆情分析系统技术方案:
第一,通过蚁坊软件的舆情分析系统对热点分析(文章热度分析、关键词分析)通过转载、回复、点击数进行判断处理.我们暂时确定为新闻按转载次数确定是否是舆情,论坛和博客按点击数多少确定是否是舆情.
第二,对系统中舆情按主题分类浏览,可以选择某一个主题详细浏览.同时可以对显示的舆情进行操作(设置影响、入简报、专题、收藏、删除).
第三,通过系统对专题开始时间、结束时间、某个时间段的文章总数、评论总数、转载总数等条件分析出专题发展转折点,形成一条专题的发展线路图,便于对专题做整体把握.
第四,根据分析的主题系统会自动生成一份舆情简报.用户在手工处理舆情时,把重点关注的或有参考价值的舆情加入当日简报.舆情简报支持共享,可以查询、浏览和下载(Word格式).
蚁坊软件,专注政务舆情监测,免费申请试用请点击:
http:///shiyong?pk_campaign=b2b-seo
两微舆情分析系统技术方案是湖南蚁坊软件股份有限公司的主要产品,我们的产品负责人是蚁坊,我们的地址是长沙市高新区文轩路麓谷企业广场A4栋506室,期待与您的合作!