如何收集网络舆情信息。怎样才能有效的搜集网络舆情信息?

网络舆情监测主要从下面四个方面(取简称为eCIA)进行评估:
1. 高效性(efficiency) :
舆情情报的高效性往往被人忽视,实际上,海量信息带来的信息爆炸与信息淹没,导致信息失去功效。现有舆情系统收集到的各种文章90%以上的信息是与用户无关的,大量是重复冗余的,据说美国911发生之前已经接到了预警情报,但是没有有效地过滤出来,淹没在各类情报资料当中,解读的代价太高,最终事发后才发现情报就在情报官的办公桌上。现有的舆情监测系统往往缺乏有效机制快速筛选并保存有价值信息,因此,要求舆情监测系统必须提供人工智能的方式学习各种情报样本,将有潜在价值的情报从海量信息库中挖掘过滤出来,从而提高解读的效率。
2. 全面性(Completeness) :
主要包括信息来源的全面性与内容的全面性;信息来源的全面性:是否覆盖论坛、博客、跟帖、回帖等,每类通道是否覆盖主流的网站,能否覆盖绝大部分网站或者频道,能否采集主流的网站,比如天涯、新浪博客,
现有系统的主要问题在于信息庞杂缺流于片面;
3. 及时性(Instantaneity) :
网络舆情监测与传统搜索引擎最大的区别就在于其时效性强。高效性包括两个方面采集性的高效与信息情报解读的高效性。
采集高效性要求信息从发布到舆情监测系统收录时间越短越好,传统搜索引擎的延迟往往是一周,最快的新闻资讯搜索也有几个小时的延迟,而这对舆情监测,尤其是证券以及涉及国家安全等重要领域的舆情监测往往要求延迟在分钟级,现有系统一般都在小时级别,甚至是天级别的。
4. 精准性(Accuracy) :
舆情信息往往鱼龙混杂,是非难辨;因此要求能精准的抽取舆情各类要素,如:文章的正文、摘要、作者、发表时间、以及用户的点击浏览量、回帖数、评论数等。准确地进行倾向性的识别,发现发帖人的真正态度。
根据笔者的了解,当前大多数舆情系统主要是基于严格规则的,扩展性差,只能解决部分重点网站,背后有大量的人工成本(往往在100人左右的运维队伍);已有的解决方案性能差,时效性不足,准确性差;在舆情的分析与监控方面,目前尚没有成熟的实用产品。话题的表征、提取、追踪都是重大挑战。

结合以上几点国内较出名的有

Rank舆情监测系统

人民网舆情监测系统
军犬
本果
乐思














0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论