水产科技情报

基于标准时序生成的科研热点预测及加速方法 

来源:水产科技情报 【在线投稿】 栏目:期刊导读 时间:2021-03-03

0 引言

科技情报对国家、社会、企业的战略、计划的制定以及实施都发挥了重要作用。科研热点预测是科技情报领域较新的应用需求。科研工作者、科研项目管理者在选题、立项必须有一定的前瞻性,即立足于当前科学技术现状与社会发展情况,对未来可能产生的新理论或者产生应用价值的新技术做出判断[1-2]。

按照研究主体,科研热点预测分为对网络文章和学术文献的研究。PageRank算法是由Google提出的较为经典的网络文章热点预测算法[3]。基于文本分析的网络文章热点预测也取得了较好的效果[4]。

在没有引入机器学习算法以前,对学术文献的热点预测严重依赖于本领域高级专业人员通过文献查阅与市场调研的方法确定。比如,根据科学引文索引数据库对论文的文献分类分别统计每个分类中的论文数量,用数字来说明文献科研热点集中在哪些领域;还可以根据文献分类分别统计每个分类中的研究作者数量,用客观的数值来表明科研热点的研究热度所在和科研力量集中点[5]。

近年来,利用机器学习技术对学术文献进行科研热点的预测分析得到普遍关注[6]。2003年著名的LDA(Latent Dirichlet Allocation)算法在 pLSI基础上被提出[7],既是一种文档主题生成模型,又是一个包含词、主题和文档三层结构的贝叶斯概率模型。LDA是一种非监督机器学习技术,可用来识别大规模文档集或语料库中潜藏的主题信息。

然而,国内外目前建立的科研热点预测模型,从应用效果上分析还存在以下问题:1)当一个新的理论与技术诞生后,其关联应用领域还需要大量的工作去发掘。2)科研领域中,科研热点词汇数量巨大,每种热点呈现的走势不尽相同,基于标准的机器学习模型拟合热点走势准确率不高。

因此,亟须设计一种考虑时序关系的科研热点预测算法和系统,可对未来一段时间的科学研究热点较为快速准确地预测出来,辅助科研工作者及科研项目管理者的工作。

1 科研热点预测与推送框架

目前,每种科研热点呈现各种各样的时序走势。以某热点科研词汇的点击量为例,其随着时间变化的趋势完全不同,如图1所示。不同的时序走势,导致标准机器学习算法在直接使用时预测准确度不高。这就须设计一种可适应多样时序趋势的预测模型和框架。

图1 科研词汇的点击量时序趋势

基于上述问题,提出一种基于标准时序生成的科研热点预测框架,使得用户可以及时获得未来一段时间科研热点主题预测推荐。框架分为5个模块,如图2所示,包括时序数据爬取模块、热点数据标记模块、时序聚类模块、热点预测模块、预测加速模块。

时序数据爬取模块利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章;热点数据标记模块负责标记1个周期的所有热点关键词,并且生成关键词的历史时序数据;时序聚类模块负责对热点时序进行聚类,并且根据聚类结果生成标准热点时序;热点预测模块负责对各关键词的权重TF-IDF时序进行检测,找出热点关键词;预测加速模块负责对热点预测任务进行加速。

图2 科研热点预测与推送框架

2 科研热点预测过程

基于上述框架,给出基于标准时序生成的科研热点预测方法的实施过程,如图3所示。

图3 基于标准时序的科研热点预测方法流程

2.1 时序数据爬取模块

时序数据爬取模块将爬取的文章文本化,设一段时间内抓取的科技信息文章集合为Tt,其中t表示周期序号。基于权重TF-IDF算法获得Tt的关键词向量,记为 at={bi|i∈Q},Q 为科技词库中词的数量。设ai为词库中词汇分量第i个关键词,bi为对应关键词ai所得权重TF-IDF值。

计算bi的具体步骤为:

1)设tj是 Tt的一篇文章,基于标准 TF-IDF算法获得tj第i个词汇的TF-IDF值,设为

2)设tj的下载量或阅读量为nj,引用量为mj。那其中分别表示该周期内所有文章nj与mj的平均值。

在具体实施过程中,bi的计算可以基于下载量、阅读量、引用量,也可以基于浏览时长、转发率。

2.2 热点数据标记模块

热点数据标记模块负责标记一个周期的所有热点关键词、生成关键词的历史时序数据,并将这些时序数据加入样本库,用以模型训练。具体方法如下:

1)设置bi的热点阈值,当bi>时,则标记bi对应的ai为热点关键词。

2)生成 ai的 权 重 TF-IDF 时 间 序 列 Bi={bi,t,t=1,2,…,n},其中 bi,t表示第 t个周期 bi的值。 bi,t应从历史数据中获取。

上一篇:浅析水环境对水产养殖的影响
下一篇:没有了