设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 数据 创业者 手机
当前位置: 首页 > 大数据 > 正文

互联网金融之量化投资深度文本挖掘——附源码文档(4)

发布时间:2021-02-04 03:27 所属栏目:125 来源:网络整理
导读:运行结果: 四、模块效率性能总汇 根据上表所示的各模块平均时间效率估计的结果,可以得到如下结论: ▲ 在三个数据源中,所有模块个股新闻的平均运行时间是最长的,研究报告次之,而股票 ? ? ?论坛是耗时最少的 ▲

运行结果:

互联网金融之量化投资深度文本挖掘——附源码文档



四、模块效率性能总汇

互联网金融之量化投资深度文本挖掘——附源码文档


根据上表所示的各模块平均时间效率估计的结果,可以得到如下结论:
▲ 在三个数据源中,所有模块个股新闻的平均运行时间是最长的,研究报告次之,而股票 ? ? ?论坛是耗时最少的
▲ 所有模块的时间消耗主要都关键词的搜索上,模块的平均耗时和模块进行的关键词搜索 ? ? ?次数成正比
▲ 关键词词频模块 sigWordSeq 进行了一次词频检索,因此和检索模块SearchFiles 的平 ? ? ? ?均耗时相当
▲ 关键词网络模块 WordNet_stock 同样只进行了一次关键词检索,但是在计算关联股票 ? ? ? ?TF-IDF 指标是需要耗费一定的时间,因此平均耗时略长于单次的检索

▲ 关键词网络模块 WordNet 由于需要进行对 20 个一级词的搜索,因此耗费的时间是最长 ? ? ?的。另外, 由于三个数据源中【 个股新闻】的数据量最大,运行 WordNet 一旦遇到高 ? ? ?频词会消耗大量的时间,需要格外注意。

  • 本文基于光大文本挖掘系统框架概述全文。

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读