博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
matlab 规律,01用PYTHON下载数据,而后用MATLAB编程探讨规律
阅读量:5869 次
发布时间:2019-06-19

本文共 2104 字,大约阅读时间需要 7 分钟。

1654715-1754715 数据下载

2017年3月15日10时49分33秒

早晨8:06下载了数据。

不到三个小时,完成了下载的任务。

**************************************************

2017年3月15日10时49分57秒

第二步,准备用filelocation软件初步清洗。一下。

今天,不小心看到了这个软件,一下子,matlab不用编程了。

**************************************************

2017年3月16日11时03分28秒

早晨6点多,就好了。

**************************************************

2017年3月20日14时32分23秒

再次下载一些数据。

1000000--1654715

下载这些数据。

**************************************************

2017年3月20日15时39分18秒

提取字数的研究

(中医里面讲,望闻问切,其实可能会从一些外部的特征上面,找到规律。)

第二种办法,采有时间切片研究。 金融数学里面有一个这样的研究。可以从中研究一下。

前一时间,看的一个研究。能否参考这个研究。

**************************************************

2017年3月20日17时08分22秒

由于担心研究的数据量不足,又重新下载数据。看来,以后,下载数据时,不能手软。

**************************************************

2017年3月21日08时52分39秒

今天,突然,发现了可以同时,运行多个爬虫。

**************************************************

2017年3月23日11时04分34秒

编程完毕,将文件提取成功。

**************************************************

2017年3月23日11时17分24秒

下面的工作,看一下,这2万条数据是否够用。

先提取一下数据,看一下每个文件的回复量是多少。

**************************************************

2017年3月26日12时20分02秒

下载完所有的数据,并且,提取的数据。文件名+19条相关的数据。

**************************************************

2017年3月27日09时01分04秒

修正了pachong  直接下载军事广角。

**************************************************

2017年3月27日09时01分41秒

到目前为止,爬虫的事情,全部处理完毕。

**************************************************

2017年3月27日09时10分16秒

爬虫的功能,更新了一下。

**************************************************

2017年3月27日09时50分02秒

可以进入第二步大项的工作,下载,回复量,点击量大的文献,从中,寻找规律。

**************************************************

2017年3月27日15时22分27秒

artid 就是文件名,所以,不用考虑,这个代码。

上次修改的代码是因为,我忘记了,这个代码中,其实已经包含了这个数据。

下面,就是下载一部分,验证一下,文字,如果有炒作,则可能是图形方式不同。

**************************************************

2017年3月27日15时41分01秒

首先,我们会想到的是,利用点击数量来说明是热帖。但是,这个爬虫抓不到这个数据。如果服务器上面,能得到这个数据,可能会有用。如果,非要用爬虫,也可以,相当于每秒钟,抓一个快照。(这是以后可以研究的内容。)

由于,人们浏览BBS时,如果想顶帖,则一定要注意一下。

**************************************************

2017年3月28日11时10分43秒

准备提取,数据。目前,电子表格,不能用了。超过了范围。

2017年4月2日09时59分16秒

如果能识别出炒作的帖子来,就可以再次研究 炒作帖子出现的规律。

非常漏骨的炒作,可以已经删除了,现在就是从中,找到不漏骨的炒作 。

**************************************************

2017年4月4日07时45分20秒

145430 零点的帖子算哪一天的?

这是需要解决的问题。

转载地址:http://hftnx.baihongyu.com/

你可能感兴趣的文章
没有身份凭证的情况下,攻击者就能登录FreeRADIUS
查看>>
数据库拆分的几种方式
查看>>
app软件开发功能流程
查看>>
CNN实现“读脑术”,成功解码人脑视觉活动,准确率超50%
查看>>
红豆集团推出首家无人服装零售店,跟无人便利店有何不同?
查看>>
CSS3新样式
查看>>
Docker 安装 MySQL
查看>>
设计模式:单例模式(Singleton)
查看>>
利用EntLib授权机制实现对ASP.NET页面的自动授权
查看>>
《WCF后续之旅》博文系列总结[共17篇]
查看>>
NTOPNG修改密码
查看>>
大数据驱动力:社会资本的全球配置
查看>>
英特尔推出Joule计算模块 激发物联网领域的创业创新
查看>>
什么是网格?网格是什么
查看>>
关于大数据,你不知道的6个迷思
查看>>
甲骨文第三季度财报 SaaS和PaaS持续增长
查看>>
实现WAN无处不在,是我们不变的追求
查看>>
Hadoop之后:实时数据的未来
查看>>
新华三:新IT引领金融新生态
查看>>
政府IT中的开源:不止是节约成本
查看>>