用 seaborn 绘制数据分布统计图

数据文件为 Libreoffice 编制的 ods 类型,为了能直接读取 ods 文件生成 dataframe 格式数据,安装 pandas_ods_reader 包。 1 pip install pandas_ods_reader 然后导入相关库,读取数据。 1 2 3 4 5 6 7 import seaborn as sns import pandas as pd from pandas_ods_reader import read_ods %matplotlib inline ffftime = read_ods('dataset.ods', 1) 1 2 3 # 挑取目标列数据 thedata = ffftime.loc[ffftime['人种']=='黄', ['连续输出1']] print(len(thedata)) 195 目标列中一共有 195 个待分析数据。对这些数据绘制直方图,查看各数据段内的分布占比,图中柱宽为 2。 1 2 3 4 5 6 7 8 9 # 绘制密度分布图 rc = {'axes.unicode_minus': False} sns.set(context='notebook', style='ticks', font='simhei', rc=rc) ax = sns.histplot(data=thedata, x='连续输出1', binwidth=2, stat='proportion') x = range(0, 50, 5) ax.set_xticks(x) ax.set_ylabel("占比", fontsize=14) ax.set_xlabel("连续输出时间/min", fontsize=14) ax.set_title('连续输出时间样本统计', fontsize=14) 从占比直方图可以看出,5~7min 为占比最多区间,大约的18.5%样本落在此区间。 ...

2022年11月21日 · 2 分钟 · tsingk

个人数据备份

今年才知道,每年 3 月 31 日被定位「世界备份日」,倡议大家对自己的数据进行备份。几年前总结过一篇文章,详细记录了自己的各种数据的备份办法: 建立个人电子资料备份系统。 现在看当时采用的办法太过繁复,不够自动化,导致没有坚持用。 很长一段时间,对重要数据的备份仅通过复制粘贴到移动硬盘,没做多余备份。被提倡的「3-2-1 备份」策略,能够充分保护数据,但实施起来至少有下面几个麻烦要解决: 除产生数据的媒介(电脑上的硬盘、手机内存)外,还需要两个存储媒介(硬盘、U 盘、光盘、云存储等),要花费一定成本。 ...

2022年5月25日 · 11 分钟 · tsingk

我的豆瓣电影评分

基于近三个月来豆瓣上官方禁言和网友发言之间的此消彼长,感觉豆瓣真的有可能忽然完蛋。豆瓣要完蛋,中文网络世界就真没啥吸引我的社交网站了。作为不太爱说话的老豆瓣儿,除了广播日记相册,很多年的书影音标记属于陪伴人生的珍贵资料,于是提早防备,用浏览器扩展「斗伴」把自己的豆瓣数据备份了一份。 获取到个人豆瓣数据,就可以搞搞分析。总共标记过的 907 部电影的评分,除去特殊原因豆瓣未给分数的6部,将其余 901 部的个人评分与豆瓣得分做了张散点图。 ...

2020年4月1日 · 2 分钟 · tsingk