注册

驱动力

其他分类其他2022-07-10
268

summer

Vol 9.02022-07

夏天的声音

驱动力

在夏天的原野上

在夏天的原野上
我们的步伐悠闲而又美丽
我们年轻
风吹着
散文诗一样的情调
抵达我的心灵
与夏天的原野一起摇曳
我们是幸福的恋人
有一种无言的默契
我有长长的读后感
你有潇洒的风韵
我们宁静在夏天的风里
我的畅想
恬恬欲醉
我的猜想
浪漫而已惆怅
夏天的原野有一万种风情
我爱
起于水
为一种情绪潸然泪下

目录

一线  |  年中总结的图表没灵感?参考这20个新颖图表,总有1款适合你
数说  |  从北京健康宝核酸天数算法调整说指标标准的严肃性
准绳  |  |数据堂涉侵犯公民个人信息案,日均传输曾达1.3亿余条

经常有学员朋友会这样提问:
 “您看我这个数据,该怎么做图好看?”
然后甩上来一张密密麻麻的大报表。
这个问题怎么回答呢,不好回答,因为这是分析环节,不是做图环节。
我们说,第1,流程上应该是先有分析后有图表,先分析出结论,再用图表来表达和佐证这个结论。而不是对着一张密密麻麻的大表,就想用什么图表。
第2,图表的主要目标不是好看,而应该是呈现你发现的事实,佐证你想说的结论。好看是需要的,但不是主要目标。
今天刚好看到个数据表例子,大家看看,该怎么提炼数据,做图表。这还是个小表,不算大表:)

年中总结的图表没灵感?
参考这 20 个新颖图表,总有 1 款适合你

摘自数据化管理公众号,作者:刘万祥原文链接:https://mp.weixin.qq.com/s/uYbUrtLUWNYqnGmELKlRgA

我们最常见的习惯和做法,就是把一整张表都塞进1个图表里去,例如做成这样的图:▼

老实说,能做出这个 多柱多线的柱线组合图,至少也是对图表比较熟悉的程度了,是高手。这图可以用,但还不够好,因为太复杂了,读起来有些吃力。
如果领导还要求把数据标签也加上,那就实在太凌乱了,还没看就头大了。▼

那怎么做图好呢?
先分析数据,提炼你的观点,然后做图来表达观点。根据情况,可以做多个图表,而不一定只做1个图表。
通过对上面的数据进行分析,结合这两年的疫情形势,我们可以知道:
因为在家办公的流行,导致PC需求量大幅增长。
但各家厂商增长率差异较大,导致市场份额此消彼长,戴尔丢失的份额让给了苹果。
以前说不进则退,而这里是 进慢了也是退。
这些结论应该写在你的图表或仪表板的标题里,下面的例子里我们就简化了。我们看一些可能的做图方式。
1,单纯要比较各公司的出货量,使用普通的条形图、柱形图即可,简单易懂:▼

上面两幅图使用了 tusimpleBI 的 一键美化 和 图表标题,快捷方便效率高。
2,想显示各公司的市场份额占比,可以使用饼图或圆环图。
这里使用圆环图,因为中间孔洞可以填入总数。使用 饼图标签 的 内外排列 和 水平排列 按钮进行标签优化:▼

3,想同时反映出货量和市场份额,这是两个不同量级的指标,可以试试 条泡图:

4,想反映各公司两年的出货量和变化,最常见的是使用簇状柱形图。

不过,上图中气泡和条形图的大小比例关系其实是完全一样的,属于重复映射了,因此建议只使用 条签图 即可:▼

不过,普通的簇状柱形图实在太普通了,没有亮点,容易因为审美疲劳而被忽视。我们使用 簇状增长箭头 功能,直接标上箭头和增长率标签,给图表画龙点睛:▼

这种箭头标注方式,tusimpleBI 里还有10种方式可选用。
很多朋友希望我们的 柱泡图 能支持2个柱子,以实现下图的样式:▼

这个图确实综合性很强,簇状柱形图反映了两年数据比较,气泡大小反映了增长率大小。现在我们也实现了,用 tusimpleBI 一键出图即可。
5,如果更关注市场总体情况,可使用堆积柱形图,堆积的高度就是市场总体规模。使用 增长箭头 功能,可实现麦肯锡式的标签法。
如果要更突出市场总体出货量及其变化,使用堆积柱形图:▼

如果要更关注各公司市场份额及其变化,可使用百分比堆积柱形图:▼

6,关于两年数据比较,tusimpleBI 还有两个“3合1”图表杀器,即 偏差图,直接就帮我们把 增长额、增长率都算好了、图表化了:▼

7,箭头连接的 滑珠图 也可以反映2年数据比较,箭头的长度就是增长的额度:▼

熟悉之后,你还可以利用横条的条形图系列,添加标签 显示增长率。▼

8,简洁一点,可以只反映本年出货量和同比增长率两个指标。
两个不同单位/量纲的指标,正适合 条泡图 :▼

不等宽柱形图、条形图,也是用来反映两个不同的指标的,这两个指标通常还可以相乘:▼

不过这种图一般读者难看懂,需要注意使用。这个图里的平均线,目前采用算术平均计算的,如不需要可选中后删除。

9,数据分析中有一种方法,用四象限矩阵来分析各公司所处的市场位置。
这里我们用 x=增长率、y=市场份额、z=21年出货量,做 气泡图,添加 四象限十字线,得到下面的矩阵分析图,可以看到各公司所处的位置。▼

10,如果是媒体传播类用途,例如微博微信传播图表,可以使用更为吸引眼球的信息图表形式。
反映各公司出货量规模比较:▼

反映两年出货量及增长率:▼

反映各公司所占市场份额:▼

11,单元格可视化方式。tusimpleBI 的单元格可视化组,提供了很多对表格进行可视化的手段,如 数据条、小气泡、小饼图:▼

事发
7月2日早上,我去加班。进门的时候门卫小哥好心提醒我:哥们,该做核酸了!

彭友们好,我是老彭啊。这两天我的彭友圈都被刷爆了。一个是网传某市数据泄露,23.88个T的个人及机密数据,有人在网上卖,10个比特币就行。
一堆人在那里骂,还有人未雨绸缪,未来1、2年将会是电信诈骗的高发期。
不过这个消息尚未确认,估计也没法确认,大家各自注意就好了。
另一个事情是北京健康宝调整核酸检测时长的规则,导致影响一堆人出行,再次引发无数人骂娘。
这可是非常典型的数据标准调整引发的灾难。

以上这些图表形式,都可以使用,取决于你想要表达和强调的侧重点,以及你个人的偏好和品味了。
12,这么多图表类型,是不是挑花了眼?
在合适的数据、合适的场景,使用合适的图表,也是需要了解的图表知识。可参考这个 图表类型指南:▼

从北京健康宝核酸天数算法调整说指标标准的严肃性

文章摘自大数据架构师,作者:彭文华
原文链接:https://mp.weixin.qq.com/s/l9H7Fta60exevWZ1bL03XA

其实2号下午就变了,但我特意熬到3号凌晨截的图。就是想验证一下计算逻辑,以及他们的解决办法。
其实这事他们用了一个很简单的办法解决的。他们没有把计算逻辑调整回去,而是把所有6月29日-7月2日凌晨出结果的核酸历史记录里,增加了一条数据

北京常驻+流动人口一直有红线,就是控制在2300万以内。所以只需要给2300万人中,核酸检测时间在6月29日-7月2日0-6点出结果的人加一条记录即可。
从老彭个人检测时间的分布上来估计,应该大概有4-50%的概率(核酸检测机构真的很辛苦),也就是大约1000万左右。
有人问了,为啥不把逻辑改回去呢?图片
很简单,系统发布有非常严格的流程,需要测试多次才可以。另外,这次规则调整其实是深意的。

我左思右想,总觉得这事不对头。于是我加班空余特意过去又扫了个码,截图留存了。
我是6月29日做的核算,6月30日凌晨出的结果:

按照老逻辑,应该是这样的:
6月30日是阴性0天;
7月1日是阴性1天;
7月2日是阴性2天。
为啥7月2日变成阴性3天了?
一看新闻才知道,北京健康宝的核酸时长计算逻辑发生调整了,对凌晨0-6时出具核酸检测结果的核酸检测天数计算规则进行了调整,由原来的当日显示为0天,调整为显示1天。
也就是说:北京健康宝没有0天的逻辑了
老彭的第一反应就是:肯定有一堆人遭殃了!如果是6月29日出的结果,原本7月2日应该是阴性3天,符合72小时出行阴性要求。
但是按照新的规则,这些人就会被判定为阴性4天,不符合出行要求,无法出行了。这不乱套了么?

02 应对
估计也是被逼的。北京火车站、机场接到大量反馈,于是紧急出台临时措施,让核酸阴性4天(原逻辑3天)的乘客正常出、返京,这才没出大事。
另一方面,北京经信局也接到了大量的反对意见和强烈质疑,赶紧商量解决办法。
到下午,老彭的健康宝又变了,从核酸阴性3天变回2天了。

3、执行流程的缺位。
我绝对相信北京经信局内部有非常严格的执行流程。但是北京健康宝不是内部系统,而是影响全社会的系统。绝对不能搞“政策突袭”,要提前发布公告,通知机场、火车站、高速等交管部门,告知民政部门做好对应措施,告知市民如何应对。然后在既定时间进行调整。
是的,老彭我把执行流程放在最后了,把标准和数据放在前面。因为没有标准和数据的意识,就无法预判可能发生的问题,也就不会有完备的执行流程。
数据理念普及长路漫漫,我辈还需持续努力!

03 问题
那么问题在哪里呢?
按老彭说,这事得办!而且必须办!越早越好!现在办都有些晚了!
但是就目前出现的状况而言,肯定是出毛病了。我估计很多人还没明白其核心问题所在。
老彭认为,这件事有以下核心问题:
1、标准的严肃性不足。
标准的制定和更改是需要经过非常谨慎的研判的。最重要的是上下数据、业务依赖关系的研判。在这件事情上,北京健康宝核酸计算规则调整没有进行充分的研判,没有考虑到下游业务依赖关系,导致调整后严重影响市民出行。
2、数据的权威性不足。
这里不是所健康宝的数据不够权威。而是内部对于数据权威性的认知还不够。系统上线需要走很多流程,但是为什么插入数据,并重新跑批计算核酸时长就可以快速执行?为了解决问题,插入一条临时记录是个啥意思?虽然这是为了解决问题,但是违背了数据真实性,会导致我等P民对数据权威性的挑战啊!

北京防疫规则是72小时阴性证明。按照政策,应该是保证三天一检就行。
但是会出现当天检测,第二天下午才出结果的情况。如果早上有会,那不就全完了么?
所以如果有重要的事情,或者单位门卫看得严,我们大多都是两天一检。三天一检和两天一检看上去差不多,但是对于财政支出,就是非常恐怖的事情了!
三天一检,一个月只需检10次即可,而两天一检就需要15次!增幅50%!
按照2022年5月25日发布的《关于进一步降低新冠病毒核酸检测和抗原检测价格的通知》具体要求:

对于政府组织的大规模筛查、常态化检测,要充分考虑到规模效应和基层组织、志愿者
对成本的分担效应,新冠病毒核酸多人混检按照不高于每人份3.5元的标准计费,检测机构仅提供样本转运及检测服务的,需进一步降低计费标准。

以及北京2021年年末人口2189万来算,三天一检,一个月需2189*3.5*10=7.6亿元,而两天一检一个月需2189*3.5*15=11.4亿元!一个规则就能节省3.8亿元/月!!!
当然,老彭这么测算是不精准的,但是数量级是没问题的。数据标准怎么体现价值?这就是价值!
但是有一说一,这事儿办的的确有问题。

数据堂涉侵犯公民个人信息案,日均传输曾达1.3亿余条

时隔一年,新三板挂牌公司数据堂牵涉其中的侵犯公民信息案终于审结。2018年7月11日,数据堂发公告称,公司某一客户因出售公民个人信息被公安机关调查,公司个别相关人员牵连涉案接受调查。2018年5月9日、7月10日,该案两次开庭审理完毕,尚待宣判。
一直自称新三板“数据第一股”的数据堂,是一家数据市场服务提供商,主要业务涵盖数据采集、制作、交易等。2017年5月,数据堂就被媒体爆出牵涉信息泄露、高管被抓、公司经营异常等问题。
7月13日,新京报记者来到位于北京中关村的数据堂总部,工作人员告诉记者,公司目前经营正常。公司前台告诉记者董事长、董事会秘书均在出差,将会联系董秘给记者回电话,但截至7月15日发稿,记者一直未接到相关回复。
牵涉个人信息泄露案,公司正常办公
记者13日来到北京中关村数据堂的总部探访,看到数据堂公司正常办公。
当记者问及公司涉及的信息泄露一事,前台员工对记者说,“这个事情很多天了,他们(高管)也没太大的反应”,“大家都知道什么情况,所以说没事的。”
该员工告诉记者,公司董事长、董事会秘书正在出差,没有办法接受采访,其承诺会联系董秘让其给记者回电,截至发稿前,记者没接到相关电话。
7月8日新华视点报道称,山东临沂警方接到群众举报,辖区QQ群里有人兜售公民个人信息。警方查明该案涉嫌侵犯数百亿条个人信息,11家公司涉案,其中有3家公司涉嫌单位犯罪。案件涉及的数据隐私性高,包含了手机号、上网基站代码等40余项信息要素,甚至部分数据能直接进入公民个人账号主页,危害巨大。
报道显示,数据堂在8个月内日均传输公民个人信息1亿3千万余条,累计传输数据压缩后达4000GB左右。该视频新闻有镜头显示,身穿制服的警察出现在有数据堂标志的办工场所中进行检查。

数据堂7月11日发公告称,该案是公司某一客户因出售公民个人信息被公安机关调查,公司个别相关人员牵连涉案接受调查。
“涉及业务为公司已经关停的零星非主营业务,不会对公司主营业务构成重大不利影响”,数据堂在公告中称。
数据堂称,公诉中数据堂未被列为被告,该案已于2018年5月9日和7月10日两次开庭审理完毕,均未宣判。
众包采集信息,0.2元就能买一条病例信息
数据堂在2014年成功挂牌新三板,此后便以“数据第一股”自居。记者在数据堂看到,公司里挂着“大数据共享交易和众包服务平台”“大数据运营中心”等字牌。
数据堂涉及的数据种类非常多。在2016年年报中,数据堂称拥有超过2000TB的数据,涵盖金融、信用、医疗、交通等数十大领域的大规模数据。简单来说,人们发布的每一条微博,在互联网公开上传的每一张照片,发布的每一条评论,都有可能成为数据堂数据交易及应用平台上的信息。
数据堂是如何获取这些信息的呢?
除了一些公共机构公开共享和通过技术手段在网络采集外,数据堂获取数据的来源还包括通过众包采集和供应商提供。
新京报记者了解到,数据堂曾经开发了一款APP,就是通过众包的方式来获取到自己想要的数据。这款名为“众客堂”的APP,主要是用来下发数据堂所需要的数据任务,再由个人或者团队进行声音、图像、文本等数据的采集,并通过该APP上传,最终获得相应报酬。

文章转自新京报
原文链接:https://mp.weixin.qq.com/s/hbWRkWPcjRgGDsAUOBxd2A

7月15日,新京报记者安装了众客堂APP,在任务中心看到,众客堂发布的采集任务包括人脸照片采集、不同国家的语音采集、我国不同地区方言的语音采集、车辆行驶信息采集等,参与这些采集任务的人数有的能达到好几千人。
在一项个人就能参与的“病例图片采集”任务中,需要任务执行者用手机拍摄病例并上传,要求病例内容拍摄完整且必须是手写。对于病例的来源等,任务并没有提出具体要求。
记者注意到,每上传一张病例图片,审核通过后能获得0.2元的报酬,该条任务下的信息显示,已经有3196人参与了该任务。
这样的众包采集数据堂很早就有,据数据堂众包网站介绍,2012年2月,其就推出“发数据,得堂币”活动。但“众客堂”APP在应用系统中显示的最新更新时间是2017年9月,部分对应的链接点击进去显示为“停机维护”,记者无法确定该平台是否仍然在运行。
去年亏损扩大近5倍,百度、华为等是大客户
7月11日,数据堂公告中称,公司已对涉案业务予以整改和停止,并对相关业务进行了梳理。
数据堂旗下主要有AI线、营销线、金融线、财经线4种产品类型。2016年,这4种产品类型的收入占比分别为50.40%、0.39%、18.62%、30.59%。到了2017年,上述4类产品的收入占比变为75.66%、0.71%、12.19%、11.44%。
2017年,数据堂对金融线、营销线的业务均予以关停,这些业务涉及的资产包括预付账款370万元、存货3546万元、固定资产85万元,上述处理对公司合并报表层面的利润总额影响4001万元。
四项产品中关停两项,让数据堂2017年业绩大幅下滑。2016年数据堂净利润为-1693.55万元,2017年这一数字为-9776万元,亏损扩大了将近5倍。
“但凡界定不清的业务均予以关停,使公司上下游客户均有所减少,业务规模受到较大影响”,数据堂在2017年年报中这样解释。
部分业务的关停,也改变了数据堂的发展策略。此前数据堂称,2018年公司将专注于人工智能大数据领域的业务,不断加大在该领域的投入。

值得注意的是,近年来数据堂的前五大客户中,还常常出现华为、百度、三星、谷歌、腾讯等公司的身影。2017年前五大客户中,对华为、百度、三星、谷歌的销售占比分别达到了9.487%、6.744%、4.837%、4.659%。
此外,数据堂还曾与淘宝签订《中英文语音数据》协议,为阿里巴巴集团提供中文手机语音、英文手机语音、粤语手机语音等数据;与搜狗签订《海量语音数据处理》协议,为搜狗科技提供海量语音数据处理解决方案。
截至2018年3月底,数据堂总资产为2亿元,归属于挂牌公司股东的净资产为1.9亿元。今年一季度,公司营业收入为1488万元,净利润为-200万元。(本文源自新京报,记者:李云琦。)

愿你所有幸运,都不期而遇;
愿你所有美好,都如约而至。
愿你所求皆如愿,所行皆坦途。

Copyright © 2024 陕西妙网网络科技有限责任公司 All Rights Reserved

增值电信业务经营许可证:陕B2-20210327 | 陕ICP备13005001号 陕公网安备 61102302611033号