注册

驱动力

其他分类其他2023-01-10
258

网易邮箱数仓演进之路

p04

图解“精益数据方法论”!

p15

数据分析思维九段路线图,
你处于第几段?

p26

APP强制收集用户画像信息
用于个性化推送,构成侵权

p37

目录

contents

前“兔”无量,大展宏“兔”

进入腊月,兔年将至。在传统文化中,兔子承载着丰富的意蕴和象征。
兔子属于哺乳动物,耳长,上唇中间分裂,尾短,善跳跃,跑得快。种类很多,常见的有野兔和家兔之分。家兔毛色雪白,眼睛通红,活泼可爱,喜食萝卜青菜;野兔多土灰色,喜食草叶、草根及农作物嫩叶茎秆。兔子是人类的朋友,它的皮、毛、肉皆可为人类服务,因而在传统文化中,兔子承载着丰富的意蕴和象征。
安静、美好,善良、温顺是兔子留给人们的第一感官和文化符号。
“兔”在中国是一个美好的字眼。由于兔子是一种非常温驯的动物,人见人爱,任何人只要看到它,都会情不自禁地过去摸摸它。大家所熟知的“嫦娥奔月”就是和兔子有关的美丽传说。相传嫦娥吃了仙丹以后,飞往月宫。而嫦娥身边总是有一只玉兔。玉兔在广寒宫里和嫦娥相伴,并捣制长生不老药,从此兔在中国成为月亮的象征,成为十二生肖之一,人们在兔子这种动物身上寄托了美好的希望,赋予了奇妙的联想。所以兔子具有善、美、祥和的寓意。在人们眼中,兔子是最善良、仁慈的,也成了举止文雅、善忠告、谨慎乖巧、和蔼可亲及爱美的象征。
“兔”与十二地支中的“卯”对应,汉代王充《论衡》说:“卯,兔也。”二者组成我们的生肖“卯兔”。“卯”的本字描画的是草木出土萌芽的形象。《说文解字》说:“卯,冒也。二月,万物冒地而出。”在十二时辰中,“卯”时是指早晨5-7时。因此,“卯”表示春意,代表黎明,充满着无限生机。在传统文化中,兔子象征着长寿。道教把兔子视为能制作长生不老药的仙兔,让兔子在桂树下用研钵来捣碎药品,后来兔子慢慢演化为医药业的象征。
机智、敏捷,勇于挑战和献身精神,成为兔子的文化象征和精神图腾。
新春佳节将近,《驱动力》杂志祝福数据部所有小伙伴,兔年大吉,前“兔”无量~!

一线

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

1、概述

1、初始状态

网易邮箱数仓演进之路

原文链接:https://mp.weixin.qq.com/s/yq5OKzQdkcLMDAnHWOZp-g

文章来源于网易有数 ,作者张睿

        本文介绍了网易邮箱数仓的演进过程和期间一些关键的技术方案引入决策,并阐述了这些决策背后的业务需求和技术考虑因素,以及实施后的实际产出成效。最后对整个过程进行了总结及后续展望。

        第一个阶段是2020年10月份之前,这时候我们的数据系统的主要任务是支持邮箱日常的运营统计;
        第二个阶段大概是2020年11月份到2021年的11月份,这段期间公司尝试做业务的调整,挖掘新的长期增长方向。我们在这时候对邮箱数仓底层的OLAP引擎和整个数据处理链路都进行了重构,以适应业务方宽泛的即席数据探索需求;

        第三个阶段大概是2021年的12月份到现在,我们进入了精细化运营探索期。这个时期我们的主要工作是完善数仓结构,满足更多、更深入的数据应用需求。
        可以看到,由于每个时期面临的主要问题不同,前两个阶段切换的主题在于重建基础设施,而后两个阶段切换的主题则是完善上层建筑。

        早期的网易邮箱数仓底层是一套完整的Hadoop体系结构,它的组件构成比较庞杂。但后期它完成的主要任务就是从贴源层计算统计结果到应用层,用作BI报表展示。

        有一组数据能够反映2020年10月份之前这个系统的状态:整个集群大概有300个节点,存了9P+的数据,其中小文件众多,导致元数据条目有6亿+,这个元数据规模让HDFS的NameNode不堪重负,2次崩溃。其中第二次崩溃导致邮箱所有的数据统计任务停了整整1周多的时间,这也是导致我们下决心后续对数仓进行升级改造的直接原因。

3、数仓1.0

一线

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

        然而我们当时只有两名数据开发人员,并且没有专职的大数据运维人员。因此,从资源的角度看,我们实际上也是没有条件继续支撑这套体系持续稳定运转的,一次彻底的底层重构势在必行。根据当时的情况,重构方案在技术层面需要下面考虑三点:
  • 开发效率:因为开发人员少,而基于MR框架的开发效率比较低,我们需要一个使用成本更低、效率更高的开发平台;
  • 系统性能:老系统的任务执行效率较低(尤其是逻辑较复杂的长周期统计任务),新方案应该要在大规模数据集下有更好的查询性能;
  • 运维效率:因为缺少专职的数据运维,我们需要架构相对简单,维护难度相对低的技术选型。
        另外,在业务层面,当时我们的产品和运营侧都还在新方向探索期,对业务指标间的关联性了解不足,没有形成稳定的观察指标体系。具体的症状就是这两个:
  • “不知道要什么”:当你问业务方:“最想要看哪些指标?”,结果通常都是说不上来,不知道哪些指标和用户、会员等核心指标的提升关联度大;
  • “什么都要”:当业务方提需求的时候就是:什么都要。各种业务过程的不同维度、不同粒度下的指标都要看。
        如果在这个时期就去构建完整的多层数仓结构,预先做好多维度的聚合指标,很容易变成无用功,最后要推倒重来。实

        于是经过综合考虑,我们从2020年底到2021年中逐步做了下面几个工作:
  • 第一个是将旧Hadoop集群的数据进行压缩、清理后,迁移到新搭建的猛犸Hadoop集群(规模小了很多),成为新数仓的ODS层,向上层提供原始数据输入;
  • 第二个是选型、引入了以数据查询和写入性能著称的OLAP引擎ClickHouse(下文简称CK),作为新数仓的DWD层,支持应用侧以SQL的形式查询、挖掘事实数据;
  • 第三个是基于Kafka和Flink搭建了一套新的、支持实时数据采集的数据处理链路,为CK输入清洗后的事实数据。

        这套框架搭建完之后带来下面几个方面的好处:

        际上业务侧这时候最需要的是在明细事实数据层面的高性能的ad-hoc查询能力,并且最好更够支持他们进行自助的数据探索。

一线

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

(1)在开发层面
  • 统一用SQL进行数据需求的开发,降低了开发难度,也便于形成统一的开发规范;
  • 降低了业务侧自助查询的门槛,让运营、QA、前后端开发等职能可以自己实现数据统计任务和报表产出,相当于增加了数据开发的人力(这点对我们来说很重要,它让我们能够在人力资源这么紧张的情况下,还能腾出手来,在数仓的外延去补充数据中台的一些能力);
  • 实现了高效的数据接入流程。
(2)在业务提效层面
  • CK具有很高的单表查询和写入性能,提升了数据需求实现的效率;
  • 依靠强大的基础性能,CK可以覆盖从T+1的运营统计到准实时的服务质量基线统计需求。
(3)在运维层面
  • 尽管CK自身也有在扩容等方面的维护难点,但整体上相比Hadoop技术栈的组件要少,部署结构相对简单;
  • 另外CK在数据压缩后仍能维持较好的查询性能,有助于我们控制存储规模。
在新数仓上线后,我们取得了比较显著的业务和技术成效。比如在业务支撑方面,业务侧自助取数占比从0提升到了80%以上,平均取数时长从天级缩短至分钟级,当时的业务指标覆盖度也有了质的提升;在开发层面,统计任务的开发

        因为业务会成长。随着各项运营目标的推进,大家总算是形成了一些相对稳定的业务观察指标了,但观察了一段时间之后的结论就是:很多关键业务指标的增长都出现了瓶颈。而同时在降本增效的趋势下,运营触达行为的转化率要求也提升了。
        实际上是业务增长现在需要更精细化的运营策略了,而这时候我们的系统能力就逐渐和新的需求演化趋势之间产生了一些失配:
  • 首先是深挖业务增长因素的多维度分析场景增多了,而CK的Join性能优化较弱,或者说对于业务侧同学和数据分析师来说,要写出高效的关联查询SQL的门槛比较高,所以应用复杂的维度建模方法的难度较大(如果都

效率、数据查询性能和数据接入效率都成倍地提升;而在运维层面,我们用比之前更少的服务器资源支撑了更高的数据吞吐量,同时系统可用性还得到了提升。
看上去我们已经很好地支撑了当时的业务需求,为什么还要继续折腾呢?

一线

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

打成CK喜欢的大宽表的模式的话,数据表的复用度低,重复开发量大,数据变更的影响也大);
  • 第二个是运营策略越来越依赖用户、设备等维度的标签,而标签(尤其是统计数值类标签)是容易发生变更的,而CK对数据热更新的支持不完善,会增加标签维护的成本;
  • 第三个是随着更多数据应用的出现,分析查询的频次提升了,对数仓的并发请求增多,但CK的并发查询支撑能力不强。
        所以我们需要对系统进行进一步的能力提升。但从资源、成本以及需求时效性的角度考虑,去改造CK或者等它升级提供所需要的能力和特性显然都不现实。
        为了能够在不大规模地改变现有架构的前提下,快速地补充缺失的能力,我们考虑新引入一个能满足这些能力要求的OLAP引擎,并让它主要工作在DWM层,用来承载轻度聚合数据、标签及其他维表,并支撑业务的多维度分析需求。

        于是从2021年年末起,我们按计划引入了StarRocks,并调整了数仓的逻辑结构,从而又带来了一系列提升:

的存算系统的方案。最终考虑到StarRocks在与现有系统的整合难度、关联查询优化、数据更新支持、并发查询能力和运维成本等方面的均衡表现,决定选择它作为新的选型。
        StarRocks实际上是与Doris同源的另外一个开源分支。这背后其实还隐含了另外一个选型因素,就是我们和StarRocks的技术团队在很早之前就建立了联系,他们也在我们的实践过程中提供了很好的技术支持。

在这个新数仓的选型上,我们对比了业界多个优秀的OLAP引擎,其中有基于Hadoop生态的方案,也有采用独立研发

4、数仓2.0

1)在业务支撑层面
  • 可以支持并发度比较高的多维度分析查询需求;
  • 以较小的开发、维护成本满足了数据应用侧的标签查询需求。
(2)在开发及架构层面

一线

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

  • 我们让CK和StarRocks工作在了各自擅长的层次。在数据规模比较大的细粒度事实层,数据探索依然可以依赖CK的大宽表模式;而在中间层的开发中我们也能充分利用StarRocks的自动聚合、智能物化视图等这些特性来提升开发效率;
  • 提升通用指标的复用度,减少了重复开发;
  • 降低了对明细层数据的查询压力。
        目前,我们StarRocks中存储了40多个标签表,数据量达300多亿条,日均数据更新7亿多次,每天承载的查询量达到了千万级(这里包括了一些在线应用的实时请求)。
        在业务成效方面,一些特定的用户标签让定向引流触达活动的点击率平均提升了90%以上;基于数仓中间层的取数系统和画像系统上线以来,累计节省了约10人月的数据开发人力投入;同时标签库也支撑了风控因子库和个性化反垃圾模型的构建。

        如果用一句话来总结到目前为止的数仓建设过程,那就是:“虽然起步晚,但几乎总是在关键的业务发展节点前补充了与之匹配的能力”。我们从中得到的感触主要有两点:
        首先是数据团队应该时刻关注业务的运营状态和数据的产出价值。这是我们跟上业务的发展节奏甚至推动它前进的前提,同时也体现了一种价值取向:就是技术团队的最终产出价值通常不是技术本身,我们的技术活动的终极目标通常也不是技术先进性,而是让业务在残酷的市场竞争中获得生存优势;
        其次是数仓建设无法一蹴而就。因为业务需求的演进需要一个过程,而方案的实施又有各种资源和成本上的限制,所以不可能也没有必要从一开始就考虑实现一个大而全的系统。更好的方式可能是提前预判需求的演变趋势,用来做长期的建设规划,但按中短期的能力要求循序渐进地推进。

5、总结

        展望未来,邮箱业务会持续发展,甚至会尝试突破业务的领域边界。预计会有更多针对特定领域的数据应用出现。这些应用实际上是把调用数仓算力的门槛降低了,会给数据支撑工作带来更大的压力。
        为此我们计划做好以下几件事情:
  • 为了保持数仓系统的健康度,需要完善数据中台的数据治理能力,尤其是通过数据价值评估和数据生命周期管理,有效地控制数仓的热存储中的数据规模;

6、展望

一线

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

  • 为了在降本增效的前提下应对不断提升的应用算力需求,需要提升数仓系统的资源利用率和弹性伸缩能力,因此考虑引入OLAP引擎层面的存算分离和资源隔离机制;
  • 为了应对业务领域拓展可能会带来的不同的数据分析模式,还需要考虑湖仓一体和简化、加速数据湖分析的方案。

        很多企业和组织的数字化转型已经进入实质性的落地阶段,在落地之前大家尝试了各种方法,大量实践证明:数据驱动数字化转型是目前唯一有效的手段,这已成为共识。
        如何才能实现数据驱动数字化转型?当下被越来越多企业关注和采用的“精益数据方法论”是专门为解决这个问题而诞生的。网络上有很多关于该方法论的讨论和介绍,系统、全面的不多,通俗易懂的就更少了。本文尝试用图解的方式来为大家介绍一下究竟什么是“精益数据方法论”。

01 精益数据方法的起源

图解“精益数据方法论”!

原文链接:https://mp.weixin.qq.com/s/hoe8NFLrO7el7b9g1CHZWQ

文章来源于IT阅读排行榜 ,作者史凯

        要了解精益数据方法论,首先应该了解它的核心——精益思想。因为精益思想已经是有超过70年历史的成熟方法论了,所以这里就不详细介绍它的起源和内涵,这里重点强调一下精益思想的2个核心要义:创造价值、消除浪费。
        精益思想提倡以较少的资源投入,包括较少的人力、较少的设备、较短的时间和较小的场地创造出尽可能多的客户需要的价值。精确地定义业务价值是精益思想的第一步,如果不能精准地识别和定义客户需要的价值,就会带来很多浪费。紧接着就是要使保留下来的、创造价值的各个步骤流动起来。

02 精益数据方法的定义、使命和愿景

风向

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

图1 精益思想的主要构成

        分析企业利用数据的各种挑战,很重要的就是缺少价值场景,无法识别用户价值,而现在很多企业所面临的数据质量不高,数据孤岛的问题的本质就是由于低质量的数据生产和过渡的数据生产产生的浪费。
        结合精益思想来观察企业的数据生产,众多的数据问题就迎刃而解,这就是精益数据方法的起源。

        精益数据方法是以精益思想为核心,融合了设计思维,Cynefin框架和敏捷思想,数据驱动的,以价值为核心,高响应力的数字化转型体系。
        精益数据方法的使命是“让数据产生业务价值”。传统的数据管理的方法论,本质的目标都是管理好企业的数据资产,将数据当作一种资源来管理,让数据质量更好,让数据更安全,以管理为核心目的而不是以生产为核心目的。精益

数据方法是让数据对齐企业的业务愿景和目标,直接以生产要素的形式参与生产,产生业务价值,而数据的质量,数据的有效管理,安全可靠更多的是为了实现这个目标的过程和工具,而不是最终的目的。
        精益数据方法的愿景是让每一个企业都成为数据驱动的精益数字化企业,通过精益数据转型方法的实施,让企业提升数据利用的能力。

03 精益数据方法的构成

        精益数据方法由精益数据宣言、精益数据转型、精益数字化企业和精益数据共创工作坊4部分组成,如图2所示:

        精益数据方法以精益数据宣言为指导,通过精益数字化转型的实施,利用精益数据共创工作坊为特色手段,帮助企业打造数据驱动的精益数字化企业。

风向

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

图3 精益数字化企业

1. 精益数据宣言
        精益数据宣言包含精益数据价值观和精益数据实践原则两部分,凝练了精益数据方法的核心价值理解,从底层让相关者对齐价值,统一思想。精益数据宣言可以用在每一次精益数据共创工作坊之前,与团队一起对齐工作理念和指导原则,先统一思想和原则,再进行下一步的动作。
2. 精益数字化转型方法
        精益数据方法包含一套数据驱动的企业数字化转型的实施方法,通过三个阶段,帮助企业一步步构建精益数字化企业的6大能力。
3. 精益数字化企业能力模型
        利用精益数据方法,打造精益数字化企业,需要具备6大数据驱动的能力,如图3所示。

  • 精益数据战略
        精益数据战略,解决企业业务与数据如何融合的顶层设计问题。精益数据战略是在传统数据战略基础上,聚焦客户及业务价值,以精益数据方法为理论指导,结合敏捷思维,轻量级共创式的咨询规划方法。通过精益数据战略的构建,打造企业全链路数据价值流,识别企业痛点和价值点点,将数字化转型解构成一个个的业务场景,再针对不同的问题制定对应的策略予以解决,最终快速迭代。精益数据战略是打造其他五大能力,推进企业数字化转型的总体设计,本书第3章有详细阐述。
  • 精益数据产品
        数据产品是数字经济的主要承载形式,有着超越传统实体产品的数字化优势,企业数字化转型就是要识别价值场景,利用数据要素,打造新的数据产品,形成新的业务模式,获得新的收入来源。
        精益数据方法能够帮助企业探索,创新,打造新型数据产品,提升企业的收益能力,本书第4章有详细阐述。
  • 精益数据治理
        精益数据治理是利用精益数据方法,围绕业务价值的轻量级数据治理方法。不同于传统的数据治理体系, 精益数据治理并不以构建完美的数据标准为目标,而是以解决业务问题,实现业务价值为目标,通过主动,运营,迭代的治理流程,充分与业务融合,辅助以数据协同共享工具,消除数据

风向

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

图4 精益数据方法解决4大问题

生产的7大浪费,充分发挥数据的价值。本书第6章有详细阐述。
  • 数据协同创新
        精益数据方法认为,目前很多企业只关注数据的生产能力,但是忽视了数据的协同共享机制,这是导致数据质量差,数据孤岛的重要因素。所以,建立内外部数据协同创新体系让业务,数据和技术全链路拉通,是打造数据驱动企业的重要手段。数据协同创新的核心是要打造端到端闭环,数据要素为生产资料的高效协作,快速创新的数据价值引擎。本书第六章有详细阐述。
  • 精益数据中台
        精益数据中台是精益数字化企业的核心生产力平台,打造企业级统一,高效,敏捷的数据生产能力,支撑企业业务的快速响应和创新。精益数据方法总结了2个问题域,6大数据生产能力的精益数据中台成熟度模型,不同的企业可以根据自身的需求和特点,来建设自己的数据中台。本书第7章有详细阐述。
  • 数据驱动的组织文化
        数字化转型是一个体系化的问题,所以在转业务和转技术的同时,也有配套的组织和文化转型。打造数据驱动的组织和文化,是企业数字化转型成功的保障机制,也是比业务和技术更加复杂的工作。本书第八章有详细阐述。

  • 精益数据共创工作坊
        精益数据共创工作坊是作者原创的,国内第一套以精益数据共创卡牌为工具,沉浸式体验,互动创新的桌游式工作坊。能够帮助企业的业务人员和技术人员一起共创业务价值场景,梳理数据资产,数字化技术蓝图,制定转型路线和项目清单。

04 精益数据方法的价值

        精益数据方法是一套体系化,结构化的数字化转型方法论,帮助企业解决数字化转型的4大问题,打造数据驱动的企业,如图4所示:

1. 构建数据战略
        精益数据方法,结合传统的自上而下的企业架构规划和敏捷的自下而上探索创新,将业务,数据和技术很好地结合,利用精益数据共创工作坊这样的轻量级,互动式咨询方

风向

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

图5 精益数据共创卡牌

法,帮助企业构建用户价值为核心的、高响应、可落地的数据战略。
2. 共创价值场景
        精益数据方法首创的卡牌式共创工作坊,能够帮助企业的业务人员和技术人员相互协同,探索创新,从而形成企业的数字化业务场景蓝图,按图索骥去快速产生业务价值。
3. 绘制数据资产蓝图
        解决数据孤岛,数据质量问题的核心是主动式数据规划和治理,将业务充分理解建模形成企业的数据资产蓝图,在以此蓝图为指导去规划数据的生产,数据加工和数据消费的应用蓝图。
4. 构建数据中台
        企业数字化能力的核心就是数据生产,数据采集,数据加工和数据消费的能力,而数据中台就是提供业务价值的一站式数据生产平台。精益数据方法利用轻规划,速构建的切片式架构方法,帮助企业打造数据中台。

  • 精益数据共创工作坊
        精益数据共创工作坊是作者原创的,国内第一套以精益数据共创卡牌为工具,沉浸式体验,互动创新的桌游式工作坊。能够帮助企业的业务人员和技术人员一起共创业务价值场景,梳理数据资产,数字化技术蓝图,制定转型路线和项目清单。

05 精益数据共创卡牌

        为了让精益数据方法易实操、可落地,该方法论还专门配有一套剧本杀式的卡牌,根据卡牌的提示即可轻松、有序地开展数字化转型。

        为什么精益数据方法比传统的数字化转型方法更有效?
第一,精益数据方法适应变化的能力更强。
        企业和组织在数字化转型的过程中会有很强的不确定性,几乎不可能在数字化转型之初就规划和设计好所有的动作,必须在行进的过程中不断根据变化做出调整。精益数据方法的底层逻辑是自上而下的企业架构思想,与自下而上、围绕客户价值和场景出发的精益思想的结合。先明确业务目标,然后对齐目标,自下而上探索,共创出相对确定性的价

06 为什么精益数据方法更有效

风向

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

值,所有能助力实现目标的价值场景。这个过程就像先把雨林中的地基探索一圈,识别问题风险,找到盖房子的边界,再沿着这个边界做自上而下的规划,层层落地。这样就能够既能够快速识别不确定性的边界,又能够在最大可能的确定性下做规划分解,指导实施。
第二,这套方法论来自于全球优秀企业的实践。
        不仅有富国银行、奈飞、字节跳动、ThoughtWorks这样的全球巨头在用并取得了很好的成效,而且国内有大量的传统企业在作者的指引和带领下也取得了很好的效果。精益数据方法论是作者基于这些企业的实践经验总结而来的,已经得到了实践的检验。
第三,这套方法论有完善的理论模型,有可靠的科学依据。
        作者结合自己20余年的信息化和数字化工作经验,花了近4年的时间来反复推演和打磨,提炼出了精益数据方法论模型,模型涵盖企业数字化转型应具备的企业文化、能力模型、转型路径和步骤指引。
第四,这套方法论有详细的操作指引。
        数字化转型是一个复杂的系统工程,很多传统的方法论讲得很好,读者看了后也觉得甚是有理,但是一旦要落地,读者又不知该从何处下手,因为理论和实践是脱节的。精益数据方法论不仅有完备、科学的理论模型,而且还有详细的操作指引,作者独创的精益数据方法共创卡牌,能让读者用剧本杀的方式轻松、有序地开展数字化转型。

        也就是说,无论是理论还是实操,精益数据方法都比大多数传统数字化转型方法更胜一筹,这也是为什么有如此多的企业认可它并愿意尝试它的原因。

数说

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

数据分析思维九段路线图,你处于第几段?

原文链接:https://mp.weixin.qq.com/s/-14BrlGnkernZ0J1K8wYJg

文章来源于林骥 ,作者林骥

初段:目标思维

        我做了 10 多年的数据分析,期间有很多同学问我,数据分析主要有哪些思维?学习的路线是怎么样的?
        为了提供一个简单的方向指引,让数据分析思维的学习过程更加有趣,我做了一幅数据分析思维九段路线图,你可以把学习的过程当作一种游戏,享受段位升级的乐趣。

在段位升级的过程中,如果你理解起来感觉比较吃力,那么应该沉下心来,认真地先把基础打好,积累更多的数据分析经验。

# 01.

        做数据分析,首先要一定明确目标,以终为始。
        只有明确目标,才不会迷失方向,就像导航软件,如果没有设置目的地,那么它是没法告诉你路线图的。
目标思维主要体现在以下 3 个方面:
(1)正确地定义问题
        比如说,小明听了煎饼大妈月入 3 万的故事,心里就想:为什么煎饼大妈月入 3 万?
        这个问题的定义,应该是关注「月入 3 万」,而不是「煎饼大妈」。
        也就是说,小明想的应该是「如何实现月入 3 万」,而不是「如何变成煎饼大妈」。
(2)合理地分解问题
        比如说,煎饼大妈如何实现月收入 3 万?
        这是一个比较大的问题,可以进行细分,因为收入等于订单数乘以客单价,所以把这个问题细分为两个小问题:
  • a. 如何实现一个月卖 5000 个煎饼?
  • b. 如何实现平均每个煎饼卖 6 块钱?
(3)抓住关键的问题
        在不同的发展阶段,关键问题是不一样的。
        比如说,对煎饼大妈来讲,刚开始做的时候,关键问题是:如何选择人流量大的好地段?

数说

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

二段:对比思维

        当选好地段之后,关键问题就变成:如何提高路人来购买的概率?如何提高客单价?如何提高重复购买率?
        总之,数据分析的目标,就好比枪上的瞄准器,如果没有瞄准器,枪照样可以打,但是有了瞄准器,枪才可以打的更准。

# 02.

        在数据分析中,没有对比,就没有结论。
        比如说,小明某次期末考试的成绩不好,英语只得了 30 分,小明的妈妈对他说:“你上次考试英语考了 70 分,这次怎么就考得这么差?你看你的同班同学,这次都考 80 分以上。”
常见的对比思维有以下 5 种:
(1)跟目标对比
(2)跟上个月比
(3)跟去年同比
(4)分渠道对比
(5)跟同类对比

没有对比,就没有伤害。

        数据分析的过程,就是在明确目标之后,通过对比等思维,找到问题的原因,得出分析的结论,提出可行的建议,从而起到帮助决策和指导行动的作用。

# 03.

三段:细分思维

不自由,毋宁死。

        在数据分析中,细分是数据分析的灵魂,无细分,毋宁死。
        比如说,小明某次考试的总成绩不好,细分一看,发现其他科目的成绩都不错,只有英语成绩特别差,只得了 30 分,从而拉低了整体的成绩。
常见的细分方法有以下 5 种:
(1)按时间细分
(2)按空间细分
(3)按过程细分
(4)按公式细分
(5)按模型细分
        在运用细分思维解决问题的过程中,要做到有的放矢,围绕数据分析的目标,找到合适的方法,不要像无头苍蝇一样到处乱撞。

数说

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

四段:溯源思维

        当发现数据异常时,尝试从不同的维度进行细分,这样既能锻炼你的数据分析思维,又能加深你对业务的理解。

# 04.

        做数据分析的时候,要多问几个为什么,追根溯源,在数据源寻找可能隐藏的逻辑关系和解决方案。
        比如说,小明把自己每天的行动数据,都用 Excel 详细记录下来,其中包括每一时段的情绪数据。小明做复盘总结的时候,发现有一天情绪数据特别低,然后连续问了几个为什么:
(1)为什么这一天情绪数据特别低?
因为那一天小明上当受骗了。
(2)为什么会上当受骗?
因为骗子用生命安全来吓小明。
(3)为什么骗子能吓到小明?
因为小明担心自己的生命安全。
(4)为什么小明会担心生命安全?
因为求生是人类的本能反应。
(5)为什么人会有求生的本能?
        因为人的大脑分为:年代久远的本能脑、相对古老的情绪脑和非常年轻的理智脑。

        理智脑对大脑的控制能力很弱,大部分决策往往源于本能和情绪,而非理智。
        到这一步,小明找到了自己上当受骗的根本原因,在于自己当时没有控制好自己的大脑,所以失去理智。
        针对这个问题,小明运用「控制两分法」,并在脑海中反复进行演练,然后在实践中进行校正,实现与情绪的和平共处,从而更加理智地面对纷繁复杂的世界。
        如果你经常运用溯源思维,就能提升数据的敏感度,并加深对业务的理解。

# 05.

五段:相关思维

        相关思维,就是寻找变量之间相互关联的程度。
        比如说,有一家超市的数据分析师发现,跟尿布一起购买最多的商品竟然是啤酒,啤酒和尿布有什么关联呢?
        采访小明的爸爸,他说自己下班后,给小明的妹妹买尿布的同时,也会购买自己喜欢喝的啤酒。
        如果一个变量改变的时候,另一个变量也朝着相同的方向发生变化,那么我们就说这两个变量之间存在正相关性。
        运用相关思维,通常包括以下 3 个步骤:
(1)收集相关数据
(2)绘制散点图形

数说

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

六段:假设思维

(3)计算相关系数
        需要注意的是,相关不等于因果。即使两个变量之间相关,也不代表其中一个变量的改变,是由另一个变量的变化引起的。
        比如说,国家的诺贝尔奖数量,与巧克力消费量之间呈现正相关关系,但这并不是说,多吃巧克力有助于获得更多的诺贝尔奖。
        一种合理的解释是,诺贝尔奖的数量与巧克力的消费量,很可能都是由其他变量导致的,例如国民的受教育程度和富裕程度。

# 06.

        这句话非常适合用在数据分析领域。
        大胆假设,就是要打破既有观念的束缚,挣破旧有思想的牢笼,大胆创新,对未解决的问题提出新的假设。
        小心求证,就是基于上面的假设,用一种严谨务实的态度,寻找真相,不能有半点马虎。
        比如说,有一天小明去买水果,跟卖水果的阿姨说:
        “阿姨,你这桔子甜不甜?”
        阿姨:“甜啊,不信你试试。”

        小明:“好,那我试一个。”
        小明剥开一个桔子,尝了一口说:
        “嗯,不错,确实挺甜的,给我称两斤。”
        运用假设思维,通常包括以下 3 个步骤:
        (1)提出假设
        (2)统计检验
        (3)做出判断
        大胆假设并非绝对可靠,但是通过小心求证,我们可以更好地认识世界上的许多现象,从而得出更有价值的分析结论。

# 07.

七段:逆向思维

        到了七段,你已经具备比较丰富的数据分析经验,此时如果想要进一步有所突破,就得打破常规,具有逆向思维的能力。
        比如说,有一天小明去买西红柿:“阿姨,你这西红柿多少钱一斤?”
        阿姨:“两块五。”
        小明挑了 3 个放到秤盘:“阿姨,帮我称一下。”
        阿姨:“一斤半,3 块 7 毛。”
        小明去掉其中最大的西红柿:“做汤不用那么多。”

大胆假设,小心求证。

数说

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

八段:演绎思维

        阿姨:“一斤二两,3 块。”
        小明拿起刚刚去掉的那个最大的西红柿,付了 7 毛钱,扭头就走了。
        你看,本来是阿姨想占小明的便宜,虚报重量。但是,小明利用逆向思维,反而让阿姨吃了哑巴亏。
        常见的逆向思维有以下 5 种:
        (1)结构逆向
        (2)功能逆向
        (3)状态逆向
        (4)原理逆向
        (5)方法逆向
        理解这些逆向的方法,有助于你打开数据分析的思路,不断提升自己的可迁移能力,尤其是底层的思维能力,做到以不变应万变。

# 08.

        演绎思维的方向是由一般到个别,主要形式是「三段论」,由大前提、小前提、结论三部分组成。
        比如说,小明不仅知道:金属都能导电;而且知道:铜是一种金属;所以小明可以得出结论:铜能导电。

# 09.

九段:归纳思维

        运用演绎思维,应该遵循 5 项基本原则:
        (1)不要出现第四个概念
        (2)中项要能向外延伸
        (3)大项和小项都不能扩大
        (4)前提都为否,结论不必然
        (5)前提有一否,结论必为否
        掌握以上基本原则,能帮你建立更加严谨的数据分析思维。

        归纳思维的方向与演绎正好相反,归纳的过程是从个别到一般。
        比如说,小明先知道:金、银、铜、铁等金属分别能导电,然后归纳出一个结论:所有金属都能导电。
        这个过程,是先接触到个别事物,然后再进行归纳总结。
        常见的归纳方法有以下 5 种:
        (1)求同法
        (2)求异法
        (3)共用法

数说

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

        (4)共变法
        (5)剩余法
        这些方法是我们获取新知识的重要途径,不过需要注意的是,很多案例和故事都说明,有限的观察并不等于真理。
        为了避免以偏概全,我们还要加强归纳思维的训练,积累更多实战的经验,这样归纳总结出来的结论,才能经得起时间的考验,才会更有现实意义。
        通过归纳总结,得出有价值的分析结论,这既是数据分析的终点,也是数据分析的起点,形成一个正向的循环系统。
--最后的话--
        正确的思维能力,是做好数据分析的必备条件,这也是很多人相对比较欠缺的一种能力。
        要想成为一个有洞察力的人,就要多学习、多思考、多总结、多实践,通过刻意练习,举一反三,把数据分析的思维,应用到日常的工作和生活中去,逐渐提升自己的数据分析思维能力。

案情回顾

北京互联网法院:APP强制收集用户画像信息用于个性化推送,构成侵权

原文链接:https://mp.weixin.qq.com/s/jlovnjv4rNluZA_ywaymAw

文章来源于数据法盟

      近日,北京互联网法院审结了APP强制收集用户画像信息侵权案。该案中,原告罗某认为被告运营的软件在用户首次登录时强制收集用户画像信息用于个性化推送,侵犯其个人信息权益。法院经审理认为,涉案软件在首次登录界面收集用户画像信息,未设置“跳过”“拒绝”等路径,属于强制收集,构成侵权,依法判决被告涉案软件运营者承担相应侵权责任。宣判后,被告上诉,二审维持原判,目前该案已生效。

准绳

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

法院经审理认为

        原告罗某诉称,被告运营的软件在未告知隐私政策的情况下,要求用户必须填写“姓名”“职业”“学习目的”“英语水平”等内容才能完成登录,属于强制收集用户画像信息。同时,原告还主张被告存在未经同意向其发送营销短信、向关联软件共享信息等行为,侵犯其个人信息权益。原告诉至法院,要求法院判令被告涉案软件运营者向原告提供个人信息副本、停止侵权、删除个人信息、赔礼道歉并赔偿损失。
        被告涉案软件运营者辩称,由于被告服务的性质,需根据不同用户需求,为用户推荐合适的服务内容,因此,收集相关标签是提供服务所必需,并未违反个人信息收集的必要性原则,且该信息是原告主动填写,原告通过自己主动作出的行为同意了被告的信息收集行为。
        法院查明,原告在登录涉案软件时,进入账号登录界面输入用户名和密码,点击登录,即出现若干问答界面,需要对用户“职业”“学习目的”“英语水平”等内容进行填写,填写完成后,还需填写个人基本信息界面,输入中英文名等必填内容才能完成注册并进入首页。上述过程中并无“跳过”选项,亦无关于同意收集个人信息的提示。原告另行取证,在新用户注册登录时,在上述过程中出现若干问答界面前,会出现个人信息收集授权同意界面,用户在勾选同意后方可进入下一界面。

        从相关行业规范上看,《个人信息安全规范》明确规定,个性化决策推送信息不应作为必要或唯一的信息推送模式,需同时提供不针对个人特征的选项或提供便捷的拒绝方式。据此,被告不得以仅提供个性化决策推送信息这一种业务模式为由,主张收集用户画像信息为提供服务的前提。
        从涉案软件功能设置本身上看,履行合同所必需的范围,应限定在软件运营者提供的基本服务功能,或用户在有选择的基础上自主选择增加的附加功能。被告抗辩其针对不同用户需求推送个性化信息,虽可视为增进用户体验之举,但不能据此认定此为基础功能或用户必选功能而作为履行合同所必需。
        涉案软件在用户首次登陆界面要求用户提交画像信息,未设置“跳过”“拒绝”等不同意提交相关信息外的登陆方式,使得提交相关信息成为成功登录、进入首页使用软件的唯一方式。此种产品设计将导致不同意相关信息收集的用户为实现使用软件的目的,不得不勾选同意或提交相应的信息。此种同意或对个人信息的提供,是在信息主体不自由或不自愿的情况下,强迫或变相强迫地作出,不能被认定为有效同意。
        综上,被告收集用户画像信息的行为并非“履行合同所必需”,亦未征得用户有效同意,构成侵权。
        同时,被告未经同意向原告发送营销短信、向关联软件共享信息亦构成侵权,法院判决支持原告行使查询权和复制权。

准绳

HAPPT New Year !

驱动力

HAPPY SPRING FESTIVAL!

裁判结果

        最终,法院判决被告涉案软件运营者向原告罗某提供个人信息副本、删除个人信息并停止个人信息处理行为,赔礼道歉并赔偿维权支出2900元。

        数字经济时代,数据作为生产要素的利用、流动和保护问题,成为构建新时代网络空间治理秩序的重要组成部分。在移动互联网产业中,以个性化推荐模式作为基础的商业创新的现象层出不穷,用户画像作为个性化推荐过程中需要处理的典型个人信息,其保护和处理规则的确立和完善对于行业发展具有重要规范意义。
        本案中,法院确认了用户画像作为个人信息的法律属性,并明确了其收集和处理中两个基本问题的重要规则。一是是否需要获取用户同意,法院认为,如果个性化推荐并非涉案软件的基础服务功能,则收集用户画像不属于履行合同所必需,从而需要获得用户同意;二是如何认定“有效同意”,被告未能提供用户自主选择情况下的强制收集,不能认定为有效同意,从而构成侵权。法院的判决为用户画像的产业应用确立明确的法律规则适用标准,能够为包括用户画像在内的个人信息处理行为提供清晰的指引,从具体事实和场景出发,强调个人信息权益保护与数据要素流通秩序的协调统一,为确立一般性的行业合规规则提供基础,有助于数字经济产业规范、有序、健康发展。

专家点评

中国社会科学院大学、互联网法治研究中心执行主任刘晓春

易宝支付 · 数据部
朝阳区朝外大街甲6号 万通中心D做25层
KAI.ZHAO@YEEPAY.COM

Copyright © 2024 陕西妙网网络科技有限责任公司 All Rights Reserved

增值电信业务经营许可证:陕B2-20210327 | 陕ICP备13005001号 陕公网安备 61102302611033号