京公网安备 11010802034615号
经营许可证编号:京B2-20210330
治理分析应用 保护客户数据
CDPQ是加拿大魁北克省蒙特利尔市一家公司,该公司管理着加拿大魁北克的公共部门养老基金。该公司正面临一个棘手的问题:如何监管其数据科学家和业务分析师基于分析应用所做的工作,同时还不会妨碍他们的工作。
作为新数据管理架构的一部分,其设计是为帮助提升其分析能力,CDPQ在数据仓库内部设置了分离的数据沙箱,给分析师提供探索和原型用途。CDPQ负责建模和业务分析的高级主管Luc Veillette介绍,他们的目标是为分析师们清理道路,快速研制算法并对业务问题给出答案——最终实现更好的投资计划和投资组合管理决策。
但是,这并不意味着可以全权委托。CDPQ的数据治理项目包括一组使用规则,例如:只要有可用的官方公司数据源,分析师们必须使用这些数据源;分析模型需要在审计阶段审查。他和其它经理们还要对分析活动保持关注。
他说:“我们对于我们的数据科学家做什么,努力形成集中的认识。另外CDPQ想确保分析过程有文档记录下来,而且数据不会被误用。即便如此,治理工作也并不是高压强制措施,而是一种协作行为,为了让业务单元持续走上数据驱动的发展方向。”
Intuit公司个人理财软件开发者已经把这种协作带到了另一个层面。两年前,Intuit把其150人的分析团队安置为法务部门的一部分,并且让律师们和分析经理、数据科学家和其他员工配合工作,一起确立访问和分析不同客户数据集的规则,使各个产品线配合更加紧密。
分析应用程序的不同优先级
Laura Fennell是Intuit公司的高级副总裁,兼法律顾问和秘书,他说此举是因扩展分析应用的需求而产生的,为了推动产品研发和市场策略,同时维护客户个人信息,尽力避免任何形式的数据误用。误用可能会损害加利福尼亚州Mountain View公司的名声。
Fennell说:“我们必须做正确的事。分析的利益是巨大的,但是风险也是巨大的。我们客户的信任就是品牌的一切。这是我们客户的数据,不是我们的数据。涉及信息总量巨大:截止今年年初,我们有超过五千万客户,数据累积超过6PB。”
分析团队负责人Bill Loconzolo在刚刚结束的Strata+Hadoop2015全球大会上展示了一次联合演示,Fennell承认“我们对关系的处理真是万事开头难”。法律团队看到了大量需要保护的敏感数据,数据科学家质疑如果在流程中有律师参与,他们怎么能做出来创新性的分析工作。Loconzolo说,即便现在,为什么分析团队属于法律部门也仍然是“一个不断被问及的问题,我们一直在解答这个问题”,每次他和其他管理者们招募到了新的分析师就需要解释一次。
但是,Loconzolo说这种搭配经证明是有好处的,他现在的头衔是数据工程副总裁。在此之前,分析团队主要是为明确客户数据保护措施而努力工作,作为独立的业务单元一对一的交流,法律团队在形成技术决策以后提供输入。但是,Loconzolo说这样做流程太慢而且“极其痛苦”,可能会要几年时间才能完成整个公司64个产品名录的相关工作。Intuit加快了这项工作,把更多数据放到了专为分析用途建立的私有云,经过这样的集中化处理,就把律师从业务单元带到了原始数据的面前。
律师们还必须调整他们对新流程环节的认识。Fennell说:“我们的工作必须调整,不能只是说不行,要考虑我们怎样能使工作运转起来。目标不是完全锁定在客户数据,而是要弄清楚如何使数据量合适,以便分析师们可以完成他们的工作。要避免不同方向两头使劲,他们要把待分析数据访问的目标共享出来,让大家都能有分析用途的数据访问,也分担了实现那些目标的职责。”
Rent the Runway 是纽约一家创业公司,该公司利用互联网租借礼服和时尚配饰用于婚礼、聚会派对和其它活动。该公司要处理的数据比Intuit少,但是对于处理系统中的客户数据避免步骤出错也有类似的担忧。
Vijay Subramanian是该公司的首席分析官。他说:“这正是我们思考的内容。我们的理念是‘客户至上,信任第一’”。由于Rent the Runway 公司现在还没有自己的法务部门,所以他在外面聘请律师来操作,审核在线表单收集的尺码信息和其他数据,这些数据会导入到网站的推荐引擎中用来帮助给访问网站的用户推荐他们可能喜欢的服饰。
为分析项目限制时间
该创业公司资源非常有限,而其业务需求变化很快。结果,Subramanian试图限制他的团队所做开发项目的周期不超过三个月到六个月。他说:“对于要做的业务来说,超过这个时间范围就有巨大风险,我们没有那么奢侈的时限。”
Rent the Runway公司的数据科学家们使用Python或者开源R编程语言来编写机器学习算法,包括增强的推荐引擎和用于微调定价的需求预测系统。为帮助保证开发流程向前推进,Subramanian采用了所谓的最小化变化产品方法学,该策略限制算法实现尽可能少的功能并高效实现。他说,然后数据科学家们可以回过头来在另一轮开发周期中再添加算法,他希望在项目中避免“沙漠中漫无目的的游荡”。
在后端,Rent the Runway公司把数据放到数据仓库,使用了HP的Vertica数据库,把来自MySQL系统的传统数据和来自MongoDB的NoSQL数据(存储关于对服饰的态度评价信息),还有跟踪网站活动的JSON日志文件混存到了一起。随着该公司数据量的增长,Subramanian说他希望最终在Vertica之前增加一套Hadoop系统作为资产存储所有原始数据。
在他们公司有一件事永远不会落伍,就是在利用分析应用改善业务方面做投资。Rent the Runway公司需要数据来驱动成功。他强调说:“我们看起来像是常规的时尚业公司,但是我们必须有良好的数据存储使消费者信服,进而只租不买”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11