京公网安备 11010802034615号
经营许可证编号:京B2-20210330
Trifacta是一种提供数据分析服务的平台,最近获得了风险投资以推动其能使数据分析师更容易地做数据整理的工作。它的目标是能够比目前更快、更容易地收集、清理和转换数据。
数据整理(Data wrangling)一直是每个大数据项目中最耗费时间和最令人痛苦的部分。在我们这个时代,数据是流动的、异构的,作为数据源其属性会不断变化。 NoSQL数据库一直都尝试解答在存储方面是使用基于列式存储还是基于文档型存储,但问题依然是如何收集数据和应用其语义。
Trifacta以用户为中心的角度而不是以程序员的角度去解决问题。业务分析师和数据科学家将能使用可视化的方式去清洗数据集。基于伯克利分校和斯坦福大学的研究,该平台的目的是使员工和机器一起合作,以从数据集中提取数据。
使用可视化的方式我们可以从大数据集中自动化采样数据,这让分析师可以在很短的时间发现有趣的模式。Trifacta可以应用机器学习算法为重新组织信息和整理提供建议。大数据分析师可以将数据集分组为信息的逻辑部分,每次将其规范化,并在其工作过程中以友好的界面方式显示。归纳概括整个数据集合是最后一个步骤,这将最终形成半结构化的数据集并最终成形。该平台是在底层设计时考虑到用户的体验,让数据分析师能专注于数据的处理,而无需开发复杂的管道去清理数据和把它们放入数据仓库。
Trifacta的项目前身DataWrangler 和相关研究文章都可以在线获取并可以从中了解Trifacta是如何实现的,因为它们目前依然处于封闭的beta测试阶段,所以只能通过预约邀请的方式进行演示。
Trifacta Seeks to Simplify Data Wrangling-as-a-Service
Trifacta, a data analysis services platform, recently received VC investment to advance on their efforts of making data wrangling easier for data analysts. The goal is to collect, cleanse and munge data in a fraction of the time and effort it currently takes.
Data wrangling has traditionally been the most time consuming and painful part of every Big Data project. In our era, data is flowing, heterogeneous and constantly changing attributes as data sources are evolving. NoSQL databases have long tried to answer this question in the storage side by being column based or document based but the problem still remains in getting the data collected and applying semantics to it.
Trifacta is approaching the problem from a user centric perspective, instead of a developer one. Business analysts and data scientists will be able to cleanse datasets in a visual oriented way. Based on research at Berkeley and Stanford, the platform aims to make employees and machines collaborate together in extracting insights from datasets.
Automated smart sampling from big data sets together with visualization allows for the analyst to discover interesting patterns at a fraction of the time. Trifacta can then apply machine learning algorithms to suggest ways to reorganize information and get it into shape. The analyst can group the dataset into logical parts of information, normalizing it one step at a time and viewing the outcome in a user friendly way along its course of work. Generalizing in the whole dataset is the last step which turns the semi-structured dataset into shape. The platform is designed from ground up with user experience in mind to allow data analysts to shift in depth through data, without the need to develop complex pipelines to cleanse the data and bring them into the Data Warehouse.
Trifacta’s predecessor research project, DataWrangler and the research paper are available online and can give a sneak preview of what Trifacta is getting to, since they are still in a closed beta, only scheduling demos by invitation.
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13当流量红利消退、用户需求日趋多元,“凭经验决策、广撒网投放”的传统营销模式早已难以为继。大数据的崛起,为企业营销提供了全 ...
2026-05-13 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-05-13在手游行业存量竞争日趋激烈、流量成本持续高企的当下,“拉新”早已不是行业核心痛点,“留存”尤其是“付费留存”,成为决定手 ...
2026-05-12 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-05-12用户调研是企业洞察客户需求、优化产品服务、制定运营策略的核心前提,而调研数据的可靠性,直接决定了决策的科学性与有效性。在 ...
2026-05-11在市场竞争日趋激烈、流量成本持续攀升的今天,企业的核心竞争力已从“获取流量”转向“挖掘客户价值”。客户作为企业最宝贵的资 ...
2026-05-11 很多数据分析师精通Excel单元格操作,熟练应用多种公式,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质 ...
2026-05-11在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-05-09在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08