京公网安备 11010802034615号
经营许可证编号:京B2-20210330
将大数据变成可管理的数据
大数据是无所不在的,因为它可以提供有价值的洞察力,如果没有它是不可用的。然而,分析大数据集可能会产生问题。首先,大数据是大规模的,有时太大,不能通过常用的分析工具有效地处理。日前,美国麻省理工学院计算机科学与人工智能实验室和以色列海法大学的研究人员已经开发了一个解决方案,将大数据变成可管理的数据。
通常使用诸如低秩近似,奇异值分解,主成分分析和非负矩阵分解的数据分析工具来减少数据集中的变量的数量。不幸的是,在大量大数据集上使用这些工具通常太费时,不实用。
解决这个问题的典型解决方案包括为大数据集找到一个核心集。核心集是大数据的一个子集,用于保留大数据最重要的数学关系。数据分析工具可以更有效地与coreet工作,因为它更小。
如果要进行两个或多个数据分析,则进行查找可能是一个问题,因为从大数据中提取核心集,每个分析工具都有自己唯一的方法。在分析中比较结果,将涉及比较来自不理想的不同核心的结果。研究团队通过开发一种用于提取可由大量常用数据分析工具使用的核心集的通用方法来解决这个问题。
假设工作人员想要识别在一个巨大的文本数据库(如维基百科)中最常出现的主题。低秩近似是一种将完成这项工作的算法,但维基百科数据库非常大,因此,采用低秩近似将花费太长的时间来完成任务。
维基百科数据库有多大?想象一下,在维基百科中每一篇文章都有一行的矩阵或表格,以及在维基百科中出现的每个单词的列。该矩阵将有140万篇的文章和440万列的单词。这是一个约6.2万亿个单元格的表格,平均分配到地球上每个人,每人约为821个单元格。这的确是一个大数据。
研究人员的解决方案使用高级类型的几何知识来将这个巨大的数据集缩减为更易于管理的核心集。想象一下,通过一个二维的具有长和宽的矩形就很容易处理。现在添加第三个维度,深度。也很容易想象这是一个盒子,现在添加第四个维度,时间。我们称之为时空,但它不是那么容易想象。现在添加两个或三个更多的维度,并想象它的外观。
人们无法想象这些多维空间看起来像什么,但是可以采用几何知识描述。为了缩小维基百科矩阵,研究人员使用了一个叫做超循环的多维圆,它有440万个维度,可以表达维基百科中出现的每个单词一个。维基百科中的140万篇文章中的每一篇都表示为这个超循环上的唯一点。
研究人员如何将超循环收缩成更易于管理的东西?维基百科中的440万列单词的每一个都由一个变量表示,维基百科中的每篇文章都由这些440万个变量的唯一的一组值表示。研究者的超循环技术涉及一次获取一篇文章,并找到其440万个变量的一小部分的平均值,例如50个变量。最好保留变量之间的数学关系的平均值可以通过计算表示50个变量或单词的这个小得多的50维超循环的中心来找到。然后将平均值作为coreet中的一个数据点输入。而对每篇文章中的剩余变量(单词)和140万篇文章中的每一篇重复这个过程。
使用此方法将大数据维基百科矩阵缩减为核心集需要大量的单独计算,但每个计算都可以非常快速地执行,因为它只涉及50个变量。其结果是一个核心集,它保留了大数据中存在的重要的数学关系,并且足够小,可以被各种数据分析技术有效地使用。
超循环技术的真正核心在于这种品种。该技术创建了一个核心集,可以被许多数据分析工具使用,这些工具通常应用于计算机视觉,自然语言处理,神经科学,天气预报,推荐系统等。甚至人们可能认为超循环,都是他们所有规则的一环。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15