
我想查找某一方面的大数据。怎么办:如何操作,上哪家网站,使用什么软件等。 我需要北京市市内货运出租9月份的营运数据如何操作!
题主把问题改成了“我需要北京市市内货运出租9月份的营运数据如何操作”,这和想象中的学术问题不一样啊摔!
先泼一盆冷水:题主要做好准备花钱买这个数据。
可能的来源:北京市各种出租车公司(货运出租公司?),打车APP(如果是客运出租的话)、市场调查公司、自己花钱去打车跟自己聊(也是针对客运)。 准确度依次下降,麻烦程度依次上升,为了得到同样准确的估计,花费大概会依次上升。
不太可能的来源:互联网。
以及为什么这种数据要钱:
1. 采集要钱。对于出租车公司来说,这个采集过程相对简单,因为计价器都是他们的,他们随时知道自己手下出租车的运营状况,他们的花费基本上是公司的运营费用。对于打车 APP来说,他们用APP收集,相比出租车公司来说,又多了一份市场推广的成本。市场调查公司是靠收集数据为生的,所以不管数据用什么渠道花多少钱能得到,肯定要加价买给你——之所以他们能做这个生意是有时候你没有数据的渠道,有时候你没有那么多人工去实地调查。
2. 数据本身的营利潜力。看到这个数据能做的事情太多了,我可以知道什么地方打车不方便、从哪到哪的客流大、什么时间哪里的打车需求大、接什么单子跑得快、什么路线容易堵车等等等等,这都是大好的赚钱机会啊!
当然了,如果题主有亲戚朋友在出租车公司工作(最好是管理岗/老司机)就主动串串门套套近乎吧,上面这些都当我没说。
====以下是原答案的分割线=====
谢邀。题主起码来点提示“某一方面的大数据”是指什么,另外您的应用场景是什么吧,不然我只能告诉你请上http://google.com,用google chrome/mozilla firefox等软件。或者如果您想说“我想要X银行的日交易详情用来预测股票走势”,那我只能建议您找找黑客网站,使用黑客工具了——不保证效果且后果自负。
说正经的,如果题主想自己采集大数据(其实我猜不是,那就去找现成数据集吧,,以下可以参考:
1. 图片/视觉:Google Images。直接输入搜索词,然后人工把一些符合目标的图片下下来。这是Caltech 101/256和ImageNet的主要采集方式
2. 文本/自然语言处理:
2.1. Wikipedia。Wikipedia经常发布整个网站的snapshot,包括所有的文本(有些版本还包括多媒体资料),这是自然语言处理研究常用的数据集之一。好处是它还包含多语言版本,有时也被机器翻译学者用作研究对象。
2.2. Google Search。搜索引擎的搜索条目摘要(search snippets)也是重要的语义/语料来源之一。
2.3. WordNet。英语名词的分类、解释和相互关系。常用于语义任务。
3. 语音/语音识别:LDC(Linguistic Data Consortium)。学界做语音识别的数据集大多来自这里。有英语、汉语(普通话)、阿拉伯语等多语种的数据——不过大部分数据要钱。
4. 其它:Amazon Mechanical Turk。如果你有大量数据需要利用人类常识进行标注(而非专业人士分析),但手头只有闲钱没有人力的话,AMT是不二的选择。ImageNet等数据集都是在AMT的帮助下完成的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
SASEM 决策树:理论与实践应用 在复杂的决策场景中,如何从海量数据中提取有效信息并制定科学决策,是各界关注的焦点。SASEM 决 ...
2025-07-30SPSS 语法使用详解 在当今数据驱动的时代,SPSS( Statistical Package for the Social Sciences)作为一款功能强大的统计分析软 ...
2025-07-30人工智能对CDA数据分析领域的影响 人工智能对 CDA(Certified Data Analyst,注册数据分析师)数据分析领域的影响是全方位、多层 ...
2025-07-30MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-29左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-29CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-29CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-29解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-29解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-29鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-29用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-29从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-29CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-29解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-29用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-29从数据到决策:CDA 数据分析师如何重塑职场竞争力与行业价值 在数字经济席卷全球的今天,数据已从 “辅助工具” 升级为 “核心资 ...
2025-07-292025 年 CDA 数据分析师考纲焕新,引领行业人才新标准 在数字化浪潮奔涌向前的当下,数据已成为驱动各行业发展的核心要素。作为 ...
2025-07-29PyTorch 核心机制:损失函数与反向传播如何驱动模型进化 在深度学习的世界里,模型从 “一无所知” 到 “精准预测” 的蜕变,离 ...
2025-07-29t 检验与 Wilcoxon 检验:数据差异分析的两大核心方法 在数据分析的广阔领域中,判断两组或多组数据之间是否存在显著差异是一项 ...
2025-07-29PowerBI 添加索引列全攻略 在使用 PowerBI 进行数据处理与分析时,添加索引列是一项极为实用的操作技巧。索引列能为数据表中的每 ...
2025-07-29