京公网安备 11010802034615号
经营许可证编号:京B2-20210330
我想查找某一方面的大数据。怎么办:如何操作,上哪家网站,使用什么软件等。 我需要北京市市内货运出租9月份的营运数据如何操作!
题主把问题改成了“我需要北京市市内货运出租9月份的营运数据如何操作”,这和想象中的学术问题不一样啊摔!
先泼一盆冷水:题主要做好准备花钱买这个数据。
可能的来源:北京市各种出租车公司(货运出租公司?),打车APP(如果是客运出租的话)、市场调查公司、自己花钱去打车跟自己聊(也是针对客运)。 准确度依次下降,麻烦程度依次上升,为了得到同样准确的估计,花费大概会依次上升。
不太可能的来源:互联网。
以及为什么这种数据要钱:
1. 采集要钱。对于出租车公司来说,这个采集过程相对简单,因为计价器都是他们的,他们随时知道自己手下出租车的运营状况,他们的花费基本上是公司的运营费用。对于打车 APP来说,他们用APP收集,相比出租车公司来说,又多了一份市场推广的成本。市场调查公司是靠收集数据为生的,所以不管数据用什么渠道花多少钱能得到,肯定要加价买给你——之所以他们能做这个生意是有时候你没有数据的渠道,有时候你没有那么多人工去实地调查。
2. 数据本身的营利潜力。看到这个数据能做的事情太多了,我可以知道什么地方打车不方便、从哪到哪的客流大、什么时间哪里的打车需求大、接什么单子跑得快、什么路线容易堵车等等等等,这都是大好的赚钱机会啊!
当然了,如果题主有亲戚朋友在出租车公司工作(最好是管理岗/老司机)就主动串串门套套近乎吧,上面这些都当我没说。
====以下是原答案的分割线=====
谢邀。题主起码来点提示“某一方面的大数据”是指什么,另外您的应用场景是什么吧,不然我只能告诉你请上http://google.com,用google chrome/mozilla firefox等软件。或者如果您想说“我想要X银行的日交易详情用来预测股票走势”,那我只能建议您找找黑客网站,使用黑客工具了——不保证效果且后果自负。
说正经的,如果题主想自己采集大数据(其实我猜不是,那就去找现成数据集吧,,以下可以参考:
1. 图片/视觉:Google Images。直接输入搜索词,然后人工把一些符合目标的图片下下来。这是Caltech 101/256和ImageNet的主要采集方式
2. 文本/自然语言处理:
2.1. Wikipedia。Wikipedia经常发布整个网站的snapshot,包括所有的文本(有些版本还包括多媒体资料),这是自然语言处理研究常用的数据集之一。好处是它还包含多语言版本,有时也被机器翻译学者用作研究对象。
2.2. Google Search。搜索引擎的搜索条目摘要(search snippets)也是重要的语义/语料来源之一。
2.3. WordNet。英语名词的分类、解释和相互关系。常用于语义任务。
3. 语音/语音识别:LDC(Linguistic Data Consortium)。学界做语音识别的数据集大多来自这里。有英语、汉语(普通话)、阿拉伯语等多语种的数据——不过大部分数据要钱。
4. 其它:Amazon Mechanical Turk。如果你有大量数据需要利用人类常识进行标注(而非专业人士分析),但手头只有闲钱没有人力的话,AMT是不二的选择。ImageNet等数据集都是在AMT的帮助下完成的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11在CDA(Certified Data Analyst)数据分析师的实操体系中,统计基本概念是不可或缺的核心根基,更是连接原始数据与业务洞察的关 ...
2026-02-11在数字经济飞速发展的今天,数据已成为核心生产要素,渗透到企业运营、民生服务、科技研发等各个领域。从个人手机里的浏览记录、 ...
2026-02-10在数据分析、实验研究中,我们经常会遇到小样本配对数据的差异检验场景——比如同一组受试者用药前后的指标对比、配对分组的两组 ...
2026-02-10在结构化数据分析领域,透视分析(Pivot Analysis)是CDA(Certified Data Analyst)数据分析师最常用、最高效的核心实操方法之 ...
2026-02-10在SQL数据库实操中,字段类型的合理设置是保证数据运算、统计准确性的基础。日常开发或数据分析时,我们常会遇到这样的问题:数 ...
2026-02-09在日常办公数据分析中,Excel数据透视表是最常用的高效工具之一——它能快速对海量数据进行分类汇总、分组统计,将杂乱无章的数 ...
2026-02-09表结构数据作为结构化数据的核心载体,其“获取-加工-使用”全流程,是CDA(Certified Data Analyst)数据分析师开展专业工作的 ...
2026-02-09在互联网产品运营、用户增长的实战场景中,很多从业者都会陷入一个误区:盲目投入资源做推广、拉新,却忽视了“拉新后的用户激活 ...
2026-02-06在机器学习建模过程中,特征选择是决定模型性能的关键环节——面对动辄几十、上百个特征的数据(如用户画像的几十项维度、企业经 ...
2026-02-06在CDA(Certified Data Analyst)数据分析师的日常实操中,表格结构数据是贯穿全流程的核心载体,而对表格数据类型的精准识别、 ...
2026-02-06在日常办公数据分析中,我们经常会面对杂乱无章的批量数据——比如员工月度绩效、产品销售数据、客户消费金额、月度运营指标等。 ...
2026-02-05在分类模型(如风控反欺诈、医疗疾病诊断、客户流失预警)的实操落地中,ROC曲线是评估模型区分能力的核心工具,而阈值则是连接 ...
2026-02-05对CDA(Certified Data Analyst)数据分析师而言,数据分析的价值不仅在于挖掘数据背后的规律与洞察,更在于通过专业的报告呈现 ...
2026-02-05在数据分析实战中,我们经常会遇到“多指标冗余”的问题——比如分析企业经营状况时,需同时关注营收、利润、负债率、周转率等十 ...
2026-02-04