
汽车大数据应用的6个前提
最近博鳌的论坛上,各路大神在神侃人工智能是否会消灭人类的伦理问题,最讨厌一帮文科二货在台上扯淡人类技术末日,因为无论这个伦理问题多么严重,最终解决问题还得靠理工男女的技术头脑。制造AI的恐慌是没有意义的,了解AI是什么比想象它的恐怖有趣得多。
在当前这帮文科二货们的蛊惑下,大数据和人工智能越来越热,汽车这个垂直应用领域更是热得一塌糊涂。从大数据技术的基本应用场景看,汽车和车险的销售广告显然是典型的应用场景,近年来,汽车金融的应用场景也渐渐丰富起来,至于自动驾驶,那已经是资本宠儿。我认为汽车大数据最可能率先发挥价值的一是汽车和车险广告,二是金融和车险的风险控制,三是自动驾驶,其他领域的应用即使有,也商业价值有限。
但目前来看,绝大多数自称汽车大数据的公司本质上都是卖数据的公司,我们耳熟能详的那些大数据公司,干的基本上就是倒卖官方还没有合法公开的个人数据,未经用户同意倒卖用户隐私数据的勾当。倒卖数据是当前到处吹牛的汽车大数据公司典型业务。真正运用算法和模型解决行业问题的公司都还在埋头苦干,都在积累应用案例,短期恐怕难以盈利。对投资人和创业者而言,我认为看清楚汽车大数据的应用方向非常重要。
要应用汽车大数据,首先得解决数据处理的问题。从汽车数据处理技术的角度看,大约有6个层次。我认为这是实现汽车大数据应用的6个前提。
一是数据接口化,这个层次的问题不解决,大数据技术根本就没有用武之地。搞不定接口,只是拿个移动硬盘拷死数据的,就别凑大数据的热闹了。比如汽车违章数据对于用户个人征信有价值,弄个爬虫去偷数据的就别琢磨大数据应用了,数据源都不稳定,相当于工厂的原材料都不稳定,你还怎么搞生产,怎么考虑产品质量呢?
二是结构化,数据采集的接口问题解决了,需要解决数据存储问题。传统的数据库采用SQL存储结构化数据,但如果要用大数据技术,图片、甚至视频等非结构化数据也需要存储,虽然有NoSQL产品解决这类数据寸纯问题,但最终应用仍然需要把非结构化数据结构化。
三是标准化,结构化存储的数据来源广泛,比如同样是车辆的保单数据,不同保险公司的保单数据标准不同,在应用前必须把不同保险公司的保单数据标准化。同样,汽车违章查询的数据、汽车贷款的数据,都需要按照统一的标准进行规范,这样可以用一把尺子度量不同来源的汽车数据。通常,绝大多数吹牛自己是大数据公司的,基本工作就是做到了这一步,也就是把来自各种途径的数据进行了标准化,能够用Excel表格输出数据,可以卖了!
四是因子化,完成了标准化,这时的数据库才能采用大数据技术进行有目的的挖掘。要开展数据挖掘,首先第一步得解决标准化数据的因子化。比如车主性别,有男,有女,有不确定。计算机因子化处理这个问题的时候就会把男定义为1,女定义为0,不确定性别定义为2。性别的因子化相对简单,再比如违章数据,究竟违章多少次,何种违章才应该被判定为高风险呢?要因子化处理,我们就得定义规则,比如非扣分的违章0-3次风险因子是1,4-6次风险因子是2,7次以上风险因子是3……诸如此类的数据因子化处理,才能进入数据建模。
五是模型化,很多吹牛搞汽车大数据的,动辄就吹牛要搞数据模型,其实绝大多数人连前面四个数据处理过程都干不了。极少数搞定前四个步骤的公司会雇佣数据建模师,围绕特定的问题,建立数据模型。这个过程一定程度上并不是科学,更多的像是艺术工作。因为不存在绝对的解,建模师的工作就是要用想象力,尽可能建立一个能够模拟现实世界运行的数据模型。先有一个假设,然后用现实世界的数据去测试这个假设,如果错了,反馈参数去修订这个模型,再用真实数据测试,直到结果能够很好的模拟真实世界……这个过程就是机器学习的数据训练。由于每个行业、每个行业的细分领域、每个细分领域的不同公司都在经营不同的生意,同样是车险保单,不同保险公司的用户偏好是不同的,同一个模型是不可能适应所有保险公司,每一家保险公司如果要应用大数据和人工智能技术,都必须个性化训练,一旦某一家率先建立自己的机器人,其在行业里的效率提升将大幅领先于没有人工智能机器人的公司——对汽车保险、金融、二手车、后市场等领域来说,谁先用人工智能武装自己,谁将与竞争对手真正拉开差距。
六是产品化,有了模型并不是万事大吉,模型必须应用于某个生产场景才能创造价值。比如在汽车广告领域,区分潜在用户销售线索优劣的模型就非常有用。目前每年车企投放大量广告获得几十倍上百倍实际销售量的销售线索,目前不加区分进行电话轰炸的方式效率非常低,成本也非常高。建立销售线索鱼成交结果的数据模型之后,必须为车企提供一个应用生产环境,帮助4S店销售人员准确把握每一个销售线索的价值,把有限的时间和资源,放在最可能成交的那些潜在用户身上。也就是说,必须把模型封装在一个Saas系统里,大数据技术才能真正落地应用。
我知道这篇文章对大多数人而言过于专业,但真要应用大数据、机器学习和人工智能解决汽车行业的问题,这篇只能算是扫盲。写出这些扫盲文章的目的无他,我只是想治愈那些AI恐惧症患者。美国人可能有必要担心这些问题,因为在发达国家,数据的接口化和标准化工作已经在几十年前完成,而我们中国远远没有恐惧AI的必要,各种数据连接口化的工作都无法完成,你想训练一个AI出来,谈何容易——各位吹大数据牛的公司,卖数据的生意前景不错,6月1日网络安全法出台前可以继续得瑟,之后就自求多福吧!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15