
浅谈大数据和视频检索技术_数据分析师
近年来,大数据一词越来越多地被提及与使用,其含义是广泛的,涉及到各行业,我们正处在一个数据爆炸性增长的“大数据”时代,大数据对社会经济、政治、文化,人们生活等方面产生深远的影响,大数据对人类的数据驾驭能力提出了新的挑战与机遇。人们用大数据来描述和定义信息爆炸时代产生的海量数据。这些数据包括:移动互联、社交网络、电子商务、科学计算等等。其中视频又是构成大数据最大的一部分。
大数据的产生
根据相关机构的调查显示,全球监控摄像机市场在未来五年内将保持稳步增长,到2017年预计将上升到1亿台。仅视频监控录像而言,每天的数据量就达上千PB,累计的历史数据将更为庞大,由此也可以看出,监控视频在大数据体系中占有极大地位置。如今随着4K时代的到来,更高清的应用越来越普及,由此产生的数据将会越来越大,视频监控也将步入更高清的大数据井喷时代。
大数据技术之视频检索
“大数据或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”维基百科对大数据的定义将大数据的特点阐释得非常清晰:“海量”和“非结构化”。这两个特点在视频监控行业尤为突出,如何在“海量”和“非结构化”的监控视频数据中快速找到对人们有用的信息变的尤为重要。
正是基于上述思考,视频检索技术应运而生。视频检索主要是依赖于视频算法对视频进行预处理,通过对视频内容进行结构化处理,提取出视频内容中的有效信息,进行标记或者相关处理后,人后可以通过各种属性描述进行快速检索。因此视频检索最主要的是利用视频检测算法对视频进行结构化描述,目前已经在相应的产品中得到应用的算法主要有以下几种:行为分析算法、车牌识别算法、车辆颜色识别算法、车标识别算法、车型识别算法、人脸检测识别算法、人体特征识别算法等。其中人体特征识别又包括人的年龄、性别、身高、衣服颜色、是否戴眼镜等特征信息的识别。视频检索技术在安防领域的重要作用是毋庸置疑的,其可以快速地从海量的数以万计的监控录像中,找到有用的关键信息,将为视频监控带来革命性的影响。
在视频检索技术出现之前,海量视频的分析一直是困扰人们的一个难题。据南方都市报报道,一个也门商人在广州打的丢行李,广州交通委花了两天的时间才从海量的出租车GPS信息和交通监控视频找到丢失的行李。面对如此多的监控数据,去寻找到证据和线索,无异于大海捞针,但目前的现实情况通常是被迫使用人海战术进行查看。一个案件的审看需要更为广泛的查看相关的摄像机视频,所审看的视频量时常达到数百上千小时。在目前的人工查看模式下,传统的方法需要从头到尾顺序播放,往往需要数倍于原始视频的时间才能审看完成,因此需要大量人员审看。为了规避遗漏和误差,很多刑侦队采用加大人力投入的方法,但是这种办法既影响了破案进度和效率,又使得工作人员疲惫不堪。如果有视频检索技术对视频中运动的物体等进行检索和排除,就能比较大的提高办案效率。
虽然视频检索技术在实际应用过程中,可以快速地从海量监控录像中找到一些有明显特征的人或物,但是技术所限,传统的检索方式显得比较单一,检索方式不够“智能”,这已经成为大型监控系统视频资料分析中的一个瓶颈。随着视频检索技术的不断发展,国家、企事业单位人力物力的大量投入,比如杭州海康威视数字技术股份有限公司着力于此应用的研发,并开发出视频检索系统,系统采用海康威视自主高效智能分析算法技术,保证分析信息的全面和准确,同时系统采用集群化计算方式,可提供几十上百倍实时以上的快速分析能力,并可根据应用需要进行线性扩展,提高计算能力。
本系统在视频资料录入的同时,就自动对视频中的目标信息进行格式归一化与智能预处理分析,对视频进行快速处理,提取视频中目标的相关信息作为智能元数据保存至数据库中。之后的相关操作,如智能审看、智能检索等等就不用再做复杂的解码以及智能分析的工作,而是直接从智能元数据中提取,大大的提高了工作效率。根据智能元数据信息,可对目标及目标细化特征等视频内容级别进行筛选,如颜色、人/车分类等。用户还可根据案情的需要自定义设置不同的周界防范规则,通过在数据库中对元数据进行检索提取触发规则的目标信息,达到快速检索的目的,极大地提高了效率。系统可以帮助刑侦人员高效、精准地聚焦到所关注的目标,有效解决目前视频众多、信息量巨大等视频查找的棘手问题,使通过视频调查取证不再费时和繁琐,提高办案民警的工作效率,达到科技强警的目的,符合公安部对于公安信息化建设的要求。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30