京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据在食品安全中的应用
时至今日,科学技术的发展能够处理大量不同来源的结构化和非结构化数据。这些技术常常被称作大数据,其开启了新的研究和应用领域,也将会对当今社会逐渐产生影响力。本文评价了应用在食品安全领域的大数据及其潜在发展趋势。在世界的各个地方,各国政府激励源于公共资助研究项目的互联网大数据发表。对于企业利益相关者如何处理食品安全和提出问题,这项政策迎来了新的发展机遇,这在以前是根本无法实现的。由于大数据新的发展,应用手机作为食品安全检测设备和利用社交媒体为食品安全问题预警也将成为可能。
一、引言
在全球化进程的影响下,社会企业产生大量的数据,这些数据包括商业,政府,健康保健和各研究学科,比如天然科学、生命科学、工程学、人类学和社会科学。这些大数据越来越可利用化,可以被用来开拓视野,提高决策,并且提高产品和服务的质量。但是,大数据的聚集和加速产生,需要相关数据的有效收集、储存和处理来战胜挑战。大数据的应用趋于多元化,比如来源于亚马逊网站的推荐系统,可以实时预测流感的爆发。另外还有一些文章研究了大数据潜在的应用。
“大数据”一词很少应用在食品安全相关领域,主要是因为食品安全数据和信息过于分散,主要集中于食品、健康和农业企业。食品安全领域大数据的应用需要内部操作标准的建立和实施,以及保密性保护。传统食品安全数据,例如全国调控数据,数量相对有限,虽然在区域之间不能达到和谐,但是具有很好的结构化。为了考察大数据方法如何能够有利于食品安全,本文作者分析了食品安全工具的应用,发展于不同阶段的大数据研究(例如数据收集、数据储存和转移、数据分析和数据可视化)。此外,作者分析了某些大数据在食品安全中是否以及如何扮演重要的作用,同时提供了一些范例来探讨未来的发展和机会。
二、大数据的定义
关于大数据的的定义有很多种。世界卫生组织使用的定义是:新兴应用的快速收集的、复杂的数据,这些数据以不可定量的兆字节,拍字节,甚至泽字节的储存形式存在。Gartner教授在2012年描述了对于大数据的数据管理挑战,具有三维特性:大数据具有高容量、高速和高多样性信息组,同时需要新的处理形式来提高决策,发掘观点和过程优化。欧委会于2014年发布了相似的定义:3V,即容量、速度和多样性。大数据指以高速产生的大量的不同字节的数据,其具有大量不同的字节来源。处理今天的大量和实时的数据组需要新的工具和方法,例如强有力的处理器、软件和运算法则。2015年,De Mauro教授提出大家一致同意的定义:大数据代表具有高容量,高速和多样性三大特性的信息组,同时需要通过特殊的技术和分析方法来使其转换为价值所在。
三、食品安全中大数据应用
最近世界卫生组织提出采用大数据方法来支持食品安全中面临的决策问题,产生了一个食品安全平台“FOSCOLLAB”,对来源于不同的学科进行整合。在这个平台中,来源于多个企业中的结构化和非结构化数据,例如农业、食品、公共卫生和经济指数被整合,通过专用设施,能够被使用者所应用。
(一)食品安全的数据收集
通过包含和产生食品安全有效信息,来区别不同类型来源,例如(在线)数据库、互联网、组学分析、手机和社交媒体。
1. 在线数据库
为了监测食品中有害成分的数据,产生了许多数据库。世界卫生组织于2015年发布的全球环境监测系统数据库包含数以万计的全球监测数据入口。考虑到其入口相对数量多,因此数据以一种逻辑化方式所结构化,并且容易获取。关于化学试剂性质信息,微生物生长条件和天气报告,在食品安全研究中占有重要地位。也可以使用模型来预测某些有害成分的存在,比如小麦中的真菌毒素。这些天气状况报告包含许多高速产生的数据,这些数据被收集在农业和供应链。不仅结构化数据库会收集食品安全事件,而且也可以通过国际食品安全权威机构的网站和媒体报道来查看。而后者的数据来源是非结构化的,并且分散在网络中,很难获取。一个相似的例子是食品污染物突发事件的登记(通过疾控中心)。这些事件也可以在网络和社交媒体中找到。
2. 互联网
因为互联网包含大量的信息来源,可以通过开发互联网来辅助风险经理人和风险技术顾问应对食品安全问题。开发网络信息采集系统用于在互联网上查询与食品安全相关的论文报告。这种系统的一个典型例子是MedISys,它属于欧委会联合研究中心开发的欧洲媒体监测系统。
3. 在线功能基因组学数据目录
“组学”一词覆盖许多学科,包括基因组学(研究核苷酸变异对基因的影响)、转录组学(mRNA表达)、代谢组学(代谢物水平)和蛋白组学(多肽和蛋白质水平)。为化学安全所开发的基于毒理基因组学的预测实验的主要方法,尤其是为了达到鉴定危险物的目的,包含大规模的基因组学数据库,这些数据库采集于细胞或动物的有毒物质的暴露。毒理基因组学的目的是阐明有毒物质表达的分子机制和分子表达类型(比如分子生物标记),同时能够使用“基于动物”和体外(细胞)模型来预测体外和体内毒性。
4. 手机
使用手机变得越来越广泛,新的应用快速发展,包括食品安全和健康相关的应用。报道显示联合使用智能手机和便携式设备可以监测 (1)水质中汞污染,(2)啤酒中赭曲霉毒素A污染,(3)食品中多种过敏原污染,以及(4)水质和食品中微生物(大肠杆菌)污染。在手机上收集得到的数据不仅可以通过无线连接个人计算机,而且能够转移到数据云或其他数据中心。
(二)数据储存和转移
通常来讲,通过数据管理系统能够达到数据储存,例如MySQL, Oracle和PostgreSQL。但是,这些系统不足以用来支持大数据处理。对于大数据而言,需要由比传统系统所能提供的更快的速度、更好的机动性和可实现性。因此,下一代数据库会发展非关联的,开放源模式和水平可伸缩性,也就是NoSQL。这些系统很好例子有MongoDB, Cassandra和HBase等等。
(三)数据分析
在NoSQL中,随着数据储存和转移到处理单元之后,接下来就是数据分析。使用最广泛的大数据分析方法分为以下两大类::(1)推荐系统;(2)机器学习。
(四)可视化
不同的可视化工具用来分析和总结大数据,这些工具有利有弊。最常见的是R和Cicos. R,这是一种通过使用在数据中的开放源程序语言,来可视化和分析数据的工具,并提供图功能和网络图功能。Circos允许在循环布局中可视化数据,同时开发目标物和位置之间的关系。该软件成为了可视化染色体的标准。对于商业可视化软件而言,不需要编程技能,IBM公司开发的在线可视化处理工具 Many Eyes和Tableau都是很好的选择。
四、食品安全大数据实例
(一)农业链和食品供应链
在农业链,大数据可以通过有关环境因素的链接信息来预测病原体或污染物存在。例如,通过监测田间作物条件,可以达到在进入食品链之前,鉴定黄曲霉毒素污染增加的面积。在另一研究中,研究者以欧洲西北部的小麦为对象,通过使用大量的模型和数据库(包括天气数据),开发出定量模型,从而预测小麦真菌毒素的污染。
(二)突发事件和来源鉴定
在食品安全性突发事件产生过程中,大量的样品被收集和分析,产生大量的数据和信息,这些数据和信息被用来鉴定突发事件的来源。快速筛选病原体基因技术(全集因序列和下代序列)的发展,导致专一基因信息的收集和病原株或亚型的出现。例如,2011年,在德国发生的病原体“肠出血性大肠杆菌”事件,在不同面积,细菌存在的信息被收集到。健康个体的家能够用来筛选庇护病原体,通过监测每个家庭来筛选二级感染。在初级阶段,这些监测信息帮助检测问题,允许及时地提供防护性措施,最终阻止突发事件的发生。
(三)鉴定突发事件采用可选择性数据来源
除了基因信息,其他因素也用来建立污染来源。2011年,Gardy教授等学者从肺结核突发事件中得出结论:基因类型和单独联系溯源不能够确切地获取突发事件的真正动力学。作者采用社会环境信息与全基因序列结合,来检测突发事件爆发的来源和原因。虽然数据样本不足够大,但是通过应用社会网络,数据的多样性大大增加。
五、食品安全大数据的未来
在欧洲,欧委会发布了一项大数据策略,用来支持数据驱使化的经济发展。他们支持开放式数据获取,例如,免费在线获取欧盟资助项目的研究结果,包括科学论文和研究数据。这些欧盟资助项目包含 (1)发展中国家的作物监测,(2)全部产品生命周期监测,(3)提高产品开发过程的效率和质量。并且欧洲各国政府,例如荷兰政府激励公共-私人项目来开发大数据潜力。在美国,奥巴马政府发布了“大数据研究和开发倡议”,以便更大程度的提高可获取,组织和收集发现大量数字数据的工具和技术。这项倡议增加了政府支持,加速了联邦机构从大量复杂数据中提取有效数据的能力。同时也鼓励私营公司、学术机构、当地政府和基金之间关于新大数据项目的合作,比如2013年发布的“数据-知识-行动”项目。
六、结论
在全球范围内,随着大量数据的产生,这些数据与食品安全直接或者间接关联。当前,在食品安全大数据领域,只开发出有限数量的方法。源于互联网,从公共资助研究项目中获得数据的发展趋势,对处理食品安全的利益相关者来说,开启了新的机遇。尤其是在食品安全监测中,手机、高级溯源系统和社交媒体的使用,需要比以前具有更多大数据特点的工具和基础设施。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10