京公网安备 11010802034615号
经营许可证编号:京B2-20210330
浅谈大数据在出版业的应用
一、大数据的定义与特点
近几年来,“大数据”一词广泛见诸于网络、报纸以及电视等媒体,大数据的概念正在持续升温,而2014年“大数据”首次被写入我国《政府工作报告》,2015年9月,国务院印发《促进大数据发展行动纲要》,全面系统地部署了大数据未来的发展工作。值得一提的是,国务院总理李克强自2014年以来曾在各个场合多次提及“大数据”一词,在他看来,大数据对各行各业都有很大的帮助,其价值和意义正在日益体现。
那么,究竟什么是大数据呢?大数据的定义实在太多,研究机构Gartner Group认为,大数据是需要特殊技术及新处理模式的信息资产。而麦肯锡全球研究所则认为,大数据是一种规模大到超出传统数据库工具能力范围的数据集[1]。
作为全球最大的电子商务公司,亚马逊的大数据科学家John Rauser 对大数据的定义则相对简单,他认为,任何超过一台计算机处理能力的数据量即为大数据[2]。
以上几个定义都是关于大数据的解释,它们有不同之处也有相同之处,相同之处是突出了一个“大”字,这是大数据的重要特点之一。也正是因为数据量的巨大,使得它具有了一项重要功用,即在应用过程中能够发现一定的规律和进行相应的预测研判。
由于这种功用,不少专家认为大数据将会成为推动社会经济转型发展的新动力,会促进生产模式的创新,对未来信息社会的格局产生深远的影响,而大数据与其所进行的分析预测,会在未来10年内改变许多行业的固有模式。甚至有观点认为,大数据作为重要的信息战略资源,将有效提升国家的综合竞争力。
听起来,大数据的出现和应用将是颠覆性的,那么为何它被认为在未来能改变几乎所有行业呢?这正是源于大数据的几大显著特点。目前业界广泛认可的,是大数据具有“4V”特征,首先是数量(Volume),也就是前文所提到的数据信息量巨大。第二是它的多样性(Variety),也就是数据的类型很多,除了传统的格式化数据之外,还包括文字、视频、图片等信息资料。第三是处理速度(Velocity)很快,也就是说虽然数据信息量巨大,但应用处理数据的速度并不因此而变慢。最后就是真实性(Veracity),即数据的准确程度和高质量。
二、大数据对出版业的作用
麦肯锡全球研究所的报告中认为,数据成为了重要的生产要素,慢慢渗透到各个行业中,大数据正在人类生活中被广泛应用和延伸,而当今社会也正在从数字化向数据化转变。
近年来,随着互联网的日益发展,作为传统行业的出版业,受到了不小的冲击。对于出版业而言,互联网一方面是挑战,另一方面也带来了许多机遇,因而,转型与发展是当今时代出版业的一项重要任务。但实际上,许多喊着转型口号的出版商,只是被动的或者说是“稀里糊涂”在转型,他们甚至不知道、也无法预知转型的结果。一个有趣的现象是,“互联网+”“云计算”这些互联网词汇屡屡会被传统出版业提及,但很多时候他们并不知道具体的含义,只是盲目地追新。于是,当大数据时代即将到来之际,不少传统出版业也不免显得迷茫,或者说不知该如何应对。
(一)出版业运用大数据的方法
其实,从大数据的特征来看,它可以被视为互联网时代给所有行业的一项恩赐,因为其解决了许多过去无法解决的问题,能让复杂事物简单化、清晰化。所以,首先不用惧怕或者抵触这一新兴事物。当然,这也并不意味着谁都能轻松地享受这一恩惠。一个重要的前提是,大数据平台的建立和使用是建立在前期数字化建设的基础上,因此,出版社的当务之急是先完善自身的数字化信息基础设施的建设,为大数据提供可靠支撑和信息来源。
对于出版业来说,如何利用好大数据?在这个行业里,又有哪些是有价值的数据信息、哪些方面需要大数据分析研判?实际上,从选题策划到出版发行,出版业的每一个环节都离不开大数据。例如,一个题材的书籍是否有必要发行,不应该是过去那种“经验式”的决策方式,而应该是在一定数据统计下,经过分析后得出的可供参考的,相对客观的预测结论。
同样,基于数据的分析,例如该类书的市场受欢迎程度、作者受欢迎程度、已出版同类书籍的销售库存情况,也可以大概推测出这本书的首印量应该为多少。在图书营销环节,大数据可利用的范围就更加广阔,为图书提供了精准营销的可能性,在运用大数据之前,对读者的阅读喜好调查多为抽样调查,而大数据可以通过对数据的分析和计算,如某地读者的阅读喜好与习惯、不同省份更喜爱的书籍类型,哪些书籍放在一起容易捆绑销售等这些用户行为,分析出读者的需求和喜好,更好地进行推销。通过对这些信息的收集、加工和整理,就可以得到有意义的统计规律。
除去传统出版的环节,对数字出版来说,大数据也很有用处。大数据为按需出版提供了数据支持,出版社可根据读者的用户行为、偏好取向等进行全面分析,将有可能实现真正意义上的个性化定制内容和按需出版。
从长远分析,出版社或出版集团甚至可以利用大数据建立自己的销售平台,通过分析用户消费数据、用户地理位置数据、用户行为数据等为出版的各个环节提供技术支持。而在出版效率、售后服务等方面,大数据也可以优化资源配置,为出版社提供服务。
(二)国外出版业运用大数据的实例
在利用大数据方面,国外出版业走在了我们之前。例如,Scholastic出版社出版的《39条线索》是结合了在线游戏和卡片游戏的系列丛书,在游戏中出版社可追踪读者最喜爱的线索和人物,而Coliloquy出版的电子书,通过读者选择人物剧情分支和线索来为剧情的下一步发展提供数据支持,保证剧情被大部分读者所喜爱[3]。
国际知名的大众图书出版商西蒙·舒斯特,格外重视大数据的应用,他们为此还专门聘请了有关专家协助进行研究工作,通过对消费者购买图书和阅读行为的数据进行全面的收集分析,得出了许多有价值的信息,例如为何大家喜欢某位作者,为何一本书销售情况不佳,哪种情况导致一本书销售不畅。通过得到的信息,他们可以快捷地找出问题并有针对性地进行调整[4]。
三、大数据应用存在的问题
以上这些案例,足以说明大数据的运用对于出版业来说大有裨益。然而,作为传统行业的出版业,在与新兴事物“打交道”时,在探索与实践过程中,可能在应用大数据时出现错误,出现一些偏差。实际上,大数据的应用也的确存在一些问题。
首先,不能“为了大数据而应用大数据”,如果要运用大数据的话,一定要树立大数据意识,要落实到出版社的战略改革层面,在没有能力或者眼下条件还不成熟的情况下,盲目参与只会适得其反。举个简单例子,如果出版商没有相应的技术人才,或者相关的数据信息还是空白或者少之又少,达不到一定的条件,那么再如何应用大数据分析也是徒劳,这就要求出版社要对相关人才进行培养,只有了解大数据在实际工作中的作用,才能更好地使用大数据;第二,大数据也并非一味求大,掌握的数据越多也并不代表结论就一定正确,对于任何一家出版单位而言,要根据自身的情况来量体裁衣,大数据时代的到来,并不意味着就必须抛弃“小数据”;第三,基于大数据的分析,可以了解获悉用户的需求,但如果只根据大数据提供的数据出版发行刊物,便有可能自觉不自觉地只迎合了读者的阅读兴趣,而忽略了其他因素,这或许会导致作品质量的降低。除此之外,还要注意数据的完整性,不完整的数据可能会有参考价值,但更有可能毫无任何价值,甚至给出错误的结论。而数据上的错误会影响公司解决问题的进程及决策的实施,造成不好的结果。
除了这些问题,资金的投入也是一个大问题,对出版社来说,想要拥有大数据平台只有两个方法,第一是自己建立,第二是采购成熟的第三方产品。从长远来考虑,自建平台是最为理想的选择,但自建平台的搭建周期,建设和管理费用让许多出版商望而却步。这样看来,第三方产品似乎是一个不错的选择,但在与第三方合作时要注意的问题也非常多,这些都是需要认真考虑的。而出版社也需要明白一点,建立大数据平台的目的是为了探索数字化时代新的运营模式,最终是要为企业创收,所以建立大数据平台一定要与实际挂钩,根据实际需求来建立。
四、结 论
目前在许多行业,大数据已得到应用并且卓有成效,而在出版业,尽管国外有的出版商已尝到了甜头,但整体来看还处于起步阶段。在国内,它还处于摸索阶段。尽管有不少人依旧在唱衰“大数据”,但更多的人相信它有利于社会的发展,是时代进步的产物。之于出版行业,详实的数据、有价值的信息能让出版社更好地了解图书市场,可以说,大数据对于出版行业的革新是前所未有的,面对这种变革,出版社唯有做好充足的准备,真正了解大数据的意义和特征,才能发挥其优势,实现社会效益和经济效益的双丰收。而大数据的合理运用,对于整个出版行业的体系重构也必将产生深远影响。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04