
浅谈大数据在出版业的应用
一、大数据的定义与特点
近几年来,“大数据”一词广泛见诸于网络、报纸以及电视等媒体,大数据的概念正在持续升温,而2014年“大数据”首次被写入我国《政府工作报告》,2015年9月,国务院印发《促进大数据发展行动纲要》,全面系统地部署了大数据未来的发展工作。值得一提的是,国务院总理李克强自2014年以来曾在各个场合多次提及“大数据”一词,在他看来,大数据对各行各业都有很大的帮助,其价值和意义正在日益体现。
那么,究竟什么是大数据呢?大数据的定义实在太多,研究机构Gartner Group认为,大数据是需要特殊技术及新处理模式的信息资产。而麦肯锡全球研究所则认为,大数据是一种规模大到超出传统数据库工具能力范围的数据集[1]。
作为全球最大的电子商务公司,亚马逊的大数据科学家John Rauser 对大数据的定义则相对简单,他认为,任何超过一台计算机处理能力的数据量即为大数据[2]。
以上几个定义都是关于大数据的解释,它们有不同之处也有相同之处,相同之处是突出了一个“大”字,这是大数据的重要特点之一。也正是因为数据量的巨大,使得它具有了一项重要功用,即在应用过程中能够发现一定的规律和进行相应的预测研判。
由于这种功用,不少专家认为大数据将会成为推动社会经济转型发展的新动力,会促进生产模式的创新,对未来信息社会的格局产生深远的影响,而大数据与其所进行的分析预测,会在未来10年内改变许多行业的固有模式。甚至有观点认为,大数据作为重要的信息战略资源,将有效提升国家的综合竞争力。
听起来,大数据的出现和应用将是颠覆性的,那么为何它被认为在未来能改变几乎所有行业呢?这正是源于大数据的几大显著特点。目前业界广泛认可的,是大数据具有“4V”特征,首先是数量(Volume),也就是前文所提到的数据信息量巨大。第二是它的多样性(Variety),也就是数据的类型很多,除了传统的格式化数据之外,还包括文字、视频、图片等信息资料。第三是处理速度(Velocity)很快,也就是说虽然数据信息量巨大,但应用处理数据的速度并不因此而变慢。最后就是真实性(Veracity),即数据的准确程度和高质量。
二、大数据对出版业的作用
麦肯锡全球研究所的报告中认为,数据成为了重要的生产要素,慢慢渗透到各个行业中,大数据正在人类生活中被广泛应用和延伸,而当今社会也正在从数字化向数据化转变。
近年来,随着互联网的日益发展,作为传统行业的出版业,受到了不小的冲击。对于出版业而言,互联网一方面是挑战,另一方面也带来了许多机遇,因而,转型与发展是当今时代出版业的一项重要任务。但实际上,许多喊着转型口号的出版商,只是被动的或者说是“稀里糊涂”在转型,他们甚至不知道、也无法预知转型的结果。一个有趣的现象是,“互联网+”“云计算”这些互联网词汇屡屡会被传统出版业提及,但很多时候他们并不知道具体的含义,只是盲目地追新。于是,当大数据时代即将到来之际,不少传统出版业也不免显得迷茫,或者说不知该如何应对。
(一)出版业运用大数据的方法
其实,从大数据的特征来看,它可以被视为互联网时代给所有行业的一项恩赐,因为其解决了许多过去无法解决的问题,能让复杂事物简单化、清晰化。所以,首先不用惧怕或者抵触这一新兴事物。当然,这也并不意味着谁都能轻松地享受这一恩惠。一个重要的前提是,大数据平台的建立和使用是建立在前期数字化建设的基础上,因此,出版社的当务之急是先完善自身的数字化信息基础设施的建设,为大数据提供可靠支撑和信息来源。
对于出版业来说,如何利用好大数据?在这个行业里,又有哪些是有价值的数据信息、哪些方面需要大数据分析研判?实际上,从选题策划到出版发行,出版业的每一个环节都离不开大数据。例如,一个题材的书籍是否有必要发行,不应该是过去那种“经验式”的决策方式,而应该是在一定数据统计下,经过分析后得出的可供参考的,相对客观的预测结论。
同样,基于数据的分析,例如该类书的市场受欢迎程度、作者受欢迎程度、已出版同类书籍的销售库存情况,也可以大概推测出这本书的首印量应该为多少。在图书营销环节,大数据可利用的范围就更加广阔,为图书提供了精准营销的可能性,在运用大数据之前,对读者的阅读喜好调查多为抽样调查,而大数据可以通过对数据的分析和计算,如某地读者的阅读喜好与习惯、不同省份更喜爱的书籍类型,哪些书籍放在一起容易捆绑销售等这些用户行为,分析出读者的需求和喜好,更好地进行推销。通过对这些信息的收集、加工和整理,就可以得到有意义的统计规律。
除去传统出版的环节,对数字出版来说,大数据也很有用处。大数据为按需出版提供了数据支持,出版社可根据读者的用户行为、偏好取向等进行全面分析,将有可能实现真正意义上的个性化定制内容和按需出版。
从长远分析,出版社或出版集团甚至可以利用大数据建立自己的销售平台,通过分析用户消费数据、用户地理位置数据、用户行为数据等为出版的各个环节提供技术支持。而在出版效率、售后服务等方面,大数据也可以优化资源配置,为出版社提供服务。
(二)国外出版业运用大数据的实例
在利用大数据方面,国外出版业走在了我们之前。例如,Scholastic出版社出版的《39条线索》是结合了在线游戏和卡片游戏的系列丛书,在游戏中出版社可追踪读者最喜爱的线索和人物,而Coliloquy出版的电子书,通过读者选择人物剧情分支和线索来为剧情的下一步发展提供数据支持,保证剧情被大部分读者所喜爱[3]。
国际知名的大众图书出版商西蒙·舒斯特,格外重视大数据的应用,他们为此还专门聘请了有关专家协助进行研究工作,通过对消费者购买图书和阅读行为的数据进行全面的收集分析,得出了许多有价值的信息,例如为何大家喜欢某位作者,为何一本书销售情况不佳,哪种情况导致一本书销售不畅。通过得到的信息,他们可以快捷地找出问题并有针对性地进行调整[4]。
三、大数据应用存在的问题
以上这些案例,足以说明大数据的运用对于出版业来说大有裨益。然而,作为传统行业的出版业,在与新兴事物“打交道”时,在探索与实践过程中,可能在应用大数据时出现错误,出现一些偏差。实际上,大数据的应用也的确存在一些问题。
首先,不能“为了大数据而应用大数据”,如果要运用大数据的话,一定要树立大数据意识,要落实到出版社的战略改革层面,在没有能力或者眼下条件还不成熟的情况下,盲目参与只会适得其反。举个简单例子,如果出版商没有相应的技术人才,或者相关的数据信息还是空白或者少之又少,达不到一定的条件,那么再如何应用大数据分析也是徒劳,这就要求出版社要对相关人才进行培养,只有了解大数据在实际工作中的作用,才能更好地使用大数据;第二,大数据也并非一味求大,掌握的数据越多也并不代表结论就一定正确,对于任何一家出版单位而言,要根据自身的情况来量体裁衣,大数据时代的到来,并不意味着就必须抛弃“小数据”;第三,基于大数据的分析,可以了解获悉用户的需求,但如果只根据大数据提供的数据出版发行刊物,便有可能自觉不自觉地只迎合了读者的阅读兴趣,而忽略了其他因素,这或许会导致作品质量的降低。除此之外,还要注意数据的完整性,不完整的数据可能会有参考价值,但更有可能毫无任何价值,甚至给出错误的结论。而数据上的错误会影响公司解决问题的进程及决策的实施,造成不好的结果。
除了这些问题,资金的投入也是一个大问题,对出版社来说,想要拥有大数据平台只有两个方法,第一是自己建立,第二是采购成熟的第三方产品。从长远来考虑,自建平台是最为理想的选择,但自建平台的搭建周期,建设和管理费用让许多出版商望而却步。这样看来,第三方产品似乎是一个不错的选择,但在与第三方合作时要注意的问题也非常多,这些都是需要认真考虑的。而出版社也需要明白一点,建立大数据平台的目的是为了探索数字化时代新的运营模式,最终是要为企业创收,所以建立大数据平台一定要与实际挂钩,根据实际需求来建立。
四、结 论
目前在许多行业,大数据已得到应用并且卓有成效,而在出版业,尽管国外有的出版商已尝到了甜头,但整体来看还处于起步阶段。在国内,它还处于摸索阶段。尽管有不少人依旧在唱衰“大数据”,但更多的人相信它有利于社会的发展,是时代进步的产物。之于出版行业,详实的数据、有价值的信息能让出版社更好地了解图书市场,可以说,大数据对于出版行业的革新是前所未有的,面对这种变革,出版社唯有做好充足的准备,真正了解大数据的意义和特征,才能发挥其优势,实现社会效益和经济效益的双丰收。而大数据的合理运用,对于整个出版行业的体系重构也必将产生深远影响。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
PyTorch 核心机制:损失函数与反向传播如何驱动模型进化 在深度学习的世界里,模型从 “一无所知” 到 “精准预测” 的蜕变,离 ...
2025-07-252025 年 CDA 数据分析师考纲焕新,引领行业人才新标准 在数字化浪潮奔涌向前的当下,数据已成为驱动各行业发展的核心要素。作为 ...
2025-07-25从数据到决策:CDA 数据分析师如何重塑职场竞争力与行业价值 在数字经济席卷全球的今天,数据已从 “辅助工具” 升级为 “核心资 ...
2025-07-25用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18