用spss将词篇矩阵转成相似矩阵_spss相关矩阵-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读用spss将词篇矩阵转成相似矩阵_spss相关矩阵

用spss将词篇矩阵转成相似矩阵_spss相关矩阵

2016-12-17

用spss将词篇矩阵转成相似矩阵_spss相关矩阵

下文是关于用spss将词篇矩阵转成相似矩阵相关内容，希望对你有一定的帮助：

用spss将词篇矩阵转成相似矩阵(一)

spss实验报告六

实验报告六

实验项目：因子分析和主成分分析

实验的目的：

利用SPSS进行因子分析和主成分分析。

实验内容：

1．因子分析

2．主成分分析

一、因子分析

1、因子分析是指研究从变量群中提取共性因子的统计技术。

2、[数据集1] C:Documents and Settingsuser桌面案例数据资料因子分析（基本建设投资分析）.sav 相关矩阵

国家预算

内资金

（1995国内贷利用外自筹资其他投

亿元）

相关国家预算内资金

（1995年、亿元）国内贷款

利用外资

自筹资金

其他投资款资金资由上表可以看出，变量其他投资和自筹资金相关性比较强，其次变量自筹资金和利用外资也具有很强的相关性。

KMO 和 Bartlett 的检验

取样足够度的

Kaiser-Meyer-Olkin 度量。

Bartlett 的球近似卡方

形度检验

Sig.

通过KMD和 Bartlett 的检验，显著性检验值为0，小于0.05，因此拒绝原假设，可以进行因子分析。 119.61经济与管理学院国贸09（1）班姓名：丁敏学号：2009165074

公因子方差

初始提取

国家预算内资金（1995年、国内贷款利用外资自筹资金其他投资提取方法：主成份分析。

从解释的总方差的表格中可以看出，成份1和成份2 的方差贡献率的和为88.970%，大于85%，因此仅提取成份1 和成份2 就可以。成份1和成份2的命名分别为经济因素和文化技术因素。

成份矩阵a

成份

1 2

国家预算内资金（1995年、亿元）国内贷款利用外资自筹资金其他投资经济与管理学院国贸09（1）班姓名：丁敏学号：2009165074

提取方法 :主成份。

a. 已提取了 2 个成份。【用spss将词篇矩阵转成相似矩阵】

通过旋转成份矩阵，可以写出成份1和成份2的方程，用x1、x2、x3、x4、x5、x6分别代表上述六个变量： F1=0.443X1+0.877X2+0.906X3+0.959X4+0.906X5【用spss将词篇矩阵转成相似矩阵】

F2=0.882X1+0.160X2-0.199X3-0.132X4-0.247X5

因此，F的方程为：

F=0.944F1+0.056F2 旋转成份矩阵a

成份

1 2

国家预算内资金（1995年、亿元）国内贷款利用外资自筹资金其他投资提取方法 :主成份。

旋转法 :具有 Kaiser 标准化的正

交旋转法。

a. 旋转在 3 次迭代后收敛。

成份转换矩阵

成份1 2

1 2 提取方法 :主成份。

旋转法 :具有

Kaiser 标准化的正

交旋转法。

经济与管理学院国贸09（1）班姓名：丁敏学号：2009165074

成份得分协方差矩阵

成份1 2

1 2 提取方法 :主成份。

旋转法 :具有

Kaiser 标准化的正

交旋转法。

经济与管理学院国贸09（1）班姓名：丁敏学号：2009165074

根据变量F得到的基本建设投资综合排名如下：

经济与管理学院国贸09（1）班姓名：丁敏学号：2009165074

用spss将词篇矩阵转成相似矩阵(二)

SPSS中词语中英文对照

1. mean–平均数

2. std.deviation–标准差

3. dependent list–因变量

4. independent list–自变量

5. option–选择

6. data editor–数据编辑窗口，显示并编辑数据

7. syntax editor–命令语句窗口，用户可以直接编写spss程序语句，然后运行，所起的作用

与菜单操作是一样的

8. spss viewer–结果输出窗口，统计结果、操作错误提示及警告等信息都在这个窗口显示

9. number of cases–样本量

10. Spss菜单下方的快捷键按钮分别表示open–打开已创建的文件 save–保存新建或已

创建的文件 print–打印文件 dialog recall–重新打开使用过的对话框 undo–撤销上一步的数据或变量操作 redo–回复撤消操作 goto chart–定位图表 goto case–定位观测量 variables–显示变量信息 find–查找变量值 insert cases–在数据中插入新的观测量 insert variable–在数据中插入新的变量 split file–用指定变量分隔一个数据文件 weight cases–为观测量分配权重 select cases–使用特定标准选择观测量集合 value labels–显示或隐藏变量值标签 use sets–创建变量集合

11. Spss窗口最下方的状态栏在没有运行命令时通常显示为spss processor is ready，表示可

以接受用户的操作。在运行命令时通常显示为running……,后面显示相应的统计命令关键字。如果spss不能正常使用，则状态栏会有相应的消息显示。

12. 把菜单操作过程转化为程序语句：单机主菜单edit，在下拉菜单中选择options，进入主

对话框，在该对话框上部的一系列标签中单击viewer，然后选中左下方的可选项“display commands in the output”。同时在上方的item 选项中的log下选中contents are shown。现在，您的每一次操作都会在结果输出窗口中显示相应的程序语句。

13. 在initial output state 中的item包含了多项控制spss基本输出形式的选项，当选中其中

一项时，下面的contents are 都对应着两个可选项：shown或hidden，即表示在结果窗口中显示或隐藏相应的内容。Item的各项内容如下：

Log运行记录，以语句形式记录spss从启动到关闭期间所有的用户操作。 Warning是否显示所用程序语句中的错误警告信息。

Notes是否显示说明

Titles是否显示统计过程的标题

Pivot tables是否显示统计表格

Chart是否显示统计图

Text output 是否显示文本形式的输出结果。Spss大多数统计结果以表格形式输出，但也有一些以文本形式输出。

用spss将词篇矩阵转成相似矩阵(三)

spss学习笔记

你的旋转方法有问题，一般是用方差最大化旋转来分析的

说明你的数据不太好，可以考虑斜交

用旋转成份矩阵，里面的数值最好保留0.45以上的，叫因素负荷量。这样你各个维度有多少题就出来了。

用直交旋转的图直交旋转后因素解释更为显著

在进行主成分分析时，一般取初始因子载荷系数绝对值大于几的变量？(大于0.4)

你肯定是选择了正交或斜交旋转才会产生“旋转成分矩阵”，你可以用主成分分析法来做一下就会发现没有“旋转成分矩阵”了，所以两者是没有关系的，因为“成分矩阵”是主成分分析法得到的，“旋转成分矩阵”是因子分析得到的，（主成分分析和因子分析的关系应该知道吧，理解一下就ok了）。

因子载荷的意思是左边的和因子的相关系数。因子载荷在“成分矩阵”里分别是0.778、0.453、0.553、0.785，这是左边的那些TB对上面的因子的载荷——因此可以说是因子1=0.778*TB3+0.453*TB4+0.553*TB1+0.785*TB2，（我这么说我像你应该能理解因子2的公式了吧）。因子载荷在旋转成分矩阵里也是一样的这种纵向的公式。

不知道你的问题解决了么，我回答你的三个问题。

第一个：成分矩阵是各个原始变量的主成分表达式的系数；旋转成分矩阵是成分矩阵正交变换（还有其他方法）得到的；成分得分矩阵表示各项指标变量与提取的公因子之间的关【用spss将词篇矩阵转成相似矩阵】

系。简单来说通过成分矩阵可以得到原始指标变量的线性组合，如TB3=0.778*F1-0.414*F2,其中F1、F2分别为提取的公因子；通过成分得分矩阵可以得到公因子的线性组合，如F1=0.56*TB30.97*TB4+0.02*TB1+0.57*TB2。

第二个问题：因子载荷量也就是成分载荷量，因子矩阵与成分矩阵可以理解为同一个意思。所以因子载荷量就是成分矩阵中的数字。

第三个问题：你这四个元素的因子载荷量就是成分矩阵中的数字。

这些问题可以归结到一起就是，因子的载荷是什么？怎么看？其实因子载荷就是提取出的公因子的系数。

额外给你说一下旋转成分矩阵，这个一般是在分析每个公因子受什么影响时，才会用到。

因子旋转

在对社会调查数据进行分析时，除了把相关的问题综合成因子并保留大的因子，研究者往往还需要对因子与测度项之间的关系进行检验，以确保每一个主要的因子（主成分）对应于一组意义相关的测度项。为了更清楚的展现因子与测度项之间的关系，研究者需要进行因子旋转。常见的旋转方法是VARIMAX旋转。旋转之后，如果一个测度项与对应的因子的相关度很高（>0.5)就被认为是可以接受的。如果一个测度项与一个不对应的因子的相关度过高（>0.4），则是不可接受的，这样的测度项可能需要修改或淘汰。

用spss将词篇矩阵转成相似矩阵(四)

关键词共词分析法:高等教育研究的新方法

摘要：关键词共词分析法是一种较新的科学计量分析方法，它主要通过对高频关键词对在同一篇文章中出现的频次进行统计分析，生成共被引矩阵。在此基础上，通过统计软件，进行聚类分析、多维尺度分析、因子分析、主成分分析、社会网络分析等高级统计处理，绘制出二维或者三维的可视化图形，客观系统的展示出所关注资料的直观量化信息。在我国高等教育研究领域较少有学者对此方法进行论述，为了帮助大家更好地了解和掌握此方法，本文以2000-2012年《教育研究》文献热点知识图谱作为实例，详细展示了此方法的使用过程和注意事项。
一、引言
随着研究成果的激增，数字化期刊的盛行及互联网使用的便捷化，可以通过网上搜索引擎快捷的查询并获得这些成果。在应对海量数字信息的今天，传统文献计量和综述方式，不仅耗费时间、效率低下、查询资料的时间跨度短，而且难以全面搜集海量文献信息，造成文献研究偏于定性归纳、过于主观。[1]激增的数据背后隐藏着许多重要的信息，缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”。[2]如何在浩如烟海的数字文献中，将这些零散的信息全面、快速综合起来，挖掘出有深度的信息为我所用，已经成为众多研究者关注的热点。随着计算机技术的不断提升，以及数理统计方法的完善，研究者使用计算机进行数据挖掘（Data Mining，DM）的能力得以大大提升。在此背景下，科学知识图谱开始成为当前国际科学计量学领域热门的方法之一。它是通过将科学计量学的引文分析方法与可视化技术相结合达到对信息的有效组织和利用，生成新的知识。[3]该方法首先，通过计算机和互联网搜索引擎强大的自动查询功能，在极短的时间里面完成对海量信息的准确查询。其次，通过计算机对已查询到的海量分散信息进行文献计量统计分析，不仅可以通过量化模型将其以科学的、可视化的形式直观的呈现出来，而且还可以发现它们之间的深层次关系和趋势，对将要进行的同领域的研究提供科学的指导。该方法被国内外的许多科学计量学研究者应用于学科前沿的研究。但是，国内教育研究方法方面还比较落后。许多现代科学研究方法在教育科研中应用得很少，现代数学迟迟未被引进到教育科学中来。[4]对于科学计量方法在教育研究中应用的专题介绍性文献并不多见。我们在撰写本文前，使用关键词共词分析方法分别对国内特殊教育和自闭症（孤独症）[5]相关研究成果进行了梳理和总结，积累了一定的经验，同时，该方法对大量文献综合处理的高效性、准确性、客观性和直观性给我们留下了深刻的印象。为了帮助国内的高等教育研究者能够对这种方法有所了解，并且能够在今后的研究中更多的使用这种方法，提升自己教育科研的准确性和科学性，下面，我们以代表国内教育最高研究水准的教育类的核心期刊《教育研究》在2000-2012年发表的所有文献作为研究资料，向大家展示该方法的具体使用过程和注意事项。
二、关键词共词分析方法
（一）关键词共词分析方法简介
共词分析（Co-word Analysis）是一种较新的文献计量学方法，其属于内容分析方法的一种。其主要原理是对一组词两两统计它们在同一篇文献中出现的次数，以此为基础对这些词进行聚类分析，从而反映出这些词之间的亲疏关系，进而分析这些词所代表的学科或主题的结构与变化。[6]共词分析法可分别以文献的主题词和关键词进行共词分析，但我们倾向于主张采用关键词进行共词分析来得出结论，主要原因有：第一，关键词是论文中起关键作用的、最能说明问题的、代表论文内容特征的、或最有意义的词[7];第二，关键词不仅准确地反映论文的主题，而且其本身应具有独立的检索功能;第三，由于一篇文献的关键词或主题词是文章核心内容的浓缩和提炼，因此，如果某一关键词或主题词在其所在的领域的文献中反复出现，则可反映出该关键词或主题词所表征的研究主题是该领域的研究热点[8];第四，通过对高频关键词共现关系分析，可以进一步明晰若干热点研究领域。[9]关键词共词分析主要是通过共词分析软件，对符合条件的查询到的海量信息的关键词对在同一篇文章中出现的频次进行统计分析（共词分析），生成共被引矩阵。在此基础上，利用统计软件，进行聚类分析、多维尺度分析、因子分析、主成分分析、社会网络分析等高级统计处理，绘制出二维或者三维的可视化图形，客观系统的展示出所关注资料的直观量化信息。
（二）关键词共词分析方法的具体操作过程
1.准备研究工具
下载并安装Bicomb共词分析软件和SPSS20作为主要研究工具。Bicomb共词分析软件由中国医科大学医学信息学系崔雷教授和沈阳市弘盛计算机技术有限公司开发。下载获取地址为崔雷教授科学网的博客网址：https：//skydrive.live.com/？cid=3adcb3b569c0a509&id=3ADCB3B569C0A509%211195。
2.准备研究资料
首先，进入网络搜索引擎，根据自己研究目的限定文献来源，进行文献检索。根据自己研究需要和目的对文献进行取舍和保留。再次，对选取的文献按照统一格式进行保存。第三，对保存的文献进行标准化。最后，将保留文献的格式转化为Bicomb共词分析软件能够识别的ANSI编码，供后续量化统计分析使用。这里值得注意的是，如果不将文本格式编码转为ANSI编码，Bicomb共词分析软件将无法识别有效信息。
3.进行量化统计分析
首先，使用Bicomb软件进行关键词统计并确定提取、导出高频关键词词篇矩阵。有关Bicomb软件进行关键词统计的详细操作过程请阅读相关操作手册。[10]其次，采用SPSS20对高频关键词进行聚类分析并生成Ochiai系数相同矩阵。再次，采用SPSS将高频关键词的相同矩阵转化为相异矩阵并进行多维尺度分析。最后，对上述量化结果进行定量和定性结合的分析，得出相应的结论和建议。　　概括而言，关键词共词分析法的一般过程包括：明确研究的问题、选定并标准化研究材料、高频关键词的选定、共现矩阵的提取、进行高级统计处理（相同矩阵、相异矩阵的转化、聚类分析、多维尺度分析）。
三、关键词共词分析方法示例
为了更好的使大家掌握该方法，下面，我们以“2000-2012年《教育研究》文献热点知识图谱”为例向大家进行详细的示范说明。
（一）查找准备文献
首先，进入中国学术文献网络出版总库，进入标准检索对话框，将发表时间栏的具体日期定义为从“2000-01-01”到“2012-12-31”，文献出版来源限定为“《教育研究》”。根据限定好的条件进行文献检索，检索到文献2908条。其次，根据研究需要删除研讨会综述、课题介绍、会议通知、卷首语、会议记录、课题通过鉴定、读后感、简介、研讨会简介、书评、成果鉴定会、学院以及学校简介信息、人物专访、投稿须知、会议纪要、出版信息、目录信息、公告等，得到有效论文2550篇。再次，对上述文献统一按照题名、作者、关键词、单位、摘要、年、期等信息以文本形式保存。最后将保存的文本信息编码格式统一改为ANSI编码后保存。
（二）进行量化统计
1.进行关键词词频统计分析并提取高频关键词频次
一个学术研究领域较长时域内的大量学术研究成果的关键词集合，可以揭示研究成果的总体内容特征、研究内容之间的内在联系、学术研究发展的脉络与发展方向等。[11]如果在统计文献时，关键词出现的频次越高，则表示与该关键词有关的研究成果越多，研究内容的集中性就越强。一个研究领域的少量高频次的关键词，拥有该学科明显大的信息密度与知识密度，成为信息与知识需求者检索文献的重点，它们被称为核心关键词。[12]词频分析法是利用能够揭示或表达文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法。[13]
对2550篇文章中的15976个关键词进行词频统计分析，发现关键词出现的频次范围是1-107。为了减轻工作量，对关键词频次大于20的高频关键词进行提取，结果见表1。
从表1可以看出，频次大于等于20的有52个关键词，占关键词总数的3.25%，其出现的频次合计为1839次，词均35.37次，占关键词总频次（15976）的11.51%。这些高频关键词表述的研究内容，是2000-2012年《教育研究》发表文章的核心内容。从高频关键词分布顺序可看出，《教育研究》涉及的前10个研究热点依次为：高等教育（107）、基础教育（69）、教育公平（63）、教育改革（59）、教师（59）、教育研究（54）、课程改革（52）、教师教育（52）、教育发展（48）、教育理论（44）。这一统计结果，与2000-2009年八种教育学期刊文献前10位高频关键词（高等教育、课程改革、教育研究、教育改革、素质教育、教学改革、基础教育、课堂教学、教师、教育理论）对比，有7个高频关键词完全重合，排在第一位的高等教育和最后一位的教育理论在排序上完全吻合，其它5个仅在排列顺序上发生差异。这一结果不仅验证了本研究中统计方法的可信，而且还进一步说明相对于其它教育研究刊物，《教育研究》起着风向标的作用。
为深入挖掘这52个高频关键词的词频之间的关系以及它们背后隐藏的有效信息，还需要进一步采用关键词共现技术来进行深入的计量学研究。
2.生成高频关键词的相同和相异矩阵
首先，生成高频关键词词篇矩阵。对各个高频关键词是否在其它论文中成对出现（出现为1，否则为0），利用Bicomb软件生成高频关键词词篇矩阵。词篇矩阵考察各高频关键词间的亲疏关系，词篇矩阵表示的是两目标之间的相似程度的矩阵，即两者数字越大表明两者关系越近，越小表明两者关系越远。[14]其次，生成高频关键词相似系数矩阵。以关键词词篇矩阵为基础，在SPSS20中进行相关分析，数据类型选择“binary”二元变量，相似系数选择“Ochiai”系数，构造出高频关键词相似系数矩阵。[15]相似矩阵中的数字表明数据间的相似性，数字的大小表明了相应的两个关键词之间的距离远近，其数值越接近1，表明关键词之间的距离越近、相似度越大;反之，数值越接近0，则表明关键词之间的距离越大、相似度越小。最后，生成高频关键词相异系数矩阵。为了消除由于关键词共现次数差异所带来的影响，根据相似系数矩阵，采用相异系数矩阵=1-相似系数矩阵，产生相异系数矩阵。相异系数矩阵中数字表明数据间的相异性，其含义与相似系数矩阵意义相反，数值越接近1，表明关键词之间的距离越大。相异系数矩阵结果见表2。
从表2可以看出，各关键词分别与高等教育距离由远及近的顺序依次为：教师（1.000）、教育研究（1.000）、课程改革（1.000）、教师教育（1.000）、基础教育（0.988）、教育改革（0.908）、教育公平（0.963）。这个结果说明，研究者在论及高等教育时，会更多的将其与教师、教育研究、课程改革与教师教育结合在一起讨论，而较少和基础教育、教育改革、教育公平结合起来。采用上述原理，综合表2中的关键词相异系数矩阵数据，可以初步得出的结论为：2000-2012年在《教育研究》发表的成果中，涉及到基础教育与课程改革的资料较少，大量研究主要以高等教育为探讨对象，关注高等教育中涉及的教师、教育研究、课程改革及教师教育等主要因素，对这些因素予以了更多的关注。出现这一结果的原因，一方面是《教育研究》从2004年开始增大了对“教师”这一关键词的关注，开辟了专栏。另一方面的原因是，2001年“教师教育”被国务院首次提出后，引起了多方面尤其是教育界对此问题的高度重视。
3.进行高频关键词聚类分析
聚类分析是选定一些分类标准，将不同的观察体加以分类，同一类（集群）之内观察体彼此的相似度愈高愈好，而不同一类之间观察体彼此的相异度愈高愈好。[16]高频关键词聚类分析是通过高级统计对已经发表文献的高频关键词组的相似性与相异性分析，来发现它们之间的远近关系，挖掘隐藏在它们背后的研究者关心的知识信息。关键词聚类分析时，先以最有影响的关键词（种子关键词）生成聚类;再次，由聚类中的种子关键词及相邻的关键词再组成一个新的聚类。关键词越相似它们的距离越近，反之，则越远。　　将上述52个高频关键词构成的52×52的相似系数矩阵，导入SPSS20进行聚类分析。结果见图1。
从图1可以直观的看出2000-2012年《教育研究》高频关键词被分为8个种类，它们的具体分布结果见表3。
从表3可以看出，2000-2012年《教育研究》8类研究具体分布为：
种类1为教学过程中的活动和改革，包括14个关键词，其可以细分为6小类：小类1基础教育教学活动及过程，包括3个关键词（教学过程、教学活动、基础教育课程）;小类2教学改革与教学论，包括2个关键词（教学改革、教学论）;小类3教学模式与课堂教学，包括2个关键词（教学模式、课堂教学）;小类4学生、教师及其发展，包括3个关键词（学生、发展、教师）;小类5师生关系，包括1个关键词（师生关系）;小类6基础教育及素质教育的课程改革，包括3个关键词（基础教育、课程改革、素质教育）。
种类2为道德教育与生活，包括2个关键词（道德教育、生活世界）。
种类3为教育与课程，包括2个关键词（教育、课程）。
种类4为学校教育、义务教育及教育政策、观念，包括16个关键词，其可以细分为7小类：小类1学校教育与职业教育，包括2个关键词（学校教育、职业教育）;小类2农村教育和农村义务教育，包括2个关键词（农村教育、农村义务教育）;小类3义务教育和均衡发展，包括2个关键词（义务教育、均衡发展）;小类4教育公平、质量及政策，包括3个关键词（教育公平、教育质量、教育政策）;小类5教育资源，包括1个关键词（教育资源）;小类6教育发展与教育科研，包括2个关键词（教育发展、教育科研）;小类7教育理念及对学习者的关注，包括4个关键词（以人为本、科学发展观、教育理念、学习者）。
种类5为大学及学科建设，包括2个关键词（大学、学科建设）。
种类6为教师教育、教育理论与教育思想，包括10个关键词，其可以细分为3小类：小类1教师教育及其专业发展，包括3个关键词（教师教育、教师专业发展、中小学教师）;小类2教学理论、研究及实践与改革，包括6个关键词（教育理论、理论与实践、教育研究、教育实践、教育学、教育改革）;小类3教育思想，包括1个关键词（教育思想）。
种类7为高等职业教育和民办教育，包括2个关键词（高等职业教育、民办教育）。
种类8为高等教育、高等学校与价值取向，包括4个关键词，可以细分为2小类：小类1高等教育与大学生价值取向，包括3个关键词（高等教育、大学生、价值取向）;小类2高等学校，包括1个关键词（高等学校）。
4.进行高频关键词的多维尺度分析
多维尺度分析（MDS）是一种可以帮助研究者找出隐藏在观察资料内的深层结构的统计方法，其目的是在发掘一组资料背后之隐藏结构，希望用主要元素所构成的构面图来表达出资料所隐藏的内涵，尤其是在观察资料体很多时，利用多维尺度法更能适切地找出资料的代表方式。[16]采用多维尺度分析时，要汇报其 Stress和RSQ值，它们分别为多维尺度分析中的信度和效度估计值。其中，压力系数（Stress）是拟合度量值，用于维度数的选择，Stress越小，表明分析结果与观察数据拟合越好，其值越小，说明模型的适合度越高。Kruskal（1964）给出了一种根据经验来评价Stress优劣的尺度：若Stress≥20%，则近似程度为差（Bad）;≤10%，为满意（Fair）;≤5%，则为好（Good）;≤2.5%，为很好（Excellent）;其理想的状况为Stress=0，称为完全匹配（Prefect）。[17] 模型距离解释的百分比（RSQ），表示变异数能被其相对应的距离解释的比例，也就是回归分析中回归分析变异量所占的比率，RSQ值越大，即越接近1，代表所得到的构形上各点之距离与实际输入之距离越适合。一般认为，RSQ在0.60以上是可接受的。[18]
采用spss20对上述52个高频关键词构成的52×52的聚类分析产生的矩阵进行多维尺度分析，标准化方法选择Z分数。结果显示，Stress= 0.120，RSQ= 0.823，说明其拟合效果较好，可以反映出《教育研究》高频关键词间的学术联系状况。多维尺度分析结果见图2。
多维尺度绘制出的坐标称为战略坐标，它以向心度和密度为参数绘制成二维坐标，可以概括地表现一个领域或亚领域的结构。[19]战略坐标中，各个小圆圈代表各个高频关键词所处的位置，图中圆圈间距离越近，表明它们之间的关系越紧密;反之，则关系越疏远。影响力最大的关键词，其所表示的圆圈距离战略坐标的中心点越近。坐标横轴为向心度（Centrality），表示领域间相互影响的强度;纵轴为密度（Density），表示某一领域内部联系强度。[20]在战略坐标划分的四个象限中，一般而言，第一象限的主题领域内部联系紧密并处于研究网络的中心地位。第二象限的主题领域结构比较松散。这些领域的工作有进一步发展的空间，在整个研究网络中具有较大的潜在重要性。第三象限的主题领域内部链接紧密，题目明确，并且有研究机构在对其进行正规的研究，但是在整个研究网络中处于边缘。第四象限的主题领域在整体工作研究中处于边缘地位，重要性较小。[21]
结合上述理论，从图2可以看出，首先，2000-2012年《教育研究》热点知识图谱分为8个区域，虽然种类1、4和6所占的区域较大，种类2、3、5、7、8所占区域较小，但从其分布位置可以看出，这些小的区域处于战略坐标的核心附近，表明这些区域是其关注的重点。种类7和种类8所处的领域距离战略坐标轴心位置最近，表明近几年高等职业教育和民办教育、高等教育、高等学校与价值取向成为了《教育研究》发文的热点领域。其次，从各个种类所处战略坐标的象限分布特点来看，种类4的大部分关键词位于战略坐标的第一象限，说明其不仅是《教育研究》杂志组稿的核心领域，而且其文章数量相对于其它7个种类所占领域更为多，也更成熟，该领域的研究是我国教育研究的中心领域。种类1、8主要位于第二象限，说明其主题相对松散，对其关注度还有待于进一步加强，其今后在《教育研究》文献成果质量提升方面还具有较大的潜在价值。种类2、3、6主要位于第三象限，说明这3个种类所占的领域内部链接紧密，题目明确，并且有研究机构正在对其展开正规的研究，但在整个研究网络中仍处于边缘。种类6大部分位于战略坐标的第四象限，说明它们所处的主题在整个研究中处于边缘地位，重要性较小。种类7不仅横跨四个象限，而且紧紧围绕在战略坐标轴心，说明它所占的领域是《教育研究》发文的重点核心领域，该领域的研究不仅与国家中长期教育改革和发展规划纲要（2010-2012年）提出的大力发展职业教育和大力支持民办教育的内容相一致，而且还与《教育研究》“2006中国教育研究前沿与热点问题年度报告”中“创新高等教育发展思路”、“拓展高等教育办学多样化”、“职业教育的转型与发展取向”[22]等内容相一致。此研究结果也被潘黎、王素的研究所验证。　　四、总结和展望
通过上述实例，大家可以更直观的感受到关键词共词分析方法的使用效果，但是，在使用的具体过程中，还应该值得关注和思考下述问题。
（一）进行关键词共词分析前要确保对其进行标准化
我们主要针对《教育研究》进行计量分析，因为其风格基本一致，所以在标准化处理关键词方面比较容易处理，但是，如果涉及到多个杂志间的文献关键词处理，就要特别注意对查询到的文献的关键词进行规范和统一。比如，我们在进行自闭症热点研究时，要将在不同刊物中表达同样含义的关键词“自闭症”与“孤独症”统一为“自闭症”。迟景明和吴琳在研究中，将“高职院校”、“职业技术学院”和“职技高校”标准化为“高职院校”，将“高等学校”、“高等院校”、“高校”、“大学”等标准化为“高校”。对关键词的标准化处理，能确保最后量化材料的准确，进而保证最后科学计量的精确、科学。但很多进行科学计量的研究忽视了此问题，导致了其研究结果的科学和准确性大打折扣。
（二）可以尝试使用社会网络分析法更清晰地展示关键词间的强弱关系
本研究采用的多维尺度虽然可以较好的观察到变量间的关系，但是无法表现他们之间的强弱。要更好的表达各个关键词之间的强弱关系，大家以后可以尝试进行社会网络分析。社会网络分析（Social Network Analysis）（简称SNA，有的文献称为“社会网”或“网络分析”）是包括测量与调查社会系统中各部分（“点”）的特征与相互之间的关系（“连接”），将其用网络的形式表示出来，然后分析其关系的模式与特征这一全过程的一套理论、方法和技术。[23] 采用社会网络分析得出的三位立体网络图，更能直观地反应各个体（节点）的位置及它们之间的相互关系（线段）。在原始图线条密集，不易分析时，还可进行凝聚子群分析，使图的直观性增强，更容易分析理解。[
（三）关键词共词分析法和定性方法结合使用才能更好解读研究结果
虽然热点知识图谱是采用科学计量法绘制出来的，但是该方法的使用并非完全依赖定量技术，其还依赖于定性分析技术。在进行了聚类分析和多维尺度分析之后，对于各个种类及其所在区域的划分和命名均需要雄厚的专业功底。它就像采用因子分析之后，对于各个因子的命名需要结合专业知识来命名一样。因此，要进行科学知识图谱的绘制，需要将定量研究与定性分析结合起来，具有一定的专业背景，才能够对计量结果进行准确、客观的解读。
（四）进行关键词共词分析方法时软件的选取也至关重要
虽然现在国内很多研究者，在社会学科、管理学科、医学等研究领域对中文文献的热点知识图谱的绘制采用了陈朝美博士研发的CiteSpace软件，但是该软件的优势在于处理外文，尤其是英文文献上，对于中文文献的处理还存在一定的不足，而我们所介绍的Bicomb软件在中文文献的共词分析方面较有优势，因此，我们建议大家对中文材料进行科学计量研究时更多的采用此软件。
通过本文的介绍，我们衷心希望能够帮助高等教育研究者对关键词共词分析法有所了解，同时，也真诚的希望越来越多的高等教育研究者投入到教育研究成果的科学计量研究中来！

用spss将词篇矩阵转成相似矩阵(五)

基于关键词共现的国内用户研究主题探讨

【摘要】以2002-2011年我国图情领域关于用户研究的文献为对象，从关键词共现分析、聚类分析、社会网络分析等几个方面对文献中的高频关键词进行定量研究，并将其归类为六大主题。
引言
随着信息化和网络化时代的来临，人们的信息交流日益频繁，信息用户日渐庞大。对用户进行研究已成为我国图情领域研究的前沿和热点，其研究成果可以为信息服务机构开展以用户为中心的服务提供依据。在这一趋势的引领下，图情界同仁迫切希望了解近10年来关于用户研究的热点领域和动态信息，为未来完善用户研究提供有用的借鉴。因此，笔者采用共词分析法和社会网络分析法对2002-2011年我国图情领域关于用户研究文献中的高频关键词进行分析，以揭示用户研究的主题，把握其发展趋势。
共词分析法主要是利用文献集中关键词对共同出现的情况来确定该文献集所代表学科中各主题之间的关系。一般做法是统计一组文献的关键词两两之间在同一篇文献中出现的频率，便可形成一个由这些词对关联所组成的共词网络。利用聚类、因子分析等多元统计分析方法对共词网络进行分析，进而展现该学科的研究结构[1]。
社会网络分析法原本是社会学用于研究社会成员之间关系的一种定量方法，后来被引入到了图情领域的相关研究。它在关键词分析中应用的主要原理是将关键词作为网络的节点，关键词之间的共现关系则构成节点之间的连线，构建社会网络关系图谱，然后应用中心度、小世界效应等方法进行分析，进而发掘出关键词之间的关系 [2]。
2.1 数据来源
为了尽可能保证查全率，笔者以“用户”、“信息用户”为题名和关键词，对中国知网和维普网收录的19种图情领域核心期刊进行检索。共得到2002-2011年发表的论文2 632篇，剔除非学术论文、重复等无效部分后，最终有效篇数为2 115篇。
19种核心期刊分别是：《情报学报》、《图书情报工作》、《国家图书馆学刊》、《图书与情报》、《图书馆学研究》、《图书馆工作与研究》、《图书馆理论与实践》、《情报杂志》、《情报科学》、《图书馆杂志》、《图书馆建设》、《图书馆论坛》、《图书馆》、《图书情报知识》、《情报理论与实践》、《中国图书馆学报》、《大学图书馆学报》、《情报资料工作》、《现代图书情报技术》。除了《情报学报》上发表的文献来自于维普网外，其他均来自于中国知网。
2.2 数据预处理
由于关键词是论文作者自行选择的自然语言，因此会存在一些不规范、不统一的现象。为了让研究结果更加准确，笔者采用归并、吸收和丢弃三种方法对关键词进行逐一的人工处理。
归并法是指对同一内容用不同词语来表达或者同一词语用不同语种来表示的情况，归并为统一的词语。如用户、读者和信息需求者等，归并为用户； Lib2.0、Library2.0和图书馆2.0，归并为图书馆2.0。
吸收法是指针对同一研究内容，但却采用上下位关系来表示的关键词，如用户、图书馆用户和信息用户，采用上位类代替下位类的方式进行吸收，即采用用户来表示。有些词需要采用下位类吸收上位类的方式，如模型和用户模型，这需要结合文献的具体内容而定。
丢弃法是指针对一些与用户研究无关或者太宽泛的关键词，如学校机构的名称（中央财经大学）、趋势、google工具栏、中国招生考试网络关系图谱。该方法能够直观地揭示各个元素之间的紧密程度和所处地位。通过构建高频关键词的图谱，可以分析出高频关键词在整个网络中所处的地位 [6]。
3.1 总体趋势
论文的数量能够直接反映图情领域对用户研究的关注度，2002-2011这10年间共有2 115篇相关论文，年均211.5篇。刊文量从2002年的98篇增长到了2011年的309篇，增长了近3.15倍，年均增长率达到12.2%。上述数据表明，近10年来我国学者对于用户的研究越来越关注和重视。正如普赖斯文献指数增长规律所反映的现象，图情领域关于用户的研究正处于发展阶段，会引起许多不同学者进行思想交流，不同学科内容的相互渗透、交叉，推动了用户研究的蓬勃发展。　　同时，笔者对关键词进行规范化处理之后，共整理出频次大于20的34个高频关键词。其中信息服务、用户需求、数字图书馆、高校图书馆、个性化服务这5个关键词的频次都大于100，说明在网络越来越发达的今天，图书馆等信息服务机构更加关注用户的个性化需求，根据不同用户的需求特征，有针对性地提供信息服务。
为了更加清楚、形象地展现近10年我国图情领域关于用户研究的主题和核心领域，笔者对得到的高频关键词进行共词和社会网络分析，并绘制相应的关系图。
3.2 主题归类
3.2.1 主题类数的确定
利用SPSS17.0 进行因子分析，结果见表4。按照提取因子的方差累积百分比要超过60 %的原则，从关键词矩阵中提取符合条件的因子个数为6。这6个因子的方差累积贡献率达到63.503%，即能够解释全部信息的63.503%。由此可以确定用户研究的主题类数为6类。
3.2.2 归类结果
根据因子分析的结果，将关键词采用系统聚类的方法聚为六大主题（见表5），分别是新形势下高校图书馆用户教育研究、网络环境下图书馆用户需求研究、数字图书馆用户个性化服务研究、网络模式下用户服务满意度研究、网络信息资源的用户体验研究、信息组织中的用户参与研究。为了更加直观形象地展示归类主题结果，笔者采用多维尺度分析法构建了主题图谱（见图1）。
新形势下高校图书馆用户教育研究。由于高校图书馆是高校的文献信息中心，是教师、科研人员、学生查找资料的主要场所。因此，国内外对于高校图书馆的用户教育研究历来都很重视，将之贯穿于图书馆各个工作环节中。随着Web 2.0和图书馆2.0的发展，高校图书馆在文献载体、信息构建、服务手段等诸多方面都发生了巨大的变化。如何将Web 2.0和图书馆2.0的一些元素应用于用户教育，提高用户信息检索能力以及有效利用信息的能力，已成为高校图书馆一项十分紧迫而重要的任务[8]。
网络环境下图书馆用户需求研究。随着网络的不断发展，用户对信息的需求也处于不断变化中。用户不再满足于简单地获取文献信息，而是希望利用快捷、丰富的网络资源全方位获取各种相关的信息。图书馆传统的服务模式已经跟不上网络环境下用户的需求，用户流失现象日益严重。在这种形势下，学者对网络环境下用户需求的特点进行了大量的研究，以期图书馆等信息服务机构创建与之相适应的服务方式，为用户提供综合化的信息服务[9]。
数字图书馆用户个性化服务研究。数字图书馆是随着网络技术的成熟而蓬勃发展起来的，用户通过检索就能够获取所需信息。由于需要用户的参与，因此这种信息获取往往是被动的，获得的信息质量不尽如人意。在这样的情况下，个性化服务应运而生，并已经成为数字图书馆信息服务研究的主要问题。围绕这个问题，学者对用户信息行为、信息偏好、用户模型、用户咨询、搜索引擎等方面进行了大量的研究，以便系统、全面地获取用户兴趣特点，主动推送其所关注的信息资源。
网络模式下用户服务满意度研究。网络环境下图书馆的用户满意度是从用户角度出发，即用户在获取网络信息资源时是否达到或者超过预期满足程度的一种心理状态。学者对用户满意度研究有利于优化网络检索系统，提高查全率和查准率，提升信息的服务质量。
网络信息资源的用户体验研究。对图书馆等信息服务机构而言，用户体验是指用户在使用信息产品过程中所获得的心理感受。根据用户体验结果可以有效地进行网络信息资源整合、基本术语规范以及创新服务模式等。用户体验对于图书馆等信息服务机构来说是一种全新的观念，近年来对其关注度不断加大。但是相对其他主题来说，用户体验研究的内容宽泛而且没有一个相对统一的标准，导致该领域的研究深度有限。
信息组织中的用户参与研究。信息组织是信息资源开发利用的关键环节，由于当前以博客、微博、社交网络等为代表的微内容不断兴起，用户越来越多地参与到信息组织中来。用户参与图书馆信息组织一方面有益于改善图书馆信息资源组织与服务，同时也给图书馆信息组织带来了挑战。因此，图书馆将来必须变革传统的信息组织模式，创新信息组织模式与方法[10]。
3.3 核心主题
3.3.1 核心主题的确定
在确定了近10年来关于用户研究的主题后，接下来笔者将进一步分析这6类主题的联系程度及所处地位。为此，笔者借鉴社会网络分析方法，绘制主题的社会网络关系图谱（见图2）。图谱中节点的大小代表在整个网络中的地位，节点越大越接近中心地位，属于核心主题。据此可以看出“数字图书馆用户个性化服务研究”和“网络环境下图书馆用户需求研究”是整个主题网络中的核心节点，其中前者与所有的主题都有联系，核心地位更突出。这表明在互联网的冲击下，传统图书馆在向数字图书馆迈进的过程中，更加注重以用户需求为导向的个性化服务模式的运用。
3.3.2 核心主题的分析
社会网络关系图谱中两节点间的连线情况反映两个节点的联系强度，如果存在连线，代表两个节点有联系；连线越粗，表示两者关系越紧密。根据这个原理，笔者对核心主题――“数字图书馆用户个性化服务研究”所囊括的高频关键词进行图谱分析（见图3）。从图中可以看出，个性化服务与数字图书馆、用户模型、搜索引擎以及知识服务联系紧密。可见在数字图书馆背景下，用户模型的建立、搜索引擎的优化以及原始资料的知识抽取对个性化服务的开展至关重要。同时，数字图书馆与用户研究、用户服务联系紧密，表明数字图书馆与传统图书馆相比，更加注重以用户为中心的服务理念。
结论
笔者利用共词和社会网络分析技术，对2002-2011年我国图情领域以用户研究为主题的论文进行了研究。结果表明，学者对用户研究的主题主要集中在六个方面。其中，数字图书馆用户个性化服务研究和网络环境下图书馆用户需求是目前关注的重点领域。现有的用户研究主题都与互联网技术密切相关，这表明将网络技术引入到对图情领域用户的信息服务已成为这一学科的未来发展趋势。

用spss将词篇矩阵转成相似矩阵(六)

北京体育大学体操方向硕士学位论文研究热点分析

中图分类号：G807 文献标识：A 文章编号：1009-9328（2013）12-000-01

摘要对北京体育大学2003-2012年体操方向硕士学位论文的关键词词频统计与分析，研究高频词之间的结构关系，探究北京体育大学体操方向硕士学位论文的选题方向、研究内容及其不同的特点，分析热点的形成原因与未来发展趋势。
关键词北京体育大学硕士学位论文研究热点
一、研究方法与对象
研究方法主要采用词频统计法与共词聚类分析法。词频统计法能够揭示或表达文献核心内容的关键词或主题词在某一研究领域中出现的频次高低来确定该领域研究热点和发展动向的文献计量法。共词聚类分析法是一种内容分析方法，通过对一组词两两统计它们在同一片文献中出现的频率，以此为基础对这些词进行聚类分析，从而反映出词与词之间的亲疏关系，进而分析这些词所代表的学科和主题的研究结构。
二、研究生学位论文的共词聚类分析
（一）关键词词频统计与分析
本文利用《CNKI中国优秀硕士学位论文全文数据库》，搜索出2003―2012年北京体育大学体操方向硕士学位论文共73篇，以73篇学位论文中的关键词为调研对象，通过共词分析法中的聚类分析探索各高频关键词之间的内在关系，归纳出北京体育大学体操硕士学位论文研究的热点，以及各个不同研究方向的亲疏性。本研究利用Excel对前期检索出的学位论文进行关键词统计，共得到硕士学位论文关键词283个，平均每篇硕士学位论文含关键词3.9个。然后对统计结果进行以下处理：去除对反应主题没有积极意义的词，如“展望”、“问题”等，对表达同一个意思的关键词进行标准化处理，如“高职院校”、“职业技术院校”、“职技高校”等标准化为“高职院校”，“高等院校”、“高等学校”、“高校”、“大学”等标准化为“高校”。
经过多次比较，最终选择词频大于的关键词作为高频关键词，从而确定个体操方向硕士学位论文的高频关键词（表1）。这个关键词总的出现频次为65次，占关键词总频次的36.3%。从高频关键词分布可以看出，北京体育大学体操方向硕士研究生重点关注的研究对象集中在“体育教育专业”、“分析”、“普通高校”、“竞技体操”、“北京市”、“教学理念”、“现状”、“发展对策”等。
表1 硕士学位论文高频关键词表
序号关键词词频
1 体育教育专业 12
2 分析 10
3 普通高校 8
4 竞技体操 8
5 北京市 7
6 教学理念 7
7 现状 7
8 发展对策 6
（二）构造词篇矩阵、相似矩阵
对于高频关键词共现频次的统计，本研究利用SPSS17.0，以每篇学位论文为一条记录，记录的内容为高频关键词是否在学位论文的关键词出现（出现为1，否则为0），构造出词篇矩阵。以词篇矩阵为基础，在SPSS软件中进行相关分析，数据类型选择“binary”二元变量，相似系数选择“Ochiai”系数，构造出高频关键词的相似矩阵（见表2）。相似矩阵中的数字为相似数据，数字的大小则表明词与词之间的距离远近，数值越大则表明词与词之间的距离越近，相似度越好；反之，数值越小，表明词与词之间的距离越远，相似度越差。相似矩阵对角线的数据为1，表明某高频关键词自身相关度。