登录
首页精彩阅读大数据时代的意图搜索
大数据时代的意图搜索
2017-03-17
收藏

大数据时代的意图搜索

意图搜索起源于互联网搜索引擎,是基于互联网上海量的无组织、异构、动态的数据与信息环境下搜索引擎不能准确理解用户的搜索意图而提出的,利用如神经网络算法等机器学习方法实现智能化的自动搜索,从而更加精准、主体的提供个性化的服务。

一、目的意义

大数据时代,任何网络行为所留下的“蛛丝马迹”都以数据的形式隐藏在大数据中,正所谓“存在就有痕迹,联系就有信息”,通过应用物联网、大数据、人工智能等技术,构建网络空间中行为事件、思想事件等模型。在实体空间和虚拟空间中全面收集、甄别、过滤、分类、整合人的存在痕迹和联系信息,关注人物或事件间联系链,从而实现网络空间中存在的各种意图,完成对意图产生源头、传播途径和发展趋势的全方位描述,达到对个人和组织的所思所想行为所在的全面搜索和分析。做到提前预警、智能决策。

2013年的“棱镜门”事件为国家安全敲响警钟的同时我们也看到正是有了“大数据”的存在,才让“棱镜”项目得以实施。目前,我国面临的安全形势严峻,反恐问题更是当前国际面临的重要安全问题,大数据环境下的意图搜索将能积极应对新时期各种安全威胁,运用大数据技术和人工智能技术进行深入分析,实现对安全事件的准确识别和提前预警,有力提升我国基于大数据的国家安全防护能力。

二、关键技术

1、人工智能技术:意图搜索引擎构建了人与信息的意识主动化的连接,通过不断的交换学习,形成模拟人脑的智能系统,从而实现人与机器的相互了解,因此人工智能技术将是意图所搜的核心技术。主要相关的人工智能技术有:机器深度学习、计算机神经网络、脑机接口、自然语言处理等技术。

2、大数据技术:而对数据进行收集、存储、处理、挖掘分析是搜索技术的基本环节,因此以数据存储、数据挖掘等技术为主的大数据技术也是意图搜索的关键技术之一。主要相关的大数据技术有:数据采集、数据存储、数据处理、数据挖掘与分析技术等。

3、物联网技术:随着传感器的发展和移动化的能力,意图搜索也呈现多样化的形态。因此,以传感器技术为主的物联网技术也是意图搜索的关键技术之一。

4、其他信息技术:此外,搜索实现从传统搜索到人工智能的过渡,还需要分词技术、硬件存储、云计算、超级计算、知识图谱等相关技术的成熟。

三、目标成果

大数据环境下的意图搜索技术将是构建一个构建虚拟空间信息社会雷达系统。该系统的主体是搭建一个完整的知识库,开发意图搜索引擎系统、并构建云计算与大数据的基础设施平台。搜索引擎系统:搜集器、控制器、索引器、检索器、用户接口、处理分析系统

技术成果:人工智能、智能推理及知识研发、信息提取与分析技术、虚拟化工具、系统运行保障研发、系统算法、信息检索能力研发等技术上的突破成果。

四、国内外状况

1、美国

(1)美国技术优势明显

以微软和Google为代表的互联网巨头技术和应用皆处于领先地位。微软亚洲研究院的人立方关系搜索提供的搜索结果中,将所有信息都按照“人”进行重新整合,以人与人之间的关系为纽带,将埋藏在网络信息海洋中的“人”的信息连接汇总,图文并茂地展现出来,开启的意图搜索的新篇章。棱镜门事件以来,NSA的全球监控行为遭到各国政府和人民的谴责,但美国情报部门所展现的大数据和信息安全技术实力不容忽视。Accumulo数据库系统是NSA企业架构的核心。大多数NSA的关键分析应用都运行在Accumulo上,从技术角度看,NSA已经能够识别网络上的各种可疑行为和个人,可以说美国政府在相关技术已走到了Google、微软等互联网巨头之前。

(2)政府支持力度大

美国在相关技术的研发上给予高度重视。奥巴马政府大数据研究和发展倡议中推出的 XDATA项目将在四年里耗费2500万美元来开发计算技术和防护数据软件。2014年美国国防高级研究计划局(DARPA)启动其“大机理”项目,目的是发展可以发现隐藏在大数据中的因果关系模型。美国国防部每年投入2.5 亿美元资助利用海量数据的新方法研究,并将传感、感知和决策支持结合在一起,制造能自己运行和做出决策的自治系统,为军事行动提供更好的支持。NSA在大数据项目的规模、可扩展性、安全性在很多方面甚至超过了Google、亚马逊和苹果这样的大型互联网企业。NSA旗下的风险投资公司In-Q-Tel迄今已经投资了200多个云计算、大数据、搜索与分析创业项目。美国国土安全部正在开展“可视化和数据分析卓越中心”项目,通过对大规模异构数据的研究,使应急救援人员能够解决人为或自然灾害、恐怖主义事件、网络威胁等方面的问题。(参考文献:美国国防部的大数据安全战略,大数据文摘)

(3)美军利用大数据搜索提升侦查和反恐能力。

美军正在开发的新一代大数据系统,能够通过计算机的速度和精度以及人的敏捷性,来理解和解释现实世界,协助指挥官和分析人员将以100倍于当前的速度来理解传感器收集的海量数据。例如,当阿富汗境内的大毒枭准备为基地组织等恐怖分子提供资金时,美军的情报分析人员能够借助大数据技术,把作战方案库里的数据与有关基地组织情况库里的资金数据进行实时、自主关联,指导美军先敌一步采取行动。

在美国国防部的资助下,美国“记录未来”公司,专门研究如何通过分析互联网信息,特别是“脸谱”、“推特”等社交网站,预先察知恐怖袭击等重大事件。2013年6月,美国国家安全局局长兼美国赛博司令部司令亚历山大在参加众议院特设情报委员会听证会时承认,通过秘密进行的“棱镜”等监视项目,美国政府至少挫败了50起恐怖袭击事件。这是大数据技术运用的成功案例。(参考文献:战争步入大数据时代,中国青年报,2014.03.14)

2、我国的发展现状

在我国百度、搜狗、360等互联网公司以及海康威视等安防企业处于技术和应用的前沿。从整体上来看,在商业开放和应用方面尚具备一定的国际竞争力,但从大数据智能搜索应用于国家安全防护上来看,我国在此方面与美国尚存在着较大的差距。


意图搜索最早起源于互联网行业,通过对传统搜索引擎的智能化应用扩展,基于分类算法对意图分析和分析扩展等功能进行应用,逐渐由搜索引擎学会判断用户的真实搜索意图,实现智能搜索引擎。随着全球安全形势日趋恶化,意图搜索逐渐与物联网结合并落地,中国工程院吴曼青院士提出了反恐环境下基于大数据的意图搜索的设想充分表明了安防行业已经把意图搜索概念提升到了主流产品形态,充分做好了与意图搜索技术结合的准备工作。

一、意图搜索起源意图搜索最早起源于互联网行业搜索引擎工具,随着互联网信息量的不断增加,能够快速、准确地查找信息越来越困难,主要原因是搜索引擎不能理解用户的真实查询意图,因而机器学习如遗传算法、BP神经网络法等在这方面的应用研究快速地被引起关注。Lam Wai 就利用基于事例的机器学习和查询反馈技术实现了文本的自动分类并用于文本检索, 实验证明了其优越性。Mandala Rila 采用加权方法从多类信息中实现查询扩展 , 以及Chakrabarti 探讨的基于矩阵代数的主题提取算法、组合词汇和索引文本等特征提取都是这方面的努力。但目前最有前景的是Doug Lenat 研制的搜索系统, 通过建立常识库和推理机来与用户交谈, 进而实现对用户真正意图的理解。知识工程之父Feigenbaum称赞他开创了查询的“语义时代”(TheAgeof Semantics)。但前提是要建立一个庞大的百科全书常识库, 这是非常困难的, 而且也不分析用户的潜在意图。构造庞大知识库的一种方法是从网络上自动构造, Craven 和Lesser 提出了信息获取的系统原理, 知识库的结构和实现方法。Choi 则实现了一种具体的自动构造系统,其可从网上发现文本并归入本地数据库供查询, 它相当于智能代理。Alsaffa 做了类似的探索, 利用专家系统在用户喜欢的表达和系统要求的表达之间实现自动转换。意图搜索正在基于这些技术之上实现了智能化的自动搜索。虽然意图搜索起源于互联网行业,但是目前已经被广泛用于其它行业,例如在安防行业与物联网技术紧密结合。

二、意图搜索在互联网行业的发展

互联网行业最早由搜索引擎起步,目前数据也都是通过搜索引擎实现数据交换和传递过程。用户之所以会产生搜索行为,往往是在解决任务时遇到自己不熟悉的概念或者问题,由此产生了对特定信息的需求,之后用户会在头脑中逐步形成秒速需求的查询词,将查询提交给搜索引擎,然后对搜索结果进行浏览,如果发现搜索结果不能完全解决用户的信息需求,则会根据搜索结果的启发,改写查询,以便更精确地描述自己的信息需求,之后重新构造新的查询需求,提交搜索引擎,如此形成用户和搜素引擎交互的闭合回路,直到搜索结果已经解决了自己的需求或尝试几次无果而终。

从上述过程可以看出,从用户产生信息需求到最终形成用户查询,中间有很大的不确定性,用户未必能够一开始就找到合适的查询词,即使是找到了,也可能存在查询词不能完全描述信息需求的情形,即在形成查询的过程中存在信息丢失的问题。所以后续循环中的查询改写就是用户逐步澄清搜索需求的一个过程。

用户发出的每个搜索请求背后都隐含着潜在的搜索意图,如果搜索引擎能够根据查询词汇自动找出背后的用户搜索意图,然后针对不同的意图,提供不同的检索方法,将更符合用户意图的搜索结果排在前列,无疑会增加搜索引擎用户的搜索体验。目前搜索引擎已经部分实现了这种搜索模式,比如用户搜索“北京天气”的时候会主动将当天的气温等情况列在搜索结果最前面。

意图搜索是基于目前internet上信息的无组织、异构、分布和动态的特点以及现有搜索的不足而提出的,用于解决现有信息检索系统所面临的“信息过载”、“资源迷向”和搜索结果个性化需求等实际问题,实现Internet信息个性化主动服务。搜索引擎在强化“智能化”方向的理念之上,在自动分类、自动聚类的基础上推出智能导航、概念搜索、个性化搜索功能,使搜索引擎充分领会用户意图的进行搜索,这是意图搜索在搜索引擎方面的落地应用模式。

当前大多数搜索引擎是通过用户注册及用户个性化配置(利用cookie机制、为用户建立配置文件等)来提高对用户搜索请求的精度和命中率,实现一定程度上的个性化搜索服务。这种方式需要用户在服务器上登记个人信息,但这可能造成用户某些隐私信息的泄露。目前比较公认的搜索引擎意图搜索方法是采用特征获取方法。

特征获取方法分为两类,第一类方式可以称为事先方法,这种方法在查询被提交给搜索引擎以前,利用查询本身的特征来表示查询,比如表示特定需求的特征词汇、词与词之间关系、词的词性以及词的选择优先性、在语料集中的统计信息等等;第二类方法可以称为事后方法,这种方法利用查询被提交给搜索引擎以后的相关数据来获取查询的特征

意图搜索分为意图分析和分析扩展两个部分。意图分析是解决“信息过载”和“资源迷向”问题的有效途径,通过对用户所需的信息资源进行搜集、加工、整理,可以梳理和有序化网络上的专业信息资源,向用户提供智能化的信息服务。意图分析和分析扩展的具体步骤如下所述:

(1)意图分析。

①根据用户对问题的回答,检索知识库中的相关信息,以提供直接的回答。

②对输入的原始查询根据其概念内容进行组织和安排,以析取相关的概念信息和范畴知识。然后,通过语义联想等意图推理修改查询向量。

③将查询向量交由用户交互确认、编辑。

④根据用户的编辑结果可以再次意图推理,直到用户满意为止。

⑤将此次意图推理的结果记入知识库中,以备以后的意图推理。

(2)分析扩展。

根据意图分析的结果,更新原始查询向量,形成新的查询向量。方法是将应用领域知识和索引、相关性、估计和查询表达相结合来实现查询扩展,即查询索引还包括不在用户查询中出现的查询词部分。

查询扩展所需要的查询词的选择策略有:

①非独立类。非独立词指的是和查询词具有较大相关性的词。查询扩展通过知识库推理从知识库中找出相关性词、短语、句子、段/篇章。

②交互式选择。用户从通过上述策略得出的待选词中决定最后的查询词。

三、意图搜索与安防行业的结合

2014年发生的震惊全球的“马航失联”事件牵动了无数中国人的心,泛太平洋各国均提供了大量帮助用于搜索失联航班,但是由于搜索方式千奇万种、信息达到海量级别、信息来源不连续性等多种问题,导致搜索迟迟没有结果。仔细分析搜索方式,可以发觉这类型的搜索形式其实与互联网行业的搜索引擎意图搜索有相似之处,相似点在于都需要对数据进行收集、甄别、过滤、分类、整合,都不是一个单一的行动,而是一整套连贯的过程。

物联网行业本身由于传感器的多种多样导致数据形式多样性、信息海量性等特征,如果大数据环境下还是采用过去的全文检索方式进行单一化搜索,未来一定无法满足用户的智能化需求。针对这一挑战,2014中国大数据峰会上中国工程院吴曼青院士发表了名为“存在就有痕迹,联系就有信息,反恐环境下大数据的意图搜索”的专题演讲,吴院士以众多美国案例为引,描述了新时代反恐行动应用的特性:法律保障、以人为核心、高技术手段、国际合作,通过构建虚拟空间信息社会雷达的方式将意图搜索引用到反恐活动中,提升反恐能力。

基于“存在就有痕迹,联系就有信息”的基本理念,构建网络空间中行为事件、思想事件等模型,在实体空间和虚拟空间中全面收集人的存在痕迹和联系信息,关注人物或事件间联系链,从而实现网络空间中存在的各种意图,完成对意图产生源头、传播途径和发展趋势的全方位描述,达到对个人和组织的所思所想行为所在的全面搜索和分析。物联网行业拥有海量的视频、音频、图片数据,通过相应智能算法可以从中提取出可供分类的结构化信息,通过这些结构化信息与意图搜索技术相结合可以帮助用户快速预判事物、事件发生概率和趋势。

因国内反恐形势严峻,大数据搜索需要积极应对新时期恐怖主义威胁,立足恐怖主义存在和意图特征,运用大数据技术进行深入关联分析,实现对恐怖分子的准确识别和暴恐事件的提前预警,有力提升反恐维稳核心能力。海康威视作为安防行业的龙头,物联网概念提出之处就已经开始涉及其中,相信在不远的将来,意图搜索应用可能就在海康威视率先落地。

四、结语

本文首先针对意图搜索的来源、基本概念作了一些解释,随后针对产生意图搜索概念的互联网行业具体发展过程、应用模式及技术等做了一些讨论,最后对安防行业与意图搜索技术相结合的具体形式进行了探讨,通过马航失联事件的预测性分析告诉读者意图搜索如何在安防、反恐等领域发挥自己的作用,如何与物联网紧密结合。


数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询