《现代信息检索》何珺

信息过载与大数据

数据爆炸性增长，而人的处理能力有限
互联网用户数量（网民规模）增长
大众从内容消费者变成内容生产者

Web1.0: 内容为主；Web2.0: 交互变多；Web3.0: 区块链数据为主，创作者会拥有网络（底层资产）

4V特征

Volume 数据量大
Variety 数据种类繁多
Velocity 数据流动速度快，对数据处理的实时性要求高
Value 蕴含价值

信息过载的负面影响

信息过载是指社会信息超过了个人/系统所能接受、处理或有效利用的范围，并导致故障的状况

受传者对信息反映的速度远远低于信息传播的速度
大众媒介中的信息量大大高于受众所能消费、承受或需要的信息量
大量无关/没用/冗余的信息严重干扰了受众对相关有用信息的准确分析和正确选择

信息检索可以帮助人们从海量的数据中快速找到有用的信息

数据挖掘可以从大数据中提取出隐含的、先前未知的并有潜在价值的信息

本课程意义

市场发展的需求

用户需要信息检索技术：互联网信息量巨大，寻找游泳信息耗时耗力
公司需要信息检索技术
人才的竞争：搜索相关人才紧缺，成为各大科技巨头争相抢夺的重要资源

信息检索将会成为一门计算机专业和信息处理学科的基础方向

搜索的三个层次：应用层次、中间工具层次、核心层次

课程简介

信息检索工具的应用

信息素养及基础 (2)
图书馆和学术信息检索 (3, 4)

基本原理－现代信息检索技术：工具背后的基本原理和技术

概述 (5)
基本概念：布尔检索 (5)、词汇表和倒排记录表 (6)、索引 (7)、权重 (8)
检索评价 (9, 10)
IR模型：XML和Web检索 (11, 12)、概率检索模型 (12, 13)
文本分类：朴素贝叶斯 (13, 14)、基于向量空间 (15, 16)

1 信息素养与基础

1.1 信息的含义与分类

广义的信息指自然界和一切人类活动所传达出来的信号与消息，是事物表现的一种普遍形式。

从本质上说，信息是事物自身（显示其存在方式/运动状态）的属性，是客观存在的现象。

狭义的信息指经过搜集、记录、处理和存储的可供检索的文献、数据和事实。

1.1.2 信息的特征

可存储性

信息可以存储，存储和传递是信息的两种基本状态。利用信息的可存储性，人们可以有意识地将流动的信息以某种方式存储在物质媒介上，使信息与物质媒介构成一种依附性很强的、相对稳定的关系。这种稳态的结构可以有效地避免信息的流失，也使我们的信息检索有源可循

可传递性

信息可以通过一定的传输工具和载体进行传递，从而形成信息联系，被人们感受和接收。信息的传递有空间传递和时间传递等不同类型，需要依赖于一定的物质载体，具有动态性和方向性的特征

可转换性

一是信息在一定条件下可以转换成物质、能量、金钱、效益等其他东西，这种转换主要依靠人类对信息的正确利用；二是信息可以从一种形态转换为另一种形态，自然信息可转换为语言、文字和图像等形态，也可转换为电磁波信号或计算机代码。比如，自然语言信息与机器语言信息的转换、不同语种信息的转换不同载体信息的转换等

可处理性

信息可以通过分类、整序、分析、综合、压缩、扩充等加工处理，而达到便于识别、效用更高的信息。人脑本身就是最佳的信息处理器，可以在感知信息的基础上，进行决策、研究、发明、创造等多种信息处理活动。计算机也同样具有信息处理功能，计算机可以输入各种数据文字等信息，进行相关的处理，以显示、打印、绘图等方式再生成信息

可共享性

信息的共享性表现为同一种信息可以同时被许多人共同享用，这是信息不同于物质和能量的一个非常重要的特征。也就是说，数个接收者可以获得统一信源发出的同样信息，而在这一过程中，信息的内容不会减少或发生改变。信息可以广泛地扩散和传播，信息交换的双方不会失去原有的信息，而且还会增加新的信息

可识别性

信息可采取直观识别、比较识别和间接识别等多种方式来感知和识别。信息作为表现事物特征的一种普遍形式，反映了事物的运动状态和存在方式，人类可以通过自身的器官去直接感觉和知觉信息，通过比较去认识信息，借助于先进的信息技术和手段去识别信息

依附性

信息无法脱离物质而独立存在，在其存储和传递过程中必须依附于一定的物质载体，信息与物质载体构成一个整体。我们将这些信息赖以存储和传递的物质载体称为信息载体，信息载体泛指一切载有信息的物质媒体

普遍性

信息是物质的基本属性，普遍存在于自然界和人类社会之中，也存在于人类的思维或精神领域之中。只要有物质存在的地方，就有信息的存在，物质普遍存在的属性导致了信息的普遍性

1.1.3 信息的功能

信息作为人类了解自然及人类社会的凭据，与物质和能源共同奠定了社会发展的基础
大部分决策都是在面临着多种可能出现的结果中做出抉择的，这就更需要全面、正确的信息作为决策的支持
各种社会成员只有在信息交流通畅及时的情况下，依据所获得的准确信息来行使各自的职责，才会使整个系统处于有序状态
通过相关的信息，可以对所选项目是否具有创新性做出判断，避免重复选题，并参考他人的研究方法，加快科研的进程

1.1.4 信息的类型

基于广义信息概念的信息分类

从信息的冠以内涵来划分信息的类型，即把信息理解为对客观事物存在方式和运动状态的反映。据此有以下分类：

根据信息的产生，可以分为社会信息和自然信息 —— 社会信息指人类在社会生活实践中，为生存、生产和社会发展而产生处理和利用的信息；自然信息是自然界中的事物变化、特征以及事物之间的内在关系的反映，如自然景观等
依据信息的运动状态，可以分为自在信息、自为信息和再生信息 —— 自在信息指没有进入人的意识领域，未被反映和把握的纯自然状态信息

基于狭义信息概念的信息分类

按照信息的媒介类型：印刷型信息、微缩型信息、试听型信息、机读型信息
按信息加工处理的程度
- 零次信息指在人际交流中口头携带

1.2 信息素养的特点

1.3 数据挖掘和信息检索

NLP关注自然语言文本的语法、语义、语用分析

NLP可以分析短语结构和语义，使得IR可以在短语上、或者语义桑进行处理，而不是仅仅基于单个关键词，实现语义检索

与IR研究的结合点：基于自然语言的问答检索

NLP与IR融合的其他方面

通过上下文词义消歧（word sense disambiguation）来确定一个词在某个特定上下文的语义
通过一些NLP方法来获得文档中的一个语言片段（information extraction）
通过NLP方法可以从文档集合中返回一些问题的答案

AI

关注知识表示，推理和智能行为
形式化工具

模式识别 & 机器学习

机器学习关注通过对经验的学习来提高计算机系统的性能

通过有指导和无指导方式自动识别模式
文本分类 text categorization
自动层次分类（如Yahoo目录）
自适应过滤/推荐 adaptive filtering / recommending
垃圾过滤 spam clustering
IR结果的自动聚类
层次型类别体系的自动构建

Keyword Search

最常用、最简单、较为宽松

IR的两种模式

Pull 用户主动发起请求，在一个相对稳定的数据集合上进行查询
Push 用户事先定义自己的兴趣，系统在不断到来的流动数据上进行操作，将满足用户兴趣的数据推送给用户

IR系统的组成

文本处理 text operations：对查询和文本进行的预处理操作

中文分词 Chinese word segmentation
词干还原 stemming
停用词消除 stop-word removal

查询处理 query operations：对经过文本处理后的查询进行进一步处理，得到查询的表示 query representation

查询扩展 query expansion：利用同义词或近义词对查询进行扩展
查询重构 query reconstruction：利用用户的相关反馈信息对查询进行

文本索引 indexing：进行进一步处理，得到文本的内部表示 text representation，通常基于索引项 term 来表示

向量化、概率计算
组成成倒排表进行存储

排序 ranking：对搜索出的文本按照某种方式来计算其相关度

排序的效率依赖于索引技术
排序的质量依赖于采用的检索模型

文档可以被表示为 —— 关键词的集合

析取范式是指一个布尔表达式中，将多个子表达式进行或运算（或称为逻辑或）的结果。通常，析取范式的形式是多个项之和的形式，即多个逻辑式通过或连接的结果，例如 (A and B) or (C and D)。

合取范式是指一个布尔表达式中，将多个子表达式进行与运算（或称为逻辑与）的结果。通常，合取范式的形式是多个项之积的形式，即多个逻辑式通过与连接的结果，例如 (A or B) and (C or D)。

在逻辑学中，析取范式和合取范式是等价的，即我们可以通过将一个布尔表达式转化为析取范式或合取范式来达到化简的效果。这也是布尔代数中的一个重要应用。