VIDEO SEARCH SYSTEM, METHOD AND VIDEO SEARCH SERVER BASED ON NATURAL INTERACTION INPUT

27-12-2013 дата публикации
Номер:
WO2013189156A1
Принадлежит: 海信集团有限公司
Контакты:
Номер заявки: CN62-08-201283
Дата заявки: 10-12-2012

[0001]

基于自然交互输入的视频搜索系统及方法和视频搜索服务器

[0002]

技术领域

[0003]

本发明涉及视频搜索技术领域, 特别是关于基于自然交互输入 (例如语 音输入)的视频搜索系统及方法、 以及视频搜索服务器。 背景技术

[0004]

随着电子信息和网络技术的发展, 具有网络接入功能的智能电视逐渐 成为电视市场的主流。 其中, 视频则是智能电视用户最主要的需求。 不同 于个人计算机外围设备的鼠标和键盘, 目前智能电视的人机交互仍然以传 统的遥控器方式为主; 然而, 大量的按钮、 复杂的使用模式和菜单、 繁琐 且令人困惑的界面元素, 随着电视的复杂化和功能的不断增强, 传统的人 机交互方式也因此变得越来越不能满足用户的需求。

[0005]

近期以来, 随着语音识别技术的发展, 出现了以美国苹果 (APPLE)公司 推出的个人语音助理 (Personalized Intelligent Assistant, SIRI)为代表的产品, 其能够让用户通过自然语言与设备终端进行交互, 并能够提供例如发短信、 查天气等多项功能。 目前, SIRI 尚不能支持中文语音输入。 近年来, 国内 相关行业也开始进行基于语音等自然交互方式的研究与应用并取得了一定 的成果, 但总的来看, 基于语音等自然交互方式的产品应用仍难以满足用 户的体验要求。 发明内容 本发明的发明目的之一在于提供一种基于自然交互输入的视频搜索系 统, 能实现对用户的视频目标任务的智能感知, 提供更自然友好流畅的用 户体验。

[0006]

本发明的另一发明目的在于提供一种基于自然交互输入的视频搜索方 法, 能实现对用户的视频目标任务的智能感知, 提供更自然友好流畅的用 户体验。

[0007]

本发明的再一发明目的在于提供一种视频搜索服务器, 具有自然语言 语义分析能力及智能的视频搜索能力。

[0008]

具体地, 本发明实施例提供的一种基于自然交互输入的视频搜索系统, 包括用户端和视频搜索服务器。 其中, 用户端包括语音采集模块和人机界 面, 语音采集模块采集用户的语音输入以生成用户语音数据并提供至人机 界面。 视频搜索服务器包括控制模块、 语音识别模块、 自然语言处理模块、 视频关系数据库以及视频搜索模块; 视频关系数据库储存视频语义空间以 及视频文本数据在该视频语义空间的语义描述子集合。 控制模块接收用户 端的人机界面提供的用户语音数据并提供至语音识别模块以获取用户文本 数据, 将用户文本数据提供至自然语言处理模块以获取用户文本语义分析 结果数据, 并利用用户语义分析结果数据在该视频关系数据库中进行预搜 索以获取视频预搜索结果。 该视频预搜索结果包含与该用户文本语义分析 结果数据匹配的相关视频文本数据于该视频语义空间的语义描述子集合。 视频搜索模块接收控制模块提供的用户文本语义分析结果数据和视频预搜 索结果、 利用用户文本语义分析结果数据于视频语义空间的语义描述子与 视频预搜索结果所包含的语义描述子集合分别进行相似度比较、 并根据比 较结果输出视频最终搜索结果至控制模块, 再由控制模块提供至人机界面 以呈现给用户。

[0009]

此外, 本发明实施例提供的一种基于自然交互输入的视频搜索方法, 其包括步骤: (a)采集用户的自然交互输入以得到用户文本数据; (b)对用户 文本数据进行自然语言语义分析得到用户文本语义分析结果数据; (c)利用 用户文本语义分析结果数据进行预搜索得到视频预搜索结果, 该视频预搜 索结果包含与用户文本语义分析结果数据匹配的相关视频文本数据在视频 语义空间的语义描述子集合; (d)将用户文本语义分析结果数据投影到该视 频语义空间后与视频预搜索结果所包含的语义描述子集合分别进行相似度 比较并输出视频最终搜索结果; 以及 (e)将视频最终搜索结果呈现给用户。

[0010]

本发明另一实施例提供的一种基于语音输入的视频搜索方法, 其包括 步骤: (1)利用对收集到的视频文本数据进行自然语言语义分析后而得到的 视频文本语义分析结果数据进行量化并基于潜在语义索引进行训练学习得 到视频语义空间、 并取得收集到的视频文本数据在该视频语义空间的语义 描述子集合; (2)采集用户的自然交互输入以得到用户文本数据; (3)对用户 文本数据进行自然语言语义分析得到用户文本语义分析结果数据; (4)利用 用户文本语义分析结果数据于该视频语义空间的语义描述子在至少部分收 集到的视频文本数据于该视频语义空间的语义描述子集合中进行相似度比 较以输出视频最终搜索结果; 以及 (5)将视频最终搜索结果呈现给用户。

[0011]

另外, 本发明实施例提供的一种视频搜索服务器, 包括: 视频关系数 据库、 自然语言处理模块、 控制模块、 以及视频搜索模块。 其中, 视频关 系数据库储存视频语义空间以及视频文本数据在该视频语义空间的语义描 述子集合; 控制模块将代表用户视频需求的用户文本数据提供至自然语言 处理模块以获取用户文本语义分析结果数据; 视频搜索模块获取用户文本 语义分析结果数据在该视频语义空间的语义描述子、 并利用该语义描述子 在至少部分视频文本数据于该视频语义空间的语义描述子集合中进行相似 度比较以输出视频最终搜索结果至控制模块。

[0012]

本发明上述各个实施例中的基于自然交互输入的视频搜索系统及方法 和视频搜索服务器至少具有以下优点中的一个或多个: 能够以用户的视频 目标任务为导向, 允许用户使用自然语言进行交互, 通过自然语言处理技 术, 利用视频相关知识库进行推理运算, 用户只需提供对视频内容的简单 描述即可从数据库中快速获取相关视频, 从而可实现对用户的视频目标任 务的智能感知; 此外, 能够实现自然友好方便的人机交互方式和界面, 具 有不断学习升级的能力; 因此, 可有效提升用户的使用体验。

[0013]

上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明的 技术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上述和 其他目的、 特征和优点能够更明显易懂, 以下特举较佳实施例, 并配合附 图, 详细说明如下。 附图说明

[0014]

图 1 为本发明实施例的一种基于自然交互输入 (例如语音输入)的视频 搜索系统架构示意图。

[0015]

图 2为图 1所示用户端的一种模块示意图。

[0016]

图 3为图 1所示视频搜索服务器的一种模块示意图。 图 4为本发明实施例的一种基于语音输入的视频搜索方法的流程图。 图 5为本发明实施例的另一种基于语音输入的视频搜索方法的流程图。 具体实施方式

[0017]

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效, 以下结合附图及较佳实施例, 对依据本发明提出的基于自然交互输入的视 频搜索系统及方法和视频搜索服务器其具体实施方式、 方法、 步骤及功效, 详细说明如后。

[0018]

有关本发明的前述及其他技术内容、 特点及功效, 在以下配合参考图 式的较佳实施例详细说明中将可清楚的呈现。 通过具体实施方式的说明, 当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具 体的了解, 然而所附图式仅是提供参考与说明之用, 并非用来对本发明加 以限制。

[0019]

请参阅图 1, 其为本发明实施例的一种基于自然交互输入 (例如语音输 入)的视频搜索系统的架构示意图。 如图 1所示, 本实施例的基于语音输入 的视频搜索系统 100包括用户端 10与视频搜索服务器 30; 用户端 10接收 用户语音输入并生成用户语音数据, 由视频搜索服务器 30根据用户语音数 据进行视频搜索并返回视频最终搜索结果至用户端 10以呈现给用户。 需要 说明的是, 在本实施例的基于语音输入的视频搜索系统 100 中, 一个视频 搜索服务器 30可以对应多个用户端 10, 从而可分别响应各个用户端 10的 用户语音数据并返回对应的视频最终搜索结果。

[0020]

请参阅图 2, 其为本发明实施例的用户端 10的一种模块示意图。 如图 2所示, 用户端 10例如包括语音采集模块 11与人机界面 13。 其中, 语音 采集模块 11采集用户语音输入并生成用户语音数据, 该用户语音数据通过 人机界面 13传送至视频搜索服务器 30。 人机界面 13的任务例如包括人机 交互、 用户信息记录和用户认证等。 在用户认证方面, 可以为用户专门提 供两种使用模式, 例如公开模式和隐私模式; 与此对应, 视频搜索服务器 30可以在启用或跳过用户认证两种方式下进行视频搜索, 这样既可以对用 户的个人信息进行保护, 又可以对不同年龄范围的用户提供适合的视频搜 索结果。在本实施例中,用户端 10例如是带电视遥控器的智能电视 (具有上 网功能)、 桌上型电脑、 笔记本电脑、 智能手机等电子产品; 当用户端 10 为带电视遥控器的智能电视, 则语音采集模块 11可以是内置于电视遥控器 的麦克风,人机界面 13可以是运行在智能电视上 (例如 80端口)的超文本传 输协议 (Hyper Text Transport Protocol, HTTP)网站服务,其将麦克风输出的用 户语音数据传送至视频搜索服务器 30做视频搜索之用, 并且后续还可显示 视频最终搜索结果以呈现给用户; 此外, 可以理解的是, 在传送用户语音 数据至视频搜索服务器 30之前可先对用户语音数据进行数据压缩。

[0021]

请参阅图 3, 其为本发明实施例的视频搜索服务器 30的一种模块示意 图。 如图 3所示, 视频搜索服务器 30包括控制模块 31、 语音识别模块 33、 自然语言处理模块 35、视频数据收集模块 36、视频关系数据库 37、 语义空 间学习模块 38、视频搜索模块 39、以及服务器管理模块 32。在此说明的是, 视频搜索服务器 30 中的各个模块可以根据实际设计弹性的需要以硬件及 / 或软件的方式实现; 此外, 视频搜索服务器 30可以是由单个服务器或者是 多个服务器构成的群组、 再加上必要的外围设备构成。 另外, 在本实施例 中, 视频搜索服务器 30包括线上和线下两部分, 线上部分主要由控制模块 31、 语音识别模块 33、 自然语言处理模块 35和视频搜索模块 39构成, 线 下部分主要由视频数据收集模块 36、视频关系数据库 37和语义空间学习模 块 38构成, 并与线上部分共用自然语言处理模块 35。

[0022]

具体地, 控制模块 31作为整个视频搜索服务器 30的调度中心, 其接 收用户端 10传送 (例如以有线或无线网络连接方式传送)过来的用户语音数 据并最终返回视频最终搜索结果作为输出给用户端 10。 在此, 当用户端 10 的人机界面 13设置有用户认证机制的情形下, 控制模块 31会先验证用户 的身份, 根据认证结果确定后续是否进行视频搜索及 /或返回视频最终搜索 结果之前是否需要先进行搜索结果过滤。

[0023]

语音识别模块 33用于对语音数据进行语音识别以转换成对应的文本数 据, 其通常会连接至语音库 (图 3未示出)进行语音指令匹配操作。在本实施 例中, 语音识别模块 33可以将控制模块 31提供的用户语音数据转换成代 表用户视频需求的用户文本数据并返回给控制模块 31。

[0024]

自然语言处理模块 35适于对文本数据 (例如用户文本数据、视频文本数 据等)进行语义分析, 例如可以完成中文语义分析: 包括分词、 词性标注、 命名实体分析等等。 当然, 可以理解的是, 自然语言处理模块 35也可对不 同语言文本进行语义分析, 并不限于中文, 也可以是英文等等, 只是需要 提供不同语言的语义库来支持。 在本实施例中, 自然语言处理模块 35可以 对控制模块 31提供的用户文本数据进行语义分析以返回用户文本语义分析 结果数据至控制模块 31。 在此, 用户文本语义分析结果数据可以理解为进 行分词、 词性标注等操作后的用户文本数据。

[0025]

视频数据收集模块 36用于收集视频数据并提供视频文本数据, 该视频 文本数据可以是从网络 (包括影视节目提供合作商)搜索到的电影、 电视剧、 歌曲、 电视节目等文本数据, 例如包括视频名、 别名、 导演名、 演员名、 视频制作年代、 视频主题类型 (例如战争片、 喜剧片等)、 视频地区 (例如中 国、 美国等等)或语言 (例如中文、 英文等)类型、 视频类别 (例如电影、 电视 剧等)等等字段以及数据有效性标记等视频描述文本。视频数据收集模块 36 的工作方式可以是周期性自动收集或是人工触发收集。 在本实施例中, 视 频数据收集模块 36提供的视频文本数据会先传送至自然语言处理模块 35 进行自然语言语义分析形成视频文本语义分析结果数据后储存至视频关系 数据库 37; 可以理解的是, 视频数据收集模块 36提供的视频文本数据也可 先储存至视频关系数据库 37,再由自然语言处理模块 37对储存在视频关系 数据库 37中的视频文本数据进行分词、 词性标注等 (也即语义分析)操作。 在此, 视频文本语义分析结果数据可以理解为对视频文本数据进行分词、 词性标注等操作后的结果数据。

[0026]

视频关系数据库 37作为视频搜索服务器 30执行视频搜索的数据源, 其包括视频数据表、 备份数据表、 用户表及查询记录表等数据表。 其中, 视频数据表例如保存经过语义分析后的视频文本数据, 备份数据表例如保 存重复和剔除的数据, 用户表例如保存用户数据, 查询记录表例如保存用 户的视频搜索记录。

[0027]

语义空间学习模块 38是基于语音输入的视频搜索系统 100的机器学习 的主要部分, 其主要负责将视频关系数据库 37中的视频文本数据量化, 然 后基于潜在语义索引 (Latent semantic indexing, LSI)对视频关系数据库 37中 主要的一些语义进行分析学习得到视频语义空间、 并找到收集到的视频文 本数据在该视频语义空间的语义描述子集合 (也即在该视频语义空间的投影 集合), 并储存至视频关系数据库 37中。

[0028]

视频语义空间的建立过程可以是: 语义空间学习模块 38将储存在视频 关系数据库 37中经语义分析后的视频文本语义分析结果数据作为训练样本 集, 因此包含大量有用词汇的词表被建立, 然后利用这个词表, 每个视频 文本数据 (也即视频描述)都能够被数量化并最终由一个向量来表示; 此时, 向量中的每一个元素将代表某一个词在某一个视频文本数据中出现的次 数, 该向量也即是视频文本数据的词频。 之后, 利用大量视频文本数据的 词频向量, 通过子空间机器学习的方法, 在词频向量所属线性空间中可以 计算出一些特殊的方向, 表示这些特殊的方向的向量是一组标准正交的向 量组, 它们构成一个新的线性空间。 这组向量的特殊物理意义是: 其中任 一个向量都表示在特定语境下经常同时出现的某些词汇, 每一种这样的特 定语境便对应一个语义题目, 即某些词汇的同时出现就表示一个语义。 但 是, 构成新的线性空间的这组特殊向量中一般只有一部分具有非常高的语 义区分度, 因此被保留下来。 这些被保留下来的向量最终构成视频语义空 间。视频关系数据库 37中的视频文本数据将在该视频语义空间中找到投影, 也即视频文本数据在该视频语义空间中的语义描述子。

[0029]

视频搜索模块 39连接至控制模块 31与视频关系数据库 37中, 其可接 收控制模块 31提供的用户文本语义分析结果数据并可从视频关系数据库 37 获取视频语义空间 (例如该语义空间的坐标轴等信息)、并将该用户文本语义 分析结果数据投影在该视频语义空间以得到用户文本数据在该视频语义空 间的投影 (也即语义描述子)。 后续, 视频搜索模块 39就可以利用该语义描 述子进行视频搜索操作。

[0030]

本发明实施例中视频搜索模块 39的视频搜索操作可以为: 首先, 让控 制模块 31 利用用户文本语义分析结果数据 (也即语义分析后的用户文本数 据)在视频关系数据库 37中进行视频预搜索,例如进行分类搜索:也即视频 导演名搜索、 视频演员名搜索、 视频制作年代搜索、 视频主题类型搜索、 视频地区或语言类型搜索、 和视频类别搜索等等中的多个或全部; 这样, 就可以减小后续视频搜索模块 39进行视频搜索的工作量, 提高搜索效率。 在此, 视频预搜索结果例如包含与用户文本数据匹配的相关视频文本数据 在视频语义空间的语义描述子的集合, 该语义描述子集合会随同用户文本 语义分析结果数据一同提供给视频搜索模块 39。之后, 视频搜索模块 39将 用户文本数据于视频语义空间的语义描述子和视频预搜索结果所包含的相 关视频文本数据在该视频语义空间的语义描述子集合进行相似度比较搜索 得到视频最终搜索结果并传送至控制模块 31,再由控制模块 31提供至用户 端 10的人机界面 13 以呈现给用户。 在此, 相似度比较可以通过计算欧式 距离来实现, 但本发明并不以此为限, 其他可以计算语义空间中投影之间 的相似度的方法均可采用。 另外, 此处的视频最终搜索结果可以是按照相 似度的分值高低排序的视频列表。

[0031]

需要说明的是, 在本发明实施例中, 并不限于前述利用用户文本数据 于视频语义空间的语义描述子在部分的视频文本数据于该视频语义空间的 语义描述子集合中进行语义空间搜索, 在其他实施例中, 也可不做视频预 搜索, 而直接利用用户文本数据于视频语义空间的语义描述子在全部视频 文本数据于该视频语义空间的语义描述子集合中进行语义空间搜索得到视 频最终搜索结果。

[0032]

另外, 为提供管理和开发人员一个对视频搜索服务器进行调试、 测试、 部署、 维护的界面, 服务器管理模块 32被配置在视频搜索服务器 30中, 其是作为非面向用户的一个模块。

[0033]

再者, 本发明上述实施例的语音识别模块 33也可整合于用户端 10而 非视频搜索服务器 30,如此用户端 10可以将用户语音数据先转换成用户文 本数据后再传送给视频搜索服务器 30中的控制模块 31。

[0034]

下面将简述几种可应用上述实施例的基于自然交互输入例如语音输入 的视频搜索系统 100的基于语音输入的视频搜索方法。

[0035]

如图 4 所示, 一种基于语音输入的视频搜索方法例如主要包括 S400-S410:

[0036]

S400: 采集用户的语音输入以生成用户语音数据;

[0037]

S402: 对用户语音数据进行语音识别得到用户文本数据;

[0038]

S404: 对用户文本数据进行自然语言语义分析得到用户文本语义分析 结果数据;

[0039]

S406: 利用用户文本语义分析结果数据进行预搜索 (例如前述的分类搜 索)得到视频预搜索结果, 该视频预搜索结果包含与用户文本语义分析结果 数据匹配的相关视频文本数据在视频语义空间的语义描述子集合;

[0040]

S408 : 将用户文本语义分析结果数据投影到视频语义空间后与视频预 搜索结果所包含的语义描述子集合分别进行相似度比较以输出视频最终搜 索结果 (例如是按照相似度的分值高低排序的视频列表); 以及

[0041]

S410: 将视频最终搜索结果呈现给用户。 如图 5所示, 另一种基于语音输入的视频搜索方法例如主要包括步骤 S500-S510:

[0042]

S500: 利用对收集到的视频文本数据进行自然语言语义分析后而得到 的视频文本语义分析结果数据进行量化并基于潜在语义索引进行训练学习 得到视频语义空间、 并取得收集到的视频文本数据在视频语义空间的语义 描述子集合;

[0043]

S502: 采集用户的语音输入并转换成用户文本数据;

[0044]

S504: 对用户文本数据进行自然语言语义分析得到用户文本语义分析 结果数据;

[0045]

S506: 利用用户文本语义分析结果数据于视频语义空间的语义描述子 在至少部分收集到的视频文本数据于视频语义空间的语义描述子集合中进 行相似度比较以输出视频最终搜索结果; 更具体地, 在步骤 S506中, 其包 含前述的先进行视频预搜索 (例如前述的分类搜索)再进行语义空间搜索、与 不做视频预搜索而直接进行语义空间搜索两种情形; 以及

[0046]

S508 : 将视频最终搜索结果呈现给用户。

[0047]

另外, 本领域技术人员可以理解的是, 自然交互输入方式并不限于语 音输入, 也可为直接的自然语言文本输入, 甚至是手势输入; 相应地, 在 上述各个实施例的视频搜索方法中, 则不需要用户语音数据的文本转换步 骤; 而视频搜索系统中的模块设计也可相应地根据实际情形做适当地增减 及 /或变更。

[0048]

综上所述, 本发明实施例提供的基于自然交互输入例如语音输入的视 频搜索系统及方法以及视频搜索服务器至少具有以下优点中的一个或多 个: 能够以用户的视频目标任务为导向, 允许用户使用自然语言进行交互, 通过自然语言处理技术, 利用视频相关知识库进行推理运算, 用户只需提 供对视频内容的简单描述即可从数据库中快速获取相关视频, 从而可实现 对用户的视频目标任务的智能感知; 此外, 能够实现自然友好方便的人机 交互方式和界面, 具有不断学习升级的能力; 因此, 可有效提升用户的使 用体验。

[0049]

以上所述, 仅是本发明的较佳实施例而已, 并非对本发明作任何形式 上的限制, 虽然本发明已以较佳实施例揭露如上, 然并非用以限定本发明, 任何熟悉本专业的技术人员, 在不脱离本发明技术方案范围内, 当可利用 上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例, 但凡 是未脱离本发明技术方案内容, 依据本发明的技术实质对以上实施例所作 的任何简单修改、 等同变化与修饰, 均仍属于本发明技术方案的范围内。 工业实用性

[0050]

本发明提供的基于自然交互输入例如语音输入的视频搜索系统及方法 以及视频搜索服务器至少具有以下优点中的一个或多个: 能够以用户的视 频目标任务为导向, 允许用户使用自然语言进行交互, 通过自然语言处理 技术, 利用视频相关知识库进行推理运算, 用户只需提供对视频内容的简 单描述即可从数据库中快速获取相关视频, 从而可实现对用户的视频目标 任务的智能感知; 此外, 能够实现自然友好方便的人机交互方式和界面, 具有不断学习升级的能力; 因此, 可有效提升用户的使用体验。



[0000]

The present invention relates to the field of video search technologies, and provides a video search system and method and a video search server based on natural interaction input. A user end of the video search system receives natural interaction input of a user and provides the input to the video search server thereof for video search, wherein the video search server may comprise an online part and an offline part. The offline part performs semantic analysis on collected video information, and establishes a video semantic space and a video relationship database. The online part, according to the natural interaction input of the user, obtains text data of the user and performs the semantic analysis, uses a semantic analysis result to perform video pre-search in the relationship database, and according to semantic description of the semantic analysis result in the video semantic space, performs comparison and search in a semantic description subset contained in a video pre-search result to output a video final search result to the user. The user only needs to provide simple description of video content to quickly obtain relevant video from the database, thereby implementing intelligent awareness of a video target task of the user.

[1]



权 利 要 求 书

1.一种基于自然交互输入的视频搜索系统, 其特征在于, 包括: 用户端, 包括语音采集模块和人机界面, 该语音采集模块采集用户的 语音输入以生成用户语音数据并提供至该人机界面; 以及

视频搜索服务器, 包括控制模块、 语音识别模块、 自然语言处理模块、 视频关系数据库以及视频搜索模块, 该视频关系数据库储存视频语义空间 以及视频文本数据在该视频语义空间的语义描述子集合,

其中, 该控制模块接收用户端的人机界面提供的用户语音数据并提供 至语音识别模块以获取用户文本数据, 将用户文本数据提供至自然语言处 理模块以获取用户文本语义分析结果数据, 并利用用户文本语义分析结果 数据在视频关系数据库中进行预搜索以获取视频预搜索结果; 该视频预搜 索结果包含与用户文本语义分析结果数据匹配的相关视频文本数据在视频 语义空间的语义描述子集合,

该视频搜索模块接收控制模块提供的用户文本语义分析结果数据和视 频预搜索结果, 利用用户文本语义分析结果数据于视频语义空间的语义描 述子与视频预搜索结果所包含的语义描述子集合分别进行相似度比较, 并 根据比较结果输出视频最终搜索结果至控制模块, 再由控制模块提供至人 机界面以呈现给用户。

2.如权利要求 1 所述的基于自然交互输入的视频搜索系统, 其特征在 于, 该视频搜索服务器还包括:

视频数据收集模块, 收集视频数据以提供视频文本数据至该自然语言 处理模块, 由自然语言处理模块输出视频文本语义分析结果数据至视频关 系数据库进行储存; 以及

语义空间学习模块, 利用视频关系数据库储存的视频文本语义分析结 果数据进行训练学习得到视频语义空间并找到视频文本数据各自在视频语 义空间的语义描述子后储存至视频关系数据库。

3.—种基于自然交互输入的视频搜索方法, 其特征在于, 包括步骤: 采集用户的自然交互输入以得到用户文本数据;

对该用户文本数据进行自然语言语义分析得到用户文本语义分析结果 数据;

利用该用户文本语义分析结果数据进行预搜索得到视频预搜索结果, 该视频预搜索结果包含与该用户文本语义分析结果数据匹配的相关视频文 本数据在一视频语义空间的语义描述子集合;

将该用户文本语义分析结果数据投影到该视频语义空间后与该视频预 搜索结果所包含的语义描述子集合分别进行相似度比较以输出视频最终搜 索结果; 以及

将该视频最终搜索结果呈现给用户。

4.如权利要求 3所述的基于自然交互输入的视频搜索方法, 其特征在 于, 还包括步骤:

收集取得视频文本数据;

对所取得的该视频文本数据进行自然语言语义分析得到视频文本语义 分析结果数据; 以及

利用该视频文本语义分析结果数据进行训练学习得到该视频语义空间 并找到所取得的该视频文本数据各自在该视频语义空间的语义描述子。

5.如权利要求 3所述的基于自然交互输入的视频搜索方法, 其特征在 于, 利用该用户文本语义分析结果数据进行预搜索得到视频预搜索结果的 步骤包括:

利用该用户文本语义分析结果数据进行分类搜索, 该分类搜索包括视 频导演名搜索、 视频演员名搜索、 视频制作年代搜索、 视频主题类型搜索、 视频地区或语言类型搜索、 和视频类别搜索中的多个或全部。

6.—种基于自然交互输入的视频搜索方法, 其特征在于, 包括步骤: 利用对收集到的视频文本数据进行自然语言语义分析后而得到的视频 文本语义分析结果数据进行量化并基于潜在语义索引进行训练学习得到视 频语义空间, 并取得收集到的视频文本数据在该视频语义空间的语义描述 子集合;

采集用户的自然交互输入以得到用户文本数据;

对该用户文本数据进行自然语言语义分析得到用户文本语义分析结果 数据;

利用该用户文本语义分析结果数据于该视频语义空间的语义描述子在 至少部分收集到的视频文本数据于该视频语义空间的语义描述子集合中进 行相似度比较以输出视频最终搜索结果; 以及

将视频最终搜索结果呈现给用户。

7.—种视频搜索服务器, 其特征在于, 包括:

视频关系数据库, 储存视频语义空间以及视频文本数据在该视频语义 空间的语义描述子集合;

自然语言处理模块; 控制模块, 将代表用户视频需求的用户文本数据提供至该自然语言处 理模块以获取用户文本语义分析结果数据; 以及

视频搜索模块, 获取该用户文本语义分析结果数据在该视频语义空间 的语义描述子, 并利用该语义描述子在至少部分视频文本数据于该视频语 义空间的语义描述子集合中进行相似度比较以输出视频最终搜索结果至该 控制模块。

8.如权利要求 7所述的视频搜索服务器, 其特征在于, 该控制模块进 一步利用该用户文本语义分析结果数据在该视频关系数据库中进行预搜索 以得到视频预搜索结果, 该视频预搜索结果包含与该用户文本语义分析结 果匹配的相关视频文本数据于该视频语义空间的语义描述子集合; 相应地, 该视频搜索模块是利用与该用户文本语义分析结果数据对应的该语义描述 子在视频预搜索结果包含的语义描述子集合中进行相似度比较以输出视频 最终搜索结果至该控制模块。

9.如权利要求 7所述的视频搜索服务器, 其特征在于, 还包括: 语音识别模块, 当控制模块接收用户语音数据后, 经由该语音识别模 块将该用户语音数据转换成该代表用户视频需求的用户文本数据。

10.如权利要求 7、 8或 9所述的视频搜索服务器, 其特征在于, 还包 括:

视频数据收集模块, 收集视频数据以提供视频文本数据至该自然语言 处理模块, 由该自然语言处理模块输出视频文本语义分析结果数据至该视 频关系数据库进行储存; 以及

语义空间学习模块, 对该视频关系数据库储存的该视频文本语义分析结果 ί据进行量化和基于潜在语义索引进行训练学习得到该视频语义空间并 1J视频文本数据各自在该视频语义空间的语义描述子后储存至该视频关

^据库。