TDT起源于早期面向事件的检测与跟踪(Event Detection and Tracking;EDT),但与EDT不同,TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关性外延的话题,相应的理论与应用研究也同时从传统对于事件的识别跨越到包含突发事件及其后续相关报道的话题检测与跟踪。
话题检测和跟踪作为一项重要的自然语言处理任务,长期以来吸引了众多研究人员的关注,而DARPA所发起的TDT评测,则对话题检测与跟踪的研究起到了重要的规范、引导、促进与推广作用。学术界借鉴信息检索、信息提取、文本聚类、文本过滤的研究成果,提出了一系列的话题检测和话题跟踪方法。
TDT的研究方向主要分为五个组成部分,即报道切分、报道关联性检测、话题检测与跟踪以及针对各项任务的跨语言技术。其中的每一项研究都不是孤立存在,而是与其他研究相互依存与辅助。比如,报道切分是一项基础性研究,实际应用中的TDT系统必须首先保证新闻报道流得到有效切分,才能进一步完成后续的检测与跟踪任务;报道关联性检测的目的在于检验两篇报道是否论述同一话题,而话题检测与跟踪的本原问题恰是检验话题与报道之间,或报道与报道之间的相关性,因此关联性检测是承载TDT其他各项任务的基本平台,也是性能保证的前提条件;话题跟踪系统的主要任务是跟踪特定话题的后续相关报道,而话题检测系统则在大规模新闻报道流中识别各种未知的话题,因此话题检测实质上为跟踪系统提供了先验的话题模型,而话题跟踪则辅助检测系统完善对话题整体轮廓的描述。此外,TDT语料以及实际应用中的新闻资源都包含多种语言形式,因此各项TDT研究任务都需要涉及相应的跨语言技术。总而言之,TDT研究框架下的各项任务互相关联并统一为有机整体。根据实际应用的需要,TDT各项任务还可以进一步划分成面向不同问题的子课题:
①报道切分任务(Topic Segmentation Task);
②话题跟踪任务(Topic Tracking Task);
③话题检测任务(Topic Detection Task);
④首故事检测任务(First-Story Detection Task);
⑤关联检测任务(Link Detection Task)。
从参评系统的数量来看,话题发现和话题跟踪两个子任务最受关注,要实现话题发现与跟踪功能,需要解决以下主要问题:话题和文档的模型化,话题相似度计算,聚类策略和分类策略。在这几个主要问题中,模型化方面的研究尤为突出(见话题发现)。这类研究的一个主要特点是更关注话题的数学模型,而非话题的内在结构和语义。