跳过内容
SBMI徽标

使用主题模型和交互信息可视化了解PubMed搜索结果

作者:Zhiguo Yu,MS(2017)

主要顾问:托德·约翰逊(Todd Johnson)博士

委员会成员:医学博士Elmer Bernstam,MSE,Trevor Cohen,MBCHB,医学博士,博士,Cui Tao,PhD,博士,拜伦·华莱士,博士

德克萨斯大学健康信息科学学院的博士学位论文。

抽象的

随着数据呈指数增长,提取和理解信息,对许多领域的研究人员的主题和关系越来越重要。beplay苹果手机能用吗包含超过2500万引文的PubMed使用医学主题标题(网格)来索引文章,以更好地促进其管理,搜索和索引。但是,研究人员仍然beplay苹果手机能用吗挑战寻找,然后在特定感兴趣的领域中获得一组文档的有意义的概述。这部分归因于网格术语的几个限制,包括:需要监视和扩展词汇;缺乏新发展领域的概念覆盖范围;人类在分配代码方面的不一致;以及手动索引指数增长的语料库所需的时间。造成这一挑战的另一个原因是,PubMed本身和相关的Web工具都无法帮助用户看到生物医学文献中的高级主题和隐藏的语义结构。

主题模型是一类统计机器学习算法,当给出一组自然语言文档时,从一组文档中提取语义主题(主题),描述每个文档的主题以及主题和文档的语义相似性。beplay苹果手机能用吗研究人员表明,这些潜在主题可以帮助人类更好地理解和搜索文档。与基于文献中重要概念创建的网格术语不同,从文档子集中提取的主题是特定于这些文档的。因此,他们可以找到可能不存在网格术语的文档特定主题。这样的主题可能会为浏览搜索结果提供特定于主题的主题集,并提供更广泛的搜索结果概述。

本论文的第一部分介绍了局部要用表示,它利用了使用潜在的dirichlet分配(LDA)生成的主题和网格术语之间的“对应”,以创建结合网格术语和潜在主题向量的新文档表示。在使用15个系统的药物审查CORPORA的评估中,局部态在文档检索和分类任务中的表现均优于网格。The second part of this work introduces the “Hybrid Topic” , an alternative LDA approach that uses a ‘bag-of-MeSH&words’ approach, instead of just ‘bag-of-words’, to test whether the addition of labels (e.g. MeSH descriptors) can improve the quality and facilitate the interpretation of LDA-generated topics. An evaluation of this approach on the quality and interpretability of topics in both a general corpus and a specialized corpus demonstrated that the coherence of ‘hybrid topics’ is higher than that of regular bag-of-words topics in both specialized and general copora. The last part of this dissertation presents a visualization tool based on the ‘hybrid topics’ model that could allow users to interactively use topic models and MeSH terms to efficiently and effectively retrieve relevant information from tons of PubMed search results. A preliminary user study has been conduced with 6 participants. All of them agree that this tool can quickly help them understand PubMed search results and identify target articles.

Baidu