文献检索、全文获取以及文献阅读是科研工作者进行前沿追踪应该掌握的三大技能。其中文献检索是一切的基础,能在茫茫文海中找到你最需要的文献可不是一件简单的事儿。那么问题来了,在日常的文献检索中,你除了百度、谷歌、PubMed和WOS之外你还能想到哪些工具呢?特别是希望进行句子级别文本检索的时候。事实上,它更是写作神器!
先上LitSense 官网:https://www.ncbi.nlm.nih.gov/research/litsense/
图片来自网络
除了浏览器入口外,大家常用的Pubmed和WOS属于引文数据库,这些数据库中仅包含文献的标题、作者信息、出版物信息、摘要、参考文献以及关键词等,一般不包含文献的全文,这一类数据库常用于文献检索,即从引文数据库中找到我们感兴趣的文献。全文数据库指的是期刊的数据库,通常需要付费获取,科研机构和图书馆会购买文献出版集团的全文数据库,以供自己的用户使用。
引文数据库大都以关键词检索为主,不能进行段落或句子级别的检索。如果你看到一段不错的句子,想知道它的出处有没有办法呢,答案是肯定的。2019年7月发表在《Nucleic Acids Research》的一篇论文就解决了这个问题。基于文本挖掘,LitSense可以进行句子级别的文献搜索。LitSense的一个核心功能是将查询语句与语料库中的5亿个句子进行匹配,且支持双引号引精确匹配。
论文截图
对于给定的查询,LitSense使用两种方法返回最佳匹配的句子:
一种是传统的词汇加权方法(term-weighting approach),它对包含用户查询中更多罕见词汇的句子进行加权;
一种是新的神经嵌入方法(state-of-the-art neural embedding approach),允许检索语义相关的结果,而不需要显式的关键字匹配;
LitSense has two main parts: ‘sentence indexing’ and ‘search
LitSense 官网地址:https://www.ncbi.nlm.nih.gov/research/litsense/,输入给定的一系列关键词或者句子即可进行查询
LitSense 官网 截图
LitSense嵌套的PubTator是用于查看和检索全文生物医学文章中的生物概念注释的在线软件,可以为基因/蛋白质、遗传变异、疾病、化学物质、物种和细胞系等生物学概念提供自动注释并以不同颜色标注。
论文截图
从3月18号发表在NEJM中的一篇新冠论文(SARS-CoV-2 Infection in Children)中选了一句话进行测试:“This report describes a spectrum of illness from SARS-CoV-2 infection in children.”,看看效果如何。尽管是最新的文献,且句式简单,但还是可以检索命中。
检索结果截图
其实,LitSense最大的用途或许还不是检索,应该是AI辅助写作。
LitSense 官网:https://www.ncbi.nlm.nih.gov/research/litsense/
参考文献:Alexis Allot, Qingyu Chen, Sun Kim, Roberto Vera Alvarez, Donald C Comeau, W John Wilbur, Zhiyong Lu, LitSense: making sense of biomedical literature at sentence level, Nucleic Acids Research, Volume 47,Issue W1, 02 July 2019, Pages W594–W599,