专利名称:一种基于语言模型的医案搜索方法专利类型:发明专利发明人:张引,姜利成
申请号:CN201610154543.8申请日:20160317公开号:CN105843868A公开日:20160810
摘要:本发明公开了一种基于语言模型的医案搜索方法。步骤如下:1)通过OCR,文本结构化处理,从医案书籍中提取结构化单篇医案;2)使用中文分词工具,对所有医案进行包括分词和去停用词在内的预处理;3)用最大似然估计计算得到每篇医案的unigram语言模型;4)针对所有医案,统计各词频水平对应词语的个数,并使用统计到的数据拟合曲线;5)使用Good‑Turing估计方法来平滑每篇医案的unigram语言模型;6)以所有医案集作为整体建立一个所有医案集的语言模型,并用于修正单篇医案的unigram语言模型;7)使用修正后的语言模型实现医案搜索。本发明实现了基于语言模型的信息检索,使用N‑gram针对每篇医案建立各自的语言模型,使用语言模型生成文本的概率作为搜索结果排序依据。
申请人:浙江大学
地址:310027 浙江省杭州市西湖区浙大路38号
国籍:CN
代理机构:杭州求是专利事务所有限公司
代理人:张法高
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容