• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

通过单词形状编码进行文档图像检索。

Document image retrieval through word shape coding.

作者信息

Lu Shijian, Li Linlin, Tan Chew Lim

机构信息

Institute for Infocomm Research, Agency for Science,Technology and Research (A*STAR), 21 Heng Mui Keng Terrace, Singapore.

出版信息

IEEE Trans Pattern Anal Mach Intell. 2008 Nov;30(11):1913-8. doi: 10.1109/TPAMI.2008.89.

DOI:10.1109/TPAMI.2008.89
PMID:18787240
Abstract

This paper presents a document retrieval technique that is capable of searching document images without OCR (optical character recognition). The proposed technique retrieves document images by a new word shape coding scheme, which captures the document content through annotating each word image by a word shape code. In particular, we annotate word images by using a set of topological shape features including character ascenders/descenders, character holes, and character water reservoirs. With the annotated word shape codes, document images can be retrieved by either query keywords or a query document image. Experimental results show that the proposed document image retrieval technique is fast, efficient, and tolerant to various types of document degradation.

摘要

本文提出了一种文档检索技术,该技术能够在不进行光学字符识别(OCR)的情况下搜索文档图像。所提出的技术通过一种新的单词形状编码方案来检索文档图像,该方案通过用单词形状代码注释每个单词图像来捕获文档内容。具体而言,我们使用一组拓扑形状特征(包括字符上伸部/下伸部、字符空洞和字符积水区)来注释单词图像。利用注释后的单词形状代码,可以通过查询关键词或查询文档图像来检索文档图像。实验结果表明,所提出的文档图像检索技术快速、高效,并且能够容忍各种类型的文档退化。

相似文献

1
Document image retrieval through word shape coding.通过单词形状编码进行文档图像检索。
IEEE Trans Pattern Anal Mach Intell. 2008 Nov;30(11):1913-8. doi: 10.1109/TPAMI.2008.89.
2
Script and language identification in noisy and degraded document images.嘈杂且退化的文档图像中的脚本和语言识别
IEEE Trans Pattern Anal Mach Intell. 2008 Jan;30(1):14-24. doi: 10.1109/TPAMI.2007.1158.
3
Texture for script identification.用于脚本识别的纹理。
IEEE Trans Pattern Anal Mach Intell. 2005 Nov;27(11):1720-32. doi: 10.1109/TPAMI.2005.227.
4
Font adaptive word indexing of modern printed documents.现代印刷文档的字体自适应词索引
IEEE Trans Pattern Anal Mach Intell. 2006 Aug;28(8):1187-99. doi: 10.1109/TPAMI.2006.162.
5
Geometry-based image retrieval in binary image databases.二值图像数据库中基于几何的图像检索
IEEE Trans Pattern Anal Mach Intell. 2008 Jun;30(6):1003-13. doi: 10.1109/TPAMI.2008.37.
6
Signature detection and matching for document image retrieval.用于文档图像检索的签名检测与匹配。
IEEE Trans Pattern Anal Mach Intell. 2009 Nov;31(11):2015-31. doi: 10.1109/TPAMI.2008.237.
7
Restoring warped document images through 3D shape modeling.通过三维形状建模恢复扭曲的文档图像。
IEEE Trans Pattern Anal Mach Intell. 2006 Feb;28(2):195-208. doi: 10.1109/TPAMI.2006.40.
8
A novel document ranking method using the discrete cosine transform.一种使用离散余弦变换的新型文档排序方法。
IEEE Trans Pattern Anal Mach Intell. 2005 Jan;27(1):130-5. doi: 10.1109/TPAMI.2005.2.
9
Automatic semantic annotation of real-world web images.真实世界网络图像的自动语义标注
IEEE Trans Pattern Anal Mach Intell. 2008 Nov;30(11):1933-44. doi: 10.1109/TPAMI.2008.125.
10
Localized content-based image retrieval.基于内容的局部图像检索。
IEEE Trans Pattern Anal Mach Intell. 2008 Nov;30(11):1902-12. doi: 10.1109/TPAMI.2008.112.