• 网站首页

    HOME

  • 平台介绍

    INTRODUCTION

  • 会议申报

    APPLICATION

  • 会议服务

    SERVICE

  • 学术动态

    JOURNAL

  • 学术仓储

    REPOSITORY

  • 关于我们

    ABOUT US

  • 刊名: 国际学术动态

    主办单位:  华中科技大学

    出版周期:  双月

    出版地:湖北省武汉市

    语种:  中文

    开本:  大16开

    创刊时间:  1983

    大规模真实文本处理的理论与方法

    【期数】:1998年04期

    【作者】:黄昌宁

    【摘要】: 背景随着因特网和光盘等大容量存储技术的普及,机储文本语料库的规模已冲破1万亿(10~(12)字节。它一方面带来了巨大的商业利益,促进了信息咨询业的空前发展;另一方面也向学术界和企业界提出了挑战,呼唤着大规模真实文本处理技术的革新。据美国Lexis-Nexis公司John Rausch高级工程师在第5届国际大规模语料库研讨会(The Fifth workshop on Verylarge Corpora,简称WVLC-5)上披露,这家提供信息检索服务的公司今年的机储文档已达15亿件,相当于15000亿字符,是该公司1993年机储文档的7.5倍,并且持续以每周950万件的速度递增。此外Lexis—Nexis公司平均每天要接受50万次客户查询,每次查询平均访问182个不同数据库,而每次查询的响应时间平均为4.8秒,公司每天为客户打印的文档多达37.5万件。从以上数据中不难看到,信息资源在当今社会中的重要性,以及文本语料库(或数据库)所达到的巨大规模和相应的处理技术。