首 页 ASP ASP.NET PHP JSP Ajax DIV+CSS JavaScript XML C#
MySQL MSSQL Access Oracle Linux Server 电脑技巧 网络安全 建站经验 其它

基于MySQL数据库的UTF8中文网站全文检索的实现

整理日期:2009年04月18日 【字体:

  现在的互联网上,很多网站都提供了全文搜索功能,浏览者可以通过输入关键字或者是短语来搜索特定的资料。在PHP+MySQL构架的网站中,通常的做法是通过SELECT查询的Like语句来进行搜索,这一办法存在搜索不够精确、以及效率非常低下的缺点。

  比如对一个有十几万条记录数据表的TEXT字段进行LIKE操作,可能会花费上近10秒钟左右,这对网站的浏览者来说是一个非常糟糕的使用体验。如何在海量的数据中能够快速的进行全文检索呢?MySQL提供了一个全文索引功能,也就是把字段设置上FULLTEXT索引属性,然后通过SELECT的MATCH AGAINST语句进行查找。

  我们开发的一个纯英文站点就是利用MySQL的这一功能,实现了对十多万条数据的平均全文检索时间小于0.5秒。但是在开发的中文网站碰到了新的问题。原来英文排版时词和词之间是通过空格区分的,FULLText可以完全支持,但是对中文或者是东亚文字就没有这么简单了,因为中文的词和词之间并没有明显的分隔,所以MySQL不支持中文字符的全文检索。

  如何让MySQL也能支持中文的全文检索呢?偶然间产生了一个思路,那就是能不能在中文分词后,通过对中文进行编码转化成英文字符,这样就在中英文间建立一个特定的联系,然后再进行全文检索,这样不就实现了中文的全文索引了吗?经过试验,答案是肯定的。下面是在城市黄页网中实现的具体过程:

  1. 建立一个单独的索引表,比如对应members表,我们建立一个members_index表。

  用户信息表(members)          用户信息全文索引表(members_index)
  User_id                       user_id
  User_name                    index_intro
  User_introduction
  在members_index表的index_intro中加入fulltext索引。

  2. 对用户信息表(members)的User_introduction字段内容进行中文分词处理

  中文分词的处理过程,在网页中,我们采用了scws的PHP扩展模块方式来实现中文分词。scws的php扩展模块安装非常简单,只需简单编译配置后即可使用。在具体的php代码中,我们写了如下的函数来实现分词后将分词结果用空格进行连接。

  //中文分词函数
  function str_fc($str) {
   $so = scws_new();
   $so->set_charset('utf8');
   // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
   $so->send_text($str);
   while ($tmp = $so->get_result())
   {
   foreach ( $tmp as $ss ){

伊图教程网[www.etoow.com]
http://www.etoow.com/html/2009-04/1240024186.html
    $s = trim($ss[word]);
基于MySQL数据库的UTF8中文网站全文检索的实现
'http://www.etoow.com/html/2009-04/1240024186.html
1
 
信息搜索
  
联系我们关于本站广告服务设为首页 收藏本站友情链接网站地图
Copyright © Etoow.com Inc. All Rights Reserved