CoreSeek(Sphinx)安装与mmseg词库扩展

详细的安装步骤见 这里.

摘录下快速安装步骤:

##下载coreseek:
$ wget http://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.tar.gz
$ 或者 http://www.coreseek.cn/uploads/csft/4.0/coreseek-4.0.1-beta.tar.gz
$ 或者 http://www.coreseek.cn/uploads/csft/4.0/coreseek-4.1-beta.tar.gz
$ tar xzvf coreseek-3.2.14.tar.gz 或者 coreseek-4.0.1-beta.tar.gz 或者 coreseek-4.1-beta.tar.gz
$ cd coreseek-3.2.14 或者 coreseek-4.0.1-beta 或者 coreseek-4.1-beta

##前提:需提前安装操作系统基础开发库及mysql依赖库以支持mysql数据源和xml数据源
##安装mmseg
$ cd mmseg-3.2.14
$ ./bootstrap    #输出的warning信息可以忽略,如果出现error则需要解决
$ ./configure --prefix=/usr/local/mmseg3
$ make && make install
$ cd ..

##安装coreseek
$ cd csft-3.2.14 或者 cd csft-4.0.1 或者 cd csft-4.1
$ sh buildconf.sh    #输出的warning信息可以忽略,如果出现error则需要解决
$ ./configure --prefix=/usr/local/coreseek  --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql    ##如果提示mysql问题,可以查看MySQL数据源安装说明
$ make && make install
$ cd ..

##测试mmseg分词,coreseek搜索(需要预先设置好字符集为zh_CN.UTF-8,确保正确显示中文)
$ cd testpack
$ cat var/test/test.xml    #此时应该正确显示中文
$ /usr/local/mmseg3/bin/mmseg -d /usr/local/mmseg3/etc var/test/test.xml
$ /usr/local/coreseek/bin/indexer -c etc/csft.conf --all
$ /usr/local/coreseek/bin/search -c etc/csft.conf 网络搜索


===

扩展mmseg词库:

1.去搜狗拼音下载常用词库: 链接.

2.使用imewlconverter_1_3_1将获得的词库转为txt文档保存.





3. 将txt转为utf8编码,写脚本将文件转为mmseg词典txt,这里给出一个php脚本的示例:

<?php
@unlink('dict.txt');
$handle= fopen('new.txt','r');
$w = fopen('dict.txt','a+');
if ($handle && $w) {
    while (($buffer = fgets($handle, 4096)) !== false) {
	$line = trim($buffer,"\r\n\t ");
        fwrite($w,"$line\t1\r\nx:1\r\n");
	
    }
    if (!feof($handle)) {
        echo "Error: unexpected fgets() fail\n";
    }
    fclose($handle);
    fclose($w);
}

?>
最终得到的文件类型为:



4.使用如下命令将txt文件转为mmseg运行所需的lib词典.

/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/dict.txt
mkdir backup
mv uni.lib backup/
mv dict.txt.uni uni.lib


5.配置CoreSeek(Sphinx),这里以mysql数据源,emlog DB为例,如下配置文件:

cat csft_mysql.conf 

#MySQL数据源配置,详情请查看:http://www.coreseek.cn/products-install/mysql/
#请先将var/test/documents.sql导入数据库,并配置好以下的MySQL用户密码数据库

#源定义
source mysql
{
    type                    = mysql


sql_host	= localhost
sql_user	= user
sql_pass	= pwd
sql_db	= dbname
sql_port	= 3306	# optional, default is 3306
sql_query_pre            = SET NAMES utf8

   sql_query                = SELECT gid,author as group_id,date as date_added,title,content FROM emlog_blog 
                                                              #sql_query第一列id需为整数
                                                              #title、content作为字符串/文本字段,被全文索引
    sql_attr_uint            = group_id           #从SQL读取到的值必须为整数
    sql_attr_timestamp        = date_added #从SQL读取到的值必须为整数,作为时间属性

    sql_query_info_pre      = SET NAMES utf8                                        #命令行查询时,设置正确的字符集
    sql_query_info            = SELECT * FROM emlog_blog WHERE gid=$id #命令行查询时,从数据库读取原始数据信息
}

#index定义
index mysql
{
    source            = mysql             #对应的source名称
    path            = /web/coreseek/data/mysql #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...
    docinfo            = extern
    mlock            = 0
    morphology        = none
    min_word_len        = 1

# whether to strip HTML tags from incoming documents
# known values are 0 (do not strip) and 1 (do strip)
# optional, default is 0
html_strip	= 1

# what HTML attributes to index if stripping HTML
# optional, default is empty (do not index anything)
#
# html_index_attrs	= img=alt,title; a=title;


# what HTML elements contents to strip
# optional, default is empty (do not strip element contents)
#
# html_remove_elements	= style, script

    #中文分词配置,详情请查看:http://www.coreseek.cn/products-install/coreseek_mmseg/
    charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux环境下设置,/符号结尾
    #charset_dictpath = etc/                             #Windows环境下设置,/符号结尾,最好给出绝对路径,例如:C:/usr/local/coreseek/etc/...
    charset_type        = zh_cn.utf-8

}

#全局index定义
indexer
{
    mem_limit            = 128M
}

#searchd服务定义
searchd
{
    listen                  =   9312
    read_timeout        = 5
    max_children        = 30
    max_matches            = 1000
    seamless_rotate        = 0
    preopen_indexes        = 0
    unlink_old            = 1
    pid_file = /web/coreseek/log/searchd_mysql.pid  #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...
    log = /web/coreseek/log/searchd_mysql.log        #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...
    query_log = /web/coreseek/log/query_mysql.log #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...
}


6.开始生成索引(建议加入到crontab中,加上rotate,定时更新)
/usr/local/coreseek/bin/indexer  -c  /usr/local/coreseek/etc/csft_mysql.conf --all   --rotate


7.启动服务:

/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf 

输出如下信息,就表示coreseek(sphinx)运行正常了. 默认端口是9312


8.测试.在coreseek源码中有一个测试目录:

cd coreseek-3.2.14/testpack/api

php test.php "test"

有如下输出,即表示安装成功了.




| 0个评论