Apache Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。Apache Solr是一个独立的企业级搜索应用服务器,目前很多企业使用solr开源服务。原理大致是文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。
Apache Solr目前可以与Apache Nutch 2.3.1整合的最高版本是4.10.4,Ubuntu 15.10 ,12.04上安装的步骤如下:
1.安装Java,并设置JAVA_HOME
$sudo apt-get install openjdk-7-jre
$sudo apt-get install openjdk-7-jdk
$export JAVA_HOME=$(readlink -f `which java` | xargs dirname | xargs dirname | xargs dirname)
建议在系统的环境变量中增加"JAVA_HOME
"环境变量,也可以写在~/bashrc
里面。
$sudo vim /etc/profile
文件尾部增加
export JAVA_HOME=$(readlink -f `which java` | xargs dirname | xargs dirname | xargs dirname)
然后,重启机器。
2.下载Apache Solr 4.10.4
$cd ~
$wget http://archive.apache.org/dist/lucene/solr/4.10.4/solr-4.10.4.tgz
3.解压缩到指定目录,并建立文件链接
$sudo tar -zxvf solr-4.10.4.tgz -C /var/opt/
$sudo ln -s /var/opt/solr-4.10.4/ /var/opt/apache-solr
在系统的环境变量中增加"SOLR_HOME
"环境变量,也可以写在 ~/bashrc里面。
$sudo vim /etc/profile
在文件末尾追加
export SOLR_HOME=/var/opt/apache-solr
然后,重启机器。
4.启动Apache Solr并设置端口为9876
$sudo -E java -Djetty.home=${SOLR_HOME}/example -Djetty.logs=/tmp -Dsolr.solr.home=${SOLR_HOME}/example/solr -Djetty.port=9876 -jar ${SOLR_HOME}/example/start.jar
5.在浏览器中打开网页,观察是否启动成功
在浏览器中访问http://localhost:9876/solr/
出现如下界面,说明配置成功。
参考链接
Nutch2.3+Hbase0.94+Solr4.10.3单机集成配置安装