Ubuntu 15.10,12.04 单机安装并配置Apache HBase

Apache HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

1.安装Java,并设置JAVA_HOME


建议在系统的环境变量中增加"JAVA_HOME"环境变量,也可以写在~/bashrc里面。

文件尾部增加

然后,重启机器。

2.下载并配置Apache HBase


在系统的环境变量中增加"HBASE_HOME"环境变量,也可以写在~/bashrc里面。

文件尾部增加

然后,重启机器。

3.编辑conf/hbase-site.xml配置数据存储目录


添加如下内容。其实这里也可以不做修改,如果不做修改,就会把数据存放到tmp临时目录中,重启就没有数据。如果做简单的测试就不用麻烦去配置文件。

在其中的configuration中增加对于存储数据目录的配置:

4.启动以及关闭Apache HBase


启动

关闭

注意,如果执行sudo的话,一定要加-E参数,否则会导致提示找不到JAVA_HOME.原因是,sudo出于安全原因,默认禁止环境变量输出到子进程中。

5.参考链接


Installing Apache HBase on Ubuntu for Standalone Mode
安装nutch2+Hbase+Slor4

VirtualBox 5.0.X安装后Windows 10 下载文件频繁失败

操作系统


Windows 10 64位 专业版

VirtualBox版本


5.0.0 ~ 5.0.14(当前最新版)

故障现象


安装VirtualBox后,下载文件频繁失败,禁用网卡属性中的 VirtualBox NDIS6 Bridged Networking Driver 之后一切正常。

启动虚拟机,发现桥接模式下无适配器可选(因为被我们禁用了)。

网上搜索,得到的信息是5.0版对Windows 10的网络支持非常不好,工程师正全力解决Windows 10的兼容性问题,Windows 7,Windows 8也有人反应有网络相关的问题,问题回复中有人提供了继续使用NDIS5驱动的方法,试用后问题解决。

方法:下载VirtualBox 5.0.14版,卸载已安装的5.0版本,打开命令行,带参数执行安装程序:

随后会打开正常的图形界面安装,装完后网卡属性,桥接驱动名中已经无NDIS6字样。

期待官方解决NDIS6的问题,早日用上更好的驱动。

参考


https://www.virtualbox.org/ticket/14457

https://forums.virtualbox.org/viewtopic.php?f=6&t=68980

openssl 如何查看 der 和 pem格式的证书

One way to verify if "keytool" did export my certificate using DER and PEM formats correctly or not is to use "OpenSSL" to view those certificate files. To do this, I used the "openssl x509" command to view keytool_crt.der and keytool_crt.pem:

原文链接:openssl 如何查看 der 和 pem格式的证书

替代微软Visio的开源免费软件DIA Diagram Editor

DDIA Diagram Editor,功能强大和跨平台特性,原生支持简体中文界面。与Visio相比,DIA Diagram Editor安装包仅不足20MB,可以放在网盘或U盘中随身携带。初用者可能觉得Dia用法比较繁琐而麻烦,但是无法否认,它仍然是综合性能最佳的免费替代方案。

DIA Diagram Editor支持导出的流程图格式如下:EPS、SVG、DXF(Autocad格式)、CGM、WMF、PNG、JPEG、VDX(Microsoft Visio格式)。

dia_screenshot

项目地址:http://sourceforge.net/projects/dia-installer/

 

Ubuntu 15.10,12.04 安装Apache Nutch 2.3.1 并整合Apache Solr 4.10.4

Apache Nutch是一个用Java编写的开源网络爬虫。通过它,我们就能够自动地找到网页中的超链接,从而极大地减轻了维护工作的负担,例如检查那些已经断开了的链接,或是对所有已经访问过的网页创建一个副本以便用于搜索。接下来就是Apache Solr所要做的。Apache Solr是一个开源的全文搜索框架,通过Apache Solr我们能够搜索Apache Nutch已经访问过的网页。

Apache Nutch对于Apache Solr已经支持得很好,这大大简化了Apache Nutch与Apache Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网络应用以及依赖于Apache Lucene来进行索引的麻烦。

目前官方2.x只提供了源码下载,不再提供编译发布版本,需要用户自己去编译。

请先参考Ubuntu 15.10,12.04 安装Apache Solr 4.10.4 安装Apache Solr。(注意,目前的Apache Nutch只能支持到Apache Solr 4.10.4版本,因此不能安装高于这个版本的Apache Solr,实验后确定目前不能使用高于这个版本的Apache Solr

然后参考Ubuntu 15.10,12.04 单机安装并配置Apache HBase安装HBase。

之后再进行后续的操作。

1.安装Java,并设置JAVA_HOME


建议在系统的环境变量中增加"JAVA_HOME"环境变量,也可以写在~/bashrc里面。

文件尾部增加

然后,重启机器。

2.下载并安装Nutch


3.编译Nutch


安装ant

配置Nutch需要使用的数据库,由于我们会与Apache Solr整合,因此需要配置Nutch编译的时候打开Apache Solr的支持。(目前测试情况来看,是无法配置成功使用org.apache.gora.solr.store.SolrStore作为存储后端的,只能是使用HBase作为存储后端)。

1.修改ivy/ivy.xml,设置可以使用的后端存储模块,可以多选,至于最后使用哪个存储模块,需要在conf/nutch-site.xml中指明。

找到如下信息:

找到如下:

去掉注释。

同时为了修复gora-hbase 0.6.1的BUG,需要在刚刚去掉注释的代码下面,增加如下一句:

2.配置conf/nutch-site.xml,指明需要的后端存储模块。

configuration字段中指明需要的后端存储类型(此处我们需要整合Solr,因此指定org.apache.gora.solr.store.SolrStore,具体配置的字符串,参考上面的conf/gora.properties中的gora.datastore.default字段),同时需要指明"http.agent.name"字段,否则运行时候会报错,没有设置"http.agent.name"。设置"plugin.includes"字段,否则在最后建立Solr索引的时候会报告"No IndexWriters activated - check your configuration"。

3.修改conf/gora.properties,打开需要的后端存储,单机情况下,一般默认即可,Apache Solr的监听端口,要根据自己机器的监听端口设置。

找到

最后一行增加:

4.修改ivy中配置的maven仓库地址,配置ivy/ivysettings.xml

找到如下代码:

把默认的maven中央库地址 http://repo1.maven.org/maven2/  替换成国内OSC提供的镜像:http://maven.oschina.net/content/groups/public/

编译Nutch,并下载依赖的Jar包

4.增加Nutch安装目录的环境变量${NUTCH_RUNTIME_HOME}


文件尾部增加

然后,重启机器。

5.检验Nutch安装


  • 运行"${NUTCH_RUNTIME_HOME}/bin/nutch"。如果您能看见下列内容说明您的安装是正确的:

一些解决问题的提示:

  • 如果您看见"Permission denied"那么请运行下列命令:

  • 如果您看见JAVA_HOME没有设置那么请设置JAVA_HOME环境变量。在Mac上,您可以运行下述命令或者把它添加到~/.bashrc里面去:

6.配置Apache Solr


1.备份需要修改的配置文件

2.复制Nutch运行目录下的schema.xml到我们设置的目录下。

3.重启Apache Solr

7.抓取您的第一个网站


  • 添加要抓取的URL(以自己的网站为例)

    seed.txt中添加需要抓取的地址:http://www.mobibrw.com/
  • 启动HBase

  • 使用如下命令进行网页的抓取(以百度为例)

    • ~/urls 是存放了种子url,也就是要抓取的网站地址的目录
    • StoreCrawl 是存放数据的根目录(在Nutch 2.x中,则表示crawlId,这会在HBase中创建一张以crawlId为前缀的表,例如StoreCrawl_Webpage
    • "http://localhost:9876/solr/collection1" Apache Solr的访问链接,此处注意,网页访问的链接是"http://localhost:9876/solr/#/collection1",但是Nutch上行数据的链接不可以有"#",否则会报告"Expected mime type application/octet-stream but got text/html"。
    • 2,numberOfRounds,迭代的次数,表明从根网页开始那应该被抓取的链接深度。

注意,如果执行sudo的话,一定要加-E参数,否则会导致提示找不到JAVA_HOME。原因是sudo出于安全原因,默认禁止环境变量输出到子进程中。

执行完成后,不应该出现任何的失败提示才对。

如果执行出错的话,详细的错误信息可以在${NUTCH_RUNTIME_HOME}/logs/hadoop.log中看到。

索引完成后,在Apache Solr中查询的结果如下图所示:

SolrNutch

参考链接


Ubuntu 15.10,12.04 安装Apache Solr 5.4.1

Apache Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。Apache Solr是一个独立的企业级搜索应用服务器,目前很多企业使用solr开源服务。原理大致是文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。

Apache Solr最新的版本是5.4.1,Ubuntu 15.10 ,12.04上安装的步骤如下:

1.下载Apache Solr 5.4.1

 

2.解压缩服务安装脚本

3.执行安装脚本

4.检查服务是否正确安装

如果正确安装,会出现如下的提示信息:

4.创建Solr实例,可以创建多个实例,在这里我们只创建一个

请注意实例的结果输出:

这意味着,访问实例的URL链接为http://localhost:8983/solr,而不是默认的8080端口,一般如果8080端口被Tomcat7占据的情况下,Apache Solr作为一个服务独立安装的时候,会随机选择一个没有占有的端口,注意这个情况。

ApacheSolr

4.配置刚刚创建的Solr实例

ApacheSolrCoreSeletor

如上图,选择"Core Selector"

ApacheSolrCoreSeletorDocuments

可以这这个页面中"Document Type"下拉框用来选择提交,文件,XML,JSON等等,"Submit Document"按钮,可以提交需要分析的内容。

参考链接:
How To Install Apache Solr In Ubuntu

Ubuntu 15.10系统下制作自己的PPA安装包

Personal Package Archives(个人软件包档案)是Ubuntu Launchpad网站提供的一项服务,允许个人用户上传软件源代码,通过Launchpad进行编译并发布为2进制软件包,作为APT/新立得源供其他用户下载和更新。在Launchpad网站上的每一个用户和团队都可以拥有一个或多个PPA。

1.安装打包需要的软件环境


2.创建自己的GPG KEY


接下来,一路回车,在要求确认信息的时候,点击y。最后一步是一通的键盘乱按。整个过程如下图所示:gpggpg2

注意,我们需要的KEY ID为47EDFAD4.

将KEY的公共部分上传到KEY SERVER,这样全世界的开发者就可以根据你的KEY来识别你的信息和文件.

我们自己的Key发送就是

3.创建你的SSH KEY


4.创建pbuilder(允许开发者在本地创建PPA包)


我的系统版本是Ubuntu 15.10 (Wily Werewolf),所以执行如下命令:

这部分的耗时比较长,会安装全部的编译工具,要耐心等待一下!

5.创建Launchpad账户


帐号可以去Launchpad 官网注册
上传GPG KEY到Launchpad,通过如下指令查看自己的GPG KEY:

会得到如下结果:

运行如下指令提交你的KEY到Ubuntu Key Server:

登陆个人KEY管理面板

6.上传SSH KEY


打开~/.ssh/id_rsa.pub文件,将其中的内容拷贝到帐号的add ssh key文本框中,选择导入后完成上传

7.配置 Bazzar


(一个版本控制软件,可以储存代码)之所以需要使用Bazzar,原因是Launchpad的默认BUG管理器,并且编译代码的时候,要求用bzr进行代码编译。
首先告诉Bazzar你是谁:

Bazaar in five minutes

官方教程:http://packaging.ubuntu.com/html/packaging-new-software.html
开源许可证:http://opensource.org/licenses

8.配置你的shell环境变量


打开~/.bashrc 文件,在文件开头加上如下内容:

然后执行:

9.安装编译工具


10.下载源代码,以Openyoudao为例


11.开始打包


a.根据模板生成配置文件

b.将修改提交到打包分支

c.在当前环境中编译软件包

d.检测软件包是否存在BUG

e.给软件包签名(需要输入之前设置的密码)

12.上传软件包


a.编辑~/.dput.cf

通过上面的一系列流程,我们生成了一组经过数字签名的文件,最后需要做的是将这些文件上传到PPA官方的FTP,此时会用到一个叫dput的软件,要使用dput,首先要编辑文件~/.dput.cf,没有就创建.在这个文件里面定义要上传的Launchpad账号。我的~/.dput.cf文件内容如下:

b.执行上传

上传成功后会收到一封PPA发来的邮件,内容如下:

接下来就静待官方编译吧~
编译完成后,就可以通过ppa源进行安装了
编译进度可查看:http://ppa.launchpad.net/wangqiang1588/

参考链接


如何在ubuntu系统下制作自己的ppa安装包

如何在Ubuntu 12.04上部署免费的SSL证书(Let's Encrypt)

Let's Encrypt是国外一个公共的免费SSL项目,由 Linux 基金会托管,它的来头不小,由Mozilla、思科、Akamai、IdenTrust和EFF等组织发起,目的就是向网站自动签发和管理免费证书,以便加速互联网由HTTP过渡到HTTPS,目前Facebook等大公司开始加入赞助行列。

Let's Encrypt已经得了 IdenTrust 的交叉签名,这意味着其证书现在已经可以被Mozilla、Google、Microsoft和Apple等主流的浏览器所信任,你只需要在Web 服务器证书链中配置交叉签名,浏览器客户端会自动处理好其它的一切,Let's Encrypt安装简单,未来大规模采用可能性非常大。

Let's Encrypt虽然还在测试当中,但是市场需求非常大,已经有非常多的朋友迫不及待地安装并用上了Let's Encrypt。Let's Encrypt向广大的网站提供免费SSL证书,不管是对于网站站长、互联网用户,还是对整个Web互联网,都是非常有利的,它有利于整个互联网的安全。

本篇文章就来为大家讲解一下如何获取Let's Encrypt免费SSL证书,并附上Apache的SSL证书配置方法。

一、 安装Let's Encrypt免费SSL准备


1.Let's Encrypt官网:
官方网站:https://letsencrypt.org/
项目主页:https://github.com/letsencrypt/letsencrypt

2.安装Let's Encrypt脚本依赖环境:(这一部分可以跳过,因为官方提供的Let's Encrypt脚本会自动检测并安装)

二、获取Let's Encrypt免费SSL证书


1.获取Let's Encrypt免费SSL证书很简单,你只需要执行以下命令,就会自动在你的VPS上生成SSL证书和私钥。

如果只想生成证书,则最后一句使用如下命令(貌似我目前只能用下面的命令,用上面的命令会报错):

2.执行上述命令后,会弹出对话框,同意用户协议。

3.接着会提示让你关闭Nginx或者Apache。

4.Let's Encrypt需要用到80和443端口,所以你需要关闭那些占用这两个端口的应用。

5.当你看以下内容时,就表明你的Let's Encrypt免费SSL证书获取成功了。

注意: 目前阿里云的服务器域名解析不支持DNS Certification Authority Authorization (CAA) Resource Record,导致在进行签名的时候返回如下错误信息:

目前还没有解决方法,具体的讨论参考 DNS query timeout #1610

目前根据提交给阿里云的工单,今天2016年1月26日已经正式支持了Let's Encrypt,目前验证,一切正常了。

三、证书续期


Let's Encrypt有多种方法来验证你是否是域名的所有人,而acme-tiny这个小工具用的是最简单的方法,也就是利用http文件验证。
简单来说,就是生成一个验证文件,放在http://www.mobibrw.com/.well-known/acme-challenge/下,Let's Encrypt官方验证这个文件是否存在、内容是否正确。如果一切正确,说明域名是你所有。因此我们下面的脚本中会出现创建,删除.well-known/acme-challenge/这个目录的动作。

1.生成证书自动化请求脚本

里面内容如下:

2.赋予脚本执行权限

3.脚本添加到计划任务,每隔60天执行一次

在文件的最后增加

4.查看是否添加成功

5.重启cron服务

四、需要注意的问题


目前(2022/02/27)最新的1.23.0版本,在生成/更新证书的时候,会提示用户是否全站都迁移到HTTPS。如果不小心同意了这个选项,对于Apache服务器来说,会在配置文件中增加如下内容:

这个配置会覆盖我们在网站目录下的HTTPS相关设置(.htaccess),如果我们配置网站某个目录下的文件可以不通过HTTPS进行访问,那么需要手工移除这些自动生成的配置信息,然后重启Apache服务。

参考链接


Android Studio 1.5.1 配置编译NDK参考文档

Android Studio 1.5.1上面对于NDK的编译进一步简化,只需要在工程的defaultConfig设置中增加如下配置就可以了:

新建的工程中的app目录下的build.gradle中的内容如下:

修改后的配置文件如下:

然后在app->src->main目录下创建jni目录就可以了。

如果此时提示:

则在修改工程目录下的gradle.properties,在文件中新建一行,添加如下:

注意,还需要在local.properties设置NDK的路径

默认情况下,build.gradle中的代码是不能进行调试的,需要增加两个配置项:

修改后的配置文件如下:

一般在debug项中增加提示即可,如果想在release中也支持Debug的话,上面两句话在release中增加即可。修改后的结果如下:

解决WordPress标题中数字英文字符串不能自动换行的问题

在发表文章的时候,如果标题中有长串的数字和英文字符,例如文件的路径、注册表路径、下载地址等,通常不能自动换行,从而造成溢出的部分要么延伸到侧边栏中,要么被隐藏,这都是不正常的。如下图所示:
TitleTooLong

解决这个问题的方法就是要在CSS样式表中加入换行控制代码。

操作方法如下:

1.用FireFox中的Firebug查看页面中标题的源代码
EntryTitleSrc
可以看到,Title部分的标题的源代码对应的是entry-title,字体大小为h2

2.修改对应主题的样式表(style.css),以Twenty Fifteen为例,在外观->编辑->style.css,源代码中搜索entry-title可以发现比较多,如下两处:

我们增加word-wrap:break-word;word-break:break-all;告诉浏览器标题超长之后,主动换行,修改后的结果如下所示:

如此修改之后,如果使用了WP Super Cache,则需要刷新缓存,如果没有使用WP Super Cache则直接刷新页面就可以了。

修改后的页面如下所示:

word_wrap_break_word

注意,只设置word-wrap:break-word;就可以满足需求,建议同时设置word-break:break-all;,效果会更好一些。

对于手机端来说,标题是h1大小的。使用Chrome查看手机端的网页的源代码是view-source:www.mobibrw.com就可以看到手机网页的源代码了。