深海游弋的鱼 – 默默的点滴

word2vec是Google于2013年开源推出的一个用于获取词向量的工具包，关于它的介绍，可以先看词向量工具word2vec的学习。

获取和处理中文语料

维基百科的中文语料库质量高、领域广泛而且开放，非常适合作为语料用来训练。相关链接：

有了语料后我们需要将其提取出来，因为wiki百科中的数据是以XML格式组织起来的，所以我们需要寻求些方法。查询之后发现有两种主要的方式：gensim的wikicorpus库，以及wikipedia Extractor。

WikiExtractor

Wikipedia Extractor是一个用Python写的维基百科抽取器，使用非常方便。下载之后直接使用这条命令即可完成抽取，运行时间很快。执行以下命令。

相关说明：

-b 2048M表示的是以128M为单位进行切分，默认是1M。
extracted：需要将提取的文件存放的路径；
zhwiki-latest-pages-articles.xml.bz2：需要进行提取的.bz2文件的路径

二次处理：

通过Wikipedia Extractor处理时会将一些特殊标记的内容去除了，但有时这些并不影响我们的使用场景，所以只要把抽取出来的标签和一些空括号、「」、『』、空书名号等去除掉即可。

import re
import sys
import codecs
 
 
def filte(input_file):
    p1 = re.compile('[（\(][，；。？！\s]*[）\)]')
    p2 = re.compile('《》')
    p3 = re.compile('「')
    p4 = re.compile('」')
    p5 = re.compile('<doc (.*)>')
    p6 = re.compile('</doc>')
    p7 = re.compile('『』')
    p8 = re.compile('『')
    p9 = re.compile('』')
    p10 = re.compile('-\{.*?(zh-hans|zh-cn):([^;]*?)(;.*?)?\}-')
    outfile = codecs.open('std_' + input_file, 'w', 'utf-8')
    with codecs.open(input_file, 'r', 'utf-8') as myfile:
        for line in myfile:
            line = p1.sub('', line)
            line = p2.sub('', line)
            line = p3.sub('“', line)
            line = p4.sub('”', line)
            line = p5.sub('', line)
            line = p6.sub('', line)
            line = p7.sub('', line)
            line = p8.sub('“', line)
            line = p9.sub('”', line)
            line = p10.sub('', line)
            outfile.write(line)
    outfile.close()
 
 
if __name__ == '__main__':
    input_file = sys.argv[1]
    filte(input_file)

import re

import sys

import codecs

def filte(input_file):

p1 = re.compile('[（$][，；。？！\s]*[）$]')

p2 = re.compile('《》')

p3 = re.compile('「')

p4 = re.compile('」')

p5 = re.compile('<doc (.*)>')

p6 = re.compile('</doc>')

p7 = re.compile('『』')

p8 = re.compile('『')

p9 = re.compile('』')

p10 = re.compile('-\{.*?(zh-hans|zh-cn):([^;]*?)(;.*?)?\}-')

outfile = codecs.open('std_' + input_file, 'w', 'utf-8')

with codecs.open(input_file, 'r', 'utf-8') as myfile:

for line in myfile:

line = p1.sub('', line)

line = p2.sub('', line)

line = p3.sub('“', line)

line = p4.sub('”', line)

line = p5.sub('', line)

line = p6.sub('', line)

line = p7.sub('', line)

line = p8.sub('“', line)

line = p9.sub('”', line)

line = p10.sub('', line)

outfile.write(line)

outfile.close()

if __name__ == '__main__':

input_file = sys.argv[1]

filte(input_file)

保存后执行 python filte.py wiki_00 即可进行二次处理。

gensim的wikicorpus库

转化程序：

# -*- coding: utf-8 -*-
from gensim.corpora import WikiCorpus
import os
 
 
class Config:
    data_path = '/home/qw/CodeHub/Word2Vec/zhwiki'
    zhwiki_bz2 = 'zhwiki-latest-pages-articles.xml.bz2'
    zhwiki_raw = 'zhwiki_raw.txt'
 
 
def data_process(_config):
    i = 0
    output = open(os.path.join(_config.data_path, _config.zhwiki_raw), 'w')
    wiki = WikiCorpus(os.path.join(_config.data_path, _config.zhwiki_bz2), lemmatize=False, dictionary={})
    for text in wiki.get_texts():
        output.write(' '.join(text) + '\n')
        i += 1
        if i % 10000 == 0:
            print('Saved ' + str(i) + ' articles')
    output.close()
    print('Finished Saved ' + str(i) + ' articles')
 
 
config = Config()
data_process(config)

# -*- coding: utf-8 -*-

from gensim.corpora import WikiCorpus

import os

class Config:

data_path = '/home/qw/CodeHub/Word2Vec/zhwiki'

zhwiki_bz2 = 'zhwiki-latest-pages-articles.xml.bz2'

zhwiki_raw = 'zhwiki_raw.txt'

def data_process(_config):

i = 0

output = open(os.path.join(_config.data_path, _config.zhwiki_raw), 'w')

wiki = WikiCorpus(os.path.join(_config.data_path, _config.zhwiki_bz2), lemmatize=False, dictionary={})

for text in wiki.get_texts():

output.write(' '.join(text) + '\n')

i += 1

if i % 10000 == 0:

print('Saved ' + str(i) + ' articles')

output.close()

print('Finished Saved ' + str(i) + ' articles')

config = Config()

data_process(config)

化繁为简

维基百科的中文数据是繁简混杂的，里面包含大陆简体、台湾繁体、港澳繁体等多种不同的数据。有时候在一篇文章的不同段落间也会使用不同的繁简字。这里使用opencc来进行转换。

$ opencc -i zhwiki_raw.txt -o zhswiki_raw.txt -c t2s.json

1	$ opencc -i zhwiki_raw.txt -o zhswiki_raw.txt -c t2s.json

中文分词

这里直接使用jieba分词的命令行进行处理：

$ python -m jieba -d " " ./zhswiki_raw.txt >./zhswiki_cut.txt

1	$ python -m jieba -d " " ./zhswiki_raw.txt >./zhswiki_cut.txt

转换成 utf-8 格式

非 UTF-8 字符会被删除

$ iconv -c -t UTF-8 -o zhwiki.utf8.txt zhwiki.zhs.txt

1	$ iconv -c -t UTF-8 -o zhwiki.utf8.txt zhwiki.zhs.txt

参考链接：https://github.com/lzhenboy/word2vec-Chinese

继续阅读使用word2vec训练中文维基百科

分析主要是通过它的控制链、控制流向，View 的变化如何反馈到Model，以及Model的变化如何作用到View上。

MVC

View 持有了Controller，把事件传递给Controller，Controller 由此去触发Model层的事件，Model更新完数据（网络或者本地数据）之后触发View的更新事件

MVP

咋看一下MVP只是MVC的变更版，把C层替换成了P层，实则不是这样的，最根本的是添加了Presenter层。

MVP其实是MVC的封装和演化，Controller被拆分，只用它处理View的点击事件，数据绑定，等处理，而View被拆分，更加专注于视图的更新，只做跟视图相关的操作，而Presenter被独立出来，用于沟通View和Model之间的联系，Model不能直接作用于View 的更新，只能通过Presenter来通知View进行视图的刷新，比如showLoading（），showEmpty()，showToast（）等等，这样View就完全被独立出来了，只是被动接受Presenter的命令，这样避免了View 有过多的逻辑处理，更加简单。Presenter持有了Model。Model 只用于处理跟数据获取相关的逻辑。

MVVM

又称状态机制，View和ViewModel 是进行绑定的，改变ViewModel 就会直接作用到View视图上，而View 会把事件传递给ViewModel,ViewModel去对Model进行操作并接受更新。

MVPVM

可以看到MVPVM 其实就是MVP的变种，加入了MVVM事件特性，增加了ViewModel，功能分类：
View：只做视图更新操作
Model: 只做数据处理，网络数据、本地数据
Presenter: 只做业务逻辑处理，View或者Model 事件分发
ViewModel: 绑定View 和 Model，添加数据变更监视器

Android官方给出的例子参考 todo-mvvm-databinding，todo-mvp。

参考链接

MVC、MVP、MVVM、MVPVM区别

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

日期: 2020 年 1 月 14 日

使用word2vec训练中文维基百科

获取和处理中文语料

MVC/MVP/MVVM/MVPVM区别

MVC

MVP

MVVM

MVPVM

参考链接