中文分词和TF-IDF_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

中文分词和TF-IDF

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。

TF-IDF（term frequency–inverse document frequency）是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广泛的应用。

TF-IDF的主要思想是，如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是：如果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。

使用TF*IDF可以计算某个关键字在某篇文章里面的重要性，因而识别这篇文章的主要含义，实现计算机读懂文章的功能。

常见中文分词开源项目：

SCWS：

Hightman开发的一套基于词频词典的机械中文分词引擎，它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词，经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒，大概是1.5MB文本/秒，支持PHP4和PHP 5。

ICTCLAS：

这可是最早的中文开源分词项目之一，ICTCLAS在国内973专家组组织的评测中活动获得了第一名，在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s，分词精度98.45%，API不超过200KB，各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写，支持Linux、FreeBSD及Windows系列操作系统，支持C/C++、C#、Delphi、Java等主流的开发语言。

HTTPCWS：

HTTPCWS 是一款基于HTTP协议的开源中文分词系统，目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理，得出分词结果。HTTPCWS 将取代之前的 PHPCWS 中文分词扩展。

庖丁解牛分词：

Java 提供lucence 接口，仅支持Java语言。

CC-CEDICT：

一个中文词典开源项目，提供一份以汉语拼音为中文辅助的汉英辞典，截至2009年2月8日，已收录82712个单词。其词典可以用于中文分词使用，而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。

基于VB/ASP的中文分词

上面的开源项目没有给予VB和ASP的，这里提供一个简单的VB/ASP类，加上词典之后就可以进行分词了，注意这个类只供演示，其分词速度极慢不适合实际应用。

类名为：WordSplit

Private rootTable As String

Private Function GetCount(ByVal s As String) As Long

GetCount = InStr(1, rootTable, s)

End Function

Public Function WordCount(ByVal strString As String, ByVal strGetWord As String) As Long

Dim k

k = Split(strString, strGetWord)

WordCount = UBound(k)

End Function

' 分析输入的字符串，将其切割成一个个的词语。

' <param name="s">待切割的字符串</param>

' <returns>所切割得到的中文词语数组</returns>

Public Function ParseChinese(ByVal s As String, ByVal separator As String) As String

Dim lngLength As Long

Dim strTemp As String

Dim ArrayList As String

Dim i, j

ArrayList = ""

lngLength = Len(s)

i = 1

While i < lngLength

strTemp = Mid(s, i, 1)

If GetCount(strTemp) > 1 Then

j = 2

While i + j < lngLength + 1 And GetCount(Mid(s, i, j)) > 0

j = j + 1

Wend

strTemp = Mid(s, i, j - 1)

i = i + j - 2

End If

i = i + 1

'WordAdd (temp)

ArrayList = ArrayList + strTemp + separator

Wend

ParseChinese = ArrayList

End Function

Private Sub Class_Initialize()

Dim fso, templetfile, txtfile

templetfile = App.Path + "\ChineseDictionary.txt"

Set fso = CreateObject("Scripting.FileSystemObject")

Set txtfile = fso.OpenTextFile(templetfile, 1)

rootTable = txtfile.ReadAll

txtfile.Close

End Sub

调用示例：

strInput = "中文分词指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。"

Dim strWordSplit As New WordSplit

strSubject = strWordSplit.ParseChinese(strInput, "|")

arrSubject = Split(strSubject, "|")

来源：月光博客

Public @ 2016-02-22 16:12:36

百度搜索引擎工作原理-2-抓取建库

Spider抓取系统的基本框架互联网信息爆发式增长，如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游，主要负责互联网信息的搜集、保存、更新环节，它像蜘蛛一样在网络间爬来爬去，因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为：Baiduspdier、Googlebot、Sogou Web Spider等。Spider抓取系统是搜索

Public @ 2022-09-10 16:21:47

搜索引擎工作原理

基本流程抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫（Spider）。爬虫顺着网页中的超链接，从这个网站爬到另一个网站，通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。处理网页。搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引库和索

Public @ 2015-11-08 16:21:49

中文分词和TF-IDF

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。TF-IDF（term frequency–inverse document frequency）是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广泛的应用。TF-

Public @ 2016-02-22 16:12:36

Categories

Tags