# analysis **Repository Path**: ouyangxianglong_admin/analysis ## Basic Information - **Project Name**: analysis - **Description**: phpAnalysis中文分词2.0版本 - **Primary Language**: PHP - **License**: Not specified - **Default Branch**: master - **Homepage**: http://www.webstr.top - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2023-07-24 - **Last Updated**: 2023-07-24 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README PHPAnalysis2.0 php中文无组件分词 =========================== 一、特征 --------------------------
1、在analysis基础上修改分词算法 2、重构文件结构,支持composer 3、优化分词步骤(粗分、切分、优化三步完全独立) 4、优化词性标注,新增更多类别的词性 5、新增基于TF-IDF的权重排序 6、支持类成员链式调用,即是 xx()->xx()->xx() 模式二、demo ------------------------
use Analysis\Analysis;
$pa = Analysis::Instance()
->setSource("PHPAnalysis 2.0 的出现真是让人们眼前一亮,中文分词从此也可以变成了一件很好玩的事情。")
->setDifferMax(false) //最大切分
->setDifferFreq(true) //二元消歧
->setUnitWord(true) //单字合并
->setOriginSave(false) //保留合并
->setDeep(true) //深度分词
->setOptimize(true) //优化分词
->start(); //开始分析
当前,也可以使用默认参数,上面代码就可以简化为:
$pa = Analysis::Instance()
->SetSource("PHPAnalysis 2.0 的出现真是让人们眼前一亮,中文分词从此也可以变成了一件很好玩的事情。")
->start();
三、支持方法
------------------------
* 获取粗分分词
$pa->getSimple($isWord = false)* 获取深度分词
$pa->getDeep()* 获取优化后的分词
$pa->getResult($hasProperty = false)* 获取排序后的分词
/* * @param $sort tf:词频, rank:TF-IDF评分, count:次数 * @param $num 数量, 0 or null返回全部 */ $pa->getRanks($sort='rank', $num=0)* 获取新词
$pa->getNewWords()* 编译词典
$pa->makeDict($sourceFile, $dicHand='main')* 反编译词典
$pa->exportDict($sourceFile='', $dicHand='main')```