# analysis **Repository Path**: ouyangxianglong_admin/analysis ## Basic Information - **Project Name**: analysis - **Description**: phpAnalysis中文分词2.0版本 - **Primary Language**: PHP - **License**: Not specified - **Default Branch**: master - **Homepage**: http://www.webstr.top - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2023-07-24 - **Last Updated**: 2023-07-24 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README PHPAnalysis2.0 php中文无组件分词 =========================== 一、特征 --------------------------
1、在analysis基础上修改分词算法
2、重构文件结构,支持composer
3、优化分词步骤(粗分、切分、优化三步完全独立)
4、优化词性标注,新增更多类别的词性
5、新增基于TF-IDF的权重排序
6、支持类成员链式调用,即是 xx()->xx()->xx() 模式
二、demo ------------------------
use Analysis\Analysis;
$pa = Analysis::Instance()
        ->setSource("PHPAnalysis 2.0 的出现真是让人们眼前一亮,中文分词从此也可以变成了一件很好玩的事情。")
        ->setDifferMax(false)    //最大切分
        ->setDifferFreq(true)    //二元消歧
        ->setUnitWord(true)      //单字合并
        ->setOriginSave(false)   //保留合并
        ->setDeep(true)          //深度分词
        ->setOptimize(true)      //优化分词
        ->start();               //开始分析

当前,也可以使用默认参数,上面代码就可以简化为:
$pa = Analysis::Instance()
        ->SetSource("PHPAnalysis 2.0 的出现真是让人们眼前一亮,中文分词从此也可以变成了一件很好玩的事情。")
        ->start();
三、支持方法 ------------------------ * 获取粗分分词
$pa->getSimple($isWord = false)
* 获取深度分词
$pa->getDeep()
* 获取优化后的分词
$pa->getResult($hasProperty = false)
* 获取排序后的分词
/*
* @param $sort	tf:词频, rank:TF-IDF评分, count:次数
* @param $num 数量, 0 or null返回全部
*/
$pa->getRanks($sort='rank', $num=0)
* 获取新词
$pa->getNewWords()
* 编译词典
$pa->makeDict($sourceFile, $dicHand='main')
* 反编译词典
$pa->exportDict($sourceFile='', $dicHand='main')
```