# langdetect

**Repository Path**: hl0071/langdetect

## Basic Information

- **Project Name**: langdetect
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-03-05
- **Last Updated**: 2026-03-05

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# langdetect
检测中文,英语,韩文,日文,4种语言的文本

利用不同语言的unicode字符区间不同来进行检测.
因为中日韩使用了相同的汉字,所以区分不一定准确
对每个字符使用正则判断,按匹配的字符数目,判断各种语言字符的占比,占比最高的那个语言就是结果
匹配不到的字符串按照默认语言处理,或者当成未知语言


## 使用方法
把langdetect文件夹拷贝到项目中，参照test.py中的使用
```python
import langdetect

print(langdetect.detect('これから日本語'))
print(langdetect.detect('这个是中文'))

```
输出结果是按照各种语言unicode所占比例排序的列表。
由于日文中的汉字和中文的unicode大部分是通用的，因此无法通过unicode区分日文和中文汉字。
我们可以假设，含有日文假名的就是日文，这样判断一句话是日文还是中文。

```
[['ja', 0.5714285714285714], ['zh', 0.42857142857142855]]
[['zh', 1.0]]
```