# langdetect **Repository Path**: hl0071/langdetect ## Basic Information - **Project Name**: langdetect - **Description**: No description available - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-05 - **Last Updated**: 2026-03-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # langdetect 检测中文,英语,韩文,日文,4种语言的文本 利用不同语言的unicode字符区间不同来进行检测. 因为中日韩使用了相同的汉字,所以区分不一定准确 对每个字符使用正则判断,按匹配的字符数目,判断各种语言字符的占比,占比最高的那个语言就是结果 匹配不到的字符串按照默认语言处理,或者当成未知语言 ## 使用方法 把langdetect文件夹拷贝到项目中,参照test.py中的使用 ```python import langdetect print(langdetect.detect('これから日本語')) print(langdetect.detect('这个是中文')) ``` 输出结果是按照各种语言unicode所占比例排序的列表。 由于日文中的汉字和中文的unicode大部分是通用的,因此无法通过unicode区分日文和中文汉字。 我们可以假设,含有日文假名的就是日文,这样判断一句话是日文还是中文。 ``` [['ja', 0.5714285714285714], ['zh', 0.42857142857142855]] [['zh', 1.0]] ```