LangSegment：多语言(97种语言)的混合文本自动分词工具

2025-07-27 15:15:07

LangSegment：多语言(97种语言)的混合文本自动分词工具项目简介它是一个强大的多语言（97种语言）的混合文本自动分词工具。[中日英韩：已测试] 主要用途：它非常适合各种 TTS 语音合成项目，多语种混合文本的前端推理，和预处理后端训练。它基于 pylangid 的扩展实现（>=python.6）。 LangSegment It is a multi-lingual

LangSegment：多语言(97种语言)的混合文本自动分词工具

项目简介

它是一个强大的多语言（97种语言）的混合文本自动分词工具。[中日英韩：已测试] 主要用途：它非常适合各种 TTS 语音合成项目，多语种混合文本的前端推理，和预处理后端训练。它基于 pylangid 的扩展实现（>=python.6）。 LangSegment It is a multi-lingual (97 languages) text content automatic recognition and segmentation tool. The main purposes are: front-end for various TTS (Text-to-Speech) synthesis projects, preprocessing of multilingual text mixing for both training and inference.

Implementation based on pylangid，See LICESE file for more info.

功能：将文章或句子里的例如（中/英/日/韩），按不同语言自动识别分词，使文本更适合AI处理。本代码专为各种 TTS 项目的前端文本多语种混合标注区分，多语言混合训练和推理而编写。

完全可控：支持

（1）自动分词：“韩语中的오빠读什么呢？あなたの体育の先生は誰ですか? 此次带来了四款iPhone 15系列机型”
（2）手动分词：“你的名字叫佐々木？吗？”

语言标签：支持

分词语言标签：它和html类似，它需要成对出现内容或者内容。本处理结果主要针对（中文=zh , 日文=ja , 英文=en , 韩语=ko）, 实际上可支持多达 97 种不同的语言混合处理。

安装方法：Install (推荐使用官方源)代码语言：javascript代码运行次数：0运行复制

# 首次安装：官方源（推荐）
pip install LangSegment -i  
# 后续版本升级或更新：
pip install LangSegment -i   --upgrade


# 或者，国内镜像（国内镜像同步慢几天，可能会导致您无法极时获得最新版本！！！）：
# pip install LangSegment -i

使用示例：Example Input

示例中的句子，同时包含中日英韩4种语言，接下来将对它们按不同语种进行分词，以方便各种TTS项目进行语音合成。

代码语言：javascript代码运行次数：0运行复制

# pip install LangSegment -i  
    import LangSegment


    # input text example 示例：
    text = "你的名字叫<ja>佐々木？<ja>吗？韩语中的오빠读什么呢？あなたの体育の先生は\
    誰ですか? 此次发布会带来了四款iPhone 15系列机型\
    和三款Apple Watch等一系列新品，这次的iPad Air采用了LCD屏幕" 


    # example
    langlist = LangSegment.getTexts(text)


    # output list : {'lang': 'zh', 'text': '...'}
    print("=================================")
    for line in langlist:
        print(line)
    print("=================================")

处理结果：Example Output

综上所述，“自动分词”已经极大的提高了我们的工作效率，但还是建议您对分词结果进行人工校对。特别是中文与日文，存在大量汉字互用，这对自动分词是极具挑战性的，“分词纠错” 解决方案如下：

（1）自动分词纠错：在中文与日文句子之间，打上空格来辅助分词（自动上下文分词）。
（2）手动分词纠错：您可手动添加语言标签,,,等来辅助进行强制分词。

以下是语言标签分词详细示例：

代码语言：javascript代码运行次数：0运行复制

# 手动分词标签的应用示例，例如针对中日汉字有重叠，而需要在 TTS 中混合发音的情况：
    # 分词标签内的文本将识别成日文ja内容，也可以写成<ja>内容</ja>
    text = "你的名字叫<ja>佐々木？<ja>"  
    # 或者：
    text = "你的名字叫<ja>佐々木？</ja>"  
    # 以上均能正确输出：
    # 处理成中文-- {'lang': 'zh', 'text': '你的名字叫'}
    # 处理成日文-- {'lang': 'ja', 'text': '佐々木？'}

自动分词能力目前主要针对中文(zh)/日文(ja)/英文(en)/韩文(ko)，进行了特别优化。它特别适合各种 TTS 前端文本多语种内容的混合分词（自动/手动），训练和推理使用。

代码语言：javascript代码运行次数：0运行复制

# 手动分词标签规范：<语言标签>文本内容</语言标签>
    # ===========================================================================
    # 如需手动标注，标签需要成对出现，如：“<ja>佐々木<ja>”  或者  “<ja>佐々木</ja>”
    # 错误示范：“你的名字叫<ja>佐々木。” 此句子中出现的单个<ja>标签将被忽略，不会处理。
    # ===========================================================================

项目链接

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。原始发表：2024-05-09，如有侵权请联系 cloudcommunity@tencent 删除前端语音合成text工具镜像

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可，转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址：http://www.dnpztj.cn/biancheng/1170215.html

推荐阅读

留言与评论（共有 19 条评论）

本站网友 asf转换	7分钟前发表
这对自动分词是极具挑战性的
本站网友 mic认证	18分钟前发表
等来辅助进行强制分词
本站网友 exp是什么意思	27分钟前发表
原始发表：2024-05-09
本站网友青岛日报	4秒前发表
'zh'
本站网友中山二手房网	6分钟前发表
这对自动分词是极具挑战性的
本站网友家事易	19分钟前发表
进行了特别优化
本站网友固镇论坛	23分钟前发表
” 此句子中出现的单个<ja>标签将被忽略
本站网友看片儿网址	9分钟前发表
训练和推理使用
本站网友 coco奶茶加盟费	25分钟前发表
它基于 pylangid 的扩展实现（>=python.6）
本站网友成都首套房贷利率	23分钟前发表
“分词纠错” 解决方案如下：（1）自动分词纠错：在中文与日文句子之间
本站网友曲池穴	4秒前发表
“自动分词”已经极大的提高了我们的工作效率
本站网友一套护肤品的使用顺序	7分钟前发表
国内镜像（国内镜像同步慢几天
本站网友中关村大街15号	26分钟前发表
“分词纠错” 解决方案如下：（1）自动分词纠错：在中文与日文句子之间
本站网友英大泰和保险	6分钟前发表
{'lang'
本站网友队名口号	12分钟前发表
但还是建议您对分词结果进行人工校对
本站网友上海癫痫专科医院	13分钟前发表
以方便各种TTS项目进行语音合成
本站网友 5月21	5分钟前发表
print(line) print("=================================")处理结果：Example Output 综上所述
本站网友微星驱动	2分钟前发表
和预处理后端训练

LangSegment：多语言(97种语言)的混合文本自动分词工具

LangSegment：多语言(97种语言)的混合文本自动分词工具

Midjourney是一个基于GPT

人工智能、机器学习、深度学习：技术革命的深度解析

人工智能时代，程序员如何保持核心竞争力？

Python爬虫图片：从入门到精通