LangSegment:多语言(97种语言)的混合文本自动分词工具
LangSegment:多语言(97种语言)的混合文本自动分词工具
它是一个强大的多语言(97种语言)的混合文本自动分词工具。[中日英韩:已测试] 主要用途:它非常适合各种 TTS 语音合成项目,多语种混合文本的前端推理,和预处理后端训练。 它基于 pylangid 的扩展实现(>=python.6)。 LangSegment It is a multi-lingual (97 languages) text content automatic recognition and segmentation tool. The main purposes are: front-end for various TTS (Text-to-Speech) synthesis projects, preprocessing of multilingual text mixing for both training and inference.
Implementation based on pylangid,See LICESE file for more info.
功能:将文章或句子里的例如(中/英/日/韩),按不同语言自动识别分词,使文本更适合AI处理。 本代码专为各种 TTS 项目的前端文本多语种混合标注区分,多语言混合训练和推理而编写。
- (1)自动分词:“韩语中的오빠读什么呢?あなたの体育の先生は誰ですか? 此次带来了四款iPhone 15系列机型”
- (2)手动分词:“你的名字叫佐々木?吗?”
分词语言标签:它和html类似,它需要成对出现 内容 或者 内容。 本处理结果主要针对(中文=zh , 日文=ja , 英文=en , 韩语=ko), 实际上可支持多达 97 种不同的语言混合处理。
# 首次安装:官方源(推荐)
pip install LangSegment -i
# 后续版本升级或更新:
pip install LangSegment -i --upgrade
# 或者,国内镜像(国内镜像同步慢几天,可能会导致您无法极时获得最新版本!!!):
# pip install LangSegment -i
代码语言:javascript代码运行次数:0运行复制示例中的句子,同时包含中日英韩4种语言,接下来将对它们按不同语种进行分词,以方便各种TTS项目进行语音合成。
# pip install LangSegment -i
import LangSegment
# input text example 示例:
text = "你的名字叫<ja>佐々木?<ja>吗?韩语中的오빠读什么呢?あなたの体育の先生は\
誰ですか? 此次发布会带来了四款iPhone 15系列机型\
和三款Apple Watch等一系列新品,这次的iPad Air采用了LCD屏幕"
# example
langlist = LangSegment.getTexts(text)
# output list : {'lang': 'zh', 'text': '...'}
print("=================================")
for line in langlist:
print(line)
print("=================================")
综上所述,“自动分词”已经极大的提高了我们的工作效率,但还是建议您对分词结果进行人工校对。 特别是中文与日文,存在大量汉字互用,这对自动分词是极具挑战性的,“分词纠错” 解决方案如下:
- (1)自动分词纠错:在中文与日文句子之间,打上空格来辅助分词(自动上下文分词)。
- (2)手动分词纠错:您可手动添加语言标签,,,等来辅助进行强制分词。
以下是语言标签分词详细示例:
代码语言:javascript代码运行次数:0运行复制# 手动分词标签的应用示例,例如针对中日汉字有重叠,而需要在 TTS 中混合发音的情况:
# 分词标签内的文本将识别成日文ja内容,也可以写成<ja>内容</ja>
text = "你的名字叫<ja>佐々木?<ja>"
# 或者:
text = "你的名字叫<ja>佐々木?</ja>"
# 以上均能正确输出:
# 处理成中文-- {'lang': 'zh', 'text': '你的名字叫'}
# 处理成日文-- {'lang': 'ja', 'text': '佐々木?'}
自动分词能力目前主要针对中文(zh)/日文(ja)/英文(en)/韩文(ko),进行了特别优化。 它特别适合各种 TTS 前端文本多语种内容的混合分词(自动/手动),训练和推理使用。
代码语言:javascript代码运行次数:0运行复制# 手动分词标签规范:<语言标签>文本内容</语言标签>
# ===========================================================================
# 如需手动标注,标签需要成对出现,如:“<ja>佐々木<ja>” 或者 “<ja>佐々木</ja>”
# 错误示范:“你的名字叫<ja>佐々木。” 此句子中出现的单个<ja>标签将被忽略,不会处理。
# ===========================================================================
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。 原始发表:2024-05-09,如有侵权请联系 cloudcommunity@tencent 删除前端语音合成text工具镜像
#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
推荐阅读
留言与评论(共有 19 条评论) |
本站网友 asf转换 | 7分钟前 发表 |
这对自动分词是极具挑战性的 | |
本站网友 mic认证 | 18分钟前 发表 |
等来辅助进行强制分词 | |
本站网友 exp是什么意思 | 27分钟前 发表 |
原始发表:2024-05-09 | |
本站网友 青岛日报 | 4秒前 发表 |
'zh' | |
本站网友 中山二手房网 | 6分钟前 发表 |
这对自动分词是极具挑战性的 | |
本站网友 家事易 | 19分钟前 发表 |
进行了特别优化 | |
本站网友 固镇论坛 | 23分钟前 发表 |
” 此句子中出现的单个<ja>标签将被忽略 | |
本站网友 看片儿网址 | 9分钟前 发表 |
训练和推理使用 | |
本站网友 coco奶茶加盟费 | 25分钟前 发表 |
它基于 pylangid 的扩展实现(>=python.6) | |
本站网友 成都首套房贷利率 | 23分钟前 发表 |
“分词纠错” 解决方案如下: (1)自动分词纠错:在中文与日文句子之间 | |
本站网友 曲池穴 | 4秒前 发表 |
“自动分词”已经极大的提高了我们的工作效率 | |
本站网友 一套护肤品的使用顺序 | 7分钟前 发表 |
国内镜像(国内镜像同步慢几天 | |
本站网友 中关村大街15号 | 26分钟前 发表 |
“分词纠错” 解决方案如下: (1)自动分词纠错:在中文与日文句子之间 | |
本站网友 英大泰和保险 | 6分钟前 发表 |
{'lang' | |
本站网友 队名口号 | 12分钟前 发表 |
但还是建议您对分词结果进行人工校对 | |
本站网友 上海癫痫专科医院 | 13分钟前 发表 |
以方便各种TTS项目进行语音合成 | |
本站网友 5月21 | 5分钟前 发表 |
print(line) print("=================================")处理结果:Example Output 综上所述 | |
本站网友 微星驱动 | 2分钟前 发表 |
和预处理后端训练 |