WenetSpeech-Yue:大规模粤语语音语料库

论文题目:WenetSpeech-Yue: A Large-scale Cantonese Speech Corpus with Multi-dimensional Annotation

  • 论文预印版:https://arxiv.org/abs/2509.03959
  • 仓库地址:https://github.com/ASLP-lab/WenetSpeech-Yue
  • Demo展示:https://aslp-lab.github.io/WenetSpeech-Yue/
  • WenetSpeech-Yue数据集地址:https://huggingface.co/datasets/ASLP-lab/WenetSpeech-Yue
  • WSYue-ASR-eval: https://huggingface.co/datasets/ASLP-lab/WSYue-ASR-eval
  • WSYue-TTS-eval: https://huggingface.co/datasets/ASLP-lab/WSYue-TTS-eval
  • ASR模型地址:https://huggingface.co/ASLP-lab/WSYue-ASR
  • TTS模型地址:https://huggingface.co/ASLP-lab/WSYue-TTS

背景动机

语音理解与生成的飞速发展离不开大规模高质量语音数据集的推动。其中,语音识别(ASR)和语音合成(TTS)被公认为最首要的任务。但对于拥有约 8490 万母语使用者的粤语而言,受限于标注资源匮乏,研究进展缓慢,ASR 与 TTS 的表现始终不尽如人意。现有公开的粤语语料库在规模、风格和标注维度上普遍存在不足。例如 Common Voice 和 MDCC 等项目过度依赖人工标注,仅能提供小规模数据;评测集大多局限于短句,缺乏对复杂语言现象的覆盖。同时,这些语料往往只提供语音-文本对齐信息,缺乏说话人属性或声学质量等元数据,极大限制了其在自监督学习、风格建模和多任务训练中的应用,导致主流 ASR 与 TTS 系统在粤语任务上表现欠佳,并在真实场景中泛化能力不足。

为解决上述问题,西北工业大学音频语音与语言处理研究组(ASLP@NPU)联合中国电信人工智能研究院、希尔贝壳、香港科技大学和Wenet开源社区,提出了 WenetSpeech-Pipe ——一个面向语音理解与生成、支持多维度标注的大规模语音语料构建一体化流程。该流程包含六个模块:音频采集、说话人属性标注、语音质量标注、自动语音识别、文本后处理与识别结果投票,能够生成丰富且高质量的标注。基于该流程,构建并发布了 WenetSpeech-Yue ——首个大规模粤语多维标注语音语料库,涵盖 21800 小时、10 大领域的粤语语音数据,并包含 ASR 转录、文本置信度、说话人身份、年龄、性别、语音质量评分等多种标注信息。同时,我们还发布了 WSYue-eval,这是一个全面的粤语评测基准,包含两个部分:WSYue-ASR-eval(人工标注集,用于评测短句/长句、粤英转换及多样声学条件下的 ASR 性能),以及 WSYue-TTS-eval(基础与覆盖子集,用于标准测试与泛化能力测试)。实验结果表明,基于 WenetSpeech-Yue 训练的模型在粤语 ASR 与 TTS 任务中表现优异,性能超越最先进(SOTA)的系统,并与商业系统相媲美,凸显了该数据集与流程的重要价值。

WenetSpeech-Pipe

 WenetSpeech-Pipe 框架如图 所示,由六个模块组成:(A) 音频采集,(B) 说话人属性标注,(C) 语音质量标注,(D) 自动语音识别,(E) 文本后处理,以及 (F) 识别结果投票。

音频采集: WenetSpeech-Pipe 首先从多个领域(如故事、影视、评论、Vlog、美食、娱乐、新闻和教育)大规模采集真实语音数据。由于原始录音多为几十分钟至数小时的长音频,不适合直接用于模型训练或对齐,因此系统通过语音活动检测(VAD)自动切分为短音频片段,从而生成可用于转写和质量评估的语句级数据,为后续处理奠定基础。

说话人属性标注:为了丰富数据集,使其具备多说话人建模和风格感知合成所需的说话人级别元数据,WenetSpeech-Pipe 引入了 说话人属性标注阶段。首先,利用 pyannote 工具包 进行说话人分离,为同一录音中的短片段分配局部说话人标签,实现录音内的说话人区分
其次,利用 Vox-Profile对每个片段的说话人进行年龄和性别估计,从而生成说话人属性注释。该流程最终得到带有说话人身份、年龄和性别信息的语句级片段,形成多维度的元数据,有助于监督建模和可控风格的语音建模

语音质量标注:WenetSpeech-Pipe 在语音质量评估阶段结合三种方法:Brouhaha 计算信噪比、DNSMOS 预测主观质量分、带宽检测分析频谱特性,从而为每个片段生成包含 SNR、MOS 与频谱参考的结构化质量标注,支撑高保真语音建模。

ps:关于 Brouhaha: multi-task training for voice activity detection, speech-to-noise ratio, and C50 room acoustics estimation:
代码:https://github.com/marianne-m/brouhaha-vad
给定一个音频片段,Brouhaha 可以提取:语音/非语音片段,语音噪声比 (SNR),C50,测量环境混响程度。

DNSMOS:基于多阶段自我学习(multi-stage self-teaching) 的无参考感知客观指标:DNSMOS,用来评估噪声抑制模型的语音质量。基于 CNN;输入为语音频谱;训练以人类主观评分为目标,采用自我学习提升性能.

自动语音识别:单一 ASR 系统通常会因架构限制、训练数据不足或领域不匹配而表现出系统性偏差和错误模式。为了缓解这些问题并提升转写可靠性,WenetSpeech-Pipe 采用 多系统集成识别 方法,结合不同的识别范式。具体来说,每个音频片段会被 独立输入到三个高性能粤语 ASR 系统:开源模型 SenseVoice、Whisper,以及商用系统 TeleASR。这些系统在架构、训练数据和优化目标上各不相同,因此能够形成互补的错误分布和多样的语言假设。最终输出为每条语句的三份并行转写,作为后续融合与优化的基础输入。

文本后处理:WenetSpeech-Pipe 通过文本后处理统一多系统转写结果:使用 OpenCC 繁转简,去除符号与标签,规范数字和日期格式,并在中英文间加空格。这样生成的规范化转写确保 ROVER 融合时不会受表层差异干扰。

  • 使用 OpenCC 将繁体字统一转换为简体字
  • 去除所有标点和特殊符号
  • 基于规则重写统一数字与日期表达
  • 在粤语与英语单词之间插入空格,便于双语建模。

经过上述步骤,系统获得了跨三套 ASR 的标准化转写,作为 ROVER 模块的鲁棒输入,避免表层差异干扰语音与词汇层面对齐。

为了确保不同 ASR 系统之间的转写格式一致,我们提出了一个集成的文本后处理框架,包含四个关键操作:

  1. 标点去除:通过正则表达式匹配,删除符号类字符
  2. 繁转简:利用 OpenCC 库实现繁体到简体的转换;
  3. 文本规范化:使用 an2cn 工具进行数字的标准化转换;
  4. 合理分词:借助 Pangu 工具实现恰当的词间空格。

这四个步骤共同作用,能够在不同 ASR 系统输出存在差异的情况下,保证生成标准化的文本格式。

识别结果投票:虽然文本后处理统一了转写表层形式,但在词汇选择、分词和音素表示上仍存在差异。为了得到统一且高精度的参考转写,WenetSpeech-Pipe 采用了 ROVER (Recognizer Output Voting Error Reduction) 框架 ,通过多系统投票提升转写精度。

在实现上,标准 ROVER 流水线被扩展以更好地适应粤语:

  • 使用动态规划对三套系统的转写结果进行对齐;
  • 引入候选过滤模块,计算某系统输出与其余两套平均转写的编辑距离,若超过阈值则剔除该系统结果;
  • 在每个对齐位置,选择最常出现的词,并将整体投票频率作为语句级置信度;
  • 并行引入 基于拼音的投票,结合字符级投票,保证音素一致性。

为进一步提高转写准确率,系统引入 大语言模型 Qwen3-4B,在共识输出的基础上进行最小化的上下文感知修正,仅在语法、用词或命名实体方面做必要调整,保持口语内容的完整性。

字级别时间戳对齐:最后,使用预训练声学模型在字符级别上强制对齐修正后的转写与原始音频,从而获得精确的逐字符时间戳支持更精细的语音处理和下游任务

Meta Data Example:

将所有音频的元数据以标准化的 JSON 格式进行存储。核心字段包括:

  • utt_id每个音频片段的唯一标识符)、
  • rover_result来自三个 ASR 转写结果的 ROVER 融合结果)、
  • confidence文本转写的置信度分数)、
  • jyutping_confidence粤语拼音转写的置信度分数)、
  • duration音频时长)。

说话人属性(Speaker attributes)包含参数:speaker_id性别(gender)和年龄(age)。音频质量评估指标包括专业测量项:采样率(sample_rate)DNSMOSSNR。时间戳信息(timestamp)精确记录了起始时间(start)和结束时间(end)。此外,在 meta_info 字段下还扩展了更多元数据,包括:program(节目名称)、region(地理信息)、link(原始内容链接)、以及 domain(领域分类)。

WenetSpeech-Yue

数据集分布

元数据:所有元数据存储在单一 JSON 文件中,字段包括音频路径、时长、文本置信度、说话人身份、信噪比(SNR)、DNSMOS 分数、年龄、性别以及字符级时间戳。这些字段具有可扩展性,未来可进一步加入新的标签。

领域分布:WenetSpeech-Yue 的语料来源大致涵盖十个领域:故事、娱乐、戏剧、文化、Vlog、评论、教育、播客、新闻及其他,具体分布如图2所示。

时长分布:整个语料库共包含 21,800 小时音频,既包括长录音也包括短片段,切分后平均时长为 11.40 秒。

置信度:我们仅保留文本置信度高于 0.6 的标注,并根据confidence区间划分为三类:强标注(confidence> 0.9,6,771.43 小时)、中等标注(0.8 ~ 0.9,10,615.02 小时)和弱标注(0.6 ~ 0.8,4,488.13 小时)。

语音质量:我们评估了语料的音质:DNSMOS 分数范围为 2.0–4.4,SNR 范围为 -5–80 dB,采样率分布为 8,000–32,000 Hz。为确保生成式任务的可用性,我们过滤后仅保留 DNSMOS > 2.5 且 SNR > 25 dB 的样本,共得到约 12,000 小时高质量语音,可用于 TTS、声码器或语音转换等任务。

说话人属性:语料库在性别与年龄上分布不均,以男性为主,尤其集中在中年群体(50.6%),而女性在各年龄段中比例相对较低。

WSYue-eval

为应对粤语的语言特性,我们提出 WSYue-eval,一个同时涵盖 ASR 与 TTS 的综合评测基准,用于全面检验模型在粤语处理上的表现。

ASR 评测集(WSYue-ASR-eval)该测试集经过多轮人工标注,包含转写、情感、年龄、性别等信息,并划分为 短语音(0–10 秒,9.46 小时,2861 位说话人)和 长语音(10–30 秒,1.97 小时,838 位说话人)两个子集,覆盖粤英转换及多领域场景。

TTS 评测集(WSYue-TTS-eval)该基准专为零样本粤语 TTS 设计,包含两个子集:

  • Base:1000 条来自 CommonVoice 的提示-文本对,用于测试日常场景;
  • Coverage:由于 CommonVoice 主要包含日常对话数据,其对不同领域和语言现象的覆盖范围有限。为了解决这个问题, Coverage 子集由人工与 LLM 生成文本组成,覆盖日常、新闻、娱乐、诗歌等多领域,并包含多音字、变调、语码转换、专名、数字等复杂语言现象。

模型训练策略:

模型均采用两阶段训练策略:初始阶段使用混合的中高置信度标签实现快速收敛,之后在高置信度标签上进行微调以最大限度地提高转录准确率。这种设置既降低了训练成本,又直接反映了数据集的质量影响。

分2阶段ASR任务训练效果

阶段 1 在混合置信度数据集上训练,已经能够取得非常具有竞争力的粤语 ASR 性能,而阶段 2 在高置信度数据上进行微调,则在 WSYue-ASR-eval 的两个测试集上都带来了显著提升。这些观察结果验证了高置信度标签是性能提升的主要驱动力。我们认为保留置信度信息至关重要,因为它能够支持灵活的训练策略:高置信度子集可用于主导微调,而低置信度片段经过谨慎利用,则可以在半监督或领域自适应场景下提高模型的鲁棒性

模型效果:

ASR任务:

采用混合错误率(MER)作为评测指标,其中中文按字级、英文按词级计算错误,用于比较基于 WenetSpeech-Yue 训练的模型与各类基线模型的表现。表1的实验结果显示:

  1. 在所有模型规模(small、medium、w/ LLM)下,我们的模型在大多数评测集上表现最佳;
  2. 在小规模模型中,SenseVoice-small-Yue 和 U2pp-Conformer-Yue 均表现优异,其中 SenseVoice-small-Yue 尽管规模较小,却超过了所有基线模型,说明该语料库能显著提升低容量模型的效率;
  3. 在不带 LLM 的组别中,U2pp-Conformer-Yue、Whisper-medium-Yue 和 SenseVoice-small-Yue 均优于大规模基线模型;
  4. 在带 LLM 的组别中,U2pp-Conformer-LLM-Yue 始终达到当前最先进水平。

总体来看,WenetSpeech-Yue 不仅显著提升了整体性能,还能充分释放不同规模模型的潜力,验证了其在传统 ASR 和 LLM 增强型 ASR 中的广泛价值。

TTS任务:

表2的实验结果表明,基于 WenetSpeech-Yue 微调的 Llasa-1B-Yue 和 CosyVoice2-Yue 在客观和主观指标上均显著优于各自的预训练基线:CosyVoice2-Yue 在 MER 和自然度(UTMOSv2)上表现最佳,并取得最高的可懂度(I-MOS),而 Llasa-1B-Yue 则在说话人相似度(S-MOS)和口音自然度(A-MOS)方面领先,体现了更自然的韵律与风格。整体上,两种模型在多维度上均大幅提升了粤语 TTS 的质量,验证了 WenetSpeech-Yue 在推动粤语语音合成方面的有效性。

GigaSpeech 2:三万小时东南亚多语种语音识别开源数据集发布

下载:https://huggingface.co/datasets/speechcolab/gigaspeech2

语言:泰语、印尼语、越南语
GigaSpeech 2 raw:30,000 小时的泰语、印尼语和越南语自动转录语音。
GigaSpeech 2 精炼:泰语 10,000 小时,印尼语和越南语各 6,000 小时。
GigaSpeech 2 DEV 和 TEST:每种语言的 DEV 时间为 10 小时,TEST 时间为 10 小时,由专业人工注释员转录,富有挑战性和现实性。

“Giga”一词源于“gigantic”[“巨大”],互联网上具有海量音频资源,但语音质量良莠不齐,高质量音频文本对数据十分稀缺且标注成本高昂,特别是在小语种领域。GigaSpeech 是一个非常成功的英文开源数据集,以 YouTube 和 Podcast 为音频来源,提供了上万小时的高质量文本标注语音数据集,获得了广泛关注和应用。针对多语言领域仍存在的语音识别性能较差、可用高质量标注数据缺乏等问题,我们提出了利用 in-the-wild 无标注音频,构建高质量大规模语音识别数据集的新范式,制作出面向真实场景的大规模、多领域、多语言的语音识别数据集 GigaSpeech 2基于Gigaspeech 2 数据集训练的语音识别模型在三个东南亚语种(泰语、印尼语、越南语)上达到了媲美商业语音识别服务的性能。我们怀揣着技术应当普惠大众的理念,致力于开源高质量语音识别数据集和模型,促进多语言文化沟通。

GigaSpeech 2 是一个持续扩展的、多领域多语言的大规模语音识别语料库,旨在促进低资源语言语音识别领域的发展和研究。GigaSpeech 2 raw拥有 30000 小时的自动转录音频,涵盖泰语、印尼语、越南语经过多轮精炼和迭代,GigaSpeech 2 refined拥有 10000 小时泰语、6000 小时印尼语、6000 小时越南语。我们也开源了基于 GigaSpeech 2 数据训练的多语种语音识别模型,模型性能达到了商业语音识别服务水平

数据集构建:

GigaSpeech 2 的制作流程也已同步开源,这是一个自动化构建大规模语音识别数据集的流程,面向互联网上的海量无标注音频,自动化地爬取数据、转录、对齐、精炼。这一流程包含利用 Whisper 进行初步转录,使用 TorchAudio 进行强制对齐,经过多维度过滤制作出 GigaSpeech 2 raw。随后,采用改进的 Noisy Student Training (NST) 方法,通过反复迭代精炼伪标签,持续提高标注质量,最终制作出GigaSpeech 2 refined。

GigaSpeech 2 在主题上涵盖了多样化话题领域,包括农业、艺术、商业、气候、文化、经济、教育、娱乐、健康、历史、文学、音乐、政治、两性关系、购物、社会、体育、科技和旅行。同时,在内容形式上涵盖了多种类型,包含声书、解说、讲座、独白、电影电视剧、新闻、访谈、视频博客。

GigaSpeech 2 raw: Automated Crawling and Transcription

音频收集

由于低资源语言中人工标注数据的稀缺性,我们的数据集采集策略仅关注音频内容,而不考虑是否存在或文本配对的质量。这种策略使我们能够收集更广泛范围的音频数据。考虑到低资源语言的资源稀缺性和分布不均,我们有策略地重点爬取 YouTube 频道中的视频,基于两个关键假设:

  1. 优先选择热门频道可以确保一致的领域特征和音频质量
  2. 不同频道之间没有说话人重叠,从而简化后续的数据划分。

数据收集流程首先由人工定义感兴趣的内容类别,所选主题包括:农业、艺术、商业、气候、文化、经济、教育、娱乐、健康、历史、文学、音乐、政治、人际关系、购物、社会、体育、科技和旅游。除了多样的主题外,我们还考虑了不同的内容格式,包括:有声书、评论、讲座、独白、电影、新闻、访谈和 vlog。这种广泛的选择确保了数据集在多个领域的全面性,可支持研究与分析。

在准备好 YouTube 频道列表后,我们使用 yt-dlp 工具下载所有音频文件,格式为 WebM。随后,这些文件被转换为单声道的 WAV 格式,并重采样为 16 kHz 的采样率。


训练 / 开发 / 测试集的划分:为确保各数据集之间没有说话人重叠,我们通过人工方式验证不同频道间无重叠说话人,并将来自不同 YouTube 频道的数据分配至不同的子集。数据集被划分为三个独立的子集:训练集(TRAIN)、开发集(DEV)和测试集(TEST)。

其中,DEV 和 TEST 集各包含 10 小时内容,均由专业人员手动转录,其余部分则分配至训练集。表1展示了这三种语言的数据量分布。更详细的分析见附录B。


使用 Whisper 进行转录:我们使用 OpenAI 的 Whisper large-v3 模型自动转录音频文件。对于每段音频,从中间选择一个 30 秒的片段进行语言识别,仅对与目标语言匹配的音频进行转录。


使用 TorchAudio 进行强制对齐:虽然 Whisper 可生成时间戳,但经过检验发现其精度不足。因此,我们采用了 TorchAudio 中的强制对齐模型【参考多语言数据的强制对齐 CTC 强制对齐 API 教程】,它能为嘈杂的转录文本提供可靠的对齐,支持在 GPU 上高效处理,并能更好地处理较长的音频序列。


文本标准化:对转录文本进行标准化处理,包括:

  • 应用 Unicode NFKC(兼容性分解与合成)规范;
  • 将所有字符转换为大写;
  • 去除标点符号;
  • 将阿拉伯数字映射为对应语言中的文本数字。

多维度过滤:为了排除质量较差的样本,我们在文本和音频两个模态上设计了一系列启发式的过滤规则:

  • 字符集过滤(Charset Filtering):仅保留那些只包含目标语言字符集内字符的片段。
  • 语言置信度过滤(Language Confidence Filtering):使用 fastText 提供的语言识别(LID)模型,根据语言识别的置信度分数进行过滤,仅保留那些置信度高于预设阈值的片段。该方法能有效排除无意义或重复的内容。需要注意的是,基于音频的语言识别在文本转录之前已经完成。
  • 音频时长过滤(Audio Duration Filtering):根据音频时长进行过滤,仅保留长度在预设的最短和最长时间阈值之间的片段。
  • 样本平衡(Balancing):我们对因频道特定内容造成的转录文本重复进行精细控制,同时尽可能保留自然的语言使用模式。

GigaSpeech 2 精炼:迭代标签优化(Iterative Label Refinement)

由于 Whisper 转录的不准确性以及强制对齐边界不精确,部分样本的质量仍然较低。为了解决这个问题,我们设计了一种改进的 神经自监督训练(NST) 方法。如图 1 右下角所示,该方法以一部分质量不佳的伪标签样本为起点训练一个教师模型,并通过迭代方式不断扩展训练集、生成新的伪标签,并对其进行过滤。随后训练一个与教师模型等大或更大的学生模型,使用优化后的伪标签进行训练,并将其作为新的教师模型。

在每次 NST 步骤中,我们引入了 SpecAugmentBypass特征遮盖(feature mask)来注入噪声。其中:

  • Bypass 是一种随机深度机制,它通过学习通道级的标量权重,在模块输入与输出之间进行加权组合;
  • Feature mask 在前馈层和卷积层的隐藏维度上执行 Dropout,但在时间维度上保持共享。

这种有意识地加入噪声的方式,可以使学生模型学习在有噪声扰动下仍能保持与教师模型一致的行为,而教师模型在生成伪标签时则不会受到这些扰动 。

通过这样的迭代过程,数据质量将逐步得到提升。详细的算法步骤见附录 A 中的算法 1。

数据集组成:

GigaSpeech 2 提供了两个版本的数据集,分别为 raw 和 refined 版本,适用于有监督训练任务。训练集时长详情如下表所示:

GigaSpeech 2 开发集和测试集由海天瑞声的专业人员对语音数据人工标注得到,时长详情如下表所示:

主题和内容分布详情如下图所示,外圈表示主题领域,内圈表示内容形式:

实验结果:

我们将使用 GigaSpeech 2 数据集训练的语音识别模型与业界领先的 OpenAI Whisper (large-v3、large-v2、base)、Meta MMS L1107、Azure Speech CLI 1.37.0 和 Google USM Chirp v2 模型在泰语、印尼语和越南语上进行比较。性能评估基于 GigaSpeech 2、Common Voice 17.0 以及 FLEURS 三个测试集,通过字符错误率(CER)或单词错误率(WER)指标进行评估。结果表明:

1)在泰语上,我们的模型展现出卓越的性能,全面超越了所有竞争对手,包括微软和谷歌商用接口。值得一提的是,我们的模型在达到这一显著成果的同时,参数量仅为 Whisper large-v3 的十分之一。

2)在印尼语和越南语上,我们的系统与现有的基线模型相比表现出具有竞争力的性能。

中文NLP资源库

https://github.com/fighting41love/funNLP

在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。

很多包非常有趣,值得收藏,满足大家的收集癖! 如果觉得有用,请分享并star:star:,谢谢!

长期不定时更新,欢迎watch和fork!:heart::heart::heart:

🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥                  
类ChatGPT的模型评测对比
类ChatGPT的资料
类ChatGPT的开源框架
LLM的训练_推理_低资源_高效训练
提示工程
类ChatGPT的文档问答
类ChatGPT的行业应用
类ChatGPT的课程资料
LLM的安全问题
多模态LLM
LLM的数据集
🍆 🍒 🍐 🍊                  🌻 🍓 🍈 🍅 🍍                    
语料库
词库及词法工具
预训练语言模型
抽取
知识图谱
文本生成
文本摘要
智能问答
文本纠错
文档处理
表格处理
文本匹配
文本数据增强
文本检索
阅读理解
情感分析
常用正则表达式
语音处理
常用正则表达式
事件抽取
机器翻译
数字转换
指代消解
文本聚类
文本分类
知识推理
可解释NLP
文本对抗攻击
文本可视化
文本标注工具
综合工具
有趣搞笑工具
课程报告面试等
比赛
金融NLP
医疗NLP
法律NLP
文本生成图像
其他

文本语料数据平台–CnOpenData

https://www.cnopendata.com/

https://www.cnopendata.com/all-data

CnOpenData是覆盖经济、法律、医疗、人文等多个学科维度的综合型数据平台,并持续提供个性化数据定制服务,现拥有500+个专题数据库,涵盖专利数据(1.4亿+量级)、工商注册企业数据(3.5亿+量级)、上市公司数据、土地数据、政府数据、新冠疫情数据、分地区数据、交通数据、气象数据等几十大数据系列,数值型数据和文本型数据并存,学术研究价值极高。

  本平台集灵活的数据定制服务、专业度极强的数据整合能力、强大的学术性于一体,为各领域中不同主体的研究决策提供优质、专业的数据支持。我们不仅为国内多所高校和著名学者提供持续的数据服务,在海外我们也入选了普林斯顿图书馆“来自中国的数据”系列。同时,我们与Neudata达成战略合作伙伴关系,也致力于为投资管理、私募股权、风险投资和企业领域的客户提供高质量的数据服务。目前,我们已成功入驻福建大数据交易所门户网站,与该司达成友好意向合作。

CnOpenData 是一个综合性的中文开放数据平台,致力于为学术研究、自然语言处理(NLP)和大模型训练提供丰富的文本语料资源。​该平台涵盖了多个领域的文本数据,具有广泛的应用价值。​


📚 CnOpenData 文本语料数据概览

CnOpenData 提供的文本语料数据种类繁多,主要包括以下几个方面:​

1. 法律与政策文本数据

  • 包含中国法律法规、规章、条约、五年规划等文本数据,是研究法律与政策问题的重要资源。

2. 政府工作报告数据

  • 涵盖国务院、省级、市级、县级政府的工作报告文本,时间跨度近20年,反映了国家行政发展的历程。

3. 专利文本数据

  • 提供中国专利的描述信息和权利要求信息,总量超过2300万条,时间范围从1985年到2022年12月31日。

4. 古典文学数据

  • 收录了唐诗宋词等中国古代文学作品,适用于文化研究和古文处理任务

5. 新闻与舆情数据

  • 包括CCTV新闻联播、人民日报文本数据、A股上市公司新闻舆情数据等,适用于舆情分析和新闻研究。​

6. 企业与金融文本数据

  • 涵盖A股上市公司公告、股吧评论、投资者关系管理数据等,支持金融文本分析和情感分析研究。

🔍 数据获取与使用

CnOpenData 提供在线访问和下载服务,用户可以根据研究需求选择相应的数据集。​部分数据可能需要注册或申请权限。​具体信息可参考其官方网站:CnOpenData


CnOpenData 的丰富文本语料资源为中文自然语言处理和大模型训练提供了坚实的数据基础。​无论是法律政策研究、古典文学分析,还是金融文本挖掘,CnOpenData 都是一个值得信赖的数据来源。