https://www.cnopendata.com/
https://www.cnopendata.com/all-data
CnOpenData是覆盖经济、法律、医疗、人文等多个学科维度的综合型数据平台,并持续提供个性化数据定制服务,现拥有500+个专题数据库,涵盖专利数据(1.4亿+量级)、工商注册企业数据(3.5亿+量级)、上市公司数据、土地数据、政府数据、新冠疫情数据、分地区数据、交通数据、气象数据等几十大数据系列,数值型数据和文本型数据并存,学术研究价值极高。
本平台集灵活的数据定制服务、专业度极强的数据整合能力、强大的学术性于一体,为各领域中不同主体的研究决策提供优质、专业的数据支持。我们不仅为国内多所高校和著名学者提供持续的数据服务,在海外我们也入选了普林斯顿图书馆“来自中国的数据”系列。同时,我们与Neudata达成战略合作伙伴关系,也致力于为投资管理、私募股权、风险投资和企业领域的客户提供高质量的数据服务。目前,我们已成功入驻福建大数据交易所门户网站,与该司达成友好意向合作。
CnOpenData 是一个综合性的中文开放数据平台,致力于为学术研究、自然语言处理(NLP)和大模型训练提供丰富的文本语料资源。该平台涵盖了多个领域的文本数据,具有广泛的应用价值。
📚 CnOpenData 文本语料数据概览
CnOpenData 提供的文本语料数据种类繁多,主要包括以下几个方面:
1. 法律与政策文本数据
- 包含中国法律法规、规章、条约、五年规划等文本数据,是研究法律与政策问题的重要资源。
2. 政府工作报告数据
- 涵盖国务院、省级、市级、县级政府的工作报告文本,时间跨度近20年,反映了国家行政发展的历程。
3. 专利文本数据
- 提供中国专利的描述信息和权利要求信息,总量超过2300万条,时间范围从1985年到2022年12月31日。
4. 古典文学数据
- 收录了唐诗宋词等中国古代文学作品,适用于文化研究和古文处理任务
5. 新闻与舆情数据
- 包括CCTV新闻联播、人民日报文本数据、A股上市公司新闻舆情数据等,适用于舆情分析和新闻研究。
6. 企业与金融文本数据
- 涵盖A股上市公司公告、股吧评论、投资者关系管理数据等,支持金融文本分析和情感分析研究。
🔍 数据获取与使用
CnOpenData 提供在线访问和下载服务,用户可以根据研究需求选择相应的数据集。部分数据可能需要注册或申请权限。具体信息可参考其官方网站:CnOpenData。
CnOpenData 的丰富文本语料资源为中文自然语言处理和大模型训练提供了坚实的数据基础。无论是法律政策研究、古典文学分析,还是金融文本挖掘,CnOpenData 都是一个值得信赖的数据来源。