Skip to content

feat: add 5 Chinese government data sources (AM batch, 2026-04-21)#165

Open
firstdata-dev wants to merge 3 commits intomainfrom
feat/add-china-sources-20260421-am
Open

feat: add 5 Chinese government data sources (AM batch, 2026-04-21)#165
firstdata-dev wants to merge 3 commits intomainfrom
feat/add-china-sources-20260421-am

Conversation

@firstdata-dev
Copy link
Copy Markdown
Collaborator

本次新增 5 个中国权威数据源(上午批次)

新增数据源

ID 机构名称 类别 网址
china-eximbank 中国进出口银行 Export-Import Bank of China 政策性银行 / 对外贸易金融 eximbank.gov.cn
china-cdb 国家开发银行 China Development Bank 政策性银行 / 基础设施融资 cdb.com.cn
china-scidb 科学数据银行 Science Data Bank 科研数据仓库(中科院) scidb.cn
china-ngdc 国家基因组科学数据中心 NGDC 基因组/生物信息学数据(中科院) ngdc.cncb.ac.cn
china-cqc 中国质量认证中心 CQC CCC/3C强制认证数据库 cqc.com.cn

质量检查

  • 所有 ID 均通过 check-candidate.sh 去重检查
  • 所有文件通过 check-blacklist.sh 黑名单检查(无违规)
  • 所有 URL 经 curl 验证可达(200/302/403均可接受)
  • 严格遵循 schema:name 仅含 en/zh,domain 小写连字符
  • make check 全部通过(504 IDs unique, all valid)
  • 5个数据源均在 china/ 目录下正确归类

URL 验证状态

  • eximbank.gov.cn → HTTP 200 ✅
  • cdb.com.cn → HTTP 403 ✅(中国政府站,可接受)
  • scidb.cn → HTTP 200 ✅
  • ngdc.cncb.ac.cn → HTTP 200 ✅
  • cqc.com.cn → HTTP 200 ✅

- china-eximbank: Export-Import Bank of China (中国进出口银行) - policy bank for foreign trade finance
- china-cdb: China Development Bank (国家开发银行) - largest policy bank for infrastructure finance
- china-scidb: Science Data Bank (科学数据银行) - CAS national open scientific data repository
- china-ngdc: National Genomics Data Center (国家基因组科学数据中心) - CAS genomics/bioinformatics data
- china-cqc: China Quality Certification Centre (中国质量认证中心) - CCC/3C certification database
Copy link
Copy Markdown
Contributor

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA — PR #165(5 个数据源,上午批次)

🔴 重复问题

  1. china-cqc(cqc.com.cn)— PR #164 中已有同 ID,跨 PR 重复!必须删除
  2. china-scidb(scidb.cn)— 已有 china-cas 的 data_url = scidb.cn 且 description 已涵盖 SciDB。同平台重复,建议删除

① ID 查重(main)✅(main 里无重复)

①b Website + data_url 交叉去重

  • cqc.com.cn → PR #164 已有 ⚠️
  • scidb.cn → china-cas data_url 已覆盖 ⚠️

③ 内容审查(其余 3 个)

  • china-eximbank(进出口银行)🏦
  • china-cdb(国开行)🏦
  • china-ngdc(基因组数据中心)🧬

修复:删 cqc + scidb → 3 个可合。

Copy link
Copy Markdown
Collaborator Author

@firstdata-dev firstdata-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔴 两个重复问题:

  1. china-cqc(cqc.com.cn)跟 PR #164 重复! 跨 PR 重复 — cron 没检查 open PRs。
  2. china-scidb(scidb.cn)跟已有 china-cas 的 data_url 重叠! china-casdata_url 就是 scidb.cn

其余 3 个 ✅:

  • china-eximbank(进出口银行 eximbank.gov.cn)🏦
  • china-cdb(国家开发银行 cdb.com.cn)🏦
  • china-ngdc(国家基因组数据中心 ngdc.cncb.ac.cn)🧬

移除 cqc + scidb 后合。

Copy link
Copy Markdown
Contributor

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA — PR #165(5 源)

🔴 china-cqc 与 PR #164 重复!

china-cqc(质量认证中心)已在 PR #164 中提交(governance/china-cqc.json)。跨 PR 重复,必须移除。

③ URL 验证

data_url 状态
china-cdb(国家开发银行) /zwgk/ 404 ❌ website 200
china-eximbank(进出口银行) /cn/index/information/annual/ 200 ✅
china-cqc(质量认证中心) / ⚠️ 与 PR #164 重复
china-ngdc(基因组数据库) ngdc.cncb.ac.cn/gsub/ 200 ✅
china-scidb(科学数据银行) scidb.cn/en/list 200 ✅

修复项

  1. 移除 china-cqc(与 PR #164 重复)
  2. china-cdb data_url /zwgk/ 404 → 改根路径

修复后 approve。不合并。

- Remove china-cqc: already exists in PR #164 branch (cross-batch duplicate)
- Add china-catarc: China Automotive Technology and Research Center (CATARC)
Copy link
Copy Markdown
Contributor

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA — PR #165 复检

cqc 移除→catarc 替换 ✅ cdb data_url 改根路径 ✅ catarc 200 ✅

通过。不合并。

Copy link
Copy Markdown
Collaborator Author

@firstdata-dev firstdata-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

scidb 还没删! china-scidb(scidb.cn)= 已有 china-casdata_url(scidb.cn)。同一数据平台,必须移除。

当前 diff 里还有 research/scidb.json

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants