和谐历史档案馆
首页文稿音乐讨论

和谐历史档案馆

Banned Historical Archives

和谐历史档案馆收录各类受官方封禁以及半封禁的文稿、报纸、杂志和多媒体资料,并对它们进行(自动化地)标准化加工,包括解析、识别、分类,最终形成标准化文稿档案和多媒体档案。

其中文稿包含中央发表的文件,中央高层会议纪要,主要人物的通知、著作、谈话/对话/讲话、宣言/声明、电报、通讯、书信、消息、评论/批语/批注/批示、意见、指示/命令。主要人物包括毛泽东,江青、姚文元、张春桥、王洪文。

报纸和杂志包括早期的人民日报(现在官方渠道需要特殊单位申请权限查阅)、红旗杂志。

多媒体资料包括音乐及歌词、电影、照片、录音等。

同时收录一部分公开的资料用于版本对比和校验。

功能简介

文稿版本对比

文稿版本对比 例如在扩大的中央工作会议上的讲话这篇文章,点击右上角“对比”按钮,选择“对比不同来源解析后的文本”。对比模式默认为“逐行对比”,根据情况可选择“逐字对比”,后者在对比前会合并所有段落。

文稿来源对比

文稿来源对比 左侧文稿为程序解析后的文稿,如果与原始文稿不符(包括不限于文本遗漏,排版问题,注释定位问题等),欢迎在 [Github]反馈。

歌词版本对比

歌词版本对比

计划收录的文稿

名称作者及出版社内部文件官方收录状态
中共党史参考资料中国人民解放军政治学院(国防大学前身之一)党史教研室YY待解析
建国以来毛泽东的文稿(共13卷)中央文献出版社YY待解析
建国以来重要文件选编中共中央文献研究室 中央文献出版社出版NY
毛泽东文集(共8卷)NY已收录
毛泽东选集(第一至四卷)(1967版)NY已收录
毛泽东选集(第一至四卷)(1991版)NY
毛泽东选集(第五卷)(1977版)NY已收录
毛泽东外交文选中华人民共和国外交部和中共中央文献研究室合作编辑NY
毛泽东选集静火版静火NN已收录
毛泽东思想万岁王晁星NN已收录
江青文选新湖大革命委员会政宣部编NY
江青十年讲话汇编(1966-1976)NN已收录
王洪文文集NN
春桥文录NN
姚文元文录NN

计划收录的多媒体资料

音乐及歌词

名称版本收录状态
我们走在大路上原版,文革版,英文版,改开版已收录
歌唱祖国原版,东方红版,文革版,改开版已经收录
太阳最红毛主席最亲原版,改开版已收录
中国少年先锋队队歌(旧)原版,革命版已收录
中国少年先锋队队歌(新)/我们是共产主义接班人原版,改开版已收录
高举无产阶级专政的旗帜前进已收录
为巩固无产阶级专政奋勇斗争已收录
无产阶级革命派联合起来已收录
把列宁主义大旗高高举起已收录
造反有理已收录
争取胜利已收录
人民是创造世界历史的动力已收录
真正的铜墙铁壁是什么已收录
全世界无产者联合起来已收录
前进在毛主席的革命路线上已收录
我们的朋友遍天下已收录
全世界人民一定胜利已收录
革命知识青年之歌已收录
新中国的青年已收录
我们是民主青年已收录
歌唱无产阶级文化大革命
在无产阶级专政旗帜下前进

贡献资源/纠错/讨论

[Github]

[Gitlab]备用地址

标准化加工

文稿

通过对原始文件的解析(/backend/parser)、识别、分类(/backend/classifier)等操作形成标准化的文稿。详见/backend/entity/*.ts

{
  /**
   * 标题
   */
  title: string;

  /**
   * 作者
   */
  authors: {
    name: string;
  }[];

  /**
   * 文稿日期
   * 可能包含多个日期/时间点(发刊日期、审稿日期、起草日期、定稿日期、子文稿的日期等)
   * 
   * 当 is_range_date 为 true 时表示时间段,dates数组中将包含两个日期:起始和截止日期
   */
  is_range_date: boolean;
  dates: {
    year: number;
    month?: number;
    day?: number;
  }[]; // 文稿的时间

  /**
   * 标签
   */
  tags: {
    name: string;
  }[];

  /**
   * 文稿类别
   * type:
   *   writings(文章) |
   *   mail(书信) |
   *   lecture(发言) |
   *   talk(对话) |
   *   declaration(宣言) |
   *   instruction(指示) |
   *   comment(批示) |
   *   telegram(通讯)
   */
  types: {
    type: enum;
  }[];

  /**
   * 初始来源
   * 例如:1919 年 12 月 28 日《湖南教育月刊》
   */
  origin: string;

  /**
   * 出版物(来源书籍)
   */
  publications: {
    internal: boolean;
    official: boolean;
    name: string;
    pdf: string;
    author: string;
    pages: { // 文稿所在页码,相对于 pdf 而不是实体书籍中的页码
      start: number;
      end: number;
    }[];
    contents: { // 文稿内容
      text: string;
      type: enum; // title(大标题) | subtitle(子标题) | paragraph(段落) | appellation(称谓) | cite(引文)
    }[];
    /**
     * 文稿注释
     *
     * part_index: 角注在文稿 contents 中的位置
     * offset: 角注在当前段落的偏移量
     *
     * 特别地,part_index 为 -1 且 offset 为 -1 时表示对整个文稿的注释(描述)
     */
    comments: {
      part_index: number;
      offset: number;
      text: string;
    }[];
  }[];
}

开发

源代码

[Github] [Gitlab]

0.安装依赖并创建数据库

docker, nodejs, mysql

1.初始化 docker image

docker build -f ./paddle/docker/DockerFile ./paddle/docker -t paddle-ocr-lac

2.安装 node_modules

npm install

3.初始化/重置数据库

npm run init-db

可选环境变量:DB_NAME,DB_PORT,DB_USER,DB_PASSWORD

4.本地预览

npm run dev:build-static
npm run dev