智能体流水线操作规程
古籍标点流水线操作规程
一、流水线职责
1.1 核心职责
按分配文件列表进行标点
执行细断句原则
确保原文校验通过
接受质检员返工要求
二、标点标准
2.1 标点密度(核心指标)
目标:8-12个标点/100字
底线:不低于5个/100字
上限:不超过15个/100字
2.2 细断句原则(最重要!)
核心原则:短句优先,每句10-20字
示例对照
错误示例(密度约2%):
plaintext
国朝文章亡虑数十家称于世而独李献吉先生称最余自垂髫时即躭悦之购得全编相与朝夕省方凭轼稍露隙日每披阅不忍释献吉北地人也。
正确示例(密度约10%):
plaintext
国朝文章,亡虑数十家,称于世而独李献吉先生称最。余自垂髫时,即躭悦之,购得全编,相与朝夕省方,凭轼稍露隙日,每披阅不忍释。献吉,北地人也。
断句技巧
四字短语:单独成词,前后加逗号
例:亡虑数十家,称于世
对仗句:用分号分隔
例:春华秋实,各有其时;夏雨冬雪,各得其宜。
长句拆分:超过20字必须断开
虚词定位:以虚词为断句标志
2.3 虚词规则
虚词 位置 动作 示例
者 句中 后加逗号 学者,必有师
也 句末 后加句号 此之谓道也。
矣、焉、耳 句末 后加句号 吾知之矣。
乎 句末 疑问用?,否则。 可乎?
夫、盖、惟 句首 后加逗号 夫天地者,
故、然、则 句首 前加句号,后加逗号 。故君子慎独,
2.4 标点符号规范
必须使用全角符号:
逗号:,
句号:。
问号:?
感叹号:!
分号:;
冒号::
引号:""''
括号:()
书名号:《》
方头括号:【】
禁止使用半角符号:
❌ , . ? ! ; : " ' ( ) < >
2.5 原文校验(必须执行!)
校验步骤:
读取原文:用户上传/需要标点的文本文件/文件名.txt
添加标点后保存到:古籍标点任务/已完成/文件名.txt
执行校验:删除标点后与原文逐字比对
确认:字符数、内容、顺序完全一致
校验代码示例:
python
import re
def extract_chinese(text):
# 删除所有标点和空格
text = re.sub(r'[,。;:""''?!、()《》【】〔〕〈〉\s\n\r\t\u3000]', '', text)
# 只保留中文字符
text = re.sub(r'[^\u4e00-\u9fff]', '', text)
return text
# 读取原文和标点文件
with open('原文路径', 'r', encoding='utf-8') as f:
original_text = f.read()
with open('标点文件路径', 'r', encoding='utf-8') as f:
annotated_text = f.read()
# 提取纯中文字符
original_chinese = extract_chinese(original_text)
annotated_chinese = extract_chinese(annotated_text)
# 对比
print(f"原文: {len(original_chinese)}字")
print(f"标点后: {len(annotated_chinese)}字")
print(f"一致: {original_chinese == annotated_chinese}")
三、执行流程
3.1 标准流程
读取任务分配文件
获取分配的文件列表
逐个文件处理:
读取原文
添加标点(细断句!)
原文校验
保存输出
汇报完成情况
3.2 返工流程
收到质检员返工指令
读取问题文件
按新标准重新标点
重新校验
覆盖原文件
汇报返工结果
四、常见问题
4.1 标点密度太低
原因:只加了段落末尾句号,没有细断句
解决:每10-20字加一个标点,四字短语单独成词
4.2 长句不断
原因:不敢断句,怕断错
解决:以虚词为标志,优先保证密度达标
4.3 半角符号
原因:输入法问题
解决:检查并替换所有半角符号
五、质量自查
5.1 标点密度自查
bash
# 计算标点密度
chars=$(cat 文件名.txt | tr -d '\n\r\t ' | wc -m)
punct=$(cat 文件名.txt | grep -o '[,。;:""''?!、()《》【】]' | wc -l)
density=$(echo "scale=2; $punct * 100 / $chars" | bc)
echo "标点密度: $density /100字"
5.2 自查清单
标点密度5-15/100字?
没有超过25字的长句?
虚词规则正确执行?
全是全角符号?
原文校验通过?
更新记录
2026-04-08:初始版本,强调细断句
六、工作记录报告
6.1 报告要求
每完成一项任务后,必须撰写工作原始记录报告,内容如下:
markdown
# 流水线X 工作记录报告
## 任务信息
- 任务类型:[新标点/返工]
- 文件列表:[文件名]
- 执行时间:[时间]
## 执行结果
| 文件名 | 字数 | 标点密度 | 校验状态 |
|--------|------|----------|----------|
| xxx.txt | 10000 | 8.5/100字 | ✅通过 |
## 标点规则执行情况
- 虚词规则:[执行情况]
- 细断句:[执行情况]
- 标点符号规范:[执行情况]
## 问题记录
- [问题描述]
- [解决方案]
## 提交给质检员
本报告已提交质检员审核。
6.2 报告保存路径
古籍标点任务/工作记录/流水线X_报告.md
6.3 汇报流程
流水线 → 质检员 → 总管家 → 用户 |