<!DOCTYPE html>
<html lang=”zh-CN”>
<head>
<meta charset=”UTF-8″>
<meta name=”viewport” content=”width=device-width, initial-scale=1.0″>
<title>多场景文档识别专用标注数据集</title>
<style>
body {
font-family: “Microsoft YaHei”, Arial, sans-serif;
line-height: 1.8;
color: #333;
background-color: #f5f7fa;
margin: 0;
padding: 20px;
}
.container {
max-width: 1200px;
margin: 0 auto;
background-color: #fff;
padding: 30px;
border-radius: 10px;
box-shadow: 0 2px 10px rgba(0,0,0,0.1);
}
h1 {
color: #2c3e50;
font-size: 24px;
margin-bottom: 20px;
border-left: 4px solid #3498db;
padding-left: 10px;
}
h2 {
color: #34495e;
font-size: 20px;
margin: 25px 0 15px;
border-bottom: 1px solid #eee;
padding-bottom: 5px;
}
.intro {
font-size: 16px;
color: #555;
margin-bottom: 25px;
}
ul {
padding-left: 20px;
margin: 10px 0;
}
li {
margin: 8px 0;
}
.highlight {
color: #e74c3c;
font-weight: bold;
}
.code-block {
background-color: #f8f9fa;
padding: 15px;
border-radius: 5px;
font-family: Consolas, monospace;
font-size: 14px;
margin: 10px 0;
overflow-x: auto;
}
</style>
</head>
<body>
<div class=”container”>
<h1>多场景文档识别专用标注数据集</h1>
<div class=”intro”>
面向票据、合同、政务档案数字化智能审核场景,适配 YOLO 全系列目标检测 / 实例分割模型,是 OCR 图文分离、文书真伪核验、计算机视觉毕设、企业自动化系统开发刚需训练素材。
</div>
<h2>适用场景</h2>
<ul>
<li>政务档案智能质检、法务合同合规自动审核、财务票据真伪识别、扫描文档印章定位分割、OCR 图文预处理、文书瑕疵视觉检测、档案数字化 AI 识别、票据内容智能分类;</li>
<li>可支撑印章区域提取、印章比对鉴伪、遮挡目标检测、复杂文本背景分割等机器视觉项目落地。</li>
</ul>
<h2>一、数据集类别配置</h2>
<div class=”code-block”>
总类别数 nc: 1<br>
类别名称 names: [‘Stamp’]
</div>
<ul>
<li><strong>类别释义:</strong><br>0 — 印章区域</li>
<li><strong>印章品类覆盖:</strong>圆形企业公章、方形法人私章、多联文件骑缝章;</li>
<li><strong>真实复杂干扰场景:</strong>印泥晕染扩散、纸张褶皱折痕、印章与打印文字重叠、扫描明暗色差、文档倾斜拍摄、多印章堆叠、残缺模糊半遮挡印章;</li>
<li><strong>标注作用:</strong>精准输出印章边界坐标 / 分割掩码,自动隔离印章与正文文字,为后端印章比对、合规校验提供前置处理基础。</li>
</ul>
<h2>二、数据集适配模型</h2>
<p>全兼容 YOLO 系列:YOLOv5 / YOLOv7 / YOLOv8 / YOLOv9 / YOLOv10 / YOLOv11 / YOLOv26,同时支持通用实例分割、目标检测、语义分割算法训练。</p >
<h2>三、资源文件构成</h2>
<ul>
<li>实拍原图:真实办公扫描、手机拍摄票据 / 合同档案原图;</li>
<li>标注文件:YOLO 标准 txt 标注,归一化坐标,无需格式转换,开箱训练;</li>
<li>配套说明:类别配置 <span class=”highlight”>yaml</span> 文件,一键导入训练工程。</li>
</ul>
<h2>四、适用人群与项目方向</h2>
<ul>
<li><strong>高校学生:</strong>计算机视觉、电子信息、自动化专业毕设 / 课程设计,文档检测、印章分割方向完整素材;</li>
<li><strong>企业开发者:</strong>档案数字化平台、财务票据审核系统、法务智能合同平台、政务材料自动校验项目数据源;</li>
<li><strong>算法研发:</strong>遮挡目标检测、复杂背景分割、文档 OCR 预处理、轻量级检测模型优化实验基准。</li>
</ul>
</div>
</body>
</html>




暂无评论内容