project
DataClaw - 开源AI对话数据导出工具,一键转为标准训练集
DataClaw 是开发者Peter O'Malle开源的AI对话数据导出工具。能自动抓取用户与Claude Code、Codex CLI、Gemini CLI等AI编程助手的完整对话历史,将其转换为结...
DataClaw是什么
DataClaw 是开发者Peter O’Malle开源的AI对话数据导出工具。能自动抓取用户与Claude Code、Codex CLI、Gemini CLI等AI编程助手的完整对话历史,将其转换为结构化的JSONL训练数据集,支持一键发布到Hugging Face平台供社区使用。工具内置PII(个人身份信息)检测和敏感密钥过滤功能,在分享前自动清除密码、API密钥等隐私内容,确保数据安全。
DataClaw的主要功能
-
对话历史自动抓取:支持从Claude Code、Codex CLI、Gemini CLI等主流AI编程助手导出完整对话记录,无需手动复制粘贴。
-
隐私智能脱敏:内置PII(个人身份信息)检测引擎,自动识别并清除密码、API密钥、邮箱地址等敏感内容,保障数据安全。
-
结构化格式转换:将原始对话转换为JSONL等标准训练数据格式,便于直接用于大语言模型微调。
-
一键发布Hugging Face:支持将处理后的数据集直接推送到Hugging Face Hub,供开源社区下载使用。
-
多平台数据整合:兼容多种AI编程工具的数据格式,实现跨平台对话数据的统一管理。
-
开源可定制:基于Python开发,代码完全开源,用户可根据需求自定义数据处理规则和脱敏策略。
DataClaw的技术原理
-
本地文件系统监控:通过监听Claude Code、Codex CLI等工具在本地生成的对话日志文件(如JSON或SQLite数据库),实时捕获用户与AI的完整交互记录。
-
PII检测与正则匹配:采用基于规则的正则表达式和关键词匹配算法,识别并过滤API密钥、密码、邮箱、身份证号等敏感信息,确保脱敏处理。
-
对话结构化解析:将非结构化的自然语言对话解析为包含role(user/assistant)、content、timestamp等字段的标准JSONL格式,符合OpenAI微调数据规范。
-
Hugging Face API集成:通过Hugging Face Hub的Python SDK实现数据集的一键上传,自动处理认证、仓库创建和版本管理。
-
增量同步机制:支持增量式数据抓取,仅导出新增对话内容,避免重复处理和全量覆盖。
-
跨平台适配层:针对不同AI工具的差异性格式(如Claude的XML日志、Codex的JSON格式),内置适配器进行统一转换。
DataClaw的项目地址
-
GitHub仓库:https://github.com/peteromallet/dataclaw
DataClaw的应用场景
-
开源模型微调:为开发者提供高质量的真实编程对话数据,用于微调CodeLlama、DeepSeek-Coder等开源代码模型,提升其在特定编程语言或框架上的表现。
-
AI编程助手研究:研究人员可用收集的对话数据分析用户与AI编程助手的交互模式,优化提示工程策略或评估模型性能。
-
教育训练数据集构建:编程教育机构可将对话数据整理成教学案例库,用于培训学生如何有效与AI协作编程。
-
竞品模型蒸馏:其他AI公司或研究团队可使用公开的对话数据作为蒸馏源,训练更小、更高效的编程专用模型。
-
数据民主化运动:支持开源社区对抗大型AI公司的数据封闭策略,推动AI训练数据的开放共享与公平使用。