- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
2. 张晴晴-Magichub赋能数据开源开放
展开查看详情
1 .
2 .MagicHub 赋能数据开源开放 张晴晴博士 Magic Data 创始人兼CEO
3 .目录 01 公司简介 02 AI行业生产力三要素 03 生产资料 Datasets 04 生产工具 Annotator 智能化标注平台 05 生产者 AI开发者/工作者
4 .公司介绍 公司成立5年以来,供应商300+家,已服务全球200+个客户 覆盖智能汽车、金融、社交、家居和终端等5大行业 2020 2021 2018 2019 飞速发展 飞速发展 2016 2017 成长期 飞速发展 起步阶段 成长期 公司成立并参与 国标委“中文语音 识别系统评测规范” 优秀供应商
5 . 张晴晴 创始人 兼 CEO 中科院声学所博士,曾任副研究员 法国国家实验室CNRS博士后 《亿欧》2022年 霓-中国青年女性创始人TOP20 《财富》2021年 中国最具影响力商界女性-未来榜 《创业邦》2021年 最值得关注的女性创业者 中国科学院杰出科技成就奖 科学技术厅科学技术进步奖一等奖 CCF语音对话与听觉专委会委员 / CCF智能汽车分会执行委员 CCF女计算机工作者委员会委员 / CCF标准工作委员会委员
6 .为近200家互联网及行业客户提供AI数据解决方案 互联网 智慧出行 Annotator® 智能化标注平台 智慧金融 三大 智能社交 产品 智能家居 MD数据集 数据服务 智能终端 海外
7 .荣获众多奖项,是您可以信赖的伙伴 北京市“专精特新”小巨人企业 国家高新技术企业 中关村高新技术企业 北京市“专精特新”小巨人企业 国家高新技术企业 中关村高新技术企业 中国计算机学会会员单位 中国人工智能学会会员单位 人工智能产业发展联盟AIIA会员单位 ISO/IEC 27701 / 27001 标准认证 CMMI-3 认证 ISO/IEC 27701:2019 ISO/IEC 27001:2013 CMMI-3 认证 标准认证 标准认证 拥有20项专利申请 48个软件著作权授权
8 .Magic Data及其产品获得市场认可 「2021人工智能最具价值创业公司TOP20」 「2021中国产业数字化服务商TOP40」、「2021中国AI企业商业落地规模潜力TOP100」 甲子20「2021最具商业潜力的20家数据智能Cool Vendor」 「2021数字化服务创新潜力企业」 AI中国「2021年度AI趋势重塑先锋奖」 Annotator® 智能化标注平台 获「2021最佳AI基础设施平台」、「2021企业数字化转型最佳产品奖」 入选艾瑞咨询6大报告: 《2021年人工智能基础层行业发展研究报告》 《2021年中国对话机器人chatbot行业发展研究报告》 《2021年中国面向人工智能的数据治理研究报告》 《2021年中国人工智能产业报告》 《2021年中国企业服务研究报告》 基础侧:云数智物赋能-AI基础技术厂商 《中国面向人工智能的数据治理行业研究报告》 入选IDC报告: 《人工智能基础服务报告》
9 .数据安全与合规是我们服务的基石 国内所有AI数据服务公司 中,唯一由 国际四大会计 国内首批通过 ISO27701 师事务所,提供数据安全 认证的数据服务商 保护合规服务 数据 合规 a 数据处理过程 数据处理过程 遵循 GDPR 法规 遵循 网络安全法
10 .Magic Data 三大产品覆盖五大行业 五 大 行 业 智慧出行 智慧金融 智能社交 智能终端 智能家居 三 大 智能化标注平台 对话式 数据采集标注服务 产 个人/团队/企业版 AI训练数据集 品
11 .全球最大的对话式数据集 200,000+小时 140,000+小时 60,000+小时 训练数据 对话式 朗读式
12 .训练数据集:中文方言 / 双语 大中华区 数量 (小时) 昆明话, 200 数量(小时) 东北话, 200 中文普通话 90,000 长沙话, 400 山西话, 100 武汉话, 600 带口音普通话 5,000 台湾话, 600 英语&英中混合(香 中英混 3,000 港), 700 粤语 5,000 闽南话, 1,000 四川话 5,000 带口音普通话, 5,000 郑州话, 1,200 上海话 1,500 郑州话 1,200 上海话, 1,500 闽南话 1,000 中英混, 3,000 英语&英中混合 (香港) 700 台湾话 600 四川话, 5,000 武汉话 600 粤语, 5,000 长沙话 400 昆明话 200 东北话 200 单位:小时 山西话 100
13 .训练数据集:外语 数量(小时) 外语语种 数量 (小时) 泰语英语混合, 300 马来英语混合, 250 越南语, 500 英语 20,000 土耳其语英语混合, 印地语, 500 西班牙语, 300 400 韩语 8,000 俄语, 1,500 日语 7,000 意大利语, 1,500 巴西葡语, 1,500 印尼语 5,000 阿拉伯语, 1,000 马来语 3,500 德语, 2,000 土耳其语 2,500 泰语, 2,000 菲律宾语 2,500 英语, 20,000 泰语 2,000 菲律宾语, 2,500 德语 2,000 阿拉伯语 1,000 土耳其语, 2,500 巴西葡语 1,500 意大利语 1,500 马来语, 3,500 俄语 1,500 印地语 500 印尼语, 5,000 韩语, 8,000 越南语 500 土耳其语英语混合 400 日语, 7,000 泰语英语混合 300 西班牙语 300 单位:小时 马来英语混合 250
14 .垂直行业MD数据集,助力客户快速数智化转型 智慧出行 智慧金融 智能社交 智能终端 智能家居 120,000(h) 130,000(h) 90,000(h) 120,000(h) 120,000(h)
15 .对比实验 相同小时数的「对话式数据」比「朗读数据」WER降低60% 客服对话 直播社交 车载导航 对话数据 WER 23% 19% 41% 朗读数据 WER 57% 31% 52%
16 .对比实验 「对话式数据」小时数越多,WER越低 客服对话 直播社交 车载导航 30,000小时 19% 12% 32% 3,000小时 23% 19% 41%
17 .目录 01 公司简介 02 AI行业生产力三要素 03 生产资料 Datasets 04 生产工具 Annotator 智能化标注平台 05 生产者 AI开发者/工作者
18 .MagicHub开源社区 目标:搭建全球AI开发者生态 精神:共享共建 奉献创新 共同发展
19 .目前算法工程师的痛点 找不到数据 找到数据收费 原始数据需要清洗 崩溃! 崩溃! 崩溃!
20 .AI行业生产力三要素 MagicHub开源社区应运而生 生产资料 生产工具 Datasets Tools 生产者AI Developer/ Worker
21 .基于数据的MagicHub开源社区 生产资料 生产工具 Datasets Tools 生产者 AI Developer/Worker
22 .目录 01 公司简介 02 AI行业生产力三要素 03 生产资料 Datasets 04 生产工具 Annotator 智能化标注平台 05 生产者 AI开发者/工作者
23 .基于数据的MagicHub开源社区 开箱即用,轻松搜索的数据集集结地 • MD开源数据集 • 第三方数据集
24 .目录 01 公司简介 02 AI行业生产力三要素 03 生产资料 Datasets 04 生产工具 Annotator 智能化标注平台 05 生产者 AI开发者/工作者
25 .中国AI基础数据服务市场规模
26 .标注工具的痛点 短视频兴起-复杂多维 人员技能与任务不匹配 无法清晰看到 数据处理基本靠人工 标注需求无法满足 浪费大量时间成本 任务完成进展 成本不断增加
27 .Magic Data 核心团队深耕数据行业数十年 Annotator® (安耐拓) 智能化标注平台 私有化部署版 / SaaS免费版 正式上线
28 .Annotator® 四大核心功能 多模态标注 01 任务可拆分 02 可视化管理 03 智能化辅助 04
29 .多模态标注 语音 文本 3D点云 音视频 图像