数据标注平台哪个好的平台哪个好

从数据标注切入的「丁火智能」,未来想做的是线上人力平台从数据标注切入的「丁火智能」,未来想做的是线上人力平台36氪百家号人工智能公司涌现,产生了海量采集标注需求,Tractica预测,2024年人工智能市场规模将增长至111亿美元。但AI要真正发挥作用,优质的数据必不可少,美国国际数据集团的报告中显示,到2022年,所有数据中将有93%的数据是结构化数据,这些结构化数据都需要结构化标注。所以前端的数据采集、标注环节单拎出来成为了新的机会点。目前这个赛道上,成立久的有“数据堂”,早期公司有获得明势资本 Pre-A 轮融资的“爱数智慧”,完成天使轮融资的“泛涵科技”,获得两轮融资的 BasicFinder,“丁火智能”也是赛道上一员。丁火智能完成任务的流程是标注-复核-全检。标注任务众包,兼职方多为学生、家庭主妇、白领等,他们前期接受考核培训,根据准确率不同会获得相应权限。系统自动分发任务,准确率高的人被挑选出来作审核人员。数据交付前要复核和百分百全检,目前复核的准确率超过98%,全检的错误率能控制在5%之内。多以接图片为主。丁火智能标注仍然以人力为主,并没有使用机器标注。在 CEO 晋明会看来,标注效果怎么样最终还需要人来审核,在人力成熟的条件下,机器只是降低成本的工具,在目前来看,还没到引入机器的地步。机器标准会越来越好,对一些创业公司来说也是机会,但这个机会是属于人工智能公司的机会,算法不断产生结果,人力判断反馈给算法,所以最终来看还是机器辅助人。安全性方面,丁火智能会和企业签署保密协议、按照客户要求把数据部署在客户的服务器上,或者是自建标注平台。收费模式上,丁火智能分任务类型收费,比如六分钱一个框、两毛钱一个轮廓等。抽佣比例在10%-20%,公司已经盈利,每月收入在10万元以内。做数据标注本身的门槛并不高,主要考察的是最后数据的标注质量。丁火智能在管理机制上建立了一套质控体系,通过这套体系将人员筛选出来,正确率高的就做更高级的任务,正确率低就直接被淘汰。CEO 晋明会告诉36氪,丁火智能和同行的差异在于,同行的流程是平台-团队-个人,丁火智能是平台-个人,个人通过一套指控体系在内部分化成普通标注人员和审核人员,实际是线下行为在线化,比如整个考核-标注-质检都是线上完成,同行更偏向线下行为。线上的好处就是沉淀数据,知道谁做的好,谁做的不好。从这点来看,丁火智能也可以说是从数据标注切入的线上人力平台,将来线上人力会有自己的评判标准和评判体系、以API的形式输出出去,而这些人力是已经被丁火证明过的优秀的人力,可以应用到更广的范围。国外做数据标注的也分两类,一类是众包方式,比如 Mturk(Amazon旗下) 、Spare5在2017年1月获得了 Google 和 Intel 的$1400万投资,累计融资$2725万, CrowdFlower 在2017年6月获得了Microsoft 和 Salesforce 的$2000万投资,累计融资$5800万,这类厂商速度快价格低,但质量无保证;第二类是全职方式,比如 ScaleAPI2017年5月获得了A轮投资$450万,质量高,但是速度慢价格高。 丁火智能团队目前有3个人。CEO 晋明会硕士学历,负责产品策划、 运营、iOS开发及商务拓展,六年产品经验,五年创业经历;CTO 徐武有十年开发经验,七年创业经历,精通PHP、Python和Java等语 ,负责后台架构、网页及安卓开发。;设计总监徐志诚有六年网页设计经验,五年App设计经验,主导设计过 一个网站、四个App和四套基于微信的商业化系统。 本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。36氪百家号最近更新:简介:36氪官方账号。每一条新闻都有价值作者最新文章相关文章在人工智能灼热与闪亮的背后,数据标注产业,作为做基础的支撑,却显得格外粗粝与拙朴。开玩笑的时候,小雪说她的男友是 AI 产业中工资最低的那个,其次就是她自己。刚从济南德州信息工程学校计算机专业毕业,小雪和男友正在接受手写体录入培训,当她能认识这些手写字母后,就轮到她把这些知识教给计算机&&把一张张快递单或家谱上的手写体上的字母标注出来,告诉机器 i 可以有多种写法。这样的工作并不简单。手写的 i 可能是顶上一点加上一竖,也可能是朝后弯的小勾,更潦草一点就和数字 9 一样&&小雪的笔记本上密密麻麻地挤满了这些像字更像图的墨迹。小雪做的,是一种介于手写录入和图像标记之间的工作。同服务于智能驾驶的街景标记、服务于智能医疗的人体标记、服务于语音交互的声音标记一样,他们共同的行业学名叫做「人工智能数据标注」&&这是整个 AI 产业的基础,是机器感知现实世界原点。和小孩一样,机器要认识「苹果」,就需要不断有人教给它哪些东西是苹果:浑圆的、带把的、有的像桃心有的像屁股,有的通红有的油绿。和小孩不同的是,机器需要在不同场景、不同角度下反复学习,这个漫长的教授过程就是小雪在 AI 产业中的位置,标注大量用于训练机器学习模型的数据,让机器越来越像「人」。无差别的人力,天壤之别准确度如果小雪标注犯错,最直接的后果是机器也会跟着犯错。她必须保证「喂」给机器的标注数据达到 90% 以上精度(即是指标注的正确率),否则这些数据对于机器学习将毫无意义。北京一家数据标注工厂 Basic Finder 的 CEO 杜霖说:95% 以上的准确率是理想情况;但从 95% 提到 97% 所需花的成本就不再是一两倍了,可能是 10 倍或 100 倍。98% 精度是小雪遇到过的最高需求,这意味着如果 100 个点里头有两个点不准的话,就会被打回重做。她「提心吊胆」地对每个标注点反复确认才敢提交。但 15 骨骼点标注又极耗耐心,要在人全身包括头顶、脖子、胸口、膝盖等骨骼处打上 15 个点,将这 15 个点连起来就出现了一个形象的火柴人。在 Kinect 体感游戏中,机器就是靠关键骨骼点的位移来识别人体是否运动。 令小雪最郁闷的,是一张军姿站图。只要露出了头、脖子、胸口,小雪就要从他的左上角开始画矩形,框住这些动作、着装完全一致的人。重复拖动近 40 个框后,她要再放大这些带有蓝色阴影矩形框,从头到四肢标注完每个人的骨骼点。最后,将近 600 个点密密麻麻地落在了这张图里。在这个她形容为「经历绝望」的过程中,她尝试用眼药水来缓解疲劳,但滴过后会不停流眼泪,直到她换了种方式,靠不停揉眼睛来放松。杜霖说:有些任务图上密密麻麻的点,看两个小时以上眼睛绝对会花掉了,但他会要求员工不断克服人本身的一些「消极因素」,才能避免标错数据成为「漏网之鱼」。联合国教科文组织信息与传播知识社会局主任英德拉吉特&班纳吉认为,到 2030 年,人工智能将向世界经济贡献 16 万亿美元。从 2016 年人工智能逐渐走热以来,任何行业都想搭上这个热潮,投资人的评价是「每个上都要加上人工智能」。进入深度学习「死胡同」的人工智能需要标注的领域也带来越来越多:机场安检时新增的人脸识别、能识别选取商品的无人便利店、能安全行驶的无人驾驶等。新兴市场带来了大量劳动力的涌入。「原来干淘宝刷单的,现在也能摇身一变做 AI 数据标注。」杜霖说,「在提供无差别人力劳动这件事上,大家是没有门槛的。」在河北衡水,由于当地政府查污染严重导致化工制品停产,26 岁的小苏就带着原先 30 多人的销售团队转行数据标注,队员小的到 20 出头,老至年近不惑。虽然他早就知道河北做数据标注的团队已经非常多,并且有的团队已经垮掉,但人工智能的火热和数据标注的低门槛还是让他决定一搏。高中学历是小苏在招人时的最高期望,「高中生花一天做的工作,初中生可能需要花五天,差别很大。」行业中,小苏的招聘标准已经算是较高水平,那些投身数据标注的兼职者学历更加良莠不齐。在某些众包平台上,有的标注者只有小学文凭,在东北还有一部分有听力障碍的残疾人标注团队,而北京的全职工厂中的最高学历是大专或者中专。欣博友数据标注公司市场部经理周京平认为,一个老农民在标注方言语音时可能会比不使用这种语言的大学生还好。同所有的人力密集型产业一样,人人都能在此觅得一份营生。人工智能专业方向的硕士生毛毛认为,能不能达到理想标注精度和学历没什么关系,而且操作非常简单,只要教一下,谁都能做。她也曾做过兼职数据标注,在所给的图片中她需要辨别出不同角度的花菜、菠菜等。一星期后,她标注了一万张图,没有一张返工,每张报酬一毛钱。但她「打死也不会再做这个工作了」,因为「实在太重复」。看似简单的操作,要达到 90% 的精度对于大多数标注者来讲却是天方夜谭。小苏所接触到的兼职标注团队最高精度只能达到 70%,即便是在全职和全把控的情况下,他们第一次项目只达到了 50% 的精度,基本上承接的每个项目他们都需要重复三次以上才能达到 90% 的精度。如果用于训练模型的数据精度低于 90%,就像小孩儿拿到的一年级数学课本里头写的是一加一等于三。一开始就教错,机器学习和人工智能就只剩下指鹿为马。数字富士康2014 年冬天,山东蓬莱积起了厚厚的雪。小雪每天都要不情愿地钻出被窝,趟着大雪走到一家汽车工厂去插线。在固定工位站好后,她根据形状将面前充满不同插口的集成器及一堆接口各异的汽车线路一一匹配好,完成后迅速将其交给下一个人,再重复刚才的动作,直到下班。小雪知道,自己站一整天的工作只是整个工厂里头很小的一部分。相比那年冬天,她更喜欢现在的工作,数据标注工厂里,她有接近两百个同事,大家能坐在属于自己的工位上干活。在给用于智能驾驶采集的图片做标注时,小雪需要选取一个可以画出 2D 框的标注工具(即是可以根据不同物体拖动出不同形状的画框),把图片中所有的机动车、非机动车、行人、红绿灯等标注出来。同在汽车工厂流水线上的工作相比,眼前的键盘鼠标显示器替代了嗡嗡作响的流水线,从早上 8 点到晚上 5 点,小雪除了拽动鼠标外什么都不用想,重复一个动作就行,变化的只有眼前不同的图片&&但这对小雪来说,工作中的新鲜感已经足够。有的人说数据标注工厂就像富士康一样。北京另一家数据标注公司玛达科技公司 CEO 任树亮则直言不讳,数据这一块往往给人印象就是一个劳动密集型产业。某自动驾驶数据标注负责人经常私底下开玩笑说,这就是个「血汗工厂」。目前的数据标注工厂,多集中在河北、河南、山东、山西等地区,这同以富士康为代表的传统人力密集企业的选址偏好重合度极高&&以更低廉的劳动力成本支撑起聚集在首都的人工智能底层数据需求。杜霖介绍说,由于高昂的成本绝不能让北京去做最终的生产,而是做所有新任务来时的磨合测试以及最终的质量控制。生产任务最终还是落到周边城市。只有招募像毛毛一样的大学生做兼职标注时,众包工厂能开出一张图 1 毛钱「高价」。任树亮对这样的定价有些吃惊,「我们还有按厘算的呢。」在一堆不同图片中识别某人是否是同一个人,这样的工作只能按厘算,不过也有从几十块钱到上百块钱报价的复杂标注图。杜霖说,图片的差异比较大,以工时来计算可能更准确,现在甲方公司至少应该给到 30 块钱每小时才能保质保量完成。小雪挺满意现在的待遇,「之前的工作太累又挣不到钱」。现在公司包吃包住,提供四人间寝室,一个月到手的工资有
块,还可以和男朋友一同上下班。最近一段时间,工期赶得很急,小雪已经连续两个周末到公司加班,从早到晚地盯着显示器让她倍感疲惫,但她不想停下,基础加计件的工资构成总是多劳多得。和传统生产流水线不同的是,在杜霖的工厂里,工作流程被设置为可实时切换:每期作业都不同,每期作业里头的每个任务也不相同。在一个小时的工作间隔里,小雪会碰到两个相同的标注任务,当两次标注结果差别较大时,就证明她已经疲劳了,这是,系统就会切换一个完全不同的任务交给小学操作,以保持员工的「清醒」和「新鲜」,最终达成杜霖宣称的准确率。算上合作的周边工厂,杜霖的公司已经有 2000 多人,他们正在同时进行着 20 多个不同项目的标注。在这样一个人力密集型行业里存活下来,并且保障交付的数据达到 90% 的精度,他坚信,管理才是关键。管理,管理,以及管理林霞是小雪的直接管理者,她是老板杜霖最信任的人,已经有 18 年类似的工作经验。当接到一个新项目时,她要确定整个项目流程。前段时间,林霞拿到了一个智能驾驶的标注项目,里头既有夜间拍摄的图片也有白天的图片,为了保证标注质量林霞就决定让能力强一点的员工做夜晚图片的标注,而能力弱一些的就标注白天拍摄的图片。这是第一步,分析客户给到的图像,如果是涉及到对人的标注,要分析给到的图片包里单人和多人的图片各占多少,明确需要标注的工作量大概多大。分析完后,她会将具体的标注任务分配给手下的员工。可能一些人擅长标注道路场景,而另一部分人更擅长标注骨骼点,稍有难度的标注她会交给表现出色的员工,对他们进行重点培养。办公桌右侧的日历上每一天空白处都画着提示,如果标注进度比林霞想像中慢,她就必须留意其中的什么原因。标注完成后,最困难的地方就过去了,接下来就是质检、抽检及合成数据交付给甲方公司了。「统筹安排」是整个生产过程的核心,所有工作的底线是要按照客户的要求按时完工。如果赶工期,林霞会要求手下员工加班,并且紧急调配人员。会出现一些让林霞头疼的员工,平时精度可能只能做到 50%,做出来的全是「废品」。面对这种情况,林霞会坚持让他换岗,「不行就不能在我这岗位呆着。因为我的作业他干不了,既浪费我时间又浪费他时间,他还挣不到钱。」林霞的这些经验为小雪给别人培训打下了基础。作为公司里比较优秀的员工,入职一年后小雪就作为培训老师之一去了河北徐水一居民小区里,这是她公司的一家合作工厂。这栋红色外墙的居民楼一层是数据标注工厂,楼上是老年人活动中心。进了大铁门后,有四个教室般大的工厂里面放着新的台式电脑。除了部分来兼职的学生们外,大部分都是些已婚中年人,有的骑自行车十分钟左右就可以到了,而有的就住在小区里。第一次布置任务时,小雪不想给「学生们」的心理压力太大,她只布置了十张标注的作业。但学生们对于标注规则总有不同的理解,同样的东西她单独给一个人讲过三四遍。给他们练手的骨骼点标注图片里头,需要先标注骨骼点再连线,但有身体特别扭曲的图像,而规则里头明确要求左肩和左胯在同一水平面上。那些拿不定主意的学生,会像小学生面对着自己的老师一样,反复向小雪求助和确认。 不清楚标注规则既影响标注速度又影响标注质量。同样的一条眉毛,客户给的标准是将其划分成平眉和挑眉,但「平」和「挑」的定义,几乎人人不同。一轮标注下来,一塌糊涂。为了熟悉各个公司需求文档中不同的具体规则,每当遇到类似的新项目,林霞都会上手试标注。两个星期后,这些偶尔会将左手标签贴在右手上的学生已经掌握了具体的标注规则,可以上岗了。小雪很享受被叫老师的时候,但还是更喜欢做数据标注,因为标注不费心,检查要承受被用户打回来返工的压力,压力更大。对甲方公司来讲,谁来标注、如何管理这些都不是他们需要担心的问题,成本和按时保质交付才是核心。用智能程序覆盖城市低速场景的酷哇机器人公司目前主要跟杭州一些高校合作,学生是标注主体,采用这样的方式可以节省 1/3 的成本。曾对接过多次数据标注的工程师说,只要跟体量比较大的数据标注公司合作,一般精度和时间都可以有保障。AI 产业的源头和最不会被替代的人每次回老家,当家人问起小雪的工作,她总是先说自己是「数据标注师」,再往下解释,说是做和计算机相关一些人脸、骨骼点标注工作。但没人听得懂,小雪在说什么,家里人就会在此停止追问,并暗暗觉得这是一个响亮的高科技职位。小雪从来没有想过自己的工作对于人工智能来说算什么,「只要挣钱就有意义」。「负责静态物体检测/场景识别/OCR 文字识别,负责人工智能与自动作业探索」这是百度招聘图像识别与人工智能算法工程师的工作职责描述,而「扎实的数学基础,掌握 C/C++和 Python 语言, 掌握 OpenCV,掌握机器学习基本算法&&」是对应聘者的要求。面对这些「同行业的同事」,中专文凭的小雪想不明白自己和他们的联系究竟为何。但「小雪们」标注的上万张图片才是无人驾驶能够红灯停、绿灯行的基础。没有数据的清晰标注,深度学习的发展就是巧妇无米。另一家众包数据标注公司 CEO 任树亮认为,人工智能就是盲人摸象,有很多不同的部位,数据标注也是人工智能产业里面很重要的环节,不过容易被认为很 low。的确,同人工智能的响亮名号相比,数据标注几乎没有任何技术门槛。小雪初三时才第一次学打字,上中专后才「正式」接触电脑,而现在她已经被老板表扬为最出色的几个员工之一。踏实干好现在的工作是小雪从入职以来唯一的想法,这是姥姥的嘱咐,让她给弟弟妹妹做好榜样。其他人的情绪并不都像小雪一样稳定。有人领到分配的骨骼标注图片后,因为图像里头人太多就直接不做任务,但资源包被领取后就无法再放回资源池,如果不做,这包图片就不会有其他任何人能标注。而更不靠谱的人还会动摇其他员工。2015 年的初秋,吃饱了午饭的小雪坐上来数据标注工厂派来接他们入职的大巴车,同行的还有 15 名将一起毕业的同学,开往北京的路上,他们嘶吼的歌声盖过了车内的音响,整整一路,那份一无所知的兴奋感延续到了今天。每当听到人们谈论起人工智能会替代人力的时候,小雪都觉得不知所云。「即时是被替代,数据标注师也将是最后一批被替代的人。」杜霖把观点灌输给了小雪和她的同事们,这让他们感受到了莫大的信心和骄傲。只有当真正把所有知识都教给老虎,猫才会被吃掉,在此之前老虎的猎物都只会是其他动物。作为人工智能的「老师」,他们还要不断教会人工智能新本事。某创业公司对接数据标注的负责人认为,商业竞争才是决定这部分人不会取代的关键因素。每家公司都有自己的数据标注需求,并且他们暂时不会公开自己的模型,就像在互联网之初大家都不会开源自己的代码一样。可能到某个节点大家都公开自己的数据、模型后这部分人才会面对失业的担忧。就算到了人工真正要被取代的那天,杜霖坚信她和他的工厂也不会慌张。这位「厂长」正盘算着把他拥有的人力资源复用到其他领域,比如承接一部分内容审核、信息核查的工作,「审核滴滴司机的驾照是否真实、微信是否是真的实名制、头条新闻是否是涉黄、涉恐」。对于将来的发展,小雪还没想太多。她现在正在学习 29 点的人脸标注,每只眉毛上找到三个需要标注的点,眼睛上下眼皮各两个点、眼珠一个点外加两个眼角的两个点,共五个点,嘴巴有六个点&&听完这些规则后,小雪惊喜地笑了,「一个人脸就出来了,老形象了,像 『弥勒佛』一样」。
24小时报不停
四部门行动整治自媒体“洗稿” 重点监管短视频平台
投之家被立案调查,创始人徐红伟回应:“我不会跑路,会承担责任”
苹果折戟印度?上半年iPhone印度销量不足100万台
P2P爆雷又一家:永利宝APP自发消息称老板失联
华帝“退全款”变退卡:能对不诚信亮黄牌吗?
中国第一台大推力液氧煤油火箭发动机热试成功
G20监管机构发布数字货币监控框架 预防潜在风险
特斯拉开始在俄销售电动汽车:一个月接到236份订单
乐视大厦更名为乐融大厦 去年已质押给乐融致新
微信公众号文章提示系统出错 官方:后台问题 已修复
东南亚垃圾进口大幅增长
中兴通讯:公司股票交易异常波动 不存在未披露的重大事项
《我不是药神》回应海报抄袭:设计雷同、真诚致歉
革命性产品将会延期?罗永浩微博已清空TNT工作站相关内容
传饿了么正寻求新一轮20亿融资 官方暂无回复
Python的“仁慈独裁者”累觉不爱 宣布退位
BTC挖矿难度将于15小时后下调2.56%
滴滴预计分拆车服业务,为IPO计划铺路
电商下乡,需要多一份本心与本分
全国19城试点“电子身份证” 目前已有超600万人领取
中国智能音箱已入局全球市场 双重商业模式迅速扩张
泰国:将于下月在债券注册领域应用区块链
快手首席内容官曾光明确认离职
饿了么、百度外卖成立明厨亮灶联盟:App中直播餐馆后厨
华帝股份:已有客户获得“夺冠套餐”退款
香港金管局将于下月上线区块链贸易融资平台
内部人士:小米仍有望纳入港股通 港交所望尽快确认时间表
小鹏汽车刚入职工程师陷商业窃密官司 苹果发起诉讼
华帝股份开盘涨超7% 法国队夺冠华帝退全款启动
华大基因开盘跌停 此前无创基因检测遭质疑数据标注的平台哪个好_百度知道
数据标注的平台哪个好
目前数据标注公司这么多,哪家公司任务比较多,结算靠普
我有更好的答案
标贝的数据做的不错,质检严格
爱数,数据堂,龙猫,灵云,海天瑞声,标贝,这些大公司都不错,找标注也不错,各大平台任务都有。
非常感谢,老兄回复,这些公司你合作过哪家,可以说说吗
1条折叠回答
为您推荐:
其他类似问题
您可能关注的内容
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。数据标注员,最后一批被AI取代的人
  一双眼睛的局部细节图出现在电脑屏幕上,小慧对着放大的眼睛,一步步地做好标记点。
  一眼望过去,一排排的电脑屏幕上,都是类似的画面。也许是因为窗帘的遮光效果太好,略显昏暗的办公环境加上电脑屏幕上被放大的各种物体细节,颇为惊悚。
  在某人工智能研究院看到这一幕,不觉惊叹即使是头部的AI创业公司,最关键的一环依然是从数据标注员开始的。
  而这是一群被称作最后一批被AI替代的人。
  AI的老师:画框的这些人
  伴随着AI兴起的最关键的技术莫过于深度学习,作为深度学习的基础,神经网络是一种以输入为导向的算法,其结果的准确性取决于接近“无穷”量级的数据。
  所以摒除那些复杂的中间环节,深度学习最关键的就是需要大量的数据训练,这也是为什么在互联网大数据的时代,AI可以崛起。而在数据训练之前,又必须先对大量的数据进行标注,作为机器学习的先导经验。
  因此,催生了大量数据标注员的产生。
  简单的说,数据标注员类似于AI的老师,举个形象的例子,我们要教机器认识一个苹果,你直接给它一张苹果的图片,它是完全不理解的。我们得先有苹果的图片,然后在上面标注着 " 苹果 " 两个字,机器通过学习了大量的图片中的特征,这时候再给它任意一张苹果的图片,它就能认出来了。
  据了解,目前标注员的工作内容常见的有拉框标点,打标签,分割,批注等等。其中分类就是最常见的打标签,比如标注画面上动物毛发颜色、动物耳朵等等;框选是将画面中相对应的对象标框标注;还有一种是描点标注,一般用于更细致的人脸标注:需要在眉毛、眼睛、鼻子、嘴巴等关键点做二十多个标记点。
  从他们的基本工作内容就可以看出来,数据标注是个非常枯燥而又考验人耐力的工作,并且相比较AI所代表的高科技,标注看起来毫无技术含量。
  一条产业链的开始
  但巧妇难为无米之炊,AI算法的训练离不开这些大量的数据标注,与之相伴生的数据标注外包业务也成了热门的产业。
  在IT桔子的大数据标注公司专辑中,一共收纳了6家,其中,有5家些都在2017年到2018年这个时间周期内获得千万的融资:
  2017年7月,BasicFinder完成1000万人民币Pre-A轮融资;
  2017年11月,龙猫数据获得A轮3370万人民币融资;
  2018年1月,星尘数据获得1000万人民币Pre-A轮融资;
  2018年3月,爱数智慧获得A轮融资;
  2018年5月,周同科技完成2000万人民币A轮融资;
  同时,他们业务方向也有一定细分区别,有的以处理图像见长,有的数据标注公司更擅长做一些视频标注。而这些公司的服务企业有百度、小米、京东、今日头条这样的互联网公司,也有出门问问、云从、深鉴等AI公司。
  另外,像京东、百度、腾讯、阿里其实都有自己的标注平台和工具。
  而在国外方面,亚马逊有推出众包数据平台Amazon Mechanical Turk,初创公司方面则有CrowdFlower、Mighty AI等。
  这些已经算是这个领域的佼佼者了,在他们的下面,还有成百上千的小的数据标注公司。
  据悉,数据标注行业实行这样一套分工流程:上游的科技巨头把任务交给中游的数据标注公司,再由中游众包给下游的小公司、小作坊,有的小作坊还会进一步众包给“散兵游勇”,比如学生或家庭主妇。
  这条产业链上,分包现象越严重,最终落到最底层的数据服务公司的价格就越低,一层层的“数据黄牛”压缩了利润空间,所以一些任务经过数手转包,酬劳已低得惊人。
  目前的数据标注工作主要是集中在河北、河南、山东、山西等劳动力密集的地区,这样的选址也因为能够以更加低廉的劳动力成本去完成大量的数据标注工作。
  在很多数据标注的报道中,出现频率最高的都是那些毕业于职业技术学校的学生,他们在三四线城市,只需要会操作电脑,就能做数据标注的工作。然而枯燥而又乏味的重复性工作,导致数据标注人员的流动性非常之大,此前,在澎湃新闻的一篇视频采访中,某数据标注公司创始人表示他们有500名左右的在职人员,但是全职的只有11、12个。
  在一些大的数据服务公司,他们宣称平台用户(数据标注人员)超过20万人,其中很多都是兼职人员。
  不过,快速的人口流动也依然阻挡不了低门槛数据标注生意的红火。
  有多少智能,就有多少人工
  即使现在有一些数据服务平台开发了AI工具来辅助人工标注,但依然需要数据标注员去检查和修正其中的错误。在一些专业数据标注公司,机器占30%,而人工标注占比达到70%左右。
  梳理数据标注员的工作逻辑,就像一个悖论,AI能否进化的更为智能某种程度上取决于这些标注工作的人,而这个工作却是最不智能、最没有技术含量的。
  记得在一篇采访中,管理标注员的负责人用特斯拉(Tesla)的自动驾驶事故 给员工“打鸡血”,他提到2016年,一辆自动驾驶模式下的特斯拉发生车祸事故。事后特斯拉公司发表声明称:白色卡车在蓝天背景下识别不出来,特斯拉因此没有启动刹车。
  “我一直跟他们说:‘你们打磨的每一个数据都会为人工智能做出巨大贡献,将来的无人驾驶车能够识别出蓝天下的白色卡车,就是因为你当年把它标出来了。’”
  这种看似无意义的低效率工作应该由AI去做才符合我们对技术的认知,因为我们发展人工智能的初衷,就是为了解放生产力、提高生产效率。
  最需要AI去做的事情,AI反而无能无力,而我们为了能让AI取代劳动密集型的工作,得先为AI服务,付出密集、辛勤的劳动,这让数据标注工作看上去有点赛博朋克、反乌托邦的“魔幻”感觉。
  然而更令人觉得沮丧的是,人工去训练AI依然存在很多问题。
  此前,清华大学人工智能学院院长张钹院士就提到纯数据驱动的系统也存在很大问题――鲁棒性很差,易受到很大的干扰。即便训练出的系统模型准确率高达99%,但在实际应用中,仍然会犯很多“弱智”的错误。
  这就陷入了死循环,人不可能像AI一样,在工作中严格按照数据程序毫无瑕疵地完成工作,纰漏或者技术本身的问题,会导致人工智能的不准确性。最终,就在这个无限循环中不停地优化。
  而且考虑到数据的隐私和公司的商业利益,同类型的数据是无法相互打通的,就像一位数据标注资深从业者所说, “以自动驾驶领域的数据标注为例,我用A公司的数据模型放到 B公司的设备上跑不通,甚至摄像头换了一个角度、位置或分辨率,都跑不通。”
  “有多少智能,就有多少人工。”这似乎是AI进化必须经历的过程。
  结语:
  当然,最完美的情况应该是:AI能够自己消化大量的数据自学成才。目前无需标注数据的无监督学习已经从实验室走向应用,而类似的迁移学习算法也能减少一定的数据标注工作量。
  Facebook人工智能研究部门负责人Yann LeCun曾经说过,AI的核心在于预测,AI的下一个变革是无监督学习、常识学习。研究人员正努力让 AI 不依赖人类训练,自己去观察世界是如何运转的,并学会预测。
  所以理想环境下,可能我们探讨的悖论过几年或者十几年就能完美解决了,这批为AI服务最终会被AI取代的人,也“功成身退”了。

我要回帖

更多关于 数据标注平台哪个好 的文章

 

随机推荐