上個月,特斯拉首席執行官馬斯克表示,將在明年推出“Tesla Bot”人形機器人原型,以從事人們不喜歡做的危險、重復性或枯燥的工作。該計劃一經發布便引起了廣泛討論,國外媒體的焦點,放在了安全性上。而在國內,隱藏在人工智能產業鏈中一群人“小人物”卻開始浮出水面,并被輿論聚焦。
他們是AI行業的賦能者,是人工智能背后的“人工”。在AI繁榮的背后,有億兆級的數據信息,在流水作業中,這些數據最終都會傳遞到名為“標注師們”的電腦前,被他們手動去“智能化”。
他們扮演了“老師”的角色——手把手地傳授現實世界中的表情和動作,然后等著AI這位“學生”成長、離開,或許有一天這些“AI學生”將取代“老師”的位置。如今,隨著數據標注行業迭代升級,這些數據標注師或許很快就會離開舞臺……
入行、扎根
上海一座創意園區內,主管員劉夢緣(化名)正坐在自己的小隔間里,等著手下的標注師們發來成型的文檔。
外面的工位上坐滿了員工,他們一個個都把腦袋湊近屏幕,脖子還向前探著。其中的一位員工正在做著“描點標注”,將視頻按幀截取并放大,細致對臉部特征、骨骼彎曲點進行標注,由于截取的畫面像素低,大部分員工總是習慣性地一邊滑動鼠標滾輪一邊嘆氣。
員工們操作的“描點標注”是人臉識別前重要的步驟之一,除去“描點標注”,還有分類標注、標框標注等。AI不是生來就能識別人的眼耳口鼻,它需要通過標注師繪制的人臉關鍵點,來建立對五官輪廓的認知。在此基礎上,AI才可通過這些點構成的輪廓特征,完成一系列識別工作。
當你“刷臉”解鎖手機、完成支付,當你進入火車站,檢票設備掃描面部時,都是在使用人臉識別的技術。而助力這項技術的,正是數據標注師們。
在劉夢緣所在的公司,標注師們用細密、起伏的鼠標點擊聲制造出成千上萬個關鍵點。這項工作很“初級”,卻也很艱難,劉夢緣在屋里偶爾會出來看一眼,然后見怪不怪地回到隔間,“我以前也是這么過來的,正常。”
她是從2018年入行的,從機械地錄入(數據清洗)工開始,幾個月后才正式接觸數據標注工作。她的第一個任務是給圖像中的人物打標簽:年齡、性別、人種、頭發、表情等,以供AI學習。而在見識了海量人物標簽后,AI就像煉就了火眼金睛,“一眼”認出人的特征來。
“當時稅后5千多的工資,主要是門檻不高,其實說到底就是互聯網民工的角色吧”。當時的劉夢緣大專畢業后幾次應聘都不順,灰心喪氣之際她與“標注師”不期而遇,女生特有的細心和韌勁讓她一路堅持下來,直到現在。
也正是在劉夢緣入行的2018年,數據標注公司的風口來臨。根據前瞻產業研究院統計,2017年數據標注相關融資事件達到9起,到2021年4月,共有18家公司獲得融資,投融資事件39起。
來源:前瞻產業研究院
跟著這一波潮流發展的是,許多數據服務公司也作為乙方進入到日益擴大的市場,為百度、阿里等大型互聯網公司,以及部分AI獨角獸企業提供服務。
圖片來源:人社部
2020年4月26日,人力資源與社會保障部發文正式宣布,“人工智能訓練師”正式成為新職業,并納入國家職業分類目錄。預計到2022年,國內外相關從業人員有望達到500萬。
行業向上,但“老師”們依舊用密集、艱辛的勞動輔助AI一步步走向成熟。光鮮的AI科技發布會在臺前風光無限,可標注師們的生活似乎變得有些困難了。
“說是沒技術含量,精度要求在那里,很容易犯錯,”劉夢緣看著現在的手下的員工說道。每張圖片要標記的點位繁雜,稍有偏離就會產生錯誤。一張圖有錯,會影響到整個數據包數據,然后就是“回爐重造”。
除了精度,疲倦是標注師最大的敵人。“這行干久了之后,我清楚地知道客戶要通過我們實現什么——就是把人腦當電腦用”,劉夢緣笑著說道。
大公司會用軟件監控標注師的疲勞程度,也算是一種人性化的體現,“但小公司本來就是接人家剩下來的活,時間緊任務急,只能拼著命熬,”正是如此,劉夢緣的團隊里常年備著成箱的紅牛和西洋參含片。
AI快速發展的背后,一批批“老師”換血,流動率相當高。“做文本標注的人員,現在越來越少,圖像標注的30%的流動率,語音、視頻常年都是對半開。而且現在的95后、00后愿意做的人少了,一般呆過三個月就不愿意繼續干了”。
3年時間過去了,劉夢緣不斷和老同事告別。但她從枯燥無味的工作中堅持了下來,她記不得自己標注了多少圖,只覺得自己是踏上了人工智能的大潮。
對那些新晉的員工,劉夢緣也是如此描述,“我們是走在智能時代前面的一群人”。
巨頭來了
行業的分水嶺出現在2019年初:幾大互聯網巨頭紛紛意識到數據的重要性,并著手建立自己的“數據工廠”。
據媒體報道,截至今年3月,百度山西人工智能數據產業基地中,就擁有超過3000位標注師,主要涉及自動駕駛、人臉識別等內容標注,其中86%的員工為90后;字節跳動在北京、天津、濟南、武漢各地,也招募了4萬名數據標注師;騰訊更是直接把平臺放到了線上,讓標注師變成了一種“全民兼職”,稱為“眾包”。
巨頭的加入一方面是為了市場和成本,另一方面也是出于數據安全考慮,所以在內部搭建專門的標注團隊顯然是一個好選擇。但是,“模型的訓練和數據需求是周期性的,任務不持續,今天有活、明天沒活,人員容易流失,管理成本很高”,劉夢緣能理解大廠擺出“眾包”的原因,“我讓手下的人去試過平臺的兼職標注,單個標注幾分錢,一個月的收入在2000元左右,比起讓外包來做,省了一半還多。”
“大廠出手之后,市場最后拼的就是成本”,那段時間劉夢緣所在公司業績下滑了40%,而且做出的標注數據質量也差很多。
圖片來源:Boss直聘
據懂懂筆記了解,2018-2020年數據標注師行業平均薪資為5000-6000元,如果晉升為項目主管或者更高級別的項目總監后,月薪才能向5位數靠攏。而這一薪資標準到了2021年, 在一些求生的外包“小廠”內,不升反降。
圖片來源:職友集
巨頭涌入,薪資縮水的“大趨勢”下,能窺探出標注師行業的“小趨勢”:許多數據標注就像被人精心種下的水稻,還未到秋收季節稻穗就掉進了土里。
年初,劉夢緣單獨接了一個“私單”,賺了2萬元。
那是一個大廠“丟”出來的單子,做無人駕駛的數據標注工作,由于公司手頭上的人員都撲在另一個項目上,她拉了之前的一些老同事和10個兼職學生,干了個“包工頭”的活。
已經快1年沒有親自上陣標注文件的劉夢緣,只能硬著頭皮和所有人一樣移著鼠標,頭頂、脖子、肘部、手腕、膝蓋……都要一個個地標出來。整整一周,一群人完成了幾萬個點位的標注——他們看似在科技的潮頭,干的卻是苦力活。
本以為這單生意之后,可以繼續接小單,可好景不長。“4月份開始,很多新團隊出現,壓價特別狠,原來是標注的報價按毛算,現在報價單上都出現幾分錢了”。
數據標注行業有一套分工流程:巨頭把任務交給中游的數據標注公司,再由中游包給下游的小公司、小作坊,有的小作坊還會進一步眾包給“散戶”:比如兼職學生。一單生意幾經轉手,就造成了行業眾包中介層疊越來越嚴重,利潤所剩無幾。
“AI 肯定是未來的大趨勢,但我們這些小公司很迷茫,聽說很多公司都不干了。”劉夢緣本想著“私單”做得差不多了之后就出來單干,可這樣的行業情況下,她能感受到的只有壓力。
困境、掙扎
盡管目前的情況不樂觀,劉夢緣依舊相信,數據標注行業最終會大浪淘沙,而他們,是走到最后的那一批。
從好的局面來看,下游市場陷入混戰的同時,上游的 AI 市場從未停止過發展,AI正在成為人們進入這個社會的“入口”,這讓劉夢緣和其他從業者們感到充滿希望。
但行業也顯露出嚴峻的一面,數據標注在迭代:大模型慢慢替代標注師,一些門檻更高、學科更細分的領域正露出頭角。比如,醫療健康領域需要對病理切片等進行標注,以腰椎間盤突出的 CT 片為例,標注員必須準確識別并標注出間盤的輪廓。不過,很多醫療專家并沒有時間和精力做數據標注,而這類工作又是普通的標注師無法勝任的,通常需要請醫生或醫學院的學生來做,結果就是成本居高不下,這些專業人員的成本是普通標注員的10倍。
像劉夢緣之前那樣手把手教人工智能學習的方式,被稱為“有監督”的機器學習。但當人工智能被逐漸成熟,它自身的識別能力與模型擬合準確度將不斷提高,進入人機協作模式。直至人工智能會在模型的注準確度與效率上完全超過人類,此時它便要離開人工標注,進入無監督機器學習。
理論上說,每一個垂直場景隨著技術發展,人工智能都有可能進入無監督學習狀態。AI的核心在于預測,AI的下一個變革是無監督學習、常識學習。也就是說,“老師”們正在努力讓 AI 不依賴人類訓練,自己去觀察世界是如何運轉的,并學會預測,最終AI要甩掉“老師”。
但劉夢緣并沒有很強的危機感:“我帶領我們的人在做一件最有意義的事,在將每一個個體的智慧轉化為 AI。我能保證,如果未來 AI 取代人類,他們也會是最后一批被取代的。”
為什么是最后一批?“因為總會有一個新的行業需要引入 AI ,需要我們(標注師)為他們來做數據準備。”
劉夢緣一直認為:“最大的一塊市場是審核”。隨著 AI 技術的發展,早年一些基本的標注工作正被逐漸被淘汰。以自動駕駛模型為例:以前靠人工來識別車、行人,如今則是由機器先標出來,然后人再去檢查標注是否正確。
她考慮過自己的職業規劃:“非常想進大廠,可是簡歷不夠漂亮,門檻都邁不進去”。
互聯網大廠對于數據的重視,最直接的反應就是薪資,尤其是管理崗,優厚的薪資福利讓很多人都羨慕不已,劉夢緣也是其中一員。除此之外,她還考慮過自己單干去開個小公司,然后以被收購的方式進入大廠的管理體系。
“不過,那都是非常遙遠的未來,還是抓緊現在吧。”如今,劉夢緣已經升級為公司主管,名片上的職位是數據總監。她也不再像剛入職時那樣累了,“每天工作結束,累得不行,還要在內部對比誰今天完成的任務多。”
當然,角色的轉換之后劉夢緣會思考更多,“或許下一個風口明年就來,又或者……”她也有些語塞。
在科技急速發展的年代,各類人工智能的應用如雨后春筍一般閃現,隨之而來的是職場的多變。劉夢緣現在能依靠的,就是自己在“教學”生涯中的經驗,至于那些新入行的標注師們,他們剛踏上了人工智能的列車,卻已經駛向一個模糊的未來。
請登錄以參與評論
現在登錄