接下來的日子,齊浩初經(jīng)常在公司和數(shù)據(jù)局兩邊跑,天氣更加炎熱,變得更累了。“面紗”的事情也變成了日常工作,和以前也沒什么區(qū)別,只是處理的數(shù)據(jù)更敏感了而已。數(shù)據(jù)里面其實(shí)也基本沒有姓名、身份證號(hào)碼,有也是處于加密狀態(tài)。人員信息是通過虛擬id關(guān)聯(lián)起來的,所以最初那點(diǎn)緊張感也早就蕩然無存了??磥磉@套系統(tǒng)還是經(jīng)過了非常完善設(shè)計(jì)的,之前領(lǐng)導(dǎo)們表情嚴(yán)肅,說得那么嚇人,應(yīng)該只是怕被普通人知道后,聽不進(jìn)官方的解釋,到時(shí)候鬧得不好看。
倒是有件事情讓齊浩初比較開心,因?yàn)轫?xiàng)目管理部有一個(gè)新的活,是公安網(wǎng)警的一個(gè)智能輿情分類系統(tǒng),數(shù)據(jù)采集由其他方式獲取到,希望根據(jù)文章內(nèi)容自動(dòng)分類。自動(dòng)分類這個(gè)事情,需要一點(diǎn)“智能”參與。這個(gè)正好是齊浩初這邊的事情,雖然不如呂天和那么厲害,但是自己有過不少AI模型訓(xùn)練的開發(fā)經(jīng)驗(yàn)。只要有合適的樣本數(shù)據(jù),加上bert-base-chinese這個(gè)自然語言模型,可以像人一樣理解文章內(nèi)容,就能高效地構(gòu)建出一個(gè)高準(zhǔn)確率的文本分類模型。之前參加了一個(gè)“華山論劍創(chuàng)新大賽”,對(duì)新聞文章進(jìn)行智能分類,還得了全國二等獎(jiǎng)。數(shù)據(jù)部門只要做好這個(gè)分類接口即可,其他前后端的開發(fā)由研發(fā)部門去做。
齊浩初正想著接下來要怎么找趙語麗搭話,這不正好就有正當(dāng)理由了。8月14日(周三),齊浩初在聊天工具里和趙語麗說:“你們部門那個(gè)智能分類系統(tǒng),是你在對(duì)接嗎?”
“是我這邊對(duì)接的,這個(gè)事情你也參與了?”
“嗯,最核心的智能分類是我這邊做的,我訓(xùn)練一個(gè)AI模型,做成接口,然后研發(fā)部做前后端頁面來對(duì)接。不過我需要你們提供些數(shù)據(jù),就是你們過往人工分類好的那些文章數(shù)據(jù)?!?/p>
“好的啊,我整理下,你什么時(shí)候要?”
“你什么時(shí)候準(zhǔn)備好就行,我隨時(shí)都在?!边€附帶了一個(gè)可愛的表情包。齊浩初發(fā)完這句話,怎么感覺有點(diǎn)曖昧。但又舍不得撤回,就這么著吧。
之后的事情也比較順利,對(duì)樣本做了些預(yù)處理,然后做各種微調(diào),比如學(xué)習(xí)率、學(xué)習(xí)率的調(diào)度策略之類的,找出一個(gè)評(píng)估結(jié)果最好的組合,準(zhǔn)確率、精確率這些都達(dá)到了0.98以上。之后又用tiny-bert進(jìn)行模型蒸餾,減小模型文件大小,提高了4倍的分類速度,這個(gè)智能分類的模型就訓(xùn)練好了。
最后再做成調(diào)用接口服務(wù),寫好文檔材料給研發(fā)部門去對(duì)接,齊浩初這邊的工作就算完成了。
8月23日(周五),齊浩初把智能分類的接口演示界面發(fā)給趙語麗試用,趙語麗一口一個(gè)“好厲害啊”,“太牛了”,把齊浩初說得心花怒放。用公安局的幾十萬條數(shù)據(jù)做樣本,就能做一個(gè)這么好用的分類模型,雖然是意料之中的,但也是非常有成就感。
然而回過頭來,在數(shù)據(jù)局看著“面紗”的數(shù)據(jù),作為目前唯一真正可以看到這些數(shù)據(jù)的人,齊浩初忍不住想要用這些數(shù)據(jù),試試看訓(xùn)練一些分類模型,相似度模型,預(yù)測模型之類的,積累些經(jīng)驗(yàn)。這個(gè)平臺(tái)本身有集成訓(xùn)練數(shù)據(jù)的模塊,有挺不錯(cuò)的GPU資源。
原本只做數(shù)據(jù)治理的話,齊浩初的賬號(hào)是沒有權(quán)限訪問這個(gè)數(shù)據(jù)訓(xùn)練的模塊的。不過因?yàn)楫?dāng)時(shí)蔣主任說為了方便齊浩初能隨時(shí)測試數(shù)據(jù)效果,也給他申請(qǐng)了這個(gè)權(quán)限。不同賬號(hào)能訪問的數(shù)據(jù)不同,而齊浩初有訪問回流庫所有數(shù)據(jù)的權(quán)限。
齊浩初想著自己只是訓(xùn)練測試而已,不會(huì)把模型帶出來,也不會(huì)正式發(fā)布,本身平臺(tái)里面也有各種臨時(shí)的測試腳本。唯一不合適的,是他本人原本只是做數(shù)據(jù)清洗而已,這個(gè)訓(xùn)練模塊是給他測試下數(shù)據(jù)是否正常達(dá)標(biāo),正式算法模型是呂天和的事情。但是某種程度上來說,自己的賬號(hào)其實(shí)比呂天和的賬號(hào)權(quán)限都高。猶豫了幾天,終于還是忍不住在數(shù)據(jù)訓(xùn)練平臺(tái)開始寫訓(xùn)練腳本。
“面紗”的數(shù)據(jù)果然是厲害,數(shù)據(jù)質(zhì)量非常好,而且類型又全面。在測試神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)時(shí),發(fā)現(xiàn)了一些有趣的事情,比如從購物習(xí)慣可以看出某個(gè)有錢人其實(shí)有私生子,從高鐵記錄可以看出某個(gè)人的學(xué)歷是偽造的,從買房買車的記錄中可以看出某個(gè)人中了彩票但是沒和家里人說之類的。當(dāng)然并不知道具體是誰,只是知道有這個(gè)人存在。
然而有一天,齊浩初忽然有點(diǎn)擔(dān)心起來,雖然隱去了姓名身份證號(hào)碼,但是數(shù)據(jù)上的各種標(biāo)簽組合其實(shí)也是過濾條件,如果湊齊很多具體的標(biāo)簽,還是有可能指向具體的某個(gè)人。于是他用自己的信息做測試,把從小到大的學(xué)校名稱、生日輸入進(jìn)去,查到有2條數(shù)據(jù)匹配的數(shù)據(jù),之后又對(duì)比了工作單位,齊浩初很容易就找到了那條自己的記錄,以及自己對(duì)應(yīng)的那個(gè)虛擬id。也就是說,如果對(duì)某個(gè)人足夠了解,其實(shí)還是可以從“面紗”的庫里,找到這個(gè)人的所有信息。
想到這里,齊浩初并不是興奮,而是擔(dān)憂,他怕在他手上,出現(xiàn)什么數(shù)據(jù)泄露的事情。因此更加不敢和別人提這個(gè)系統(tǒng),使用的時(shí)候也更加小心謹(jǐn)慎,每天上班前都在心里默念幾遍“今天不出事,天天不出事”。當(dāng)然他也不敢匯報(bào),一來這個(gè)是國家的系統(tǒng),他有什么能匯報(bào)的,難道國家還會(huì)為了他的建議,對(duì)這個(gè)系統(tǒng)做什么改造。二來他本身也沒有被授權(quán)使用這些數(shù)據(jù)做訓(xùn)練,這個(gè)結(jié)果他又怎么能和別人提起。自己一個(gè)打工仔,操這個(gè)心干嘛,不要出錯(cuò)就行了。
每次訓(xùn)練測試完,齊浩初只把代碼腳本保留在自己的工作空間,生成的模型和臨時(shí)數(shù)據(jù)都直接刪除了。
9月27日(周五),工作群里,數(shù)據(jù)局蔣主任突然@所有人:“國家級(jí)領(lǐng)導(dǎo)要來視察了?!?/p>