面對海量信息如何實現(xiàn)內容識別

2019-08-13 15:54:33??來源：人民網(wǎng)-傳媒頻道責任編輯：肖月青　肖月青

互聯(lián)網(wǎng)平臺的出現(xiàn)以及移動傳播體系的形成，改變了人類內容生產和分發(fā)的方式。從形態(tài)上，互聯(lián)網(wǎng)平臺代替?zhèn)鹘y(tǒng)媒體成為了信息聚合和分發(fā)的樞紐；從傳播關系看，社會成員個體的參與愿望及信息需求，形成了當代社會信息交互的雙輪驅動。反映在內容生產與分發(fā)過程中，現(xiàn)象之一就是互聯(lián)網(wǎng)用戶個人上傳的各類內容成為了網(wǎng)絡空間里一個海量的存在，以當前發(fā)展迅速的短視頻平臺為例，它們每天都有數(shù)以千萬條計的短視頻內容上傳；現(xiàn)象之二是，這樣海量的內容只有通過移動終端，面向用戶個人的差異化信息需求，通過推送式的精準分發(fā)，才能使人們所生產的信息“各得其所”、“各盡其用”，以充分發(fā)揮不同內容的效能。

這一切的前提是內容本身是真實的，健康的。而面對每天上傳到互聯(lián)網(wǎng)平臺上數(shù)以十萬篇計的文章、千萬條計的短視頻、十億張計的照片這樣級別的海量信息，想要鑒別它們的“成色”并實現(xiàn)推送式的精準分發(fā)，必須充分運用人工智能技術。這也就是為什么習近平同志在2019年1月25日的中央政治局集體學習時講話中，要求“探索將人工智能運用在新聞采集、生產、分發(fā)、接收、反饋中” 。通俗地說，就是要“互聯(lián)網(wǎng)技術產生的問題，用互聯(lián)網(wǎng)技術來解決”。

維護互聯(lián)網(wǎng)平臺上內容的真實性和健康性是一個國際性課題。前不久，在美國參與的“數(shù)字時代的美國新舊媒體”考察活動給了我切身體驗。中國和美國這兩個不同社會制度的國家，都面臨著互聯(lián)網(wǎng)平臺帶來的各種挑戰(zhàn)，其中互聯(lián)網(wǎng)內容的真實、健康和安全是最為人們關注的。在各自國家政府和社會公眾的壓力之下，兩個國家的互聯(lián)網(wǎng)平臺都在做出努力來解決上述問題。這些努力的主要方面，就是積極利用人工智能技術，開發(fā)對互聯(lián)網(wǎng)內容進行審核的應用。比較分析的結果是，中國的互聯(lián)網(wǎng)平臺在這一領域居于領先地位。

以國內最大的資訊分發(fā)平臺今日頭條及其系列產品為例，其反低俗的軟件“靈犬”，經過三次迭代升級，最新版本包括識別類型和模型能力的重要升級，同時應用了“Bert” 和半監(jiān)督技術，并在此基礎上使用了專門的中文語料，使對存在色情低俗、暴力謾罵、標題黨類問題內容的文本識別準確率提升至91%，還能支持對含有色情低俗、血腥暴力成分的圖片的識別。比較而言，谷歌和臉書等平臺對虛假、低俗類信息識別的技術路線更多是“重點對用戶特征（包括個人級別特征和組織級別特征）、新聞特征（包括文本特征和傳播特征）和網(wǎng)絡關系（包括用戶關系網(wǎng)、事件關系網(wǎng)和傳播路徑網(wǎng)）這三個要素進行自動查驗” ，具體而言，更多依靠用戶的反饋和標注，以及對相關因素的一致性檢驗，在借助人工智能和大數(shù)據(jù)對文本本身進行更加全面的識別方面投入不足，從而導致相應的技術能力無法應對以“深偽（Deepfake）”為代表的偽造信息技術的發(fā)展。有研究者指出，“瑞士科學家在一篇論文中就首次對人臉識別方法檢測Deepfake的效果進行了較為全面的測評，嘗試用最前沿的人臉識別系統(tǒng)去識別假視頻，結果錯誤率高達95%。所以當前如果要求平臺對深度偽造等合成媒體內容進行識別和標注，在技術上幾乎是不可能實現(xiàn)的” 。這一事實告訴我們，在網(wǎng)絡傳播中反虛假、反低俗，還是要更多依靠更加先進的人工智能應用，通過大數(shù)據(jù)與算法的結合，提升對各類內容（文字、圖片、視頻等）的識別能力。

當前的人工智能，實質上是基于對人類處理各種事務規(guī)則的算法化，并基于大數(shù)據(jù)提供的深度學習資源而實現(xiàn)的。具體地說，就是人們根據(jù)對于客觀事物的認識，制定處理相關事務的規(guī)則和標準，然后找到一組數(shù)學公式來模擬這個過程，也就是形成算法，再把算法開發(fā)成為軟件，就可以用大數(shù)據(jù)來訓練這個軟件學會識別不同狀態(tài)和情況，達到比較成熟的水平就可以上線運營，代替人類來工作了。客觀上，在這個過程中，關鍵性的難點在各個環(huán)節(jié)都存在。如人們制定的標準和規(guī)則是否科學，取決于人們對相關事物本身發(fā)展規(guī)律的認識水平。按照馬克思的論斷，“一種科學只有在成功地運用數(shù)學時，才算達到了真正完善的地步”。這需要人們對客觀規(guī)律有深刻的認識，目前在社會科學領域這顯然是研究的短板。以筆者本人近年來對主流價值觀如何體現(xiàn)為算法的研究為例，旨在面向個人推送信息以提高傳播效率的算法，如何在社會成員個人對事件重要性的判斷與社會主體對事件重要性的判斷之間建立一致性就是一個難題。在內容審核方面，也存在標準和規(guī)則隨具體場景而變化的情況，如越南戰(zhàn)爭期間著名的反戰(zhàn)新聞照片，照片主體是一位越南小女孩衣服被汽油彈引燃而渾身赤裸奔跑，就曾經因為“裸露”，被Facebook誤刪。實踐中，即使實現(xiàn)了規(guī)則和標準清晰且正確，還要能夠找到可行的算法，建立較大規(guī)模的數(shù)據(jù)庫，還要有算力的支持。如靈犬3.0，就投入了更大的算力。從上述過程看，利用人工智能的深度學習來解決虛假、低俗內容充斥網(wǎng)絡空間的問題，是一個具有相當技術難度的系統(tǒng)工程，需要假以時日，需要付出更大的努力。

用技術識別內容如此之難，是不是我們就不要走這條路，靠人工去完成這個工作呢？很顯然，在互聯(lián)網(wǎng)傳播環(huán)境下，這是不現(xiàn)實的。當前，互聯(lián)網(wǎng)技術的應用，已經實現(xiàn)了在傳播的技術條件方面對用戶的普遍賦權，在中國，每天都有數(shù)以億計的互聯(lián)網(wǎng)用戶活躍在各個網(wǎng)絡平臺上，以短視頻為例，抖音等平臺，每天都有千萬條級別的內容上傳，今日頭條平臺每天經審核后發(fā)布的內容就超過60萬條。這是無法完全用人工去處理的。與人工審核相比，機器審核的優(yōu)勢在于，機器一是計算快，一秒鐘能執(zhí)行百億次計算；二是存儲大，可以輕松存儲千億以上漢字；三是運行穩(wěn)定，不會因心情、狀態(tài)、對標準的理解等因素影響處理結果。據(jù)了解，由于強化內容標注和審核的需要，今日頭條的母公司“字節(jié)跳動”已經建立了近萬人的審核團隊。在“機器+人工”審核模式下，我國主要的互聯(lián)網(wǎng)信息分發(fā)平臺的內容安全得到了較大程度的提升，未來隨著研究的深入、技術的進步，內容審核的水平還會持續(xù)提升。

日韩AⅤ午夜在线观看_亚洲一区二区三区下卡精品_国产一区国产一区日韩二区欧美三区_日本一区二区三区a在线

面對海量信息 如何實現(xiàn)內容識別

面對海量信息如何實現(xiàn)內容識別