請先關注慧科訊業公眾號
        最新動態
        慧科訊業AI實驗室競技國際自然語言處理與中文計算大會文本摘要技術奪冠
        發布時間:2018-08-22 11:20:30


        第七屆國際自然語言處理與中文計算大會(NLPCC 2018)“單文本摘要”技術評測結果公布,慧科AI實驗室(Wisers AI Lab)以其專有的自動摘要技術從來自世界各地學術界與業界共18支隊伍中脫穎而出,成功獲得第一名。

         

        隨著近些年信息的爆發式增長,人們每天能接觸到海量的文本信息,如新聞、博客、聊天、報告、論文、微博等。從大量文本信息中提取重要的內容,已成為我們的一個迫切需求,而自動文本摘要則提供了一個高效的解決方案。單文本自動摘要技術通過使用計算機軟件及其底層分析算法自動從原始文本中創建一個簡明、全面且反映該文章核心思想的摘要,從而輔助人們實現大量信息的快速閱讀與檢索。甚至更進一步,可以通過在單文本自動分析的基礎上分析多文本,實現對同一事件不同報道的多維度、多角度自動文摘。

         

        慧科(Wisers)奪冠的自動文本摘要技術使用人工智能(AI)與自然語言處理(NLP)技術,支持中英文跨語言自動文章摘要,采用無監督式摘要生成技術,不依賴于訓練數據,可勝任各類文本的自動摘要。

         

        該技術包含兩個重要模塊。第一個內容分析模塊自動分析文本的話題大意,利用統計學和語言學特征,識別出文本中最精確且全面地涵蓋文本討論主題的重要語句。

         

        第二個摘要編輯模塊,通過精心設計,不僅解決了提取式摘要技術通常因簡單提取句子并拼接所造成的上下文不連貫問題,同時也克服了生成式摘要技術產出句子可讀性差的問題。

        慧科奪冠技術的秘訣在于:

        ·通過內容分析與識別檢測并糾正摘要中不清晰的指代表述(例如代詞等)和不完整語段(例如編號不完整的列舉項等);

        ·通過文本去噪和句子壓縮確保最終生成摘要的簡潔度、流利性與可讀性;

        ·集成了基于深度學習和語義嵌入模型的垃圾廣告過濾與話題分割技術,以保證最終摘要的信息多樣性和清潔度。

         

        慧科AI實驗室自動文本摘要技術自20181月起已在慧科產品后臺廣泛應用,支持日常數據管理與運營。

         

        除獲得自動文本摘要評測第一名之外,慧科AI實驗室的自動話題分類技術也在第七屆國際自然語言處理與中文計算大會(NLPCC 2018)“知乎問題自動標注”技術評測的16支參賽隊伍中名列前四。該評測任務旨在對任意未先指定的知乎問題從超過25千多個可選標簽集中自動判斷話題分類。慧科的自動話題分類技術采用了基于語義向量模型與深度學習相結合的集成學習技術;并且透過高效定制化工具,可快速支持話題擴展。

         

        國際自然語言處理與中文計算大會(NLPCC)是由中國計算機學會中文信息技術專業委員會(CCF TCCI)組織的專注于自然語言處理和中文計算技術領域的一流國際會議。參加者包括來自世界各地自然語言處理和中文計算領域的專家和學者。今年第七屆年會NLPCC 2018將于2018826日至30日在中國呼和浩特舉行。

         

        NLPCC評測單元涵蓋自然語言處理和中文計算領域中各種經典和新興的重要課題,受到學術界和業界的廣泛歡迎和參與。本屆評測任務于20181月份公布并開始接受報名,3月份正式啟動,4月底提交結果,5月份結束。每個評測任務統一給參賽隊提供一份供算法開發的訓練數據集,之后由評測任務組織者根據嚴格設計的測試數據集和性能指標對每個參賽隊提交的解決方案進行評估并排名。

         

        慧科AI實驗室(Wisers AI Lab20147月成立于香港,專注于以人工智能技術解決中文全媒體資訊自動化分析與大數據情報挖掘,于20164月成功獲取香港特別行政區政府逾八百五十萬港幣創新科技基金。團隊由畢業于國際知名院校的AI及計算語言學專家組成。所有成員均擁有碩士以上學位,其中35% 的成員擁有博士學位。


        慧科AI實驗室自主研發的,面向實際應用、開放領域、多元化數據的AI分析技術全面涵蓋自動化媒體情報處理與挖掘的各個層面,既包括基于文本分析的實體識別,關系提取,話題分類,情感分析和事件檢測追蹤等技術,也包括基于圖像分析的品牌標識和人臉識別技術。以上技術均可以在慧科AI實驗室官網(www.wisers.ai)提供的實時技術演示中獲得體驗。

         

        慧科訊業有限公司(Wisers Information Limited)是全球領先的全媒體大數據智能商業情報專家,憑借20年累積的數百億海量媒體數據,先進的人工智能技術,以及科學的分析模型體系,為全球超過2500家客戶提供創新的產品服務和解決方案,助力企業及各類機構做出明智決策(www.ciznx.com)。


        主站蜘蛛池模板: 合川市| 涿鹿县| 白河县| 康马县| 麻江县| 郯城县| 宝鸡市| 旺苍县| 乌拉特后旗| 枞阳县| 德江县| 宝山区| 天峨县| 营口市| 宁海县| 新宁县| 拜城县| 耿马| 乐清市| 汶上县| 辽源市| 德兴市| 永泰县| 偏关县| 卢龙县| 股票| 沙湾县| 马山县| 屏南县| 霍邱县| 福海县| 高安市| 亚东县| 平潭县| 垫江县| 太白县| 万全县| 五寨县| 乌兰察布市| 临潭县| 清水河县|