中國語言學系名家學者講座系列 ——「機器語言理解能力評測任務設計與資料集製作」和「從語法理論到語言知識工程 —— 語言知識的形式化和數據化」

2023年04月27日-2023年05月02日 | 15:00 - 16:30（UTC+8）
D4-G/F-04 及Zoom線上會議 (27 Apr); B4-LP-13 及Zoom線上會議 (2 May)
中國語言學系
講座

普通話

詹衛東教授 (北京大學中文系)

香港教育大學中國語言學系現正舉辦「名家學者講座系列」，邀請多位教授進行演講，分享研究心得，互相交流。第六輪演講我們邀請到北京大學的詹衛東教授，他將會就「機器語言理解能力評測任務設計與資料集製作」和「從語法理論到語言知識工程 —— 語言知識的形式化和數據化」進行兩次演講，現誠邀各位一起參與，講座詳情如下：

講座一

講題：機器語言理解能力評測任務設計與資料集製作

講者：詹衛東教授（北京大學中文系）

主持：梁源博士（香港教育大學中國語言學系）

日期： 4月27日（星期四）

時間：下午3時至4時30分
模式：混合模式（線上及線下）
地點: 香港教育大學大埔校園D4-G/F-04及Zoom線上會議*

語言：普通話

報名連結：https://eduhk.au1.qualtrics.com/jfe/form/SV_2glYBczcnh3wgtw （Zoom講座連結將於4月26日以電郵發送，敬請留意）

講座摘要：

在自然語言處理（NLP）的發展中，評測任務（benchmark）引導和推動著技術、模型和方法的不斷進步。近十年來隨著深度學習（deep learning）引領人工智慧領域飛速發展，新的NLP評測任務和相關資料集大量湧現。與此同時，現有評測也暴露出不少問題。參照人類語言能力評測方法，我們提出類人機器語言能力評測的任務設計理念。講座將介紹北京大學中文系和計算語言學教育部重點實驗室課題組聯合開展的兩項評測研究工作：（1）基於機器學習程式與二語學習者對比的中文近義詞辨析實驗；（2）空間語義理解能力評測任務設計（SpaCE2021、SpaCE2022）及資料集的研製。在分析實驗結果和總結資料集製作經驗的基礎上，提出應重視測試資料集的類型代表性和難度挑戰性，從而使測試結果更能反映機器語言能力的真實水準。在以ChatGPT為代表的大型生成式預訓練語言模型使得機器語言能力大幅提升的背景下，機器語言能力理解評測任務設計應更注重語言學理論的指導，為更細細微性地測試機器語言能力以及尋求機器語言能力的解釋理據提供支援。

講座二

講題：從語法理論到語言知識工程 —— 語言知識的形式化和數據化

講者：詹衛東教授（北京大學中文系）

主持：張凌博士（香港教育大學中國語言學系）
日期： 5月2日（星期二）

時間：下午3時至4時30分
模式：混合模式（線上及線下）

地點: 香港教育大學大埔校園B4-LP-13及Zoom線上會議
語言：普通話

報名連結： https://eduhk.au1.qualtrics.com/jfe/form/SV_2glYBczcnh3wgtw（Zoom講座連結將於4月28日以電郵發送，敬請留意）

講座摘要：

在人類社會的發展進入到大數據和人工智慧時代的背景下，語言數據資源建設工作成為語言學研究，特別是面向應用的語言學研究的前沿領域。講座以現代漢語句法結構樹庫（treebank）的構建為例，介紹北京大學中文系在漢語語言知識工程領域的研究工作。一方面，句法結構樹的形式表徵要借鑒現代漢語語法本體研究的理論成果，語言知識工程離不開語法理論研究的堅實基礎; 另一方面，樹庫構建中對語言範疇的嚴格形式化要求，語言資源建設所得到的語言知識數據化成果，又可以反過來幫助檢驗和評判漢語語法理論本體研究的成果，深化對語法理論研究目標的理解。從語法理論到語言知識工程的實踐，呼喚新時代的漢語語言學更加開放，更具多元視角，更加注重多學科交叉和融合。

講者簡介：

詹衛東，北京大學中文系教授，博士生導師。北京大學中國語言學研究中心副主任，北京大學計算語言學研究所副所長，教育部“新世紀優秀人才”，教育部“青年長江學者”。主要從事現代漢語形式語法、語言知識工程與中文資訊處理、語言文字應用方面的研究。代表性成果有《面向中文資訊處理的現代漢語短語結構規則研究》，國家語言文字標準《出版物上數位用法》及配套讀本《〈出版物上數字用法〉解讀》。參編《計算語言學概論》《自然語言處理》《現代漢語》等多部教材。在國內外學術刊物發表論文八十餘篇。近年來研究興趣主要集中在現代漢語構式資源庫建設，面向認知智慧的機器語言理解能力評測。

歡迎各位踴躍參與！

如有查詢，請電郵至 ismwong@eduhk.hk (王小姐)，謝謝！

中國語言學系名家學者講座系列 ——「機器語言理解能力評測任務設計與資料集製作」和「從語法理論到語言知識工程 —— 語言知識的形式化和數據化」

講座一

講座二

更多最新活動