依存語法是法國語言學家Tesnière在其1959年出版的著作《結構句法基礎》(éléments desyntaxe structurale)中提出的一種語法理論。因此,Tesnière也被稱為“現代依存語法之父”(馮志偉,2010)?!督Y構句法基礎》一書在出版后被譯為德語、西班牙語和意大利語等多種語言,但由于沒有英文版的譯作,依存語法并沒有短語結構語法的影響范圍廣泛。依存語法認為句法結構是由詞與詞之間的依存關系構成的,依存關系的種類包括主語-謂語、謂語-賓語和限定詞-名詞等。依存關系中的中心詞支配附屬詞,因此是一種非對稱的二元關系。依存語法沒有短語結構語法中的句法成分概念,換言之,依存語法中的非終極符和終結符都由詞構成。依存語法的上述特性適合于描述和解釋德語、俄語、捷克語和漢語等語序比較靈活的語言(Nuges,2006),因此,近年來基于依存語法的語言對比和類型學研究逐漸增多(Liu,2013)。同時,由于依存語法較之短語結構語法更為簡潔,更加適合用計算機建立語言模型,計算語言學的很多研究都借助依存語法進行自動信息提取和語義標注。
一、理論語言學視角下的依存語法
理論語言學視角下的依存語法流派眾多,但大多以Tesnière的研究為基礎,對依存關系的表層語法結構和深層語義結構進行擴展,并試圖在兩者間建立聯系。Tesnière(1959)通過分析世界上的60多種自然語言指出句法是以動詞為中心的詞與詞之間的關聯(connection),這種關聯可以由圖式(stemma)來表示。下面筆者通過圖1來說明如何用圖式來描述自然語言中的關聯圖1是一個簡單的法語句子,“Alfred吃了一個蘋果”的圖式。Tesnière指出,語句的理解和產出是一個在線性/一維順序和結構/二維層次之間的轉化過程。線性順序是指語言表面都是按線性順序排列的,但我們在理解和產出的過程中可能涉及一些更抽象層面的關系,也就是圖1所示詞與詞之間的層級關系。這些層級關系有上下左右之分,構成了一個二維結構。同時,圖示中的層級關系具有方向性,由中心詞支配附屬詞。Tesnière認為圖示中處于頂點的支配詞是句子的謂語,謂語可以統領句子中的其他成分如行動元和狀態元。行動元指完成動作的必選成分,比如句子的主語和賓語,行動元的數目可以有一個、兩個或三個;狀態元指完成動作的可選成分,比如狀語,也有學者將其稱為“可自由添加的成分”.
通過行動元和狀態元的劃分可以看出Tesnière的關聯理論強調了句法和語義的密切聯系。實際上,Tesnière更關注語義層面的關聯,這一點在他提出的轉位概念中最為明顯。轉位是指實義詞在特定的句法關系中通過功能詞變換詞性的過程。如在句子“Marylovestodrink.”中,動詞“drink”通過“to”轉換為名詞。通過這一轉換過程后可以很容易得到動詞“love”的論元結構:“love(Mary,drink)”.Tesnière提出的關聯理論是依存語法的原型,該理論對句法-語義界面的重視影響了后續依存語法的研究。
二、計算語言學視角下的依存語法
與理論語言學不同,計算語言學視角下的依存語法研究側重于依存語法的形式化研究。為了便于依存語法的形式化描述,計算語言學家經常使用圖來構建句子中的依存關系。這里所說的圖是一種在計算機中存儲數據的結構,由兩部分組成:節點集合V(G)和弧集合E(G)。依存語法中的詞可以用圖的節點表示,詞與詞之間的依存關系可以用弧表示。
下面筆者通過圖2來說明如何用節點和弧來描述依存關系。
圖2是句子“Hewantstoeatcake”的依存關系圖示,圖中的節點集合V(G)={He,wants,to,eat,cake};弧集合E(G)={wants-He,wants-eat,eat-to,eat-cake}.因為依存關系中除頂部節點詞外,每個詞只隸屬于一個中心詞,所以弧集合的元素數量=節點集合的元素數量–1.在計算語言學中,研究者經常對依存關系圖的特征進行如下限定(Nugues2006:266-267):
第一,依存關系圖是一個有向無環圖。有向是指?。匆来骊P系)中的節點具有方向性。例如在圖2中,節點的方向是從中心詞指向附屬詞。無環是指從圖中的任意節點v出發,無法經過若干弧后返回v.
第二,依存關系圖是一個連通圖。連通是指圖中任意兩個節點間都存在一條路徑。
第三,依存關系圖是一個投射圖。投射是指可以畫在平面上并且使得不同的弧互不交叉。對依存語法形式化的研究的目的是進行依存關系的自動切分。目前,依存關系的自動切分已達到了較高的準確率(Nivre,2007)。
三、小結
從以上文獻可以看出,理論語言學視角下的依存語法研究強調句法和意義的不可分割性,強調自然語言是以意義和功能為主導的。而計算語言學視角下的依存語法研究更加注重依存語法的形式化以及依存關系的自動切分。需要注意的是,兩種視角下的依存語法研究互相為彼此提供養分,共同促進了依存語法的發展。在計算語言學領域,依據依存語法理論設計的語言模型提高了自動句法分析的準確率,推進了機器自然語言理解的步伐;在理論語言學領域,經過依存關系自動切分建立的依存樹庫為語言學家提供了基于真實語言的數據,為完善和驗證傳統的語言學理論奠定了堅實的基礎。
同時,從文獻中可以看出依存語法的理論并不統一,存在很多變體,例如有些理論認為助動詞是句子的中心詞,應該位于樹庫的頂點;而有些理論則認為句子的中心詞應該是謂語動詞。另一個在依存語法中存在爭議的語法現象是并列結構,因為這種結構是一種離心結構,具有多個中心詞,與依存語法理論的中心--附屬二元關系--相悖。這些問題也導致了依據依存語法開展的實證研究并沒有一套標準的標注體系,研究者往往根據實際的研究需求來決定依存關系的標注方式。
【參考文獻】
[1]Liu, H. Syntactic variations in Chinese-English code-switching[J]. Lingua, 2013, (123): 58-73.
[2]Nivre,J., J. Hall, J. Nilsson, A. Chanev, G. Eryi?it,S. Kübler, S. Marinov and E. Marsi. MaltParser: A language-independent system for data-driven dependency parsing [J].Natural Language Engineering, 2007, (2): 95-135.
[3]Nugues, P. M. An Introduction to Language Processing with Perland Prolog [M]. Berlin: Springer, 2006.
[4]Tesnière, Lucien. ?léments de syntaxe structurale [M]. Paris: Klincksieck, 1959.
[5]馮志偉 . 自然語言處理的形式模型[M]. 合肥:中國科學技術大學出版社,2010.
[6]劉海濤 . 依存語法的理論與實踐[M]. 北京:科學出版社,2009.