以Cecil Textbook of Medicine為語料庫的醫(yī)學(xué)英語詞表構(gòu)建
發(fā)布時間:2017-10-11 14:20:50
【摘 要】筆者以醫(yī)學(xué)英語學(xué)習(xí)者為主要服務(wù)設(shè)計對象,以醫(yī)學(xué)內(nèi)科界的權(quán)威書籍Cecil Textbook of Medicine為語料庫,以自主開發(fā)的詞頻統(tǒng)計軟件獲取的單詞詞頻為依據(jù),參考了GSL&AWL 詞匯表,構(gòu)建了兩個醫(yī)學(xué)英語詞匯表,分別是General Word List of Internal Medicine 和Internal Medicine Terminology List,旨在提高醫(yī)學(xué)英語學(xué)習(xí)者單詞記憶有效性,也為醫(yī)學(xué)英語的教材編寫、教學(xué)大綱的確定以及在此基礎(chǔ)上衍生的醫(yī)學(xué)英語學(xué)習(xí)者語料庫的完善和計算機(jī)輔助教學(xué)的展開提供一定的學(xué)術(shù)參考。
【關(guān)鍵詞】醫(yī)學(xué)英語 Cecil Textbook of Medicine 語料庫語言學(xué) 詞頻 GSL&AWL
基金項目:西安思源學(xué)院2016年橫向課題“基于Cecil Textbook of Medicine的醫(yī)學(xué)英語詞表構(gòu)建”。
引言
隨著20世紀(jì)80年代開始大規(guī)模計算機(jī)語料庫的陸續(xù)創(chuàng)建和數(shù)據(jù)驅(qū)動的語言學(xué)研究方法的普及,研究者們得以通過定量的方法對詞匯進(jìn)行更客觀準(zhǔn)確的統(tǒng)計。將詞匯按照使用頻次來劃分,成為語料庫方法下詞匯研究的重要成果,對于外語教學(xué)也具有重要的指導(dǎo)意義[1]。醫(yī)學(xué)英語具有詞匯量大、結(jié)構(gòu)復(fù)雜、專業(yè)性強(qiáng)、難以記憶等特點,而通過詞頻統(tǒng)計篩選出高頻醫(yī)學(xué)詞匯,可以從一定程度上解決醫(yī)學(xué)英語詞匯習(xí)得中的這一瓶頸問題。
理論回顧
1.Cecil Textbook of Medicine
Cecil Textbook of Medicine由J. Claude Bennett, M.D.和Fred Plum, M.D.編纂,是集合各方面專家共同執(zhí)筆的、世界上最具權(quán)威的醫(yī)學(xué)內(nèi)科學(xué)寶典?;谝韵?方面原因該書被選為本文語料庫:
第一,經(jīng)典著作,確保語料庫的可信性。Cecil Textbook of Medicine自1927年出版以來,再版22次,獲得醫(yī)學(xué)界專家一致的好評,擁有數(shù)萬擁躉。它清晰的寫作和權(quán)威的疾病論述使得成千上萬的讀者自動地視其為首選參考書。
第二,完整涵蓋內(nèi)科學(xué),確保語料庫的完整性。全書共包括2,132,382個字,共計28個單元、448章。每章都詳細(xì)闡述了一種或一類疾病從發(fā)病機(jī)理到臨床及愈后的各環(huán)節(jié),強(qiáng)調(diào)病理個生理機(jī)制。因此,通過學(xué)習(xí)該書,讀者可以系統(tǒng)、深刻地認(rèn)識整個內(nèi)科學(xué)[2]。
第三,電子版本確保語料庫的可操作性。第22版的《西塞爾內(nèi)科學(xué)》隨書贈送光盤,有利于詞頻統(tǒng)計軟件進(jìn)行詞頻分析統(tǒng)計。
2.詞頻和詞頻統(tǒng)計軟件
詞頻影響著語言從輸入到輸出的轉(zhuǎn)化,影響著語言加工的熟練程度和流利性。隨著計算機(jī)技術(shù)、語料庫以及語料庫語言學(xué)的發(fā)展,對詞頻作用的研究也成為語言學(xué)及語言教學(xué)的一個研究熱點。而跟詞頻密切相關(guān)的就是語料庫和語料庫語言學(xué)。詞頻統(tǒng)計的發(fā)展伴隨著語料庫的發(fā)展,許多語料庫也提供相應(yīng)的詞頻統(tǒng)計表;反之,詞頻統(tǒng)計也為語料庫的建立提供了重要、有價值的信息和線索。
詞頻統(tǒng)計是詞匯分級和篩選的重要依據(jù),在教學(xué)大綱設(shè)計、教材編寫、語言測試、語言習(xí)得等方面都有廣泛的應(yīng)用。根據(jù)詞頻統(tǒng)計的結(jié)果,分析、整理得出的詞匯表是非常有價值的。根據(jù)詞頻,哪些單詞是重點,學(xué)習(xí)者一目了然,從而學(xué)習(xí)和積累針對個體差異的積極詞匯和認(rèn)知詞匯。而醫(yī)學(xué)英語作為專門用途英語ESP(English for Special Purpose),更是需要詞頻來指導(dǎo)學(xué)習(xí)者進(jìn)行語言習(xí)得。隨著計算機(jī)的迅猛發(fā)展,越來越多的詞頻統(tǒng)計軟件被開發(fā)和應(yīng)用。此次,作者專門根據(jù)課題的需要開發(fā)設(shè)計了一個詞頻統(tǒng)計軟件。
3.GSL&AWL詞匯表
高頻詞匯涵蓋口語及各類書面語中的大部分常用詞匯,最具代表性的是由West(1953)提出的一般用途英語詞匯表GSL(General Service List),其中包含英語中最為常用的2000個詞組,覆蓋了英語口語中大約90%~95%的詞匯和書面語中80%~85%的用詞,可滿足日常一般用途英語的使用需要[3]。此論文中采用的是1995年由John Bauman and Brent Culligan創(chuàng)立的詞表。此詞匯表不僅包括1953年構(gòu)建的GWL詞表最初收錄的2000個中心詞,還增加了在Brown Corpus出現(xiàn)頻率較高的284個中心詞。
AWL是Academic Word List的縮寫,即英語學(xué)術(shù)詞匯表,由Averil Coxhead在新西蘭惠靈頓維多利亞大學(xué)創(chuàng)建。該表包括了570個詞組(head word),涵蓋除GSL以外學(xué)術(shù)語篇中出現(xiàn)的約10%的詞匯。且按照使用頻率劃分為10個子詞表,其中一個子列表則包含詞頻最低的學(xué)術(shù)詞匯[4]。AWL以大量真實的學(xué)術(shù)英語語料為基礎(chǔ),采用了合理的建構(gòu)方法,不僅科學(xué)地指出ESP即學(xué)術(shù)英語教學(xué)中哪些詞匯應(yīng)該被包含在學(xué)習(xí)材料中,同時,AWL子表的編排也為ESP教材的編寫和詞匯教學(xué)的順序提供了一定依據(jù)。這也是本文選用AWL作為甄選比對單詞覆蓋率詞表的原因所在。
詞表建構(gòu)
在詞頻統(tǒng)計中,專業(yè)學(xué)術(shù)英語詞匯選擇通常遵循兩個主要標(biāo)準(zhǔn),即范圍和頻率。在AWL的編制過程中,最終進(jìn)入詞表的詞匯不應(yīng)包含GSL,但能夠覆蓋建庫28個學(xué)科中一半以上學(xué)科語料,即保證入選詞匯使用范圍的廣度。入選詞匯還應(yīng)達(dá)到一定的使用頻率要求。在AWL所建3,500,000個詞的學(xué)術(shù)英語語料庫中,最終統(tǒng)計生成的學(xué)術(shù)英語詞匯在語料庫中的使用頻率至少應(yīng)達(dá)到100次以上,而高頻學(xué)術(shù)詞匯的使用頻率可達(dá)數(shù)千次。所以,在自建專業(yè)學(xué)術(shù)英語語料庫基礎(chǔ)上進(jìn)行詞頻統(tǒng)計時,建庫者可根據(jù)實際需要來設(shè)定詞匯篩選統(tǒng)計的范圍和頻率標(biāo)準(zhǔn)[5]。因此,單詞甄選基于以下3個基本原則:第一,根據(jù)詞頻,高頻詞入選詞表。第二,根據(jù)詞表的大小。第三,根據(jù)對象。Cecil Textbook of Medicine的主要讀者是醫(yī)生、醫(yī)學(xué)從業(yè)者、醫(yī)學(xué)院高年級學(xué)生、研究生等。他們本身已經(jīng)掌握了一些GSL詞表中高頻單詞,所以有必要將這些單詞過濾出詞表。具體分為以下6個步驟。
根據(jù)詞頻統(tǒng)計結(jié)果共有34,955個單詞出現(xiàn)在Cecil Textbook of Medicine?;谠~表的詞匯量以及隨后自建小型醫(yī)學(xué)英語學(xué)習(xí)者語料庫的容量,筆者從這34,955個單詞中選取了大約8,000個單詞。根據(jù)詞頻統(tǒng)計結(jié)果,單詞出現(xiàn)的最高詞頻105,139次,而最低的詞頻是1次。有必要截取過濾掉這一部分功能詞。下表展示了一部分截取過濾的功能詞信息:
部分截詞詞表
通過截詞將GSL詞表收錄的單詞部分過濾出去,將剩余單詞同AWL詞表進(jìn)行比對、分析、計算覆蓋率等。
仿照antconc軟件的詞形還原功能,人工將詞表中單詞的不同變化形式進(jìn)行歸類、合并,組成一個單詞,找出主詞(headword),進(jìn)一步確認(rèn)其屈折變化以及派生變化。
Coxhead & Nation(2001)將英語詞匯劃分為四類,即高頻詞匯、學(xué)術(shù)詞匯、專業(yè)詞匯和低頻詞匯[6]。對于ESP學(xué)習(xí)者,造成詞匯困難的不是一般用途詞匯,也不是與學(xué)科高度相關(guān)的專業(yè)詞匯,而是介于兩者之間的學(xué)術(shù)詞匯。所以,這一步驟分離常用學(xué)術(shù)詞匯(半專業(yè)詞匯)和專業(yè)詞匯。最終得到兩個醫(yī)學(xué)英語詞表,分別為General Word List of Internal Medicine 和Internal Medicine Terminology List。
為了進(jìn)一步減少失誤,在上述步驟都完成之后, 筆者邀請了醫(yī)學(xué)英語界的權(quán)威、醫(yī)學(xué)英語教師、內(nèi)科醫(yī)生、醫(yī)學(xué)專業(yè)在校學(xué)生,對詞表做最后的檢查和鑒定。
進(jìn)一步開發(fā)語料庫
在詞表的基礎(chǔ)上,可以研究開發(fā)開放式醫(yī)學(xué)英語學(xué)習(xí)者語料庫。該語料庫專為Cecil Textbook of Medicine英文版的學(xué)習(xí)者設(shè)計,收錄該單詞在Cecil Textbook of Medicine中出現(xiàn)的頻率,通過前綴、后綴、詞根以及屈折變化、派生變化等構(gòu)詞法分析來強(qiáng)化記憶,也提供檢索功能,語料庫使用者可以檢索出該單詞在Cecil Textbook of Medicine 中的相關(guān)例句,也可向語料庫中添加沒有被語料庫收錄的詞條等。
參考文獻(xiàn):
[1]張敏:《專業(yè)學(xué)術(shù)英語詞匯表編制及其在EAP教學(xué)中的應(yīng)用》,《重慶世界》2011年第28(6)期,第100-102頁。
[2]J.Claude Bennett,M.D.& Fred Plum,M.D:Cecil Textbook of Medicine,(W.B.Saunders Company , 2003).
[3]M.West:A general service list of English words, (London Longman Green &Co.,1953).
[4]A.Coxhead:“A new academic word list”,TESOL Quarterly,2000,34(2):P213 -238.
[5]HylandK,TseP:Is there an “‘a(chǎn)cademic vocabulary’?”TESOL Quarterly,2007,41(2):P235-253.
[6]Flowerdew & Peacock:Research perspectives on English for academic purposes(Cambridge: Cambridge University Press,2001).



