<acronym id="6i0ao"><small id="6i0ao"></small></acronym>
<acronym id="6i0ao"><center id="6i0ao"></center></acronym>
歡迎來到文庫吧! | 幫助中心 堅持夢想,走向成功!
文庫吧
首頁 文庫吧 > 資源分類 > DOCX文檔下載
 

外文翻譯----一個實驗文語轉換系統在分析韻律短語的貢獻-其他專業.docx

  • 資源ID:7478       資源大小:48.68KB        全文頁數:13頁
  • 資源格式: DOCX        下載權限:游客/注冊會員/VIP會員    下載費用:10
換一換
游客快捷下載 游客一鍵下載
會員登錄下載
下載資源需要10元   |   0.1元文檔測試下載

支付方式: 微信支付    支付寶   
驗證碼:   換一換

      加入VIP,下載共享資源
 
友情提示
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,既可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰   

外文翻譯----一個實驗文語轉換系統在分析韻律短語的貢獻-其他專業.docx

外文翻譯文獻(中文) 一個實驗文語轉換系統在分析韻律短語的貢獻 介紹 我們描述了一個實驗性的文語轉換系統,它使用一個確定性的解析器和韻律規則為英文輸入生成詞組水平音高和時間持續久的信息。這一信息是用來注釋輸入句子,然后被處理的文本到語音程序目前在貝爾實驗室開發。在建構這系統中,我們的目標一直是檢驗假設(i)該語法樹中的信息可用。尤其地,如主謂和頭補這樣的語法功能,是BV公司本身在確定svnthetic韻律時有用的短語和語法功能(ii)它可以使用一個指定語法句法分析函數來確定合成語音的韻律短語。 雖然語法和韻律之間的某些關聯是眾所周知的(例如像進度話詞性應力的影響,或設立括號表達式關閉)實用的知識是非常小的語法問題上可能被連接到可用的韻律短語。在許多研究中,研究人員之間尋求成分結構和韻律連接(如Cooper和Paccia-Cooper1980年。Umeda1982年。Gee和Grosjean1983)但是,隨著Selkirk(1984年)的例外。他們往往忽略了在svntax樹語法功能的代表性。此外,以前的工作還沒有具體明確,提供了一個完整的系統實施的基礎。在我們的韻律短語記錄人類語言的研究的基礎上,我們決定強調三個方面的結構,它涉及到短語句法選區,語法功能及成分的長度。這些研究結果。我們將詳細討論,已實施了韻律規則的集合在一個實驗文語轉換系統。 我們系統具有兩個重要的特征。第一,對我們的韻律系統的輸入是由一個一個分析樹的deterministtc分析器Fidditch(欣德爾1983)版本生成的。這個解析器左角落搜索策略,特別是,它的決定,給Fidditch的速度,使在線文本到語音的生產是可行的。在建設一個解析樹里,Fldditch確定核心主謂對象關系,但沒有試圖代表附屬或修飾關系。因此相對的條文,狀語和其他非參數的成分在樹中沒有指定位置,而且沒有指定的語義角色。第二,在韻律系統的規則通過參考據法結構和早期的語法結構來建立韻律樹。其結果是一個支持該觀點的分層表示,也是在Selkirk(1984)提出該語法功能信息與韻律短語有關,但間接得,通過不同層次的處理。該系統的非正式測試顯示,它在所產生的合成語音質量韻律中能夠產生顯著改善。我們在我們描述的調查系統的問題中,并沒有發現任何嚴重違反我們的基本方針。在許多情況下,看來當前版本的問題能就通過進一步采取我們的做法來解決,包括所要求的另一個因素確定的韻律短語解析器的詞匯信息 文語轉換 大多數文語系統包括兩部分發音規則和語音合成器。發音規則轉換成拼音輸入文字,wav可以補充到一個提供關于一部分語音、強調模式和特定詞語的拼音組成信息的字典。語音合成器然后轉換拼音成語音參數系列,并在后來的處理中產生數字化語音。雖然這些系統往往表現在字的發音非常好,但當涉及到提供完整的句子很好的韻律時他們功虧一簣。目前的文本到語音系統無法獲得語法和影響詞組層次韻律的句子的語義特征。因此判刑韻律規則,當他們提供所有通常取決于文本(例如標點符號)表面的問題,以及在復雜程度不同的啟發。雖然這種技術通常添加一個更自然的質量,由此產生的合成語音,他們可能會在一些重要方面失敗,例如,忽略了冗長的主語和謂語韻律活動之間的韻律事件,以至于在字中正確的標記顯著特征中的正確性和標記之間沒有明確的韻律邊界。 一些作者(如Allen 1976; Elovitz等al.1976。Luce等1983)曾建議,語音合成與天然之間的韻律差異是主要的,在未解決的因素,導致合成語音的流利的理解困難。但是詞組之間的層次韻律及其來源的關系,是如此知之甚少,以至于我們對在任何程度上不同層次的適用的解釋--句法,語義或務實沒有很好的理解。我們目前有一個合理的文本自動句法分析工具,但對于語義或語用文本分析并沒有等價發達的東西。因此,一個明顯的目的是探討在何種程度上詞組層次韻律可以解釋語法樹和發展這一關系的詳細描述。另外一個目標是將這個關系而產生的見解轉換成一個能夠與語音合成器工作的系統。這使我們能夠更充分地測試我們的描述,或許也將進一步產生一些文語技術。 句法結構與韻律短語 除了字一級水平,出現了句法結構和韻律短語之間的系統連接聯系。Cooper和Paccia -Cooper(1980),梅田(1982)和Gee和Grosjean (1983)和Selkirk韻律理論(1984)在心理學聲學調查是其中較顯著的研究,代表了兩種主要方法語法/韻律關系。在Cooper和Paccia -Cooper(1980)和Umeda(1982),從語法連接韻律短語是任何過濾過程作中間人,即他們提出了具體韻律短語可以直接從語法句法結構通過擁有音值的特別句法節點關聯(或者成分界限),要么暫停,節段性延長,或交叉的語音規則,單詞的調節阻塞。相比之下,Gee和Grosjean(1983)和Selkirk(1984)認為,語法關系是間接的韻律韻律短語是根據規則推導,是指由左到右的順序,長度(或分支模式),并在在Selkirk的情況下的語法功能,以及組成成員,以便推斷層次韻律結構。但是,盡管各自的立場非常清楚,這些研究都不是決定性的。所有的語法框架缺乏足夠詳細和正式允許廣泛的測試,大多數只考慮了少數的句子和句子類型。 為了發展我們的分析,我們首先在從包含四個指令手冊的不同文本里閱讀我們的一次演講來審查韻律短語。后來這些文本增加了一個專業閱讀散文故事。韻律短語之間的界限被確定歸類,然后根據他們的句法和語義方面的功能被歸類。 文語轉換合成 該方案構成的講話組件中描述了Liberman和Buchsbaum(個人通信)。這些方案作為輸入文字文本和產生數字化語音輸出。通過注解文字輸入這個系統,其運作的許多方面都可以重寫或修改,例如主要和次要的短語邊界的位置,給單詞的壓力,轉錄的單詞和它們之間的界限,時間段,以及等高線間距的細節。正如我們將顯示,我們的韻律體制使我們能夠生產其中的四個邊境水平確定和感知區分,使用目前的文本到語音轉換系統的注釋字符串。 韻律短語 韻律規則使用的有關成分結構,語法的作用,和長度來映射一個表面結構樹標識韻律短語邊界的位置(由節點標志著)和每個邊界(由節點號,標志著中)的相對強度信息。正是這一點是用來注釋用轉義序列提供有關韻律短語說明文字到語音轉換系統的輸入文字信息。 在擬定我們的規則來建設韻律結構,我們以單單實施Gee和Grosjean(1983)模型的思想開始。這種模式最初提出來預測主觀的描述句子結構,被稱為性能結構,從句法樹決定韻律邊界,但聲明不是明確提出了一個句法成分。 我們起初被Gee和Grosjean的模式吸引,因為其對相對邊界的比重,即在一個關于在句子中的其他界面邊界強度的測定。我們發現,在我們所收集的數據,這個比重發揮了重要作用。事實上,我們直接納入到我們的系統這樣做的一個權重的方法,即Gee和Grosjean的規則來確定圍繞一個使用相對長度(如終端節點數量衡量)動詞短語的韻律邊界的優勢。 當我們擴展Gee和Grosjean的模型來創建一個通用系統使用適當的算法,我們的算法偏離了它的出發點,反映了我們試圖糾正在Gee和Grosjean模型中遇到的弱點和缺陷。我們遇到的這些問題并不奇怪,因為我們的目標和Gee和Grosjean之間的不同。 Gee和Grosjean模式和我們目前的算法中最重要的區別是涉及邊界的決定因素權重。Gee和Grosjean假設這個比重僅取決于句法節點的數量,其數量左到右順序,在動詞短語組成的長度的例子。相比之下,我們的數據與Selkirk(1984)的理論分析一致,表明邊界的力量是依賴于語法功能,在一個給定的句子成分的發揮。特別是,我們觀察這些功能之間的邊界方面的強度,就像如下討論。我們的附加規則從大部分的Selkirk的算法中推導出了。我們也取得了Gee和Grosjean(1983)從Selkirk的工作采取的大部分思想,某些句法頭劃出語音短語邊界,并提供更高層次的分析。我們的韻律運行規則使用四個獨立的階段.每個階段是建立在之前的階段,這樣的規則可以參考語法和韻律結構,因為先后建立更高層次的韻律結構。 結論 我們描述了一個在線實驗系統,該系統采用韻律規則由成分結構、語法功能、韻律和長度得到韻律應用。該系統包含三個模塊一個確定性的解析器,短語的韻律規則,和一個轉換短語的韻律規則的輸出到貝爾實驗室文本語音轉換系統的算法。 基于基元選擇的語音合成方法中普通話文語轉換 1、 介紹 文語轉換系統是一個可以自由轉換文本文件到音頻文件的系統。這是一個把文本文件讀出來給人聽的過程。對于文語轉換系統,有著廣范圍的應用。 一個典型的文語轉換系統包含三個主要的部分文本分析,韻律生成和語音合成。文本分析部分理解了每個文本并確定每個句子的聲音;韻律合成部分產生控制語音變異的一些參數;語音合成部分根據發音和韻律的要求產生話語的表達。 在過去的二十年,許多方法已被用于合成語音,主要途徑可分為兩個主要的類別,即以規則以基礎的共振峰合成和串聯合成。共振峰合成生成語音使用一套規則。這些規則經常是來自一個漫長的實驗過程,這種方法需要小型計算機內存。但是語音質量受到了該方法本身的限制。然而,串聯合成須使用一些預先錄制的語音單位為模板。合成過程中,各單位通過使用信號處理技術被修改,然后聯合在一起形成一段話語。這個方法通常需要更大的內存。但是語音質量也相對應地更好了。然而,隨著科技的發展,人并不滿足于這樣的通過使用信號方法產生的語音話語機。 正常連接合成的工作原理是保持一個小單位的庫存在系統。合成過程中一個單位被選中,然后根據韻律特征修改使用信號處理技術。用該方法合成可生成具有較高的語音質量,但是,由于信號處理過程,合成語音或多或少扭曲。一個簡單地產生好質量語音的方法是儲存大量的人類發音的語音段在一個數據庫里,當執行時,串聯所有需要的語音段在一起不作任何修改。當然,選擇的連接段時間越長,生成的講話越自然。由于每個語音單位在不同情況下可能有很多變種或韻律情況下,這種方法需要一個大的內存來存儲大量的語音段。因為幾年前的計算能力和內存限制,該方法不實用。隨著硬件的發展,大語料庫語音合成用于直接連接使用單位是可能的。單位選擇為基礎的語音合成(或語料庫為基礎合成)已應用在英語及其他語言好幾年。一些嘗試(劉,王,1998年;楚等人,2001年;王等人,2000年,Liet人,2001年)已使用中文TTS的單位選擇方式。吳等人 (2001)也提出了一個計劃,選擇發音,語言最佳單位,然后應用韻律修改。但是,所有提出的方法已在適當的韻律應用局限性。如果沒有適當的韻律審議后,生成的語音質量,有時可能會很差。本文關注有關如何適用于一個單位選擇基礎的合成韻律。 2基元選擇模型 一個基元選擇模型具有良好的組織基元的數據庫。該數據庫包含了語音基元從一大主體,這是經過精心設計,有韻律的所有語音和覆蓋面大變種各單位。在數據庫中,每個基元有一個講話可能變種的數量,這是適合出現在不同的語音和韻律環境。大語料進行了分析和離線所有的計算都儲存在一個單位的數據庫。在數據庫中,每一個基元的實例所描述的特征向量。每個功能可能是離散或連續值。的特點包括單位本身和該單位的環境特點。本機的功能本身用于選擇正確的單位,符合段的要求,而環境的特點是用于最好的選擇內容相關的單位,這可能減少選擇的單位之間的不連續性。主體為基礎的合成實際上是一種串聯模式匹配的過程。在合成,工作需要做的是選擇最佳單位,發音和韻律的最佳匹配的目標單位。同時,選擇的單位之間的不連續性,應盡可能小。為了滿足這些要求,兩種成本的界定應合成。一個是單位成本,介紹如何關閉選擇的單位到所需的單位。另一種是連接的成本,它描述了連續性的程度單位之間的選擇。總成本是兩種成本的加權和。 3 基元選擇 在語音合成過程中接受來自韻律生成零件信息,檢索講話單位數據庫來為每一個適當的單位查找目標語音單位。該裝置可以選擇過程如圖1所示,在圖中,目標一句是“今天很熱”,由4個音節組成。每個音節有一組候選單位。粗線厚邊框顯示選定的基元序列。在單位選擇過程,為了獲得最佳的講話,我們要考慮(1)通過與目標單位的比較,候選單位是否適當,(2)被選擇的單位之間鏈接的平滑。因此,選擇過程是要找到一個在所有的最佳路徑在連接晶格可能路徑。搜索過程是按照一個成本函數,它描述對一個單位,兩個單位之間的平滑度的適當程度。 4 語料庫 正如我們前面提到的,一個大語料是用于基于合成的單位選擇。該語料包含了大量收集的話語。合成的單位將被從語料中提取。盡可能多地覆蓋上下文相關單位和韻律的變種是理想的。但是,建立一個非常大的語料,有一個完整的覆蓋單位的變種,這通常是不可能的。由于建設有高品質的大型語料庫的成本非常昂貴的,平衡是通常由覆蓋面和規模之間衡量。 在此研究中,我們建立了一個約38000音節語料。這語料的腳本是從一個大的文本語料庫(約3億個漢字)選擇的。主體是設計來盡可能覆蓋經常使用的獨立音節和上下文相關的音節。我們使用北大人民日報的文本語料庫,作為真正的word文本參考來評估腳的本主體。我們算出創建語料庫覆蓋的99.8的音節出現在北大語料庫。當單位上下文是由最初和最后一類分組(我們定義了11個聲母類和10個韻母類)中,語料覆蓋的76.8的單位的類出現在北大文本語料庫。有了這樣的覆蓋面,我們認為,對于基于合成的單位選擇,語料庫是合適的。 外文翻譯文獻(英文) THE CONTRIBUTION OF PARSING TO PROSODIC PHRASING IN AN EXPERIMENTAL TEXT-TO-SPEECH SYSTEM INTRODUCTION We describe an experimental text-to-speech system that uses a deterministic parser and prosody rules to generate phrase-level pitch and duration information for English input. This information is used to annotate the input sentence, which is then processed by the text-to-speech programs currently under development at Bell Labs. In constructing the system, our goal has been to test the hypotheses i that information available in the syntax tree. In particular. grammatical functions such as subject-predicate and head-complement, is bv itself useful in determining prosodic phrasing for svnthetic speech, and ii that it is possible to use a syntactic parser that specifies grammatical functions to determine prosodic phrasing for synthetic speech. Although certain connections between syntax and prosody are well-known e.g. the influence of part of speech on stress in words like progress, or the setting off of parenthetical expressions very little practical knowledge is available on which aspects of syntax might be connected to prosodic phrasing. In many studies, investigators have sought connections between constituent structure and prosody e.g. Cooper and Paccia-Cooper 1980. Umeda 1982. Gee and Grosjean 1983 but, with the exception of Selkirk 1984. they tend to neglect the representation of grammatical functions in the svntax tree. Moreover, previous work has not been specific enough to provide the basis for a full system implementation. Based on our study of prosodic phrasing in recorded human speech, we decided to emphasize three aspects of structure that relate to phrasing syntactic constituency, grammatical function, and constituent length. These findings. which we will discuss in detail, have been implemented as a collection of prosody rules in an experimental text-to-speech system. Two important features characterize our system. First. the input to our prosody system is a parse tree generated by a version of the deterministtc parser Fidditch Hindle 1983. The left-corner search strategy of this parser and, in particular, its determinism, give Fidditch the speed that makes online text-to-speech production feasible. In building a parse tree, Fldditch identifies the core subject-verb- object relations but makes no attempt to represent adjunct or modifier relations. Thus relative clauses,adverbials, and other non-argument constituents have no specified position in the tree and no specified semantic role. Second. the rules in the prosody system build a prosody tree by referring both to the syntactic structure and to earlier stages of prosodic structure. The result is a hierarchical representation that supports the view, also proposed in Selkirk 1984 that grammatical function information is related to prosodic phrasin.g, but indirectly, through different levels of processing. Informal tests of the system show that it is capable of producing a significant improvement in the prosodic quality of the resulting synthesized speech, Our investigations of the systems problems, which we describe, have not revealed any serious counterexample to our basic approach. In many cases,it appears that problems with the current version can be resolved by taking our approach a step further, and including lexical information required by the parser as another factor in the determination of prosodic phrasing. TEXT-TO-SPEECH Most text-to-speech systems comprise two components pronunciation rules and a speech synthesizer. Pronunciation rules convert the input text into a phonetic transcription; this information mav also be supplemented by a dictionary that provides information about the part of speech, stress pattern and phonetic makeup of particular words. The speech synthesizer then converts this phonetic transcription into a series of speech parameters which are subsequently processed to produce digitized speech. While these systems tend to perform quite well on word pronunciation, they fall short when it comes to providing good prosody for complete sentences. Current text-to-speech systems have no access to the syntactic and semantic properties of a sentence that influence phrase-level prosody. Hence rules for sentence prosody, when they are provided at all typically depend on superficial aspects of text e.g. punctuation and on heuristics that vary widely in sophistication. Although such techniques often add a more natural quality to the resulting synthetic speech, they can fail in important ways, for example, by ignoring the prosodic event between a lengthy subject and a predicate, so that there is no clear prosodic boundary between right and mark in The characters on the right mark the salient features. Several authors e.g. Allen 1976; Elovitz et al. 1976; Luce et al. 1983 have suggested that prosodic differences between synthetic and natural speech are the primary, unaddressed factor leading to difficulties in the comprehension of fluent synthetic speech. The relation between phrase-level prosody and its sources, however, is so poorly understood that we have no good sense of the degree to which different levels of explanation--syntactic, semantic, or pragmatic--are applicable. We currently have reasonable tools for automatic syntactic analysis of a text. but there is nothing equivalently well-developed for semantic or pragmatic textual analysis. Thus an obvious goal is to explore the extent to which phrase-level prosody can be explained by the syntax tree and develop a detailed description of that relation. A further goal is to convert the resulting insights about this relation into a system that can work with a speech synthesizer. This allows us to test our description more adequately and perhaps also produce something that will further text- to-speech technology. SYNTACTIC STRUCTURE AND PROSODIC PHRASING Beyond the word level, however, there has been little investigation of systematic connections between syntactic structure and prosodic phrasing. The psycholinguistic and acoustic investigations of Cooper and Paccia-Cooper 1980, Umeda 1982 and Gee and Grosjean 1983and the prosodic theory of Selkirk 1984 are among the more notable studies and represent the two main approaches to syntax/prosody relations. In Cooper and Paccia-Cooper 1980 and Umeda 1982, the connection from syntax to prosodic phrasing is unmediated by any filtering process, i.e.. they propose that the details of prosodic phrasing can be determined directly from syntactic structure by associating particular syntactic nodes or constituent boundaries with a phonetic value, either pausing, segmental lengthening, or the blocking of the cross- word conditioning of phonological rules. By contrast, Gee and Grosjean 1983 and Selkirk 1984 believe that the syntax-prosody relation is indirect prosodic phrasing is derived by rules that refer to left-to-right ordering, length or branching patterns, and, in the case of Selkirk grammatical function, as well as constituent membership in order to infer a hierarchical prosodic structure. But while their respective positions are quite clear, none of these studies is conclusive. All lack a syntactic framework sufficiently detailed and formalized to allow extensive testing, and most consider only a small number of sentences and sentence types. To develop our analysis, we first examined prosodic phrasing in the speech of one of us reading prose from various texts, including four instruction manuals. These texts were later augmented by a professional reading of a prose story. The boundaries between prosodic phrases were identified and then classed according to their syntactic context and semantic function. Text-to-speech Synthesis The programs that make up the speech component are described in Liberman and Buchsbaum personal communication. These programs take character text as input and produce digitized speech output. By annotating the input text to this system, many aspects of its operation can be overridden or modified e.g. the location of major and minor phrase boundaries, the stress given to words, the transcription of words and the boundaries between them, the timing of segments, and details of the pitch contour. As we will show, with our prosody system we are able to produce strings in which four boundary levels are identified and perceptually distinguished, using the current text- to-speech system annotations. Prosodic Phrasing The prosody rules use information about constituent structure, grammatical role, and length to map a surface structure. The prosody tree identifies the location of phrase boundaries signified by the nodes and the relative strength of each boundary signified by a number in the node. It is this information that is used to annotate the input text with escape sequences that provide the text-to- speech system with instructions about prosodic phrasing. In formulating our rules for building the prosodic structure, we began with the idea of simply implementing the model of Gee and Grosjean 1983. This model, initially proposed to predict a form of psychological data describing subjective sentence structure known as performance str

注意事項

本文(外文翻譯----一個實驗文語轉換系統在分析韻律短語的貢獻-其他專業.docx)為本站會員(語文老師)主動上傳,文庫吧僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知文庫吧(發送郵件至[email protected]或直接QQ聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。




關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服點擊這里,給文庫吧發消息,QQ:1548881058 - 聯系我們

[email protected] 2015-2021 wenkub網站版權所有
經營許可證編號:鄂ICP備17016276 

收起
展開
北京pk10双面盘预测
<acronym id="6i0ao"><small id="6i0ao"></small></acronym>
<acronym id="6i0ao"><center id="6i0ao"></center></acronym>
<acronym id="6i0ao"><small id="6i0ao"></small></acronym>
<acronym id="6i0ao"><center id="6i0ao"></center></acronym>