自动对联生成器

logo-couplet.gif微软研究院自然语言组最近发布了对联产生器2.0 (Chinese Couplet Generator)。

人工出上联,机器可以自动对下联和横批。有兴趣的可以去玩一玩。

我猜它的工作原理可能是用了机器翻译相关的技术。算法分为训练和测试两个部分:

  • 训练时,拿大量的分好词的对联语料统计处相关的语言模型
  • 测试时,生成候选的对联网格,利用统计模型统计打分。

用统计机器翻译的方法可以用于很多方面。这位专家总结的好:From http://nlp.csie.ncnu.edu.tw/~shin/

  • 凡是從一種符號序列轉成另一種符號系列, 都是一種形式的機器翻譯. 都可用類似的模式處理.
    • 語言翻譯 (language-to-language translation)
    • 外國人名音譯/反音譯 (forward/backward machine transliteration)
    • 文字轉語音 (text-to-speech)
    • 電話轉譯/自動口譯 (interpreter telephony; speech-to-speech)
    • 同音字自動辨識選取 (phonetic input methods; phonetic-symbols-to-characters)
    • 自動作曲/作詞/伴奏/和絃 (automatic composition)
    • 多媒體情境呈現 (text-to-emotion)
    • 劇本轉動畫 (script to motion pictures)
    • 火星文/注音文還原
    • 中文對聯自動產生 (Chinese Couplet Generator, 微軟亞洲研究院, 2006)
    • 以後, 自動改寫哈利波特, 自動產生偶像劇劇本有沒有可能呢 ?
    • more … (自己想像吧!!)

比如本站使用的Google Translation也是基于统计机器翻译的。

What is statistical machine translation?

Most state-of-the-art, commercial machine-translation systems in use today have been developed using a rule-based approach, and require a lot of work to define vocabularies and grammars.

Our system takes a different approach: we feed the computer billions of words of text, both monolingual text in the target language, and aligned text consisting of examples of human translations between the languages. We then apply statistical learning techniques to build a translation model. We’ve achieved very good results in research evaluations.

本文由IT Farmer的博客创作,欢迎转载并保留对本博的链接。 Tags:,,

Leave a Reply