言語生産性:有効な類推関係クラスターの迅速な抽出・統計的機械翻訳でその評価
【研究分野】知能情報学
【研究キーワード】
自然言語処理 / 人工知能 / データ構造 / 形態で豊かな言語 / 中国語・日本語
【研究成果の概要】
本研究の目的は、1。単言語データから類推関係クラスターを構築し、2。そのクラスターから擬似パラレルコーパスを生成し、3。パラレルコーパスに追加することにより4。統計的機械翻訳(SMT)の精度を向上させる。
そのため、様々なツールを実装し公開した。新しいデータ構造も導入した:類推関係グリッド。形態的に貧しい言語を始め形態豊かな言語を渡って様々な言語でデータを構築した:欧州連合の11ヶ国語、中国語、日本語、また追加言語(アラビア語、グルジア語、ナバホ語、ロシア語、トルコ語)。データの一部分は公開した。
行った実験で擬似パラレルコーパスの追加により日中SMTの翻訳精度を向上することを明らかにした。
【研究代表者】
【研究協力者】 |
楊 巍 | |
ファム ラシェル | |
スサンティ ゴジャリ | |
|
【研究種目】基盤研究(C)
【研究期間】2015-04-01 - 2018-03-31
【配分額】4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)