Wikipedia日英京都関連文書対訳コーパス(PDIC/Unicode形式)

2012/5/24 | EDP | 【タグ】

金額(税込):
商品名: Wikipedia日英京都関連文書対訳コーパス(PDIC/Unicode形式)
商品番号: 146150
ファイル名: wiki_corpus_201.zip
ファイルサイズ: 60.21 MB
発売開始日: 2012/5/24


【内容】 このファイルは、以下の手順で作成したものです。

1. 独立行政法人情報通信研究機構が作成・公開されている『Wikipedia日英京都関連文書対訳コーパス Version 2.01』(約50万文対)(http://alaginrc.nict.go.jp/WikiCorpus/)をダウンロード。

2. 上記1番のファイルから以下2種類のタグを含むデータレコードだけを抽出。

   <j>日本語原文</j>
   <e type="check" ver="1">最終翻訳文</e>

3. 上記2番のファイルを、検索ソフト『PDIC/Unicode』(http://homepage3.nifty.com/TaN/unicode/)で検索できるようにするために、PDIC1行テキスト形式に変換。(ただし、PDICの仕様に合わせて、英文の長さが500バイト超のデータを除外)

   データフォーマットは、「英文 /// 和文」

4. PDIC/Unicode にて、DIC形式に変換。(43万7939件の対訳データが生成された)

------------------------------------------
本サービスで使用しているデータはWikipediaの日本語文を独立行政法人情報通信研究機構が英訳したものを、Creative Comons Attribution-Share-Alike License 3.0による利用許諾のもと使用しております。詳細はhttp://creativecommons.org/licenses/by-sa/3.0/およびhttp://alaginrc.nict.go.jp/WikiCorpus/をご覧下さい。
------------------------------------------

【販売価格】 無料

【圧縮形式】 ZIP (解凍すると、Wikipedia日英京都関連文書対訳コーパスV201.DIC というファイルが復元されます)

【使い方】 検索ソフト『PDIC/Unicode』の作者のウェブサイト(http://homepage3.nifty.com/TaN/unicode/)、または同ソフトのヘルプをご参照ください。

【サポート】 一切ありません。当方に質問をされても回答できませんのでご了承ください。