catch-img

機械翻訳の精度を評価しよう!

機械翻訳には様々な種類があり、「どの機械翻訳が一番いいのか?」という疑問をお持ちの方は多いと思います。機械翻訳の評価方法は様々ですが、「BLUEスコア」や「TERスコア」はご存じでしょうか?

こちらの記事では機械翻訳の評価方法とポイントについて解説します。


目次[非表示]

  1. 1.機械翻訳の評価方法
    1. 1.1.BLUEスコア
    2. 1.2.TERスコア
    3. 1.3.人力評価
  2. 2.評価結果のポイント
    1. 2.1.結果の見方
    2. 2.2.注意すべき点
  3. 3.まとめ



機械翻訳の評価方法

評価方法は大きく分けて「機械評価」と「人手評価」の2つの方法があります。これらを組み合わせて評価することで、より具体的な評価結果を得ることができます。

この記事では広く使われている3つの評価方法をご紹介しますので、それぞれの特徴をご確認ください。


BLUEスコア

現在最も使用されている評価方法で、正解訳と比べた際の類似度に基づいて評価する仕組みです。BiLingual Evaluation Understudyの文字をとってBLUEスコアと呼ばれています。

正解訳と翻訳結果を比較して、その類似度に基づいて翻訳の精度を評価します。0%から100%の間でスコアを算出し、スコアが高くなるほど、品質が高いという結果になります。一般的に50%以上のスコアになると、品質が良いと言えます。


TERスコア

正解訳と比べた際の修正割合に基づいて評価する仕組みです。Translation Error Rateの頭文字をとってTERスコアと呼ばれています。

正解訳と翻訳結果を比較して、翻訳結果のエラー率を算出して評価します。翻訳結果から正解訳に近づけるために行う修正(置換・挿入・削除・シフト)の割合を算出し、スコアが低くなるほどエラーが少なく、品質が高いという結果になります。一般的に30%以下のスコアになると、翻訳の品質が良いと言えます。


人力評価

機械的な評価だけではなく、実際に翻訳者の視点で評価することにより、より現実的な評価結果を得ることができる仕組みです。翻訳者が正解訳と翻訳結果を見比べて、「もし自分が翻訳結果を修正するとしたら…」という視点でチェックします。

BLEUスコアやTERスコアは機械的に行う評価なので、実際の品質と一致しない可能性もあります。そこで機械による評価だけでなく、翻訳者による人力評価も併用すると、品質を確実に見極めることが可能になります。機械的な評価に比べて時間とコストがかかりますが、かなり現実的な評価結果が得られます。

人力評価をする際にBLUEスコアやTERスコアも参考にしながら評価を行うことで、評価作業効率をUPさせることも可能です。



評価結果のポイント

機械評価や人手評価で得た結果を、どのように扱っていくのかも大事なポイントです。


結果の見方

数字に左右されすぎず、あくまでも評価の1つとして捉えることがベストです。例えばBLUEスコアの場合、言語ペアの組み合わせによって評価結果の精度に差が出ると言われているため、BLUEスコアを鵜呑みにしすぎることは危険です。また、機械評価の結果が、翻訳者による評価と大きく異なる場合もあります。例えば、翻訳者が高評価を付けた訳文と低評価を付けた訳文のBLEUスコアがほぼ同じになってしまうこともあります。

BLEUスコアのメリットに、自動で値算出ができることと、評価が短時間で完了することが挙げられます。しかし、評価の正確性についてはやはり人力評価にはかないません。


注意すべき点

機械翻訳は日々進化しているので、定期的に評価を行うことも有用です。翻訳エンジンの精度向上や新しい翻訳エンジンの開発など、機械翻訳は日進月歩で進化しているので、一度行った評価結果が永遠に有効とは言えません。

定期的に評価を繰り返すことで、常に最適な翻訳エンジンを見極めることができます。



まとめ

この記事では機械翻訳の評価方法とポイントについて、以下の内容を解説しました。

  • 機械評価と人手評価の種類
  • 評価時に気を付けるべきポイント

機械評価と人手評価をうまく組み合わせて評価結果を出し、その結果に左右されすぎないことが大切です。

インターグループ』では、機械翻訳にかけたあとのポストエディットも承っております。

また、機械翻訳の評価に関するお役立ち資料もこちらからダウンロードしていただけます。

詳しくはこちらまでお気軽にご相談ください。

お問い合わせ