
2026-04-04#Claude#API#生成AI#評価#Claude Certified Architect
D5直前対策チートシート——評価・改善・品質計測(試験比率15%)【CCA Foundations対策】
試験比率15%、全ドメイン中最小。Eval設計の種類・false positive削減の手順・信頼スコアの使い方・自己評価パターンが主な出題範囲。
Evalの3種類と使い分け
| 種類 | 精度 | スケール | 使いどころ |
|---|---|---|---|
| コードベース(exact match・rule) | 高い | 高い | 形式・構造が決まっている出力 |
| 人間による評価 | 最も高い | 低い(コスト大) | ゴールドスタンダード・サンプル確認 |
| モデル評価(LLM-as-judge) | 中程度 | 高い | 主観的・定性的な品質評価 |
- 実運用では3種を組み合わせる:コードで自動・人間でキャリブレーション・モデルでスケール
→ 詳細: Evalの設計と仕組み / Evalの実装
False Positive削減の手順
- カテゴリ別のFP率を計測する(どのカテゴリが問題かを特定)
- FP率の高いカテゴリを一時無効化する(ノイズを排除して信頼回復)
- プロンプト改善でカテゴリを修正(few-shot・明確な基準を追加)
- 精度が上がったら再有効化する
| やりがちな対処 | 問題点 |
|---|---|
| 全カテゴリを維持しながら改善 | 改善中も50%のFPが続き、信頼がさらに悪化する |
| 全体的に厳格度を下げる | FP率は下がるが、genuine issueも見逃す |
| 後処理フィルターで除去 | LLMの出力は文言が毎回変わるのでexact matchが効かない |
先に信頼を回復する → 高FPカテゴリの一時無効化が最初の手
→ 詳細: Evalの設計と仕組み
Confidence Scoring:フィルタリングではなく可視化
- 信頼度スコアを結果にインライン表示する → 開発者が素早くトリアージできる
- NG:信頼度が低い結果を開発者に見せる前にフィルタリングする
→ ステークホルダーが「フィルタリング前にレビューしたい」と要求している場合はとくに不可 - OK:「信頼度:高」「信頼度:低(要確認)」をラベルとして添えて全件表示する
- 信頼度スコアのキャリブレーション:モデルが自己申告したスコアと実際の正解率を照合して補正する
→ 詳細: セッション管理とconfidence scoring
Coverage注釈:部分的な結果の正しい扱い
- データソースの一部が取得できなかった場合:カバレッジ注釈を付けて出力する
「ニュースアーカイブは取得できなかったため、この領域の情報が不足しています」と明示- NG:部分成功をエラーとして返す(完了した作業を無駄にする)
- NG:ギャップを黙って出力する(読者が情報の欠落に気づけない)
→ 詳細: コンテキスト最適化とprovenance管理
Self-Evaluation(自己評価)パターン
- ドラフト生成 → 基準に照らして自己評価 → 不十分なら再生成(Evaluator-Optimizerループ)
- 評価基準を明示する(「ポリシーの文脈が含まれているか」「次のステップが示されているか」など)
- 顧客に確認を求める のではなく、エージェント自身が品質チェックする
- 人間レビューの負荷を増やさずに出力品質を向上できる
→ 詳細: エスカレーションと反復改善
Stratified Sampling:効率的なエラーレート計測
- 全件を人間が確認するのは非効率
- 出力を複数の層(カテゴリ・難易度・入力の種類)に分けてサンプリングする
- 各層から均等にサンプルを取ることで、少ない件数でも全体の傾向を代表できる
→ 詳細: セッション管理とconfidence scoring
よくある誤解まとめ
| 誤解 | 実際 |
|---|---|
| FP率が高いカテゴリはfew-shotを追加しながら全カテゴリを維持する | 改善中も信頼が悪化し続ける。まず無効化して信頼を回復する |
| 低信頼度の結果は開発者に見せる前にフィルタリングする | インライン表示でトリアージを助ける。フィルタリングは要件次第 |
| 部分的なデータ取得失敗は全体をエラーで返すべき | カバレッジ注釈付きで使える結果を返す(graceful degradation) |
| 出力品質の改善には人間レビューが必要 | Self-evaluationループで人間レビューなしに改善できる |
| Evalはモデル評価か人間評価どちらかを選ぶ | 3種を組み合わせる(コード・人間・モデル)のが実運用 |