ankuro.dev
← ブログ一覧に戻る
D5直前対策チートシート——評価・改善・品質計測(試験比率15%)【CCA Foundations対策】
2026-04-04#Claude#API#生成AI#評価#Claude Certified Architect

D5直前対策チートシート——評価・改善・品質計測(試験比率15%)【CCA Foundations対策】

試験比率15%、全ドメイン中最小。Eval設計の種類・false positive削減の手順・信頼スコアの使い方・自己評価パターンが主な出題範囲。


Evalの3種類と使い分け

種類 精度 スケール 使いどころ
コードベース(exact match・rule) 高い 高い 形式・構造が決まっている出力
人間による評価 最も高い 低い(コスト大) ゴールドスタンダード・サンプル確認
モデル評価(LLM-as-judge) 中程度 高い 主観的・定性的な品質評価
  • 実運用では3種を組み合わせる:コードで自動・人間でキャリブレーション・モデルでスケール

→ 詳細: Evalの設計と仕組み / Evalの実装


False Positive削減の手順

  1. カテゴリ別のFP率を計測する(どのカテゴリが問題かを特定)
  2. FP率の高いカテゴリを一時無効化する(ノイズを排除して信頼回復)
  3. プロンプト改善でカテゴリを修正(few-shot・明確な基準を追加)
  4. 精度が上がったら再有効化する
やりがちな対処 問題点
全カテゴリを維持しながら改善 改善中も50%のFPが続き、信頼がさらに悪化する
全体的に厳格度を下げる FP率は下がるが、genuine issueも見逃す
後処理フィルターで除去 LLMの出力は文言が毎回変わるのでexact matchが効かない

先に信頼を回復する → 高FPカテゴリの一時無効化が最初の手

→ 詳細: Evalの設計と仕組み


Confidence Scoring:フィルタリングではなく可視化

  • 信頼度スコアを結果にインライン表示する → 開発者が素早くトリアージできる
  • NG:信頼度が低い結果を開発者に見せる前にフィルタリングする
    → ステークホルダーが「フィルタリング前にレビューしたい」と要求している場合はとくに不可
  • OK:「信頼度:高」「信頼度:低(要確認)」をラベルとして添えて全件表示する
  • 信頼度スコアのキャリブレーション:モデルが自己申告したスコアと実際の正解率を照合して補正する

→ 詳細: セッション管理とconfidence scoring


Coverage注釈:部分的な結果の正しい扱い

  • データソースの一部が取得できなかった場合:カバレッジ注釈を付けて出力する
  • 「ニュースアーカイブは取得できなかったため、この領域の情報が不足しています」 と明示
  • NG:部分成功をエラーとして返す(完了した作業を無駄にする)
  • NG:ギャップを黙って出力する(読者が情報の欠落に気づけない)

→ 詳細: コンテキスト最適化とprovenance管理


Self-Evaluation(自己評価)パターン

  • ドラフト生成 → 基準に照らして自己評価 → 不十分なら再生成(Evaluator-Optimizerループ)
  • 評価基準を明示する(「ポリシーの文脈が含まれているか」「次のステップが示されているか」など)
  • 顧客に確認を求める のではなく、エージェント自身が品質チェックする
  • 人間レビューの負荷を増やさずに出力品質を向上できる

→ 詳細: エスカレーションと反復改善


Stratified Sampling:効率的なエラーレート計測

  • 全件を人間が確認するのは非効率
  • 出力を複数の層(カテゴリ・難易度・入力の種類)に分けてサンプリングする
  • 各層から均等にサンプルを取ることで、少ない件数でも全体の傾向を代表できる

→ 詳細: セッション管理とconfidence scoring


よくある誤解まとめ

誤解 実際
FP率が高いカテゴリはfew-shotを追加しながら全カテゴリを維持する 改善中も信頼が悪化し続ける。まず無効化して信頼を回復する
低信頼度の結果は開発者に見せる前にフィルタリングする インライン表示でトリアージを助ける。フィルタリングは要件次第
部分的なデータ取得失敗は全体をエラーで返すべき カバレッジ注釈付きで使える結果を返す(graceful degradation)
出力品質の改善には人間レビューが必要 Self-evaluationループで人間レビューなしに改善できる
Evalはモデル評価か人間評価どちらかを選ぶ 3種を組み合わせる(コード・人間・モデル)のが実運用