← ブログ一覧に戻る

D5直前対策チートシート——評価・改善・品質計測（試験比率15%）【CCA Foundations対策】

2026-04-04#Claude#API#生成AI#評価#Claude Certified Architect

D5直前対策チートシート——評価・改善・品質計測（試験比率15%）【CCA Foundations対策】

試験比率15%、全ドメイン中最小。Eval設計の種類・false positive削減の手順・信頼スコアの使い方・自己評価パターンが主な出題範囲。

Evalの3種類と使い分け

種類	精度	スケール	使いどころ
コードベース（exact match・rule）	高い	高い	形式・構造が決まっている出力
人間による評価	最も高い	低い（コスト大）	ゴールドスタンダード・サンプル確認
モデル評価（LLM-as-judge）	中程度	高い	主観的・定性的な品質評価

実運用では3種を組み合わせる：コードで自動・人間でキャリブレーション・モデルでスケール

→ 詳細: Evalの設計と仕組み / Evalの実装

False Positive削減の手順

カテゴリ別のFP率を計測する（どのカテゴリが問題かを特定）
FP率の高いカテゴリを一時無効化する（ノイズを排除して信頼回復）
プロンプト改善でカテゴリを修正（few-shot・明確な基準を追加）
精度が上がったら再有効化する

やりがちな対処	問題点
全カテゴリを維持しながら改善	改善中も50%のFPが続き、信頼がさらに悪化する
全体的に厳格度を下げる	FP率は下がるが、genuine issueも見逃す
後処理フィルターで除去	LLMの出力は文言が毎回変わるのでexact matchが効かない

先に信頼を回復する → 高FPカテゴリの一時無効化が最初の手

→ 詳細: Evalの設計と仕組み

Confidence Scoring：フィルタリングではなく可視化

信頼度スコアを結果にインライン表示する → 開発者が素早くトリアージできる
NG：信頼度が低い結果を開発者に見せる前にフィルタリングする
→ ステークホルダーが「フィルタリング前にレビューしたい」と要求している場合はとくに不可
OK：「信頼度：高」「信頼度：低（要確認）」をラベルとして添えて全件表示する
信頼度スコアのキャリブレーション：モデルが自己申告したスコアと実際の正解率を照合して補正する

→ 詳細: セッション管理とconfidence scoring

Coverage注釈：部分的な結果の正しい扱い

データソースの一部が取得できなかった場合：カバレッジ注釈を付けて出力する
「ニュースアーカイブは取得できなかったため、この領域の情報が不足しています」 と明示
NG：部分成功をエラーとして返す（完了した作業を無駄にする）
NG：ギャップを黙って出力する（読者が情報の欠落に気づけない）

→ 詳細: コンテキスト最適化とprovenance管理

Self-Evaluation（自己評価）パターン

ドラフト生成 → 基準に照らして自己評価 → 不十分なら再生成（Evaluator-Optimizerループ）
評価基準を明示する（「ポリシーの文脈が含まれているか」「次のステップが示されているか」など）
顧客に確認を求める のではなく、エージェント自身が品質チェックする
人間レビューの負荷を増やさずに出力品質を向上できる

→ 詳細: エスカレーションと反復改善

Stratified Sampling：効率的なエラーレート計測

全件を人間が確認するのは非効率
出力を複数の層（カテゴリ・難易度・入力の種類）に分けてサンプリングする
各層から均等にサンプルを取ることで、少ない件数でも全体の傾向を代表できる

→ 詳細: セッション管理とconfidence scoring

よくある誤解まとめ

誤解	実際
FP率が高いカテゴリはfew-shotを追加しながら全カテゴリを維持する	改善中も信頼が悪化し続ける。まず無効化して信頼を回復する
低信頼度の結果は開発者に見せる前にフィルタリングする	インライン表示でトリアージを助ける。フィルタリングは要件次第
部分的なデータ取得失敗は全体をエラーで返すべき	カバレッジ注釈付きで使える結果を返す（graceful degradation）
出力品質の改善には人間レビューが必要	Self-evaluationループで人間レビューなしに改善できる
Evalはモデル評価か人間評価どちらかを選ぶ	3種を組み合わせる（コード・人間・モデル）のが実運用

← ブログ一覧に戻る