※本稿は筆者が自社で運営するAI参謀団(エージェント・ツール群)の実運用経験に基づきます。クライアント保護のため、支援事例は業種・状況レベルで一般化しています。
結論から言えば、AIを「評価しない」ことが、AI投資で失敗する最大の原因だ。本記事では、AI評価に潜む「AI人事権の錯覚」の構造と、実運用で機能している4象限評価フレームを解説する。
「AIはいつも正しい」——という、経営者の思い込み
Microsoft社とIDC(2025年・共同調査)によれば、AI投資で3.7倍以上のROIを達成する「フロンティア企業」は全体の22%に過ぎない。残り78%の企業は、AIに投資しながらも期待するリターンを得られていない。
この数字と向き合ったとき、問うべきは「技術力の差か」「予算の差か」ではない。
「どのAIが機能していないのか、誰も把握していない」——これが78%の共通点だ。
人間の社員は年1回評価される。成果が出なければ降格され、期待に応えなければ配置転換される。だが同じ組織で、AIは評価されずに動き続けている。議事録を整理する。メールの下書きをする。データを集計する。それが本当に機能しているのか、誰も問わない。
これが「AI人事権の錯覚」だ。
「AI人事権の錯覚」とは何か
「AI人事権の錯覚」とは、AIを導入した経営者が無意識に陥る認知バイアスを指す造語だ。
2つの形で現れる。
錯覚の第一形態: 「AIは機械だから評価しなくていい」
AIは機械だから、人間のように評価しなくていい——そう思っている経営者が大多数だ。しかし現実は逆で、AIは人間よりも精密に「何が機能していて、何が機能していないか」を測定できる。タスク完了率、出力の一貫性、工数削減量——数値化できる指標は存在する。にもかかわらず「AIだから評価しなくていい」という先入観が、評価システムの構築を阻んでいる。
錯覚の第二形態: 「使えなければ廃止すればいい」
「AI人事権がある」と思い込んでいる経営者も危うい。「使えないAIは廃止すればいい」と言うが、何を根拠に「使えない」と判断するのかが決まっていない。感覚で廃止し、感覚で新ツールに乗り換える。3ヶ月後には「やはり古いツールの方が良かった」と戻す。これが「AI解雇スパイラル」の実態だ。
Forrester「AI Into Action」(2025)は、多くの企業がAI投資で期待ROIの50%未満に留まると指摘している。この差の多くは、乗り換えコストを過小評価したスパイラルから生じている。
人間評価とAI評価——5つの非対称性
「AIを人間と同じ軸で評価しよう」という試みは、高い確率で失敗する。両者には5つの本質的な非対称性がある。
| 評価軸 | 人間の社員 | AIエージェント |
|---|---|---|
| 成長可能性 | 今期ダメでも来期に期待できる | 「成長」はモデルアップデートの問題。ツール自身は変わらない |
| 廃止コスト | 失職後も別の企業で働ける | 廃止=機能の喪失。設定・ノウハウ・連携データが全て消える |
| 評価期間 | 年次(12ヶ月)が標準 | 3ヶ月評価では「導入直後の心理的高揚効果」だけを測定するリスクがある |
| 責任の所在 | 「社員の問題」という判定が明確 | 「設計が悪いのか、ツールが悪いのか」が分離できない場合が多い |
| 比較可能性 | 同職種・同経験年数で横比較できる | 専門化・分業化が進むほど、横比較が困難になる |
この5つを無視して「人間と同じように評価しよう」とすると、必ずどこかで判断が歪む。
AI評価の核心は「人間評価との差異を理解した上で、AI固有の基準を設計すること」にある。
31人の参謀団を「4象限」で分類する
自社で運営するAI参謀団(エージェント・ツール群31体)を評価するにあたり、BCGのプロダクトポートフォリオマトリクスを改変した「AI評価4象限」を設計した。
縦軸: ビジネス価値への直結度(営業・収益・判断の質に貢献するか)
横軸: 使用頻度・稼働安定性(日常的に機能しているか)
| 使用頻度・安定稼働:高 | 使用頻度・安定稼働:低 | |
|---|---|---|
| ビジネス価値:高 | ★ Star(投資を拡大) | ? Question(使い方を改善) |
| ビジネス価値:低 | 💰 Cash Cow(現状維持) | ❌ Dog(廃止を検討) |
自社の実際の配置例:
- Star: 複数のLLMを並列起動し、異なる視点から意思決定を支援するエンジン——営業判断の精度向上に直結。投資を拡大している
- Cash Cow: 議事録整理・カレンダー管理・メール処理のMCPツール群——地味だが毎日安定稼働している。変えない
- Question: 動画コンテンツの字幕取得ツール——ビジネス価値は高いが技術的障壁で稼働が不安定。使い方の改善が優先課題
- Dog: 機能が他のエージェントと重複しているロール——統合できるものは統合し、単独では廃止を検討
この4象限は「一度の評価で結論を出す」ためのツールではない。半年に一度の棚卸しに使うことで、AI資産の全体像が見えてくる。
昇格・維持・廃止の意思決定フロー
評価結果を踏まえ、どう動くか。3段階のフローを設計した。
昇格(Starを伸ばす)
- 判定条件: 直近6ヶ月でビジネス成果に直結する成果が3件以上
- アクション: 関連スキルの整備、適用領域の拡張、利用頻度向上
維持(Cash Cow・Questionを管理する)
- Cash Cow: 原則として触らない。安定稼働こそが価値
- Question: 90日間の改善チャレンジを設定。改善されなければ廃止検討に移行
- 維持と廃止の境界線は「ROI比較」ではなく「代替コスト」で判断する
廃止(Dogを処理する)
- 廃止後に失う機能を全てリストアップする
- 代替手段の確保を確認してから廃止を実行する
- 「廃止してから12ヶ月以内に復帰する可能性」を試算しておく
- 廃止は「解雇」ではなく「機能の再設計」として位置づける
最重要原則: AIの廃止判定は「最低6ヶ月の稼働データ」に基づくこと。3ヶ月以下での廃止判定は、ハーソーン効果(新しいツールへの心理的高揚)を成果と誤認するリスクがある。
3つの見落とされやすい落とし穴
落とし穴1: 「評価の鏡に映るのは、AIではなく自分自身」
AIが「使えない」と感じるとき、9割は「使い方が悪い」か「設計が悪い」ケースだ。
自社の経験から言えば、AI参謀団の中で「機能不全」に見えたエージェントの多くは、指示設計に問題があった。「なぜこのツールは使えないのか」とAIに向かう前に、「私の指示に何が欠けているのか」を問うのが先だ。
廃止判定の前に「運用側の問題を排除したか」という確認ステップが必要になる。
落とし穴2: 「乗り換えコストは、想像より必ず高い」
新しいAIツールへの乗り換えを検討するとき、経営者は「機能の比較」だけをしがちだ。しかし本当のコストは乗り換えた後に発生する——設定の再構築、ノウハウの再蓄積、チームへの再教育、データ移行。これらを金額に換算すると、「旧ツールの存続コスト」を大幅に上回ることが多い。
廃止判定では「現状のコスト」ではなく「乗り換えを含む12ヶ月の総コスト」で比較すること。
落とし穴3: 「単体評価より、ポートフォリオ評価が正しい」
AIツールを「1本ずつ評価して廃止する」方法には罠がある。ツールは互いに補完関係にあることが多く、単体では「Dog」に見えたものが、連携構造の中では「要」になっているケースがある。
廃止前に「このツールを廃止したとき、他の何に影響するか」という依存関係マップを描くことが必要だ。
AI人事権とは、本当は何を意味するのか
「AI人事権の錯覚」から脱するとはどういうことか。
それは「AIを評価できる経営者になること」だ。
経済学のGoodhart’s Law(Goodhart, 1975)に「測定対象が目標になると、測定値は信頼できなくなる」という原理がある。AI評価に当てはめれば、「KPIだけでAIを評価すると、KPIに最適化された使い方だけが残り、本来の価値が消える」ということだ。
自社で31体の参謀団を運営して気づいたのは、ビジネスに最も貢献しているエージェントの仕事は、数字に表れにくいという事実だ。意思決定の質を上げる。盲点を指摘する。判断にかかる時間を短縮する。これらは「タスク完了件数」には現れない。
本当のAI人事権とは、「数字でAIを管理する能力」ではなく、「数字に表れない価値も含めてAIの貢献を見抜く判断力」だ。
フロンティア企業22%に入る組織は、AIを「正しく評価できる経営者」がいる組織だ。そのための出発点は、「AI人事権の錯覚」に気づくことにある。
山本高資|合同会社 才有る者の楽園 代表
京都府在住。志あるほんまもん企業の経営支援・AI研修を手がける。2026年4月より京都大学経営管理大学院に在籍。31体のAI参謀団を運営し、「AIチームの評価・組織設計」を実践的に探究。
経営支援・AI研修のご相談はこちら
