AIエージェント開発を従来のSI開発と同じ感覚で発注すると、ほぼ確実に期待値ズレが起きます。要件凍結ができない、テストがバグ表で完結しない、リリース後に「精度劣化」という新しい運用課題が出てくる──これらはAIエージェントが従来のSIとは根本的に違う性質を持っているからです。5つの軸で違いを整理します。
違い1: 決定論的 vs 確率論的
SI開発は「同じ入力に対して同じ出力を返す」決定論的システムです。仕様書に書いた振る舞いを100%再現することが品質保証の前提でした。一方、AIエージェントは 確率論的 で、同じ入力でも出力が揺れます。
この性質の違いから、要件定義もテストも運用も、すべて確率を前提に設計し直す必要があります。「常に100%正しい」を求めるのではなく、「85%以上の確率で正しい」「失敗時のリカバリ機構がある」を目指します。
発注側が「SIと同じ仕様書を書いてください」と求めると、ここで最初の期待値ズレが起きます。
違い2: 契約形態 ─ 請負 vs 準委任+アジャイル
SI開発は伝統的に 請負契約 × ウォーターフォール が主流で、要件凍結→設計→実装→テスト→納品、というフェーズ分けが機能しました。AIエージェントではこの契約形態が機能しません。
理由は3つ:
- 要件が走りながら見えてくる(精度ラインも運用フローも初期に確定できない)
- モデルが進化する(GPT-4→GPT-5、Claude 4.6→4.7など)
- 業務側のフィードバックを反映しながら精度を上げる
推奨は、準委任契約 + アジャイル型開発。PoC段階・本番化段階・運用段階でフェーズを切り、各フェーズで契約を更新するのが現実的です。発注側はSI時代の「請負・固定価格・固定スコープ」の安心感を手放す必要があります。
違い3: テスト ─ 単体テスト vs 評価データセット
SI開発のテストは、単体テスト・結合テスト・受入テストで「バグの有無」を確認するものでした。AIエージェントのテストは 評価データセット(Eval set)による確率的精度測定 が中心になります。
評価データセットは、業務上の代表的な入力と期待される出力をペアにしたデータセットで、これに対する正答率・回答品質スコア・処理時間を継続的に測定します。リリース判断の閾値(例:「正答率85%以上」「主要論点捕捉率90%以上」)はこの評価データセットで測ります。
SI開発の「テストエンジニア」とは別に、AIエージェント開発では 「評価設計者」 の役割が必要になります。何を測れば業務の品質が担保されるかを設計する人で、ここが弱いプロジェクトは精度の議論が空中戦になります。
違い4: 運用 ─ 保守 vs 継続的な精度維持
SI開発の運用は、バグ修正・小規模機能追加・サーバー保守が中心でした。AIエージェントの運用は質的に違います。
- 精度モニタリング:誤回答パターンを継続検出して評価データセットに追加
- プロンプトチューニング:業務変化や利用パターン変化への追随
- モデル切替対応:新モデル(GPT-5・Claude 5・Gemini新版)が出るたびに再評価
- APIコスト管理:プロバイダー料金変動・利用量増加への対応
- データドリフト対応:業務データの変化による精度低下を検知
これらは「作って終わり」のSI運用とはまったく別の継続的活動です。運用契約はSIの感覚で「月数万円で対応」と安く見せる会社では機能しません。AI受託開発の見積もり相場と内訳 でも書いていますが、開発費の15〜25%/年を運用に投じる前提が現実的です。
違い5: 成功指標 ─ リリース完了 vs 利用率
SI開発の成功は「予算内・期日通りにリリース完了」で測れました。AIエージェント開発はそうはいきません。次の5つの指標を立体的に測ります。
- ① 機能要件の充足
- ② 精度指標(正答率・回答品質)
- ③ 業務効果(時間削減・売上増・コスト削減)
- ④ 利用率(実際に現場で日常的に使われているか)
- ⑤ コスト指標(API・運用人件費)
最も重要なのは ④利用率 で、ここが低ければ他の指標が良くてもプロジェクトは失敗扱いになります。SI時代の「動いて納品されればOK」では成功判定できません。
発注側の意識転換ポイント
AIエージェント開発をSI感覚で発注しないために、発注側が意識すべきポイントを3つに整理します。
- 要件凍結の幻想を捨てる:要件は走りながら見える。固定スコープの請負契約は機能しない
- テストの定義を変える:バグ有無ではなく精度の閾値で合否判定する
- 運用予算を保守費用ではなく投資として扱う:継続的な精度向上にコストをかけ続ける覚悟が必要
AIエージェント開発に向いた発注体制と、SI型の発注体制では、根本的な要件・予算・組織設計が違います。SIで成功した発注パターンをそのまま持ち込むと、必ず失敗します。発注側の体制整備については AI受託で失敗する発注側の5パターン、PoC設計については PoCを本番に届ける3つの条件 も参考にしてください。
FAQ
よくある質問
AIエージェント開発と従来SI開発の最大の違いは何ですか?
最大の違いは「決定論的」か「確率論的」かです。SI開発は同じ入力に対して同じ出力が返る決定論的システムですが、AIエージェントは確率的な振る舞いをします。要件定義・テスト・運用すべてが「確率的システムを前提とした設計」に変わります。SIの感覚で発注すると、必ず期待値ズレが起きます。
AIエージェント開発の契約形態は何が適していますか?
従来の請負契約より、準委任契約とアジャイル型開発の組み合わせが適しています。AIエージェントは要件・精度・運用が走りながら見えてくるため、固定スコープの請負だと変更管理コストが膨らみます。フェーズ別の準委任で、PoC段階・本番化段階・運用段階で契約を切り替えるのが現実的です。
AIエージェントのテストはどうやって行いますか?
従来の単体テスト・結合テストに加え、評価データセット(Eval set)を使った確率的精度測定が必要です。「正答率85%以上」「主要論点捕捉率90%以上」のような閾値ベースで合否判定し、リグレッション検知のために評価データセットを継続更新します。テストエンジニアではなく「評価設計者」の役割が新たに必要になります。
AIエージェントの運用にSI開発と違う何が必要ですか?
①精度モニタリング(誤回答パターンの継続検出)、②プロンプトチューニング(業務変化への追随)、③モデル切替対応(GPT・Claude等の新モデル登場時の再評価)、④APIコスト管理(プロバイダー料金変動への対応)、⑤データドリフト対応(業務データの変化による精度低下)が必要です。「作って終わり」のSI運用とは別次元の継続運用が前提になります。
AIエージェント開発の成功指標は何で測りますか?
SIのような「リリース完了」では測れません。①機能要件の充足、②精度指標(正答率・回答品質)、③業務効果(時間削減・売上増)、④利用率(実際に使われているか)、⑤コスト指標(API・運用)の5軸で測ります。最も重要なのは④利用率で、ここが低ければ他の指標が良くてもプロジェクトは失敗扱いになります。