【AI駆動開発】去年のブログを振り返り現在と比較する

今年に入ってまたAIの進化速度が加速している感覚があり、毎日様々な情報が飛びこんできます。

そんな中、ちょうど一年前にAI駆動開発についてブログを二本書いていましたので、今回はそちらを振り返って現状と比較してみようと思います。現状認識については世界のトレンド分析というより、私の主観的な観測になります。

まず、昨年の1月に投稿した「AIエージェントを開発用途で利用する際の注意点」について

エージェントに与える権限の設定を慎重に行う

あらゆる操作を実行する前にユーザーの承認を求めるよう設定しておくのが無難だと思われます。

私個人の意見としては去年とほぼ同じで、全ての権限をAIに委譲して、完全に放置で開発することには慎重派です。ただ、執筆時点よりコーディング精度は高いので、コードの承認に関して昨年ほど厳しくなくとも良い気はしています。

コマンドについても、最近はそこまで変な操作をしてくる印象がなく、確認は必須なものの、昨年ほどリジェクトする率は減った気がします。

ただ、最近は本番のインフラ環境を直接AIが操作するアプローチや、かなり振り切った自動操作のアプローチも出てきていて、それはさすがに危険だと思い採用していません。

使用するAPI(モデル)のリスクを調べる

高性能かつ低コストで話題の中国製AI「DeepSeek」に関しては、セキュリティやデータ利用に関するリスクが指摘されています(参考:Medium)。業務利用でDeepSeekを避けるべきかどうかは議論の余地がありますが、実際に導入する際には、利用条件やリスクを十分に理解したうえで判断する必要があります。

これも昨年とほぼ同じです。フロンティアモデルはOpenAI、Google、Anthropicの三社が強い状態が続いていますし、コストが安くてもリスクがありそうなAPIを利用することは避けています。

続いて、昨年の2月に投稿した「AI駆動開発の実践:個人的に直面している課題について」について

プロジェクト毎の実装方針とナレッジ構築の不足

全体把握やプロジェクトのコードベースに対する効果的なナレッジが作成できていない

これはSkillsを中心に情報が増えたのと、AIの調査能力が向上したことでナレッジ構築にAIを利用しやすくなり、昨年より改善できました。

課題は、オープンなナレッジが少ない特定製品の情報であったり、社内でしか発生しない文脈であったりの対応です。(ここのナレッジ自作はまだそこまで簡単ではない印象です)

AIに与えるコンテキストの選定と絞り込み

AIに与える情報は、多すぎると精度が落ちますが、少なすぎても影響範囲の見落としや、そもそもうまく指示が通らないということが起こるため、実装中は都度最も効果的な選択をしたいです。

これはモデルの性能向上により、多すぎても精度が高いことが多くなったので、昨年より改善できている印象です。

とにかく情報をかき集めればなんとかなる場面は増えたと思います。無理に絞り込むぐらいなら物量や総当たりで押し切った方が良い場面もあると思います。

フェーズ/ステップを区切る、整理するのが難しい

実装について、分割して順々に指示していく、ということが実際にやってみると思ったより難しいです。

これはエージェントの性能向上でかなり改善された部分です。計画を作る→一気に実行で解決できる場面が増えました。

去年との最大の差はこのあたりかもしれませんね。本当に計画だけでいい場面も出てきている印象です。

作業毎の検証と前提確認

自動テストの導入や実装ステップ毎の確認が不足しており、AIで実装→検証→修正のサイクルが現状では上手く回っていない

テストに関しては情報も増えてきましたし、導入も進めていますが個人的にはまだまだやり切れていない部分です。

逆に言うと改善の余地が一番ある部分なので、最近はテストやガードレールについて興味を持って調べています。ここを伸ばしていけば品質向上が期待できます。

まとめ

去年の記事を振り返ってみましたが、全体的な印象として、実装の諸課題についてはモデル性能やエージェント性能の向上により昨年の悩みは解消されつつあり、コンテキストエンジニアリングについては利用者の増加によりノウハウが積みあがってきてやや改善傾向、課題はテストやガードレール設計あたりかなと感じています。

今年は開発をAIメインで開発を迅速に進めて工数を捻出し、セキュリティやテストを多層的に行うことであったり、ハーネスエンジニアリングを業務に最適化していくといった取り組みを行う予定です。

来年どうなっているか正直想像がつかないのですが、今年は大きく状況が動いてもおかしくないと感じています。

引き続き追っていければと思います。