OpenAI、新AIモデル「GPT-Rosalind」で創薬分野に参入 – Googleとの競争激化へ
OpenAI、生命科学特化AIモデル「GPT-Rosalind」を発表
OpenAIは、生命科学研究に特化した新たなAIモデル「GPT-Rosalind」を発表し、創薬分野への本格参入を果たしました。このモデルは、DNAの構造解明に貢献した科学者ロザリンド・フランクリンに敬意を表して命名されており。GPT-Rosalindは、生物学、創薬、トランスレーショナル医学の研究を支援するために設計されており、特に文献や証拠の統合、仮説生成、実験計画といった多段階の研究作業を加速することを目的としています。
GPT-Rosalindは、化学、タンパク質工学、ゲノミクスにおける理解とツール使用を組み合わせることで、科学的ワークフローを最適化します。米国の新薬開発プロセスは、標的の発見から規制当局の承認まで通常10〜15年かかるとされており、GPT-Rosalindはこの初期段階を大幅に短縮することを目指しています。OpenAIは、Amgen、Moderna、Allen Institute、Thermo Fisher Scientificなどのバイオ医薬品企業や研究機関と協力し、研究ワークフロー全体にGPT-Rosalindを適用しています。また、「Codex」向けに50以上の科学ツールやデータソースと接続できる無償の「Life Sciences research plugin」も提供し、人類遺伝学、機能ゲノミクス、タンパク質構造、生化学、臨床エビデンス、公的研究の探索などに対応するとしています。
評価において、GPT-Rosalindはバイオインフォマティクスとデータ分析に特化したベンチマークであるBixBenchで0.751の合格率を達成しました。さらに、文献検索やプロトコル設計などの研究タスクを測定するLABBench2では、11タスク中6タスクで既存の汎用モデルを上回る性能を示しています。Dyno Therapeuticsとの提携では、未公開配列を用いたRNA配列から機能への予測タスクで人間の専門家の95パーセンタイルを上回り、配列生成タスクでは約84パーセンタイルの性能を達成しました。
AI創薬におけるGoogleとの競争と戦略的アプローチ
OpenAIのGPT-Rosalindのリリースは、AI創薬分野におけるGoogleへの挑戦と位置付けられています。Googleは、2024年にAlphaFoldの研究でノーベル化学賞を受賞したDeepMindの科学者を擁しており、AlphaFoldはタンパク質の構造予測という長年の生物学上の課題を解決し、ライフサイエンス分野におけるAIの可能性を劇的に高めました。Googleはまた、AIを活用した「共同科学者」を導入し、科学的仮説の生成や新規治療標的の特定を加速させています。さらに、Alphabet傘下のIsomorphic Labsは、AI設計の薬剤候補を2025年末までに臨床試験に進める予定であり、Eli LillyやNovartisといった大手製薬会社と協力しています。GoogleはGeminiモデルを基盤とした多岐にわたるヘルスケアAIソリューションを提供しており、Recursion Pharmaceuticalsとの連携を通じて、生成AIを活用した創薬プラットフォームの強化も進めています。
OpenAIとGoogleのアプローチは異なります。AlphaFoldがタンパク質の折り畳みという極めて専門的で複雑な問題に特化しているのに対し、GPT-Rosalindは文献調査、データ統合、ターゲットスクリーニングなど、生物学的ワークフローに合わせて調整された汎用言語モデルとして機能します。両社は直接競合するというよりも、AIがいかにライフサイエンスを支援できるかという異なるアプローチを象徴しています。しかし、ライフサイエンス市場全体は拡大しており、AI創薬市場は2026年に42億ドル規模から、2034年までに161億ドルに達すると予測されており、両社の技術革新がこの成長をさらに加速させると考えられます。
AI創薬における技術的詳細と課題
AIは、ターゲットの同定、新規分子の設計、薬剤の最適化、毒性予測、臨床試験の最適化など、創薬のあらゆる段階で活用されています。特に、大規模言語モデル(LLM)や拡散モデルの応用により、自然界に存在しないタンパク質や抗体のde Novo(ゼロからの)設計へのシフトが進んでいます。AIモデルは、膨大な量の生物学的、化学的、臨床データを分析し、有望な創薬ターゲットの特定、分子化合物の設計・最適化、および薬剤の安全性と有効性の評価を行うことができます。
しかし、AI創薬にはいくつかの課題も存在します。高品質な学習データの不足、データの断片化とサイロ化、データの品質と一貫性の欠如、生物学的データの複雑性などが挙げられます。また、AIモデルの「ブラックボックス」性により、意思決定プロセスの透明性が低いという課題があり、規制当局や臨床現場からの信頼獲得に影響を与える可能性があります。バイアスが組み込まれたデータセットは、予測の一般化可能性を低下させ、不公平な医療結果につながる可能性も指摘されています。
開発者・エンジニア視点での考察
-
ドメイン特化型基盤モデルの進化と応用可能性: GPT-Rosalindの登場は、汎用的な大規模言語モデル(LLM)が特定の科学ドメイン知識とツール統合能力を持つことで、その価値を飛躍的に高めることを示唆しています。開発者は、生物学や化学といった専門分野のデータセットと、既存の計算ツールやデータベースへのAPI連携を深く掘り下げ、より特化したモデルアーキテクチャやファインチューニング手法を開発することで、未知の科学的発見を加速できる可能性があります。特に、マルチモーダルAIを生命科学データ(画像、シーケンス、構造など)に適用する研究は、今後のブレイクスルーの鍵となるでしょう。
-
AI駆動型実験ループ(Lab-in-the-Loop)の最適化: AI創薬の成功は、アルゴリズムの優劣だけでなく、AIが自律的に学習データを生成・検証できる「Lab-in-the-Loop」システムの構築に大きく依存しています。開発者は、ロボット実験システムとAIモデル間のデータフローを最適化し、実験設計、実行、データ収集、解析、モデル更新までの一連のプロセスをシームレスに統合するプラットフォームを構築する必要があります。この領域では、強化学習やベイズ最適化といった手法が、実験効率を最大化するための重要な要素となるでしょう。
-
倫理的AIと規制遵守を考慮したモデル設計: 創薬分野は人命に関わるため、AIモデルの信頼性、透明性、悪用防止策が極めて重要です。開発者は、モデルの設計段階からデータの公平性、バイアスの検出と軽減、意思決定プロセスの説明可能性(XAI)を組み込む必要があります。また、FDAのISTANDプログラムのような規制動向や、HIPAA、GDPRなどのデータプライバシー規制を深く理解し、それらを遵守したAIシステムの開発が不可欠となります。これは、技術的な挑戦であると同時に、社会的な信頼を築く上での重要な責任です。


