from GenAI: Synthesizing DNA Sequences with LLM Techniques.
GenAI: LLM技術を用いたDNA配列の合成
DataScienceCentral.comのVincent Granvilleは、2024年1月1日に、大規模言語モデル(LLM)がテキストの要約や生成、GPTによるプロンプトへの回答といった一般的な話題を超え、DNA配列の合成に応用されていることを紹介しています。DNAの「言語」は、アデニン(A)、シトシン(C)、グアニン(G)、チミン(T)の4つのプロテインを表す4文字から成り立っており、これらの文字の組み合わせはランダムではなく、特定のパターンを持っています。DNA配列の合成は、英語テキストの生成よりも単純な場合がありますが、長距離の自己相関や非確率的なルールも存在します。
Granvilleは、人間のDNA配列を含む公開データセットを用いて、統計的分布に基づいて異なる遺伝的特徴を持つサブシーケンスを分類するプロジェクトを行いました。合成DNAはプライバシーの問題を回避し、既存のデータベースとの照合を不可能にすることが期待されています。合成DNAのアルゴリズムは、隣接する単語のペアを見て出現頻度と条件付き確率を計算し、新しい単語を生成するという2段階のプロセスです。合成されたDNAの品質評価には、Hellinger距離を使用し、合成データと実際のDNAの単語頻度を比較します。
Vincent Granvilleは、GenAI科学と機械学習の先駆者であり、Data Science Centralの共同創設者、MLTechniques.comとGenAItechLab.comのチーフAIサイエンティスト、著者、特許所有者です。彼は、合成データと生成AIに関する著書を持ち、ワシントン州に住み、確率論的数理や動的システムなどの研究を楽しんでいます。最近、GenAI認定プログラムを立ち上げ、参加者に最先端の企業向けプロジェクトを提供しています。