โ† ๋ชฉ๋ก์œผ๋กœ
์—ฐ๊ตฌ์ค‘์š”๋„ ๋†’์Œ 8.0

๐Ÿ”ฌESMFold2: ๋‹จ๋ฐฑ์งˆ์— ๋Œ€ํ•œ ่‹ฆ lesson์ด ๋‹ค๊ฐ€์˜ค๊ณ  ์žˆ๋‹ค - ์•Œ๋ ‰์Šค ๋ผ์ด๋ธŒ์Šค, BioHub

๐Ÿ”ฌESMFold2: The Bitter Lesson is Coming for Proteins - Alex Rives, BioHub

Latent Spaceยทยท์•ฝ 4๋ถ„ ์ฝ๊ธฐยท3ํšŒ ์กฐํšŒ

ํ•ต์‹ฌ ์š”์•ฝ

  • โ–ธESMFold2๋Š” ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ ์˜ˆ์ธก ๋ถ„์•ผ์—์„œ ์ƒˆ๋กœ์šด ์ง„๋ณด๋ฅผ ์ด๋ฃจ๊ณ  ์žˆ๋‹ค.
  • โ–ธ๋ฐ์ดํ„ฐ์…‹๊ณผ ์œ ๋„ ํŽธํ–ฅ, ์„ธ๊ณ„ ๋ชจ๋ธ, ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๊ฐ€๋Šฅํ•œ ์ƒ๋ฌผํ•™ ๋“ฑ ๋‹ค์–‘ํ•œ ๊ธฐ์ˆ ์ด ๊ฒฐํ•ฉ๋˜์—ˆ๋‹ค.
  • โ–ธ์ด ๊ธฐ์ˆ ์€ ์ƒ๋ฌผํ•™์  ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด์ค€๋‹ค.
  • โ–ธ์ด ๊ธฐ์ˆ ์€ ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ ์˜ˆ์ธก ๋ถ„์•ผ์—์„œ ๊ฐœ๋ฐœ์ž๋“ค์ด ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์„ ํƒ๊ตฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐํšŒ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

์‹ฌ์ธต ๋ถ„์„

ESMFold์€ Meta(ํ˜„์žฌ EvolutionaryScale)์˜ ESM(Evolutionary Scale Modeling) ๊ณ„์—ด์—์„œ ๋‚˜์˜จ ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ ์˜ˆ์ธก ๋ชจ๋ธ๋กœ, ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” "๋‹จ๋ฐฑ์งˆ ์„œ์—ด์„ ์–ธ์–ด์ฒ˜๋Ÿผ ๋‹ค๋ฃฌ๋‹ค"๋Š” ๊ฒƒ์ด๋‹ค. LLM์ด ํ…์ŠคํŠธ ์ฝ”ํผ์Šค์—์„œ ๋งˆ์Šคํ‚น ํ•™์Šต์œผ๋กœ ์–ธ์–ด์˜ ํ†ต๊ณ„์  ๊ตฌ์กฐ๋ฅผ ์ตํžˆ๋“ฏ, ESM์€ ์ˆ˜์–ต ๊ฐœ์˜ ๋‹จ๋ฐฑ์งˆ ์•„๋ฏธ๋…ธ์‚ฐ ์„œ์—ด์„ ํŠธ๋žœ์Šคํฌ๋จธ๋กœ ์‚ฌ์ „ํ•™์Šตํ•ด ์ง„ํ™”์ ยท๋ฌผ๋ฆฌ์  ํŒจํ„ด์„ ๋‚ด๋ถ€ ํ‘œํ˜„์œผ๋กœ ํก์ˆ˜ํ•œ๋‹ค. ์ด ๊ธ€์˜ ์ œ๋ชฉ์ธ "Bitter Lesson(์“ฐ๋ผ๋ฆฐ ๊ตํ›ˆ)"์€ ๋ฆฌ์น˜ ์„œํŠผ์˜ ์œ ๋ช…ํ•œ ๋ช…์ œ๋กœ, ์ธ๊ฐ„์ด ์„ค๊ณ„ํ•œ ๋„๋ฉ”์ธ ์ง€์‹(inductive bias)์— ์˜์กดํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๊ฒฐ๊ตญ ๋ฐ์ดํ„ฐ์™€ ์—ฐ์‚ฐ์„ ํ™•์žฅํ•˜๋Š” ๋ฒ”์šฉ์  ๋ฐฉ๋ฒ•์— ํŒจ๋ฐฐํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. Alex Rives์˜ ์ฃผ์žฅ์€ ๋‹จ๋ฐฑ์งˆ ๋ถ„์•ผ์—๋„ ์ด ๋ฒ•์น™์ด ๋„๋ž˜ํ–ˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. AlphaFold2๊ฐ€ MSA(๋‹ค์ค‘์„œ์—ด์ •๋ ฌ), ์ง„ํ™”์  ๊ณต๋ถ„์‚ฐ, ๊ธฐํ•˜ํ•™์  ์ œ์•ฝ ๊ฐ™์€ ์ƒ๋ฌผํ•™์  ์‚ฌ์ „ ์ง€์‹์„ ์ •๊ตํ•˜๊ฒŒ ์ฃผ์ž…ํ•œ ๋ฐ˜๋ฉด, ESMFold๋Š” ๊ทธ๋Ÿฐ inductive bias๋ฅผ ๊ฑท์–ด๋‚ด๊ณ  ๋‹จ์ผ ์„œ์—ด๋งŒ์œผ๋กœ ๊ตฌ์กฐ๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. ๋ฐ์ดํ„ฐ์™€ ์Šค์ผ€์ผ์ด ์ถฉ๋ถ„ํ•˜๋ฉด ๋ชจ๋ธ์ด ์ง„ํ™”์  ์ •๋ณด๋ฅผ ์Šค์Šค๋กœ ํ•™์Šตํ•œ๋‹ค๋Š” ๋ฒ ํŒ…์ด๋ฉฐ, ์ด๊ฒƒ์ด "datasets vs. inductive bias" ๋…ผ์Ÿ์˜ ํ•ต์‹ฌ์ด๋‹ค.

๊ธฐ์ˆ ์ ์œผ๋กœ ESMFold2์™€ ๊ทธ ํ›„์†์ธ ESM3๋Š” ๋‹จ์ˆœํ•œ ๊ตฌ์กฐ ์˜ˆ์ธก๊ธฐ๋ฅผ ๋„˜์–ด ์ƒ๋ฌผํ•™์˜ "์„ธ๊ณ„ ๋ชจ๋ธ(world model)"์„ ์ง€ํ–ฅํ•œ๋‹ค. ์ฆ‰ ์„œ์—ดยท๊ตฌ์กฐยท๊ธฐ๋Šฅ์„ ํ•˜๋‚˜์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒ์„ฑ ๋ชจ๋ธ ์•ˆ์—์„œ ํ†ตํ•ฉํ•ด, ์ƒ๋ฌผํ•™์˜ ์ƒ์„ฑ ๊ณผ์ • ์ž์ฒด๋ฅผ ๋ชจ์‚ฌํ•˜๋ ค๋Š” ์‹œ๋„๋‹ค. ์ด๋ ‡๊ฒŒ ๋˜๋ฉด ๋‹จ๋ฐฑ์งˆ์€ ๋” ์ด์ƒ "๋ถ„์„ ๋Œ€์ƒ"์—๋งŒ ๋จธ๋ฌผ์ง€ ์•Š๊ณ  "ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๊ฐ€๋Šฅํ•œ(programmable) ๋Œ€์ƒ"์ด ๋œ๋‹ค. ๊ฐœ๋ฐœ์ž๊ฐ€ ํ”„๋กฌํ”„ํŠธ๋กœ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋“ฏ, ์›ํ•˜๋Š” ๊ธฐ๋Šฅยท๊ตฌ์กฐ ์ œ์•ฝ์„ ์กฐ๊ฑด์œผ๋กœ ๊ฑธ์–ด ์ƒˆ๋กœ์šด ๋‹จ๋ฐฑ์งˆ์„ ์„ค๊ณ„ยท์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์˜๋ฏธ๋‹ค. ์ด๋Š” ์‹ ์•ฝ ๊ฐœ๋ฐœ, ํšจ์†Œ ์„ค๊ณ„, ๋ฐ”์ด์˜ค ์†Œ์žฌ ๊ฐ™์€ ์˜์—ญ์„ ์ฝ”๋“œ ์ž‘์„ฑ์— ๊ฐ€๊นŒ์šด ์›Œํฌํ”Œ๋กœ๋กœ ๋ฐ”๊พผ๋‹ค.

์—”์ง€๋‹ˆ์–ด ๊ด€์ ์—์„œ ๊ฐ€์žฅ ์ง์ ‘์ ์ธ ์ž„ํŒฉํŠธ๋Š” ์ ‘๊ทผ์„ฑ๊ณผ ์†๋„๋‹ค. AlphaFold2๋Š” ์˜ˆ์ธก๋งˆ๋‹ค ๋ฌด๊ฑฐ์šด MSA ๊ฒ€์ƒ‰์ด ํ•„์š”ํ•ด ๋А๋ฆฌ๊ณ  ์ธํ”„๋ผ ๋ถ€๋‹ด์ด ์ปธ์ง€๋งŒ, ESMFold๋Š” ๋‹จ์ผ ์„œ์—ด์„ ๋ฐ”๋กœ ์ž…๋ ฅ๋ฐ›์•„ ์ˆ˜์‹ญ ๋ฐฐ ๋น ๋ฅธ ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ESM ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋Š” Hugging Face์— ๊ณต๊ฐœ๋˜์–ด ์žˆ๊ณ , EvolutionaryScale์˜ Forge API๋‚˜ ESM Atlas ๊ฐ™์€ ํ˜•ํƒœ๋กœ ์ œ๊ณต๋˜์–ด ์ƒ๋ฌผํ•™ ์ „๋ฌธ ์ง€์‹์ด ์—†๋Š” ๊ฐœ๋ฐœ์ž๋„ ๋‹จ๋ฐฑ์งˆ ์˜ˆ์ธกยท์„ค๊ณ„๋ฅผ ์ผ๋ฐ˜์ ์ธ ML ํŒŒ์ดํ”„๋ผ์ธ์ด๋‚˜ API ํ˜ธ์ถœ๋กœ ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ๋‹ค. ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ ์˜ˆ์ธก์ด ํŠน์ˆ˜ ๋„๋ฉ”์ธ์—์„œ "๊ทธ๋ƒฅ ๋˜ ํ•˜๋‚˜์˜ ๋ชจ๋ธ API"๋กœ ๋‚ด๋ ค์˜ค๋Š” ํ๋ฆ„์ด๋ฉฐ, ์ด๋Š” ํด๋ผ์šฐ๋“œยทGPU ์ธํ”„๋ผ, ๋ฒกํ„ฐํ™”๋œ ์ž„๋ฒ ๋”ฉ, ๋ฐฐ์น˜ ์ถ”๋ก  ๊ฐ™์€ ์ต์ˆ™ํ•œ ์—”์ง€๋‹ˆ์–ด๋ง ๋ฌธ์ œ๋กœ ํ™˜์›๋œ๋‹ค๋Š” ๋œป์ด๋‹ค.

๊ฐœ๋ฐœ์ž๊ฐ€ ์‹ค์งˆ์ ์œผ๋กœ ์ƒˆ๊ฒจ์•ผ ํ•  ๊ตํ›ˆ์€ ๋‘ ๊ฐ€์ง€๋‹ค. ์ฒซ์งธ, "Bitter Lesson"์€ ๋‹จ๋ฐฑ์งˆ์„ ๋„˜์–ด ๋ชจ๋“  ML ๋„๋ฉ”์ธ์— ์ ์šฉ๋˜๋Š” ๋ฉ”ํƒ€ ์›์น™์ด๋‹ค. ์ •๊ตํ•˜๊ฒŒ ์†์œผ๋กœ ๊นŽ์€ ๋„๋ฉ”์ธ ๊ทœ์น™ยทํœด๋ฆฌ์Šคํ‹ฑยทfeature engineering์— ์žฅ๊ธฐ ํˆฌ์žํ•˜๊ธฐ๋ณด๋‹ค, ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฒ”์šฉ ์•„ํ‚คํ…์ฒ˜์™€ ๋ฐ์ดํ„ฐยท์—ฐ์‚ฐ ์Šค์ผ€์ผ๋ง์— ๋ฒ ํŒ…ํ•˜๋Š” ์ชฝ์ด ๊ฒฐ๊ตญ ์ด๊ธด๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ž์‹ ์˜ ๋ถ„์•ผ์—์„œ "์šฐ๋ฆฌ๋งŒ์˜ ํŠน์ˆ˜ํ•œ inductive bias"๋ผ๊ณ  ๋ฏฟ๋Š” ๊ฒƒ๋“ค์ด ์‹ค์ œ๋กœ๋Š” ์Šค์ผ€์ผ์ด ๋Œ€์ฒดํ•  ๋ถ€์ฑ„๋Š” ์•„๋‹Œ์ง€ ์ ๊ฒ€ํ•ด ๋ณผ ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค. ๋‘˜์งธ, ๋ฐ”์ด์˜ค/ํ—ฌ์Šค ์ธ์ ‘ ์ œํ’ˆ์„ ๋‹ค๋ฃจ๋Š” ์—”์ง€๋‹ˆ์–ด๋ผ๋ฉด ESM ๊ณ„์—ด ๋ชจ๋ธ๊ณผ Forge API, ESM Atlas๋ฅผ ์ง์ ‘ ๋งŒ์ ธ๋ณด๋ฉฐ ์ž„๋ฒ ๋”ฉ ์ถ”์ถœยท๊ตฌ์กฐ ์˜ˆ์ธกยท์กฐ๊ฑด๋ถ€ ์ƒ์„ฑ์„ PoC๋กœ ๊ฒ€์ฆํ•ด ๋‘๋Š” ๊ฒƒ์ด ์ข‹๋‹ค. ๋‹จ, ๋‹จ์ผ ์„œ์—ด ์˜ˆ์ธก์€ ๋น ๋ฅธ ๋Œ€์‹  ์ •๋ฐ€๋„๊ฐ€ ๋–จ์–ด์ง€๋Š” ์˜์—ญ(ํŠนํžˆ ๋‹ค์ค‘์ฒด ๋ณตํ•ฉ์ฒด๋‚˜ ๋น„์ •ํ˜• ๊ตฌ์กฐ)์ด ์žˆ์œผ๋ฏ€๋กœ, AlphaFold๋ฅ˜์™€์˜ ์ •ํ™•๋„ยท์†๋„ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์šฉ๋„์— ๋งž๊ฒŒ ํ‰๊ฐ€ํ•˜๊ณ , ์ƒ์„ฑ๋œ ๋‹จ๋ฐฑ์งˆ์˜ ์‹คํ—˜์  ๊ฒ€์ฆ(wet-lab validation)์ด๋ผ๋Š” ํ˜„์‹ค์  ๋ณ‘๋ชฉ์„ ํŒŒ์ดํ”„๋ผ์ธ ์„ค๊ณ„์— ๋ฐ˜๋“œ์‹œ ๋ฐ˜์˜ํ•ด์•ผ ํ•œ๋‹ค.

#ESMFold2#๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ#์ƒ๋ฌผ์ •๋ณดํ•™#๋จธ์‹ ๋Ÿฌ๋‹#์—ฐ๊ตฌ
์›๋ฌธ ๋ณด๊ธฐ โ†’

๊ด€๋ จ ๊ธฐ์‚ฌ