[µðÁöÅе¥Àϸ® °í¼ºÇö±âÀÚ] Áö³ <Å×Å©´ÙÀ̺ê>ÀÇ ÇÙ½ÉÀº ±¸±ÛÀÌ Á¦½ÃÇÑ Åͺ¸ÄöÆ®(TurboQuant) ¾Ë°í¸®ÁòÀÌ °í´ë¿ªÆø¸Þ¸ð¸®(HBM)¿¡¼ ¹ß»ýÇÏ´Â º´¸ñÀ» µ¥ÀÌÅÍ ¾ÐÃàÀ¸·Î ÇØ¼ÒÇÒ ¼ö ÀÖ´Ù´Â °ÍÀ̾ú½À´Ï´Ù. ÀÌ ±â¼úÀÌ Àû¿ëµÇ¸é ÇöÀç AI ÀÎÇÁ¶óÀÇ °íÁúÁ¡ÀÎ ºñ¿ë Àý°¨°ú ¼º´É È¿À²¼ºÀ» ²ø¾î¿Ã¸± ¼ö ÀÖ´Ù´Â Á¡¿¡ ÀÇÀǰ¡ ÀÖ¾úÁÒ. ´Ù¸¸ ÇØ´ç ³»¿ëÀÌ ¾ÆÁ÷ Á¦ÇÑµÈ È¯°æ ³»¸¦ °ËÁõÇÑ ³í¹® ´Ü°èÀÎ ÅͶó ´çÀå »ó¿ë鵃 Áö´Â ºÒÈ®½ÇÇÕ´Ï´Ù.
¹Ý¸é ºñ±³Àû ºü¸£°Ô ã¾Æ¿À´Â ´ë¾È ¿ª½Ã ÀÖ½À´Ï´Ù. ¹Ù·Î Á¨½¼ Ȳ ¿£ºñµð¾Æ ÃÖ°í°æ¿µÀÚ(CEO)°¡ 1¿ù ÃÊ 'CES 2026'¿¡¼ Á¦½ÃÇÑ ICMS(Inference Context
°ñµå¸ù¸±°ÔÀÓ Memory Storage) ±¸Á¶ÀÔ´Ï´Ù. ±âÁ¸¿¡´Â HBM¿¡¼ ó¸®ÇؿԴø ۰ªÄ³½Ã(KV Cache)¸¦ »õ·Î¿î ¸Þ¸ð¸® °èÃþÈ ¹æ½ÄÀ¸·Î ±Øº¹Çϰڴٴ °Ô ÁÖµÈ Æ÷ÀÎÆ®ÀÔ´Ï´Ù.
¿ì¼± KVij½Ã¿¡ ´ëÇØ ´Ù½Ã Çѹø ¾Ë¾Æº¼±î¿ä. ÀΰøÁö´É(AI) 꺿ÀÌ »ç¿ëÀÚÀÇ ¿¬¼ÓÀûÀÎ ¿äû(Query)À» ÀÌÇØÇϰí ó¸®ÇÏ·Á¸é ÀÌÀü ´ëÈÀÇ È帧À» ¹Ý¿µÇØ¾ß ÇÕ´Ï´Ù. ÇÑ ÁÖÁ¦¿¡
»çÀÌ´ÙÄð ´ëÇØ ´ëȸ¦ ³ª´©´Ù°¡ °©Àڱ⠾û¶×ÇÑ ÁÖÁ¦ÀÇ ´äº¯À» ³»³õÁö ¾ÊÀ¸·Á¸é ¾Õ¼± Áú¹®°ú ´äº¯À» Âü°íÇÒ Çʿ䰡 ÀÖ°ÚÁÒ.
À̸¦ À§ÇØ AI ¸ðµ¨Àº °¢ ´Ü¾î(ÅäÅ«)¸¦ ó¸®ÇÏ´Â °úÁ¤¿¡¼ »ý¼ºµÈ Ű(Key)¿Í °ª(Value) Á¤º¸¸¦ ÀÏÁ¤ ½Ã°£ ÀúÀåÇØµÎ°í ´Ù½Ã ÂüÁ¶Çϴµ¥¿ä. ÀÌ·¸°Ô ÀúÀåµÈ ۰ú °ªÀÇ µ¥ÀÌÅÍ ¹À½À» 'KVij½Ã'¶ó°í ºÎ¸¨´Ï´Ù. µ¥ÀÌÅͼ¾ÅÍ¿¡¼´Â »ý
Ȳ±Ý¼º½½·Ô ¼ºµÈ KVij½Ã¸¦ °°Àº ¿äû ³»¿¡¼ Àç»ç¿ëÇØ Áö¿¬½Ã°£°ú ºñ¿ëÀ» ÁÙÀÌ´Â °Í¿¡ ÃÊÁ¡À» µÎ°í ÀÖ½À´Ï´Ù. Áï »ç¿ëÀÚ°¡ Áú¹®ÇÏ´Â À¯»çÇÑ ³»¿ëÀ» ´Ü±âÀûÀ¸·Î ±â¾ïÇØ º¸´Ù ºü¸£°Ô ó¸®Çϱâ À§ÇÑ ¿ëµµ·Î »ý¼ºµÈ´Ù´Â ÀǹÌÀÔ´Ï´Ù.
¹®Á¦´Â »ý¼ºµÇ´Â KVij½Ã°¡ ±ÞÁõÇÑ´Ù´Â Á¡ÀÔ´Ï´Ù. AI¸ðµ¨Àº ÀÌÀü ÅäÅ«ÀÇ Á¤º¸¸¦ °è¼Ó ½×¾Æ°¡¸ç »ç¿ëÀÚ ¿äûÀ» ó¸®ÇÏ´Â ±¸Á¶ÀÔ´Ï´Ù. ÀÌ
¸±°ÔÀÓ¸ð¹ÙÀÏ °úÁ¤¿¡¼ »ç¿ëÀÚ Áú¹®ÀÌ ±æ¾îÁö°Å³ª ´ëȰ¡ ¿©·¯ Â÷·Ê À̾îÁö¸é ó¸®ÇØ¾ß ÇÒ ÅäÅ« ¼ö°¡ ºü¸£°Ô Áõ°¡ÇÕ´Ï´Ù. ÀÚ¿¬½º·´°Ô ¿©±â¿¡ ÀúÀåµÉ Ű, °ª µ¥ÀÌÅ͵µ Å©°Ô ´Ã¾î³ª°ÚÁÒ. ¶Ç AI¸ðµ¨µµ ±ä ¹®¸ÆÀ» ó¸®ÇÒ ¼ö ÀÖµµ·Ï °íµµÈµÇ°í ÀÖ¾î KVij½ÃÀÇ Å©±â´Â ÀÌÀüº¸´Ù ÈξÀ ºü¸¥ ¼Óµµ·Î ºÒ¾î³ª°í ÀÖ´Â Ãß¼¼ÀÔ´Ï´Ù.
ÀÌ·¸°Ô »ý¼ºµÈ KVij½Ã´Â ºü¸¥ ÂüÁ¶¸¦ À§ÇØ ¿¬
»çÀÌ´ÙÄð¹Ù´ÙÀ̾߱â°ÔÀÓ »êÀ» ´ã´çÇÏ´Â GPU¿Í ºÙ¾î ÀÖ´Â HBM¿¡ ÀúÀåµÇ´Âµ¥¿ä. HBMÀº º»ÁúÀûÀ¸·Î GPU·ÎÀÇ °í¼Ó µ¥ÀÌÅÍ À̵¿À» À§ÇØ ÀúÀå¿ë·®À» Èñ»ýÇÏ°í ´ë¿ªÆø(Bandwidth)À» Å©°Ô È®ÀåÇÑ ¸Þ¸ð¸®ÀÔ´Ï´Ù. ±ÞÁõÇÏ´Â KVij½Ã¸¦ °¨´çÇÒ ¸¸Å ¿ë·®ÀÌ ÃæºÐÇÏÁö ¾ÊÁÒ. °Å±â´Ù KVij½Ã°¡ ´Ã¸é ´Ã¾î³¯¼ö·Ï ¿¬»ê¿¡ ÇÊ¿äÇÑ ÀúÀå°ø°£ÀÌ ÁÙ¾î µ¥ÀÌÅÍ º´¸ñÀÌ ¹ß»ýÇÏ´Â »óȲÀÌ ¹ú¾îÁö°Ô µÇ´Â °ÅÁÒ.
µû¶ó¼ µ¥ÀÌÅͼ¾Å͵éÀº ÀÌ·¯ÇÑ µ¥ÀÌÅÍ º´¸ñ ¹®Á¦ ÇØ°áÀ» À§ÇØ ¸Þ¸ð¸®¸¦ °èÃþÈÇÏ´Â ¹æ½ÄÀ» ÁÖ·Î ¾²°í Àִµ¥¿ä. HBM»Ó ¾Æ´Ï¶ó ½Ã½ºÅÛ¸Þ¸ð¸®ÀÎ D·¥À̳ª ¼Ö¸®µå½ºÅ×ÀÌÆ®µå¶óÀ̺ê(SSD)°°Àº ÀúÀåÀåÄ¡ ¿µ¿ªÀ¸·Î KVij½Ã¸¦ ºÐ»êÇØ ´ëÀÀÇÑ´Ù´Â ÀǹÌÀÔ´Ï´Ù. ÀÚÁÖ ¾²ÀÌ´Â µ¥ÀÌÅÍ(Hot KV Cache)´Â GPU, Áï HBM¿¡ ±×´ë·Î µÎ°í ºñ±³Àû »ç¿ë ºóµµ°¡ ³·Àº µ¥ÀÌÅÍ´Â °¢°¢ ¿ú(Warm), Äݵå(Cold)·Î ºÐ·ùÇØ ÀúÀåÇÏ´Â ½ÄÀÌÁÒ.
´Ù¸¸ ÀÌ ¹æ½Ä ¿ª½Ãµµ °èÃþÀÌ HBM->D·¥->SSD ¼øÀ¸·Î ³»·Á°¥ ½Ã µ¥ÀÌÅÍ À̵¿ ¼Óµµ°¡ ´À·ÁÁø´Ù´Â ÇѰ谡 ¸íÈ®Çß½À´Ï´Ù. ºñ±³Àû ¼Óµµ°¡ ºü¸¥ D·¥Àº ¿©ÀüÈ÷ ¿ë·® Á¦ÇÑÀÌ ÀÖ°í, SSD´Â ¼ö½Ê~¼ö¹é¸¶ÀÌÅ©·ÎÃÊ(§Á)ÀÇ Áö¿¬½Ã°£(Latency)ÀÌ ÀÖ¾î ¼ö½Ê, ¼ö¹é³ª³ëÃÊ(§Á) ¼öÁØÀÎ HBMÀ̳ª D·¥°ú ºñ±³Çϱ⠾î·Á¿ï Á¤µµ·Î ´À¸³´Ï´Ù. ¶Ç ±âÁ¸ SSD¿Í °°Àº ÀúÀåÀåÄ¡°¡ ¸Å¿ì ªÀº ÁÖ±â·Î ¹Ýº¹ÀûÀ¸·Î »ý¼ºµÇ´Â KVij½Ã¸¦ °ü¸®Çϱ⿡´Â ºÎÀûÇÕÇØ Áö¿¬½Ã°£ º¯µ¿¼ºÀÌ Å©´Ù´Â Á¡µµ ÇѰè·Î ²ÅÈü´Ï´Ù.
¿£ºñµð¾Æ°¡ Á¦½ÃÇÑ ICMS´Â ¸Þ¸ð¸® °èÃþÈ ¹æ½ÄÀ» º¸´Ù °íµµÈÇÑ °³³äÀÔ´Ï´Ù. GPU ·¢ ¾È¿¡ ÀÖ´Â ¸Þ¸ð¸®³ª ÀúÀåÀåÄ¡¸¦ ¾²´Â °Ô ¾Æ´Ï¶ó, ¾Æ¿¹ KVij½Ã¸¸ °ü¸®ÇÏ´Â Àü¿ë °èÃþÀ» ¸¸µé°Ú´Ù´Â ±¸»óÀÌÁÒ.
ICMS´Â GPU¿Í ÀúÀåÀåÄ¡ »çÀÌ¿¡ À§Ä¡ÇØ °í¼Ó ³×Æ®¿öÅ©¿Í µ¥ÀÌÅÍó¸®ÀåÄ¡(DPU) 'ºí·çÇʵå'¸¦ ±â¹ÝÀ¸·Î µ¿ÀÛÇÕ´Ï´Ù. ±âÁ¸Ã³·³ CPU¸¦ °ÅÃÄ µ¥ÀÌÅ͸¦ À̵¿½ÃŰ´Â °Ô ¾Æ´Ï¶ó DPU°¡ Á÷Á¢ µ¥ÀÌÅÍ È帧À» Á¦¾îÇØ ½Ã½ºÅÛ Áö¿øÀ» À§ÇÑ ´ë±â½Ã°£(Overhead)À» ´ÜÃà½Ãų ¼ö ÀÖ½À´Ï´Ù. ¶Ç ±âÁ¸ HBM-D·¥-SSD ±¸¼ºÃ³·³ ¾Æ·¡ °èÃþ¿¡¼ µ¥ÀÌÅ͸¦ ¿Ã¸®´Â ±¸Á¶°¡ ¾Æ´Ï¶ó, ¿äû ÆÐÅÏÀ» ±â¹ÝÀ¸·Î µ¥ÀÌÅ͸¦ ¹Ì¸® ¹èÄ¡Çϰųª ¿©·¯ GPU°¡ ÇÔ²² »ç¿ëÇÒ ¼ö ÀÖµµ·Ï °øÀ¯ÇÏ´Â ÇüÅ·Π¿î¿µµË´Ï´Ù.
½±°Ô ¸»Çϸé KVij½Ã¸¦ Àü´ãÇÏ´Â ·¢ÀÌ ½Ç½Ã°£À¸·Î È¿À²ÀûÀÎ µ¥ÀÌÅÍ(KVij½Ã)¸¦ Àü´ÞÇØ ¹ß»ýÇÒ ¼ö ÀÖ´Â º´¸ñÀ» ÁÙÀδٴ ¶æÀÔ´Ï´Ù. À̸¦ Ȱ¿ëÇÏ¸é Æ¯Á¤ GPU¿¡ KVij½Ã°¡ °úµµÇÏ°Ô ½ò¸®´Â Çö»óµµ ¿ÏÈÇÒ ¼ö ÀÖ°í, ºñ½ÁÇÑ ¹®¸ÆÀ» ¹Ýº¹ °è»êÇØ KVij½Ã¸¦ ±ÞÁõ½ÃŰ´ø ºñÈ¿À²Àû ¿î¿ëµµ ÃÖ¼ÒÈÇÒ ¼ö ÀÖ°ÚÁÒ.
¹°·Ð ÀÌ·¯ÇÑ ICMS ±¸Á¶°¡ »õ·Î¿î ¸Þ¸ð¸® º´¸ñ ÇØ°áÀÇ ´ë¾ÈÀÌ µÇ´õ¶óµµ ½ÇÁ¦·Î À̸¦ ¾ó¸¶³ª È¿À²ÀûÀ¸·Î °ü¸®ÇÏ´À³Ä´Â º°°³ÀÇ ¹®Á¦ÀÔ´Ï´Ù. °á±¹ ICMS¿¡ žÀçµÇ´Â ÀúÀåÀåÄ¡°¡ SSD¸é ³×Æ®¿öÅ© Åë½Å°ú »ó´ëÀûÀ¸·Î ºÒ¸®ÇÑ ·¹ÀÌÅϽöó´Â ¹°¸®Àû ÇѰ踦 ±Øº¹ÇÏ±ä ¾î·Æ°ÚÁÒ. ´Ù¸¥ ÇÑÆíÀ¸·Î´Â °è¼ÓÇØ¼ ±ÞÁõÇÏ´Â KVij½Ã¸¦ °è¼ÓÇØ ÀúÀåÇÏ¸é¼ ¿äû¿¡ ¸Â´Â µ¥ÀÌÅ͸¦ ¼±º°Çϰí Àü´ÞÇÏ´Â ºÎ´ãµµ Ä¿Áú ¼ö ÀÖ½À´Ï´Ù.
·¹ÀÌÅϽà ±Øº¹À» À§ÇØ Á¦½ÃµÇ´Â ÇØ°áÃ¥À¸·Î´Â ÄÄǻƮÀͽºÇÁ·¹½º¸µÅ©(CXL) ±â¼úÀÌ °Å·ÐµË´Ï´Ù. SSDº¸´Ù ºü¸£Áö¸¸ ¿ë·® ÇѰ谡 ÀÖ´Â D·¥ÀÇ ³Á¦¸¦ CXL·Î ÇØ°áÇØ º¸´Ù ºü¸£°Ô KVij½ÃÀÇ ÀúÀå°ú À̵¿ÀÌ °¡´ÉÇÕ´Ï´Ù. À̸¦ ICMS¿¡ Àû¿ëÇØ Ȱ¿ëÇÒ ¼ö ÀÖ´Ù¸é ¾ÈÁ¤ÀûÀÎ KVij½Ã °ü¸®´Â ¹°·Ð ¿ë·®, ¼ÓµµÀÇ ÇѰ赵 ÇØ¼ÒÇÒ ¼ö ÀÖ°ÚÁÒ.
»Ó¸¸ ¾Æ´Ï¶ó ±âÁ¸ÀÇ ½Ã½ºÅ۸޸𸮠¿µ¿ª¿¡¼µµ CXL ¸ðµâ·Î ¿ë·®À» È®ÀåÇØ ¿ú KVij½Ã µ¿ÀÛÀ» È¿À²ÈÇϰųª À¯¿¬¼ºÀ» ³ÐÈ÷´Â µî Àå±âÀûÀÎ ÄÄÇ»ÆÃ ±¸Á¶ °³ÆíÀÇ Åä´ë·Îµµ Ȱ¿ëµÉ ¿©Áö°¡ ÀÖ½À´Ï´Ù.
KVij½Ã À̵¿°ú ¼±º° µî ÀÚü È¿À²À» ³ôÀÌ´Â ¹æ½ÄÀ¸·Î´Â ICMS ÀúÀåÀåÄ¡ °¡¼Ó±â äÅà ±¸Á¶°¡ ¾ð±ÞµÇ°í ÀÖ½À´Ï´Ù. ICMS ³» ÀúÀåÀåÄ¡¿¡¼ ¹Ì¸® ÇÊ¿äÇÑ KVij½Ã¸¦ ¼±º°Çϰí, À̸¦ DPU°¡ È¿À²ÀûÀ¸·Î GPU¿¡ ¹èÄ¡¡¤À̵¿½ÃŰ´Â ½ÄÀÔ´Ï´Ù.
±¹³»¿¡¼´Â º¤ÅÍ µ¥ÀÌÅͺ£À̽º(DB) ±â¹Ý °¡¼Ó±â¸¦ ¼³°èÇÏ´Â µð³ëƼ½Ã¾Æ°¡ À̸¦ ÃßÁøÇϰí ÀÖ½À´Ï´Ù. ICMS¿¡ ¸Â´Â º¤ÅÍDBó¸®ÀåÄ¡(VDPU)¸¦ ÀúÀåÀåÄ¡¿¡ Ãß°¡ÇØ ´õ¿í È¿°úÀûÀ¸·Î KVij½Ã¸¦ ¿î¿ëÇϰڴٴ ¸ñÇ¥ÀÔ´Ï´Ù.
µð³ëƼ½Ã¾Æ°¡ °í·ÁÇÏ´Â ¹æ½ÄÀº VDPU¸¦ ÅëÇÑ KVij½Ã µ¿Àû ¾ÐÃà ¹× °Ë»ö(Retrieval)ÀÔ´Ï´Ù. ICMS·Î º¸³»Áø KVij½Ã »óŸ¦ ¸ð´ÏÅ͸µÇϰí Á߿䵵¿¡ µû¶ó À¯ÁöÇϰųª ¾ÐÃࡤÃà¼Ò¡¤Á¦°ÅÇØ È¿À²ÀûÀ¸·Î °ü¸®Çϰڴٴ ¶æÀÌÁÒ.
ÀÌ·¸°Ô µÇ¸é ½Ç½Ã°£ ¿äû¿¡ µû¶ó »ý¼ºµÇ´Â KVij½Ã¸¦ À¯¿¬ÇÏ°Ô °ü¸®ÇÒ ¼ö ÀÖ°í, »ç¿ëÀÚ ¿äûÀÇ ¹®¸ÆÀ» ÆÄ¾ÇÇØ ¾î¶² KVij½Ã°¡ ÇÊ¿äÇÑÁö¸¦ ¼±º°ÇÒ ¼öµµ ÀÖ½À´Ï´Ù. ÀÌ·¸°Ô µÇ¸é VDPU°¡ ICMS¸¦ È¿À²ÀûÀ¸·Î ¿î¿ëÇϱâ À§ÇÑ ÀÏÁ¾ÀÇ ¿£Áø ¿ªÇÒÀ» ÇÒ ¼öµµ ÀÖ°ÚÁÒ.
GPU ¿µ¿ª ³» KVij½Ã ¿ë·® ÇѰ踦 ±Øº¹Çϱâ À§ÇÑ ±â¼úÀº ±¸±ÛÀÇ Åͺ¸ÄöÆ®, ¿£ºñµð¾ÆÀÇ ICMS»Ó ¾Æ´Ï¶ó ´Ù¾çÇÑ ¿µ¿ª¿¡¼µµ ¼ö¾øÀÌ ¸¸µé¾îÁö°í ÀÖ½À´Ï´Ù. ƯÈ÷ AI Ãß·ÐÀÇ ½Ç½Ã°£¼º°ú º¯µ¿¼ºÀ» ¾ÈÁ¤ÀûÀ¸·Î À¯ÁöÇϱâ À§ÇÑ Çϵå¿þ¾î, ¼ÒÇÁÆ®¿þ¾î ½ºÅà °£ °áÇÕÀ» ¿ä±¸ÇÏ´Â ¹æ½Äµµ ¸¹ÀÌ ¿¬±¸µÇ°í ÀÖÁÒ. ÇöÀç È®´ëµÇ±â À§ÇÑ AI ÀÎÇÁ¶ó ÅõÀÚ°¡ ¿ì¸®³ª¶ó»Ó ¾Æ´Ï¶ó Àü¼¼°è °æÁ¦¸¦ ÁöÅÊÇÒ ÇÙ½ÉÀÌ µÇ°í ÀÖ´Â ¸¸Å ´Ù¾çÇÑ ±â¼úÀÌ »ó¿ëȵŠ»õ·Î¿î Çõ½ÅÀ» °¡Á®¿À±â¸¦ ±â´ëÇØº¾´Ï´Ù.