๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๊ณต๋ถ€๊ธฐ๋ก/๊ฐœ๋ฐœ ์„œ์ 

ํ•ธ์ฆˆ์˜จ ๋จธ์‹ ๋Ÿฌ๋‹ 9์žฅ. ๋น„์ง€๋„ ํ•™์Šต

by kaizen_bh 2025. 1. 22.

 

 

 

์Šคํ„ฐ๋””๋ฅผ ์ง„ํ–‰ํ•˜๋‹ค๋ณด๋‹ˆ ๋ฒŒ์จ ํ•ธ์ฆˆ์˜จ ๋จธ์‹ ๋Ÿฌ๋‹ 1๊ถŒ์—์„œ ๋จธ์‹ ๋Ÿฌ๋‹ ํŒŒํŠธ์˜ ๋งˆ์ง€๋ง‰ ๋‚ด์šฉ์ด๋‹ค

์ด๋ฒˆ ์žฅ์€ 9์žฅ ๋น„์ง€๋„ ํ•™์Šต์œผ๋กœ ๊ธฐ์กด์— ์ž‘์„ฑํ–ˆ๋˜ ๋‚ด์šฉ๋“ค์ฒ˜๋Ÿผ ๋น„์ง€๋„ ํ•™์Šต์ด ์–ด๋–ค ๊ฒƒ์ด๊ณ  ์–ด๋– ํ•œ ๋ฐฉ๋ฒ•๋“ค์ด ์žˆ๋Š”์ง€, ๊ฐ๊ฐ์˜ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๊นŠ์€ ์ด๋ก ๊ณผ ์ฝ”๋“œ ๋ณด๋‹ค๋Š” ์ด๋ก ์„ ์ฃผ๋กœ ๋‹ค๋ฃฐ ๊ฒƒ์ด๋‹ค

์ฑ…์˜ ๋‚ด์šฉ๋งŒ์„ ๊ทธ๋Œ€๋กœ ์˜ฎ๊ธฐ๋Š” ๊ฒƒ์ด ์•„๋‹Œ, ๋ฐœํ‘œ๋ฅผ ์œ„ํ•ด ์ค€๋น„ํ•˜๊ณ  ๋งŒ๋“  ์ž๋ฃŒ๋“ค๊ณผ ์ •๋ฆฌํ•œ ๋‚ด์šฉ๋“ค์„ ์ด์šฉํ•ด ๋น„์ง€๋„ ํ•™์Šต์— ๋Œ€ํ•ด ์ •๋ฆฌํ•ด๋ณด์•˜๋‹ค

๊ฐœ๋ณ„์ ์ธ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ๊นŠ์€ ๋‚ด์šฉ์€ ์‹ค๋ฌด๋‚˜ ์ฑŒ๋ฆฐ์ง€ ๋“ฑ์—์„œ ์‚ฌ์šฉํ•œ ๊ฒฝํ—˜์ด ์žˆ์„ ๊ฒฝ์šฐ ๋”ฐ๋กœ ์ถ”๊ฐ€์ ์ธ ์ •๋ฆฌ๋ฅผ ํ•ด๋ณด๋ คํ•œ๋‹ค

 

 


 

1. ๋น„์ง€๋„ ํ•™์Šต์˜ ๊ฐœ์š”

 

1-1. ๋น„์ง€๋„ ํ•™์Šต ๊ฐœ๋…

๋น„์ง€๋„ ํ•™์Šต์ด ๋ฌด์—‡์ผ๊นŒ?

 

https://live.lge.co.kr/live_with_ai_01/

 

  • ์šฐ๋ฆฌ๊ฐ€ ์ง€๊ธˆ๊นŒ์ง€ ์‚ฌ์šฉํ•ด์˜จ ๋ฐ์ดํ„ฐ๋“ค์€ ์ „๋ถ€ ์ •๋‹ต์ด ์กด์žฌํ•œ ๋ฐ์ดํ„ฐ๋“ค์ด๋‹ค
  • ๋ฌธ์ œ์™€ ์ •๋‹ต์„ ๋ชจ๋‘ ์•Œ๋ ค์ฃผ๊ณ  ํ•™์Šต์„ ์‹œํ‚ค๋Š” '์ง€๋„ํ•™์Šต'์„ ํ•ด์˜จ ๊ฒƒ์ด๋‹ค
  • ํ•˜์ง€๋งŒ ๋น„์ง€๋„ ํ•™์Šต์€ ์ •๋‹ต์ด ์—†๋Š” ์ƒํƒœ์—์„œ ์–ด๋– ํ•œ ๋‹ต์„ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค

 

 

 

https://captivenomad.com/supervised-and-unsupervised-learning/

 

  • ๊ทธ๋ฆผ์˜ ์˜ˆ์‹œ๋ฅผ ๋ณด๋ฉด ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ์ฑ„์†Œ๊ฐ€ ๊ฐ๊ฐ์˜ ์ข…๋ฅ˜๋กœ ๋ผ๋ฒจ๋ง๋˜์–ด ์žˆ์ง€ ์•Š๊ณ  ์„ž์—ฌ์žˆ๋Š” ์›๋ณธ์˜ ๋ฐ์ดํ„ฐ์ด๋‹ค
  • ๋น„์ง€๋„ ํ•™์Šต์€ ์ด๋Ÿฌํ•œ ์ •๋‹ต์ด ์—†๋Š” ๋ฐ์ดํ„ฐ์—์„œ ๋น„์Šทํ•œ ๋ฐ์ดํ„ฐ๋ผ๋ฆฌ ๋ฌถ๊ฑฐ๋‚˜ ๋ฐ์ดํ„ฐ๋ฅผ ์š”์•ฝํ•˜์—ฌ ํŒจํ„ด์„ ์ฐพ๋Š”๋‹ค

 

 


 

 

1-2. ๋น„์ง€๋„ ํ•™์Šต์˜ ํ•„์š”์„ฑ

 

 

์™œ ๋น„์ง€๋„ ํ•™์Šต์ด ํ•„์š”ํ• ๊นŒ?? ์‹ค์ œ ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ป๊ฒŒ ๊ตฌ์„ฑ๋˜๋Š”์ง€๋ฅผ ๋จผ์ € ์•Œ ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

 

์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ

    • ๋ผ๋ฒจ์ด ์—†๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๋Œ€๋ถ€๋ถ„:
      ์‹ค๋ฌด์—์„œ ์ˆ˜์ง‘๋œ raw ๋ฐ์ดํ„ฐ๋Š” ๋ผ๋ฒจ์ด ์กด์žฌํ•˜์ง€ ์•Š๋Š”๋‹ค
      ํ•™์Šต์„ ์œ„ํ•œ ๋ผ๋ฒจ๋ง ์ž‘์—…์„ ํ•„์š”๋กœ ํ•œ๋‹ค

      ๋ ˆ์ด๋ธ”์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์ด ๋“ค์–ด๊ฐ€๋ฉฐ, ์ˆ˜๋™์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ผ๋ฒจ๋งํ•˜๋Š” ์ž‘์—…์€ ์ƒ๋‹นํžˆ ๋ฒˆ๊ฑฐ๋กญ๋‹ค
      ๊ฐ„๋‹จํ•œ ์˜ˆ์‹œ๋ฅผ ์‚ดํŽด๋ณด๋ฉด
      • ๊ณ ๊ฐ ๋ฐ์ดํ„ฐ: ์–ด๋–ค ์ œํ’ˆ์„ ๊ตฌ๋งคํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๊ณ ๊ฐ์„ ๋ฏธ๋ฆฌ ๊ตฌ๋ถ„ํ•˜๋Š” ์ •๋ณด๋Š” ์ž์ฃผ ์žˆ์ง€๋งŒ, ์ด๋“ค ๊ณ ๊ฐ์„ ์ผ์ผ์ด ๋ผ๋ฒจ๋งํ•˜๊ธฐ๋Š” ์–ด๋ ต๋‹ค
      • ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ: ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ฐ ์žˆ์–ด, ๊ฐ ์ด๋ฏธ์ง€์— ๋ผ๋ฒจ์„ ๋ถ™์ด๋Š” ์ž‘์—…์€ ํฐ ์‹œ๊ฐ„์  ๋น„์šฉ์„ ์š”๊ตฌํ•œ๋‹ค

 

์ด์ฒ˜๋Ÿผ ๋ ˆ์ด๋ธ”์„ ์–ป๋Š” ๋ฐ ์–ด๋ ค์›€์ด ์žˆ๋Š” ์ƒํ™ฉ์—์„œ๋Š” ๋น„์ง€๋„ ํ•™์Šต์„ ํ•„์š”๋กœ ํ•œ๋‹ค

๋น„์ง€๋„ ํ•™์Šต์€ ๋ผ๋ฒจ์ด ์—†๋Š” ๋ฐ์ดํ„ฐ์˜ ๋‚ด์žฌ๋œ ๊ตฌ์กฐ๋‚˜ ํŒจํ„ด์„ ๋ฐœ๊ฒฌํ•ด, ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค€๋‹ค

์ด๋Ÿฌํ•œ ์ ์„ ํ†ตํ•ด ๋น„์ง€๋„ ํ•™์Šต์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ฑฐ๋‚˜ ์‹œ๊ฐํ™”, ์ „์ฒ˜๋ฆฌํ•˜๋Š” ๊ณผ์ •์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค

 

 

 

๋น„์ง€๋„ ํ•™์Šต์˜ ํšจ๊ณผ

  • ๋ฐ์ดํ„ฐ ํƒ์ƒ‰ ๋ฐ ์ „์ฒ˜๋ฆฌ ๋‹จ๊ณ„ : ๋ฐ์ดํ„ฐ๋ฅผ ์š”์•ฝํ•˜๊ฑฐ๋‚˜ ๊ตฌ์กฐ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ
    • ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ ์ดํ•ด
      • ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์‚ฌ์ „ ์ง€์‹์ด ์—†๋Š” ์ƒํƒœ์—์„œ, ๋น„์ง€๋„ ํ•™์Šต์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค
        ๋น„์ง€๋„ ํ•™์Šต ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฉด ๋ฐ์ดํ„ฐ๊ฐ€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์–ด๋–ป๊ฒŒ ๋ถ„ํฌ๋˜๋Š”์ง€, ์ฃผ์š” ํŒจํ„ด์ด๋‚˜ ๊ตฐ์ง‘์€ ๋ฌด์—‡์ธ์ง€ ์•Œ ์ˆ˜ ์žˆ๋Š”๋ฐ,  ์ด๋Ÿฐ ๋ฐ์ดํ„ฐ์˜ ๋‚ด์žฌ๋œ ๊ตฌ์กฐ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์€ ํ›„์† ์ž‘์—…(์ง€๋„ ํ•™์Šต ๋˜๋Š” ๋ถ„์„ ์ž‘์—…)์„ ๋” ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค
    • ์ฐจ์› ์ถ•์†Œ๋ฅผ ํ†ตํ•œ ์‹œ๊ฐํ™”
      • ๋งŽ์€ ๋ฐ์ดํ„ฐ๋Š” ๊ณ ์ฐจ์›์ ์ธ ํŠน์ง•์„ ๊ฐ€์ง„๋‹ค. ๋น„์ง€๋„ ํ•™์Šต์˜ ์ฐจ์› ์ถ•์†Œ ๊ธฐ๋ฒ•(PCA, t-SNE ๋“ฑ)์„ ์‚ฌ์šฉํ•˜๋ฉด, ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ดํ•ดํ•˜๊ธฐ ์‰ฌ์šด ์ €์ฐจ์› ๊ณต๊ฐ„์œผ๋กœ ๋ณ€ํ™˜ํ•ด ์‹œ๊ฐํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค
        ์˜ˆ๋ฅผ ๋“ค์–ด, 100์ฐจ์› ๋ฐ์ดํ„ฐ๋ผ ํ•˜๋”๋ผ๋„ 2์ฐจ์› ๋˜๋Š” 3์ฐจ์›์œผ๋กœ ์ถ•์†Œํ•˜์—ฌ ํด๋Ÿฌ์Šคํ„ฐ๋ง๋œ ๊ฒฐ๊ณผ๋ฅผ ์‹œ๊ฐํ™”ํ•˜๋ฉด ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด๊ณผ ๊ด€๊ณ„๋ฅผ ์‰ฝ๊ฒŒ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค
  • ๋ชจ๋ธ์˜ ์ดˆ๊ธฐ ํ•™์Šต ๋‹จ๊ณ„
    • ์ดˆ๊ธฐ ๋ ˆ์ด๋ธ” ์—†๋Š” ํ•™์Šต
      • ๋น„์ง€๋„ ํ•™์Šต์€ ์ค€์ง€๋„ ํ•™์Šต์ด๋‚˜ ์ง€๋„ ํ•™์Šต์„ ์œ„ํ•œ ์ „์ฒ˜๋ฆฌ๋กœ๋„ ์‚ฌ์šฉ๋œ๋‹ค
        ์˜ˆ๋ฅผ ๋“ค์–ด, ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ํ†ตํ•ด ์–ป์€ ์ •๋ณด๋Š” ์ดˆ๊ธฐ ๋ ˆ์ด๋ธ”๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•˜๊ณ , ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค
    • ํŠน์„ฑ ์ถ”์ถœ ๋ฐ ์„ ํƒ
      • ๋น„์ง€๋„ ํ•™์Šต์€ ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”ํ•œ ํŠน์„ฑ์„ ์ž๋™์œผ๋กœ ์ถ”์ถœํ•˜๋Š” ๋ฐ๋„ ์‚ฌ์šฉ๋œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์— ์ž…๋ ฅํ•  ๋ฐ์ดํ„ฐ๋ฅผ ๋”์šฑ ํšจ์œจ์ ์œผ๋กœ ์„ ํƒํ•  ์ˆ˜ ์žˆ๋‹ค

 

 

 

 

 


 

2. ํด๋Ÿฌ์Šคํ„ฐ๋ง

 

 

 

 

๋น„์ง€๋„ ํ•™์Šต์—๋Š” ์—ฌ๋Ÿฌ ๊ธฐ๋ฒ•์ด ์กด์žฌํ•œ๋‹ค. ํ•ด๋‹น ๊ธ€์—์„œ๋Š” ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ์ฃผ๋กœ ์‚ดํŽด๋ณผ ๊ฒƒ์ด๋‹ค

 

  • ํด๋Ÿฌ์Šคํ„ฐ๋ง์ด๋ž€??
    • ํด๋Ÿฌ์Šคํ„ฐ๋ง์ด๋ž€ ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋˜์–ด ์žˆ์ง€ ์•Š์€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋ฃนํ•‘ํ•˜๋Š” ๋ถ„์„ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ, ๋น„์ง€๋„ํ•™์Šต ํ•˜๋ฉด ๋Œ€ํ‘œ์ ์œผ๋กœ ๋– ์˜ค๋ฅด๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ด๋‹ค
    • ์—ฌ๊ธฐ์„œ ํด๋Ÿฌ์Šคํ„ฐ๋Š” ๋น„์Šทํ•œ ํŠน์„ฑ์„ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ๋“ค์˜ ์ง‘๋‹จ์ด๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค
  • ํด๋Ÿฌ์Šคํ„ฐ๋ง์˜ ๋Œ€๋ถ„๋ฅ˜
    • ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ธฐ๋ฒ•๋“ค์„ ํฌ๊ฒŒ ๋‚˜๋ˆ„๋ฉด ๋ถ„ํ•  ๊ธฐ๋ฐ˜, ๊ณ„์ธต์ , ๋ฐ€๋„ ๊ธฐ๋ฐ˜, ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํด๋Ÿฌ์Šคํ„ฐ๋ง์œผ๋กœ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋‹ค

 

 

์ด 4๊ฐ€์ง€ ํด๋Ÿฌ์Šคํ„ฐ๋ง ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ ํ•˜๋‚˜์”ฉ ์‚ดํŽด๋ณด๋„๋ก ํ•˜๊ฒ ๋‹ค

 

 


 

 

2-1. ๋ถ„ํ•  ๊ธฐ๋ฐ˜ ํด๋Ÿฌ์Šคํ„ฐ๋ง

๋ฐ์ดํ„ฐ๋ฅผ ๋ฏธ๋ฆฌ ์ •ํ•ด์ง„ ์ˆ˜์˜ ํด๋Ÿฌ์Šคํ„ฐ๋กœ ๋‚˜๋ˆ„๋Š” ๋ฐฉ์‹์ด๋‹ค

๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋Š” ํ•˜๋‚˜์˜ ํด๋Ÿฌ์Šคํ„ฐ์—๋งŒ ์†ํ•˜๊ฒŒ ๋œ๋‹ค

 

K - ํ‰๊ท  ์•Œ๊ณ ๋ฆฌ์ฆ˜ (K-Means)

 

 

 

  • ๊ตฐ์ง‘ํ™”์—์„œ ๊ฐ€์žฅ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜. K-ํ‰๊ท ์€ ๊ตฐ์ง‘ ์ค‘์‹ฌ์ (centroid) ๋ผ๋Š” ํŠน์ •ํ•œ ์ž„์˜์˜ ์ง€์ ์„ ์„ ํƒํ•ด ํ•ด๋‹น ์ค‘์‹ฌ์— ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ํฌ์ธํŠธ๋“ค์„ ์„ ํƒํ•˜๋Š” ๊ตฐ์ง‘ํ™” ๊ธฐ๋ฒ•์ด๋‹ค
  • ์„ผํŠธ๋กœ์ด๋“œ๋Š” ์„ ํƒ๋œ ํฌ์ธํŠธ์˜ ํ‰๊ท  ์ง€์ ์œผ๋กœ ์ด๋™ํ•˜๊ณ  ์ด๋™๋œ ์ค‘์‹ฌ์ ์—์„œ ๋‹ค์‹œ ๊ฐ€๊นŒ์šด ํฌ์ธํŠธ๋ฅผ ์„ ํƒ, ๋‹ค์‹œ ์ค‘์‹ฌ์ ์„ ํ‰๊ท  ์ง€์ ์œผ๋กœ ์ด๋™ํ•˜๋Š” ํ”„๋กœ์„ธ์Šค๋ฅผ ๋ฐ˜๋ณตํ•œ๋‹ค
  • ๋ชจ๋“  ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์—์„œ ๋” ์ด์ƒ ์ค‘์‹ฌ์ ์˜ ์ด๋™์ด ์—†์„ ๊ฒฝ์šฐ ๋ฐ˜๋ณต์„ ๋ฉˆ์ถ”๊ณ  ํ•ด๋‹น ์ค‘์‹ฌ์ ์— ์†ํ•˜๋Š” ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค์„ ๊ตฐ์ง‘ํ™”ํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค

 

ํŒŒ์ด์ฌ ๋จธ์‹ ๋Ÿฌ๋‹ ์™„๋ฒฝ ๊ฐ€์ด๋“œ

 

STEP 1 : ๊ตฐ์ง‘์˜ ๊ฐฏ์ˆ˜๋งŒํผ ์ž„์˜์˜ ์œ„์น˜์— ์ค‘์‹ฌ์ ์„ ์ •ํ•œ๋‹ค.

STEP 2 : ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์ค‘์‹ฌ์ ์— ํ•ด๋‹นํ•˜๋Š” ๊ตฐ์ง‘์— ์†Œ์†์‹œํ‚จ๋‹ค.

STEP 3 : ๊ฐ ๊ตฐ์ง‘์— ์†ํ•ด์žˆ๋Š” ๋ฐ์ดํ„ฐ๋“ค์˜ ํ‰๊ท  ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ–๋Š” ์ค‘์‹ฌ์œ„์น˜๋กœ ๊ตฐ์ง‘์˜ ์ค‘์‹ฌ์ ์„ ์ด๋™์‹œํ‚จ๋‹ค.

 

STEP 2~3์˜ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๊ณ , ์ค‘์‹ฌ์ ์˜ ์œ„์น˜์— ๋ณ€ํ™”๊ฐ€ ์—†์„ ๊ฒฝ์šฐ ๊ตฐ์ง‘ํ™” ๊ณผ์ •์„ ๋ฉˆ์ถ˜๋‹ค. ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ž์ฒด๋Š” ๋‹จ์ˆœํ•˜์ง€๋งŒ, ํ”ผ์ฒ˜ ์ˆ˜๊ฐ€ ๋งŽ์•„์ง€๋ฉด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋А๋ ค์ง€๋Š” ํ˜„์ƒ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, PCA์™€ ๊ฐ™์€ ์ฐจ์› ์ถ•์†Œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด ํ”ผ์ฒ˜ ์ˆ˜๋ฅผ ์ค„์—ฌ์ฃผ์–ด์•ผ ํ•œ๋‹ค.

 

  • K-ํ‰๊ท  ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์„œ ์ค‘์‹ฌ์ ์€ ์ž„์˜์˜ ๊ณณ์— ์œ„์น˜์‹œํ‚ค๊ณ  ์ฃผ๋ณ€์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€๊นŒ์šด ์ค‘์‹ฌ์ ์— ํ•ด๋‹นํ•˜๋Š” ๊ตฐ์ง‘์œผ๋กœ ์†Œ์†์‹œํ‚ค๋Š” ๊ธฐ์ค€์€ ๋ฐ”๋กœ ๊ฑฐ๋ฆฌ์ด๋‹ค
  • K-ํ‰๊ท  ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋“  ์ค‘์‹ฌ์ ๊ณผ ๋น„๊ตํ•œ ๋’ค ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์ค‘์‹ฌ์ ์— ์†Œ์†์‹œํ‚ค๋ฉฐ, ์ผ๋ฐ˜์ ์œผ๋กœ๋Š” ์œ ํด๋ฆฌ๋””์•ˆ ๊ฑฐ๋ฆฌ(์ง์„  ๊ฑฐ๋ฆฌ)๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ ๊ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์ค‘์‹ฌ์ ์„ ์ฐพ์•„ ์†Œ์† ๊ตฐ์ง‘์„ ์ •ํ•˜๊ณ , ์ดํ›„ ์ค‘์‹ฌ์ ์„ ๊ตฐ์ง‘ ๋‚ด ๋ฐ์ดํ„ฐ๋“ค์˜ ํ‰๊ท  ์œ„์น˜๋กœ ์ด๋™์‹œํ‚ค๋Š” ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜์—ฌ ๊ตฐ์ง‘์„ ํ˜•์„ฑํ•œ๋‹ค
  • ์ด๋Ÿฌํ•œ ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ˜ ํ• ๋‹น์„ ํ†ตํ•ด K-ํ‰๊ท ์€ ์ค‘์‹ฌ์ ์ด ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์˜ ์ค‘์‹ฌ์— ์œ„์น˜ํ•˜๋„๋ก ์กฐ์ •ํ•˜๊ฒŒ ๋œ๋‹ค

ํ•ต์‹ฌ ๊ธฐ์ค€์€ ๋ฐ”๋กœ '๊ฑฐ๋ฆฌ' ์ด๋‹ค

๊ทธ๋Ÿผ K-ํ‰๊ท  ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ด์šฉํ•ด ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ์ด ์–ผ๋งˆ๋‚˜ ์ข‹์€์ง€๋Š” ์–ด๋–ป๊ฒŒ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์„๊นŒ? ๋น„์ง€๋„ ํ•™์Šต์ด๊ธฐ์— ์ •๋‹ต๊ฐ’์ด ์—†์œผ๋ฏ€๋กœ ๋งž์ท„๋Š”์ง€ ํ‹€๋ ธ๋Š”์ง€๋ฅผ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ํŒŒ์•…ํ•  ์ˆ˜ ์—†๋‹ค

โžก๏ธ ์ด๋Ÿฌํ•œ ํด๋Ÿฌ์Šคํ„ฐ๋ง ํ‰๊ฐ€์—๋„ ๊ฑฐ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค

 

 

์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜ (Silhouette Coefficient)

  • ๊ตฐ์ง‘ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์œผ๋กœ ์‹ค๋ฃจ์—ฃ ๋ถ„์„์ด ์žˆ๋‹ค. ์‹ค๋ฃจ์—ฃ ๋ถ„์„์€ ๊ฐ ๊ตฐ์ง‘ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ํšจ์œจ์ ์œผ๋กœ ๋ถ„๋ฆฌ๋˜์–ด ์žˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค
  • ํšจ์œจ์ ์œผ๋กœ ์ž˜ ๋ถ„๋ฆฌ๋๋‹ค๋Š” ๊ฒƒ์€ ๋‹ค๋ฅธ ๊ตฐ์ง‘๊ณผ์˜ ๊ฑฐ๋ฆฌ๋Š” ๋–จ์–ด์ ธ์žˆ๊ณ  ๋™์ผ ๊ตฐ์ง‘๋ผ๋ฆฌ์˜ ๋ฐ์ดํ„ฐ๋Š” ์„œ๋กœ ๊ฐ€๊น๊ฒŒ ์ž˜ ๋ญ‰์ณ์žˆ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค
  • ๊ตฐ์ง‘ํ™”๊ฐ€ ์ž˜ ๋ ์ˆ˜๋ก ๊ฐœ๋ณ„ ๊ตฐ์ง‘์€ ๋น„์Šทํ•œ ์ •๋„์˜ ์—ฌ์œ ๊ณต๊ฐ„์„ ๊ฐ€์ง€๊ณ  ๋–จ์–ด์ ธ ์žˆ๊ฒŒ ๋œ๋‹ค
  • ์‹ค๋ฃจ์—ฃ ๋ถ„์„์€ ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ๋‹ค. ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜๋Š” ๊ฐœ๋ณ„ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ€์ง€๋Š” ๊ตฐ์ง‘ํ™” ์ง€ํ‘œ์ด๋‹ค.
  • ๊ฐœ๋ณ„ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ€์ง€๋Š” ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜๋Š” ํ•ด๋‹น ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ™์€ ๊ตฐ์ง‘ ๋‚ด์˜ ๋ฐ์ดํ„ฐ์™€ ์–ผ๋งˆ๋‚˜ ๊ฐ€๊น๊ฒŒ ๊ตฐ์ง‘ํ™”๋˜์–ด ์žˆ๊ณ , ๋‹ค๋ฅธ ๊ตฐ์ง‘์— ์žˆ๋Š” ๋ฐ์ดํ„ฐ์™€๋Š” ์–ผ๋งˆ๋‚˜ ๋ฉ€๋ฆฌ ๋ถ„๋ฆฌ๋˜์–ด ์žˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ์ด๋‹ค

์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜ ๊ณต์‹

 

 

  • ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜๋Š” -1 ~ 1 ์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ€์ง€๋ฉฐ, 1๋กœ ๊ฐ€๊นŒ์›Œ์งˆ์ˆ˜๋ก ๊ทผ์ฒ˜์˜ ๊ตฐ์ง‘๊ณผ ๋” ๋ฉ€๋ฆฌ ๋–จ์–ด์ ธ ์žˆ๋Š” ๊ฒƒ์ด๊ณ  0์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๊ทผ์ฒ˜์˜ ๊ตฐ์ง‘๊ณผ ๊ฐ€๊นŒ์›Œ์ง„๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์Œ์ˆ˜ ๊ฐ’์€ ์•„์˜ˆ ๋‹ค๋ฅธ ๊ตฐ์ง‘์— ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ํ• ๋‹น๋์Œ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค
  • ์ข‹์€ ๊ตฐ์ง‘ํ™”๊ฐ€ ๋˜๋ ค๋ฉด ๋‹ค์Œ ๊ธฐ์ค€ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•ด์•ผ ํ•œ๋‹ค
    1. ์ „์ฒด ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜์˜ ํ‰๊ท ๊ฐ’, ์‹ค๋ฃจ์—ฃ ์Šค์ฝ”์–ด๊ฐ’์ด 0 ~ 1 ์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ€์ง€๋ฉฐ, 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์ข‹๋‹ค
    2. ํ•˜์ง€๋งŒ ์ „์ฒด ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜์˜ ํ‰๊ท ๊ฐ’๊ณผ ๋”๋ถˆ์–ด ๊ฐœ๋ณ„ ๊ตฐ์ง‘์˜ ํ‰๊ท ๊ฐ’์˜ ํŽธ์ฐจ๊ฐ€ ํฌ์ง€ ์•Š์•„์•ผํ•œ๋‹ค. ๊ฐœ๋ณ„ ๊ตฐ์ง‘์˜ ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜ ํ‰๊ท ๊ฐ’์ด ์ „์ฒด ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜์˜ ํ‰๊ท ๊ฐ’์—์„œ ํฌ๊ฒŒ ๋ฒ—์–ด๋‚˜์ง€ ์•Š๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค
    3. ๋งŒ์•ฝ ์ „์ฒด ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜์˜ ํ‰๊ท ๊ฐ’์€ ๋†’์ง€๋งŒ, ํŠน์ • ๊ตฐ์ง‘์˜ ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜ ํ‰๊ท ๊ฐ’๋งŒ ์œ ๋‚œํžˆ ๋†’๊ณ  ๋‹ค๋ฅธ ๊ตฐ์ง‘๋“ค์˜ ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜ ํ‰๊ท ๊ฐ’์ด ๋‚ฎ์œผ๋ฉด ์ข‹์€ ๊ตฐ์ง‘ํ™” ์กฐ๊ฑด์ด ์•„๋‹ˆ๋‹ค

 

๋ถ“๊ฝƒ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์‹ค๋ฃจ์—ฃ ๋‹ค์ด์–ด๊ทธ๋žจ

 

  • ์ด ๊ทธ๋ž˜ํ”„๋“ค์€ ๋ถ“๊ฝƒ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๊ทธ๋ฆฐ ๊ฒƒ์œผ๋กœ, ๋ชจ๋“  ์ƒ˜ํ”Œ์˜ ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜๋ฅผ ํ• ๋‹น๋œ ํด๋Ÿฌ์Šคํ„ฐ์™€ ๊ณ„์ˆ˜ ๊ฐ’์œผ๋กœ ์ •๋ ฌํ•˜์—ฌ ๊ทธ๋ฆฌ๋ฉด ๋” ๋งŽ์€ ์ •๋ณด๊ฐ€ ์žˆ๋Š” ๊ทธ๋ž˜ํ”„๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ์‹ค๋ฃจ์—ฃ ๋‹ค์ด์–ด๊ทธ๋žจ์ด๋ผ ํ•œ๋‹ค.
  • ์ด ๊ทธ๋ž˜ํ”„์˜ ๋†’์ด๋Š” ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ํฌํ•จํ•˜๊ณ  ์žˆ๋Š” ์ƒ˜ํ”Œ์˜ ๊ฐœ์ˆ˜๋ฅผ ์˜๋ฏธํ•˜๊ณ , ๋„ˆ๋น„๋Š” ํด๋Ÿฌ์Šคํ„ฐ์— ํฌํ•จ๋œ ์ƒ˜ํ”Œ์˜ ์ •๋ ฌ๋œ ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ ๋„“์„์ˆ˜๋ก ์ข‹๋‹ค
  • ๋ถ‰์€์ƒ‰์˜ ์ˆ˜์ง ์ ์„ ์€ ๊ฐ ํด๋Ÿฌ์Šคํ„ฐ ๊ฐœ์ˆ˜์— ํ•ด๋‹นํ•˜๋Š” ํ‰๊ท  ์‹ค๋ฃจ์—ฃ ์ ์ˆ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์ด ์ ์„ ๋ณด๋‹ค ๊ทธ๋ž˜ํ”„๊ฐ€ ์™ผ์ชฝ์— ์œ„์น˜ํ•  ๊ฒฝ์šฐ, ํ•ด๋‹น ํด๋Ÿฌ์Šคํ„ฐ์˜ ๋ฐ์ดํ„ฐ๋“ค์ด ๋‹ค๋ฅธ ํด๋Ÿฌ์Šคํ„ฐ๋ž‘ ๊ฐ€๊นŒ์›Œ์„œ ์ œ๋Œ€๋กœ ๊ตฌ๋ถ„๋˜์ง€ ์•Š์€ ๊ฒƒ์„ ์˜๋ฏธํ•˜๋ฏ€๋กœ ์•ˆ์ข‹์€ ํด๋Ÿฌ์Šคํ„ฐ๋ผ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค
  • ๋Œ€๋ถ€๋ถ„์˜ ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ํ‰๊ท ์„ ๋„˜์–ด์žˆ๋Š” 5๊ฐœ๊ฐ€ ํ•ด๋‹น ๋ฐ์ดํ„ฐ์—๋Š” ์ ์ ˆํ•œ ๊ฐœ์ˆ˜๋ผ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค

 

 

 


 

 

 

2-2. ๊ณ„์ธต์  ํด๋Ÿฌ์Šคํ„ฐ๋ง

  • ๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”(Hierarchical Clustering)๋Š” ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค์„ ๊ฑฐ๋ฆฌ๋‚˜ ์œ ์‚ฌ๋„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณ„์ธต์ ์œผ๋กœ ๋ฌถ์–ด๋‚˜๊ฐ€๋Š” ๊ตฐ์ง‘ํ™”์˜ ๋ฐฉ๋ฒ•์œผ๋กœ, ํด๋Ÿฌ์Šคํ„ฐ์˜ ์ˆ˜๋ฅผ ์‚ฌ์ „์— ์ •ํ•˜์ง€ ์•Š์•„๋„ ๋œ๋‹ค๋Š” ํŠน์ง•์ด ์žˆ๋‹ค
  • ์œ„์˜ ์˜ˆ์‹œ์ฒ˜๋Ÿผ ์ฃผ๋กœ ๋ด๋“œ๋กœ๊ทธ๋žจ(๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํŠธ๋ฆฌ ๊ตฌ์กฐ)์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค

 

 

์œ„์˜ ๊ทธ๋ž˜ํ”„๋“ค์€ ์™ผ์ชฝ์˜ ๋ฐ์ดํ„ฐ๋“ค์„ ๊ณ„์ธต์ ์œผ๋กœ ๊ตฐ์ง‘ํ™”ํ•œ ๊ฐ„๋‹จํ•œ ์˜ˆ์‹œ์ด๋‹ค

  1. ์™ผ์ชฝ ๊ทธ๋ž˜ํ”„: ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค์ด 2์ฐจ์› ๊ณต๊ฐ„์— ๋ถ„ํฌ๋˜์–ด ์žˆ๋‹ค. ์ดˆ๊ธฐ์—๋Š” ๊ตฐ์ง‘ ์ •๋ณด ์—†์ด ์ด ๋ฐ์ดํ„ฐ๋“ค์ด ํฉ์–ด์ ธ ์žˆ๋Š” ๋ชจ์Šต
  2. ์˜ค๋ฅธ์ชฝ ๋ด๋“œ๋กœ๊ทธ๋žจ: ๊ณ„์ธต์  ํด๋Ÿฌ์Šคํ„ฐ๋ง์˜ ๊ฒฐ๊ณผ๋กœ ์ƒ์„ฑ๋œ ๋ด๋“œ๋กœ๊ทธ๋žจ. ๋ด๋“œ๋กœ๊ทธ๋žจ์˜ ๊ฐ ๊ฐ€์ง€๋Š” ๊ตฐ์ง‘์ด ๊ฒฐํ•ฉ๋˜๋Š” ๊ณผ์ •์„ ์‹œ๊ฐํ™”ํ•˜๋ฉฐ, ์•„๋ž˜์—์„œ ์œ„๋กœ ๊ฐˆ์ˆ˜๋ก ๊ตฐ์ง‘์ด ๋ณ‘ํ•ฉ๋˜์–ด ํฐ ๊ทธ๋ฃน์„ ํ˜•์„ฑํ•œ๋‹ค

1. ์™ผ์ชฝ ๊ทธ๋ž˜ํ”„ - ์ดˆ๊ธฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ

  • ์ดˆ๊ธฐ ์ƒํƒœ์—์„œ, ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ 2์ฐจ์› ๊ณต๊ฐ„์— ํฉ์–ด์ ธ ์žˆ๋‹ค. ์ด ์ƒํƒœ์—์„œ ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋Š” ๊ฐœ๋ณ„์ ์ธ ๊ตฐ์ง‘์œผ๋กœ ๊ฐ„์ฃผ๋œ๋‹ค
  • ๊ณ„์ธต์  ํด๋Ÿฌ์Šคํ„ฐ๋ง์—์„œ๋Š” ์ด ์ดˆ๊ธฐ ๊ฐœ๋ณ„ ํฌ์ธํŠธ๋ฅผ ํ•˜๋‚˜์˜ ๊ตฐ์ง‘์œผ๋กœ ๋ณด๊ณ , ์œ ์‚ฌํ•œ ๊ตฐ์ง‘๋ผ๋ฆฌ ์ ์ฐจ ๋ณ‘ํ•ฉํ•ด ๋‚˜๊ฐ„๋‹ค

2. ์˜ค๋ฅธ์ชฝ ๋ด๋“œ๋กœ๊ทธ๋žจ - ๊ณ„์ธต์  ๋ณ‘ํ•ฉ ๊ณผ์ • ์‹œ๊ฐํ™”

  • ๋ด๋“œ๋กœ๊ทธ๋žจ์˜ ๊ฐœ๋…: ๋ด๋“œ๋กœ๊ทธ๋žจ์€ ๊ณ„์ธต์  ํด๋Ÿฌ์Šคํ„ฐ๋ง์˜ ๋ณ‘ํ•ฉ ๊ณผ์ •์„ ํŠธ๋ฆฌ ๊ตฌ์กฐ๋กœ ์‹œ๊ฐํ™”ํ•œ ๊ฒƒ์ด๋‹ค. ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ์žŽ์‚ฌ๊ท€๋กœ ๋ณด๊ณ , ์ด ์žŽ์‚ฌ๊ท€๋“ค์ด ๊ฐ€์ง€๋กœ ์—ฐ๊ฒฐ๋˜๋ฉฐ ๊ตฐ์ง‘์„ ํ˜•์„ฑํ•˜๋Š” ๊ณผ์ •์„ ๋ณด์—ฌ์ค€๋‹ค
  • ์•„๋ž˜์—์„œ ์œ„๋กœ ๋ณ‘ํ•ฉ: ๋ด๋“œ๋กœ๊ทธ๋žจ์˜ ๊ฐ€์žฅ ํ•˜๋‹จ์—์„œ ์‹œ์ž‘ํ•ด ์ ์ฐจ ์œ„์ชฝ์œผ๋กœ ๋ณ‘ํ•ฉ์ด ์ด๋ฃจ์–ด์ง„๋‹ค. ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ํฌ์ธํŠธ๋‚˜ ๊ตฐ์ง‘๋ถ€ํ„ฐ ๋ณ‘ํ•ฉํ•˜๋ฉฐ, ์ ์ฐจ ํฐ ๊ตฐ์ง‘์„ ํ˜•์„ฑํ•œ๋‹ค. ๋ด๋“œ๋กœ๊ทธ๋žจ์˜ ๊ฐ€์ง€๊ฐ€ ๊ฐˆ์ˆ˜๋ก ๋‘๊บผ์›Œ์ง€๊ณ  ๊ธธ์–ด์ง€๋ฉฐ, ์ตœ์ƒ๋‹จ์— ๋„๋‹ฌํ•˜๋ฉด ๋ชจ๋“  ๋ฐ์ดํ„ฐ๊ฐ€ ํ•˜๋‚˜์˜ ํฐ ๊ตฐ์ง‘์œผ๋กœ ํ•ฉ์ณ์ง„๋‹ค

3. ๋ด๋“œ๋กœ๊ทธ๋žจ ํ•ด์„ - ๊ตฐ์ง‘ ์„ ํƒ

  • ๋ด๋“œ๋กœ๊ทธ๋žจ์„ ํ•ด์„ํ•  ๋•Œ ํŠน์ • ๋†’์ด์—์„œ ๊ฐ€์ง€๋ฅผ ์ž˜๋ผ์„œ ํ•ด๋‹น ๋‹จ๊ณ„์˜ ๊ตฐ์ง‘ ์ˆ˜๋ฅผ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํŠธ๋ฆฌ์˜ ํŠน์ • ๋†’์ด์—์„œ ๊ฐ€์ง€๋ฅผ ์ž๋ฅด๋ฉด ๋‘ ๊ฐœ, ์„ธ ๊ฐœ ๋“ฑ ๋‹ค์–‘ํ•œ ๊ฐœ์ˆ˜์˜ ๊ตฐ์ง‘์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค
  • ๊ตฐ์ง‘ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ: ๊ฐ€์ง€์˜ ๊ธธ์ด๋Š” ๊ตฐ์ง‘๋“ค ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ๊ธธ์ด๊ฐ€ ์งง์€ ๊ฒฝ์šฐ, ๋‘ ๊ตฐ์ง‘์ด ๊ฐ€๊นŒ์šด ๊ฑฐ๋ฆฌ์—์„œ ๋ณ‘ํ•ฉ๋œ ๊ฒƒ

 

 


 

 

2-3. ๋ฐ€๋„ ๊ธฐ๋ฐ˜ ํด๋Ÿฌ์Šคํ„ฐ๋ง

  • ๋ฐ์ดํ„ฐ์˜ ๋ฐ€๋„๊ฐ€ ๋†’์€ ์˜์—ญ์„ ํด๋Ÿฌ์Šคํ„ฐ๋กœ ์ธ์‹ํ•˜๊ณ , ๋ฐ€๋„๊ฐ€ ๋‚ฎ์€ ์˜์—ญ์— ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋Š” ํด๋Ÿฌ์Šคํ„ฐ๋กœ ๊ฐ„์ฃผํ•˜์ง€ ์•Š๋Š” ๋ฐฉ์‹
  • ๋ฐ€์ง‘๋œ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์˜ ๊ทธ๋ฃน์„ ํด๋Ÿฌ์Šคํ„ฐ๋กœ ๊ฐ„์ฃผํ•˜๋ฉฐ, ํด๋Ÿฌ์Šคํ„ฐ์˜ ์ˆ˜๋ฅผ ์‚ฌ์ „์— ์„ค์ •ํ•  ํ•„์š”๊ฐ€ ์—†๋‹ค
  • ๋Œ€ํ‘œ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ DBSCAN์ด ์žˆ๋‹ค

 

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

 

  • DBSCAN์€ ์„œ๋กœ ์ธ์ ‘ํ•œ ๋ฐ์ดํ„ฐ๋“ค์€ ๊ฐ™์€ ๊ทธ๋ฃน์ด๋ผ๋Š” ๊ฐ€์ •ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ, ํŠน์ • ๋ฐ์ดํ„ฐ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ๋ฐ€๋„๊ฐ€ ๋†’์€ ๊ณณ์— ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ์—๋Š” ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ํ• ๋‹นํ•˜๊ณ  ๋ฐ€๋„๊ฐ€ ๋‚ฎ์œผ๋ฉด ๊ทธ ๋ฐ์ดํ„ฐ๋ฅผ ๋…ธ์ด์ฆˆ๋กœ ์ทจ๊ธ‰ํ•˜์—ฌ ๊ตฌ๋ถ„ํ•œ๋‹ค
  • ๊ฐ„๋‹จํ•˜๊ณ  ์ง๊ด€์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด์ง€๋งŒ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๊ฐ€ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ์—๋„ ํšจ๊ณผ์ ์ธ ๊ตฐ์ง‘ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค
  • ๋ฐ์ดํ„ฐ๋“ค์˜ ๋ฐ€๋„ ๊ณ„์‚ฐ์„ ํ†ตํ•ด ๋ฐ€์ ‘ํ•˜๊ฒŒ ๋ถ„ํฌ๋œ ๋ฐ์ดํ„ฐ๋“ค๋ผ๋ฆฌ ๊ทธ๋ฃนํ•‘ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. ๋”ฐ๋ผ์„œ K-ํ‰๊ท ์ฒ˜๋Ÿผ ํด๋Ÿฌ์Šคํ„ฐ์˜ ๊ฐœ์ˆ˜๋ฅผ ๋ฏธ๋ฆฌ ์ง€์ •ํ•  ํ•„์š”๊ฐ€ ์—†๋‹ค

 

 

 

DBSCAN์˜ ๋™์ž‘ ๊ณผ์ •์„ ์‚ดํŽด๋ณด๊ฒ ๋‹ค

๋”ฑ 2๊ฐ€์ง€ ๊ฐ’๋งŒ ์ดํ•ดํ•˜๋ฉด DBSCAN์˜ ๋™์ž‘ ๊ณผ์ •์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค

์ฃผ๋ณ€์— ์ตœ์†Œ ๋ช‡ ๊ฐœ ์ด์ƒ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ• ์ง€ ๊ฐœ์ˆ˜์™€ ์›์˜ ๋ฐ˜๊ฒฝ์„ ์ •ํ•˜๋ฉด ๋œ๋‹ค

  • ์›์˜ ๋ฐ˜๊ฒฝ์€ ์–ด๋А ์ •๋„๊นŒ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค. ๊ทธ๋ฆผ์˜ ์˜ˆ์‹œ์ฒ˜๋Ÿผ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•  ๋ฒ”์œ„๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค
  • ์˜ˆ์‹œ์—์„œ๋Š” ์ฃผ๋ณ€ ์ตœ์†Œ ๋ฐ์ดํ„ฐ๋ฅผ 5๊ฐœ ์ด์ƒ ์„ค์ •ํ•˜์˜€๋‹ค
  • ์ฒซ๋ฒˆ์งธ ํฌ์ธํŠธ์—์„œ ์ฃผ๋ณ€ ๋ฐ์ดํ„ฐ๋Š” 6๊ฐœ์ด๋‹ค. ์ด์ œ ๋‹ค์Œ ํฌ์ธํŠธ๋กœ ๋„˜์–ด๊ฐ€๋ฉด 5๊ฐœ, 5๊ฐœ, 7๊ฐœ, 6๊ฐœ, 5๊ฐœ์”ฉ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•  ๊ฒฝ์šฐ ๋ฐ€๋„๊ฐ€ ๋†’๋‹ค๊ณ  ํŒ๋‹จํ•˜์—ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๊ฐ™์€ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ๋Š”๋‹ค
  • ์ค‘๊ฐ„์— ์™ธ๊ณฝ์ชฝ ํฌ์ธํŠธ๋Š” 5๊ฐœ ์ด์ƒ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜์ง€ ๋ชปํ•˜๋ฏ€๋กœ ๊ทธ๋ฃน์ด ๋” ํ™•์žฅ๋˜์ง€ ๋ชปํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ๊ฒฝ๊ณ„๋ฅผ ๋ฒ—์–ด๋‚œ ๋ฐ์ดํ„ฐ๋ฅผ ๋…ธ์ด์ฆˆ ๋ฐ์ดํ„ฐ๋ผ ํ•œ๋‹ค

 

 

K-Means vs DBSCAN

 

์œ„์˜ ์ด๋ฏธ์ง€๋Š” ๊ณก์„ ๊ณผ ๊ฐ™์€ ๋น„์„ ํ˜• ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์—์„œ K-Means์™€ DBSCAN์œผ๋กœ ํด๋Ÿฌ์Šคํ„ฐ๋งํ–ˆ์„ ๋•Œ์˜ ๊ฒฐ๊ณผ์ด๋‹ค

DBSCAN์˜ ์žฅ๋‹จ์ ์œผ๋กœ๋Š”

  • ์žฅ์ 
    • ์‚ฌ์ „์— ํด๋Ÿฌ์Šคํ„ฐ ๊ฐœ์ˆ˜๋ฅผ ์„ค์ •ํ•  ํ•„์š”๊ฐ€ ์—†๋‹ค
    • DBSCAN์„ ์ด์šฉํ•ด ์ด์ƒ์น˜๋ฅผ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ๋‹ค
    • ํด๋Ÿฌ์Šคํ„ฐ์˜ ๊ฒฐ๊ณผ๊ฐ€ ์ด์ƒ์น˜์— ์˜ํ–ฅ์„ ํฌ๊ฒŒ ๋ฐ›์ง€ ์•Š๋Š”๋‹ค
  • ๋‹จ์ 
    • ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋Š” ์ž˜ ์ž‘๋™ํ•˜์ง€ ์•Š๋Š”๋‹ค
    • ๋ฐ€์ง‘๋„๊ฐ€ ๋–จ์–ด์ง€๋Š” ํฌ์†Œํ•œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋Š” ๋‹ค์†Œ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๊ฒŒ ๋œ๋‹ค

 

 

 


 

 

2-4. ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํด๋Ÿฌ์Šคํ„ฐ๋ง

 

๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋‚˜ ์ด์ƒ์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋กœ ๋ชจ๋ธ๋งํ•˜์—ฌ ํด๋Ÿฌ์Šคํ„ฐ๋งํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค

๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ(์ •๊ทœ ๋ถ„ํฌ)๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐฉ์‹์ด ์ฃผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค

 

GMM (Gaussian Mixture Model)

๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ ํ™œ์šฉ : GMM์€ ๊ตฐ์ง‘ํ™”๋ฅผ ์ ์šฉํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ๋“ค์ด ์„ž์—ฌ์„œ ์ƒ์„ฑ๋œ ๊ฒƒ์ด๋ผ๋Š” ๊ฐ€์ •ํ•˜์— ๊ตฐ์ง‘ํ™”๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค

 

 

 

GMM(Gaussian Mixture Model)์„ ํ†ตํ•œ ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‹จ๊ณ„๋ณ„๋กœ ํ•œ๋ฒˆ ์‚ดํŽด๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค

  1. ์ดˆ๊ธฐํ™”: ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ •๊ทœ ๋ถ„ํฌ์˜ ๊ฐœ์ˆ˜(ํด๋Ÿฌ์Šคํ„ฐ ๊ฐœ์ˆ˜)๋ฅผ ์„ค์ •ํ•˜๊ณ  ๊ฐ ๋ถ„ํฌ์˜ ์ดˆ๊ธฐ ๋งค๊ฐœ๋ณ€์ˆ˜(ํ‰๊ท , ๋ถ„์‚ฐ, ํ˜ผํ•ฉ ๊ณ„์ˆ˜)๋ฅผ ๋žœ๋คํ•˜๊ฒŒ ์„ค์ •ํ•œ๋‹ค
  2. E-๋‹จ๊ณ„(Expectation): ํ˜„์žฌ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐ’์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ๋ชจ๋“  ํด๋Ÿฌ์Šคํ„ฐ์— ์†ํ•  ํ™•๋ฅ (๊ฐ€๋Šฅ๋„, likelihood)์„ ๊ณ„์‚ฐํ•˜์—ฌ, ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ ์„ ๊ฐ€์ง„ ์ •๊ทœ ๋ถ„ํฌ์— ํ• ๋‹นํ•œ๋‹ค
  3. M-๋‹จ๊ณ„(Maximization): E-๋‹จ๊ณ„์—์„œ ๊ตฌํ•œ ํ™•๋ฅ ์„ ๋ฐ”ํƒ•์œผ๋กœ ํด๋Ÿฌ์Šคํ„ฐ ์ค‘์‹ฌ๊ณผ ๋ถ„ํฌ ๋ชจ์–‘์„ ์กฐ์ •ํ•œ๋‹ค
    1. ์œ„ 1๋ฒˆ ๋‹จ๊ณ„์—์„œ ๊ฐœ๋ณ„ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ๋ชจ๋‘ ํ• ๋‹นํ•œ ํ›„, ๊ฐ ๊ทธ๋ฃน์˜ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ์ด์šฉํ•˜์—ฌ Maximum Likelihood Estimation(์ตœ๋Œ€ ์šฐ๋„ ์ถ”์ •)์œผ๋กœ ๋ชจ๋ถ„ํฌ์˜ ๋ชจํ‰๊ท ๊ณผ ๋ชจ๋ถ„์‚ฐ์„ ์ถ”์ •ํ•œ๋‹ค
    2. ๊ฐœ๋ณ„ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋กœ ๊ฐ ์ •๊ทœ ๋ถ„ํฌ์˜ ๋ชจ์ˆ˜๋ฅผ ์ถ”์ •ํ•œ๋‹ค. ์œ„ ๊ทธ๋ฆผ์—์„œ ์ •๊ทœ ๋ถ„ํฌ์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์ด ๋ณ€๊ฒฝ๋œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค ๊ฐœ๋ณ„ ๋ฐ์ดํ„ฐ๋“ค์˜ ์†Œ์†๊ณผ ์ •๊ทœ ๋ถ„ํฌ์˜ ๋ชจ์ˆ˜(ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ)๊ฐ€ ๋ณ€ํ•˜์ง€ ์•Š์„ ๋•Œ๊นŒ์ง€ 1,2 ๋‹จ๊ณ„๋ฅผ ๋ฐ˜๋ณต ์ˆ˜ํ–‰ํ•œ๋‹ค
    3. ๊ฐ ๋ฐ์ดํ„ฐ์˜ ํ™•๋ฅ ์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ฐ ํด๋Ÿฌ์Šคํ„ฐ์˜ ํ‰๊ท , ๋ถ„์‚ฐ, ํ˜ผํ•ฉ ๊ณ„์ˆ˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ํด๋Ÿฌ์Šคํ„ฐ๋ง ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค
  4. ๋ฐ˜๋ณต: E-๋‹จ๊ณ„์™€ M-๋‹จ๊ณ„๋ฅผ ๋ฐ˜๋ณตํ•˜์—ฌ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ตœ์ ํ™”ํ•œ๋‹ค. ์ˆ˜๋ ด ์กฐ๊ฑด์— ๋„๋‹ฌํ•˜๋ฉด(์ฑ…์ž„๋„์˜ ๋ณ€ํ™”๊ฐ€ ๋ฏธ๋ฏธํ•  ๋•Œ) ๋ฐ˜๋ณต์„ ์ข…๋ฃŒํ•œ๋‹ค
  5. ํด๋Ÿฌ์Šคํ„ฐ ํ• ๋‹น: ์ตœ์ข…์ ์œผ๋กœ ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ๊ฐ€์žฅ ๋†’์€ ์ฑ…์ž„๋„๋ฅผ ๊ฐ€์ง„ ํด๋Ÿฌ์Šคํ„ฐ์— ํ• ๋‹นํ•œ๋‹ค

 

 

 

์œ„์˜ ๊ณผ์ •์„ ์‚ดํŽด๋ณด๋ฉด ์—ฌ๋Ÿฌ ์ˆ˜ํ•™์ ์ธ ๊ฐœ๋…๋“ค์„ ์š”๊ตฌํ•˜๋Š”๋ฐ ํ•ด๋‹น ๋‚ด์šฉ์—์„œ๋Š” ์„ธ์„ธํ•œ ์ˆ˜ํ•™์  ํ•ด์„๊นŒ์ง€ ๋‹ค๋ฃจ์ง€๋Š” ์•Š๊ธฐ์—  GMM์ด๋ž€ ์–ด๋–ค ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์— ๋Œ€ํ•ด ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋กœ ๋ฐ์ดํ„ฐ๋“ค์ด ์œ„์น˜ํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ณ  ๊ฐ๊ฐ์— ๊ทธ๋ฃน์— ๋งž๋Š” ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์ด๋‹ค ์ •๋„๋กœ ์ดํ•ดํ•˜์—ฌ๋„ ์ถฉ๋ถ„ํ•˜๋‹ค

์ด ๊ณผ์ •์—์„œ EM ์•Œ๊ณ ๋ฆฌ์ฆ˜(Expectation-Maximization)์„ ํ†ตํ•ด ๊ฐ ํด๋Ÿฌ์Šคํ„ฐ์˜ ํ‰๊ท , ๋ถ„์‚ฐ, ํ˜ผํ•ฉ ๊ณ„์ˆ˜๋ฅผ ์ตœ์ ํ™”ํ•œ๋‹ค

 

GMM๋„ K-Means์ฒ˜๋Ÿผ ์ ์ ˆํ•œ ํด๋Ÿฌ์Šคํ„ฐ ๊ฐœ์ˆ˜๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ํ•„์š”ํ•˜๋‹ค

  • ๊ฐ€์šฐ์Šค ํ˜ผํ•ฉ์—์„œ๋Š” ์‹ค๋ฃจ์—ฃ ์Šค์ฝ”์–ด์™€ ๊ฐ™์€ ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๋Š”๋ฐ, ์ด๋Š” ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ํƒ€์›ํ˜•์ด๊ฑฐ๋‚˜ ํฌ๊ธฐ๊ฐ€ ๋‹ค๋ฅผ ๋•Œ ์•ˆ์ •์ ์ด์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค
  • ๋”ฐ๋ผ์„œ BIC(Bayesian information criterion), AIC(Akaike information criterion)์™€ ๊ฐ™์€ ์ด๋ก ์  ์ •๋ณด ๊ธฐ์ค€์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ชจ๋ธ์„ ์ฐพ๋Š”๋‹ค
  • BIC, AIC๋Š” ๋ชจ๋‘ ํ•™์Šตํ•  ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋งŽ์€ (ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ๋งŽ์€) ๋ชจ๋ธ์—๊ฒŒ ๋ฒŒ์น™์„ ๊ฐ€ํ•˜๊ณ  ๋ฐ์ดํ„ฐ์— ์ž˜ ๋งž๋Š” ๋ชจ๋ธ์—๊ฒŒ ๋ณด์ƒ์„ ๋”ํ•œ๋‹ค
  • ์ด ์ง€ํ‘œ๋“ค์ด ํด๋Ÿฌ์Šคํ„ฐ ๊ฐœ์ˆ˜์— ๋”ฐ๋ผ ๊ฐ’์ด ๋ณ€ํ•˜๋Š” ๊ทธ๋ž˜ํ”„๋ฅผ ๋ณด๋ฉด์„œ ์ตœ์†Œ๊ฐ€ ๋˜๋Š” ์ง€์ ์˜ ํด๋Ÿฌ์Šคํ„ฐ ๊ฐœ์ˆ˜๋ฅผ ์ ์ ˆํ•œ ๊ฐœ์ˆ˜๋กœ ์‚ฌ์šฉํ•œ๋‹ค

 

 

 

 


3. ์ด์ƒ ํƒ์ง€

๋น„์ง€๋„ ํ•™์Šต์— ์ด์ƒ์น˜ ๋ฐ ํŠน์ด์น˜ ํƒ์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋„ ํฌํ•จ๋œ๋‹ค

์ฃผ๋กœ ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ •์ƒ ๋ฐ์ดํ„ฐ์ด๊ณ  ๊ฒฐํ•จ ๋˜๋Š” ์ด์ƒ์น˜๊ฐ€ ๊ทนํžˆ ์ ์€ ๊ฒฝ์šฐ, ์ •์ƒ ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์—์„œ ๋ฒ—์–ด๋‚œ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์ƒ์น˜๋กœ ํƒ์ง€ํ•˜๋Š” ํ˜•ํƒœ์ด๋‹ค

 

์˜ˆ์‹œ๋กœ ๋‘ ๊ฐ€์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•ด ๊ฐ„๋‹จํžˆ ์‚ดํŽด๋ณด๊ฒ ๋‹ค

 

 

3-1. Isolation Forest

๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ์˜ ์ด์ƒ์น˜ ํƒ์ง€์— ํšจ์œจ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ, ์šฐ๋ฆฌ๊ฐ€ ์ด์ „์— ๋ฐฐ์› ๋˜ ๊ฒฐ์ • ํŠธ๋ฆฌ์™€ ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์˜ ํŠน์ง•์„ ํ™œ์šฉํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค

 

 

 

  • ์œ„์˜ ์˜ˆ์‹œ์ฒ˜๋Ÿผ, ๋…ธ์ด์ฆˆ๋Š” ๋ฐ€์ง‘๋œ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค๊ณผ ๋–จ์–ด์ ธ์žˆ์„ ๊ฒƒ์œผ๋กœ ๊ฐ€์ •ํ•˜์—ฌ ํŠธ๋ฆฌ์˜ ํŠน์„ฑ์„ ํ™œ์šฉํ•ด ๋…ธ์ด์ฆˆ๋ฅผ ํƒ์ƒ‰ํ•œ๋‹ค
  • ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์—์„œ ๊ฐ ๋…ธ๋“œ์— ํŠน์„ฑ์„ ๋žœ๋คํ•˜๊ฒŒ ์„ ํƒํ•œ ๋‹ค์Œ (์ตœ์†Ÿ๊ฐ’๊ณผ ์ตœ๋Œ“๊ฐ’ ์‚ฌ์ด์—์„œ) ๋žœ๋คํ•œ ์ž„๊ณ—๊ฐ’์„ ๊ณจ๋ผ ๋ฐ์ดํ„ฐ์…‹์„ ๋‘˜๋กœ ๋‚˜๋ˆˆ๋‹ค
  • ์ด๋Ÿฐ ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ์…‹์€ ์ ์ฐจ ๋ถ„๋ฆฌ๋˜์–ด ๋ชจ๋“  ์ƒ˜ํ”Œ์ด ๋‹ค๋ฅธ ์ƒ˜ํ”Œ๊ณผ ๊ฒฉ๋ฆฌ๋  ๋•Œ๊นŒ์ง€ ์ง„ํ–‰๋œ๋‹ค. ์ด์ƒ์น˜๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค๋ฅธ ์ƒ˜ํ”Œ๊ณผ ๋ฉ€๋ฆฌ ๋–จ์–ด์ ธ ์žˆ์œผ๋ฏ€๋กœ (๋ชจ๋“  ํŠธ๋ฆฌ์— ๊ฑธ์ณ ) ํ‰๊ท ์ ์œผ๋กœ ์ •์ƒ ์ƒ˜ํ”Œ๊ณผ ์ ์€ ๋‹จ๊ณ„์—์„œ ๊ฒฉ๋ฆฌ๋œ๋‹ค
  • ์ด๋ ‡๊ฒŒ Isolation Forest๋Š” ํŠธ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฒฉ๋ฆฌ๋˜๋Š” ํ‰๊ท  ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •ํ•˜์—ฌ ์ด์ƒ์น˜๋ฅผ ์ฐพ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ์‰ฝ๊ฒŒ ๊ฒฉ๋ฆฌ๋˜๋ฉด ์ด์ƒ์น˜์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค

 

 


 

 

3-2. One-Class SVM

 

๋‹ค์Œ์€ One-Class SVM ์ด๋‹ค

์ด์ „์— ๋ฐฐ์› ๋˜ SVM ๋ชจ๋ธ์˜ ํŠน์„ฑ์„ ์ด์šฉํ•˜์—ฌ ์ •์ƒ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋กœ๋ถ€ํ„ฐ ๋–จ์–ด์ ธ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ด์ƒ์น˜๋กœ ํƒ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค

 

ttps://losskatsu.github.io/machine-learning/oneclass-svm/#2-one-class-svm์˜-๋ชฉ์ 

 

์ปค๋„ SVM ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ ๋‘ ํด๋ž˜์Šค๋ฅผ ๋ถ„๋ฆฌํ•˜๋Š” ์›๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค

๋ชจ๋“  ์ƒ˜ํ”Œ์„ ๊ณ ์ฐจ์›์œผ๋กœ ๋งคํ•‘ํ•œ ๋‹ค์Œ ์ด ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ ์„ ํ˜• SVM ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ์‚ฌ์šฉํ•ด ๋‘ ํด๋ž˜์Šค๋ฅผ ๋ถ„๋ฆฌํ•œ๋‹ค

  • ๊ฒฝ๊ณ„๋ฅผ ์„ค์ •ํ•ด ๋ฐ์ดํ„ฐ๊ฐ€ ๋Œ€๋ถ€๋ถ„ ํฌํ•จ๋˜๋Š” ๊ณต๊ฐ„์„ ์ •์˜ํ•˜๊ณ , ๊ฒฝ๊ณ„ ๋ฐ–์— ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ด์ƒ์น˜๋กœ ๊ฐ„์ฃผํ•œ๋‹ค
  • ์ •์ƒ ๋ฐ์ดํ„ฐ๋“ค์€ ์–ด๋–ค ํŒจํ„ด์„ ๋„๊ฑฐ๋‚˜ ๋ฐ€์ง‘๋˜์–ด ์žˆ๊ณ  ์ด์ƒ์น˜๋Š” ๋–จ์–ด์ ธ ์žˆ์„๊ฑฐ๋ผ ๊ฐ€์ •ํ•˜๊ณ  ์ด ๋‘˜ ์‚ฌ์ด์˜ ๊ฒฝ๊ณ„๋ฅผ ์ฐพ์•„์„œ ๊ฒฝ๊ณ„ ๋ฐ–์˜ ๋ฐ์ดํ„ฐ๋“ค์„ ์ด์ƒ์น˜๋กœ ํƒ์ง€ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค

 

SVM๊ณผ One-Class SVM๋ฅผ ๋น„๊ตํ•˜๋ฉด์„œ ์‚ดํŽด๋ณด๋ฉด

  1. SVM์€ ๋‘ ๊ฐœ ์ด์ƒ์˜ ํด๋ž˜์Šค๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๊ฐ ํด๋ž˜์Šค๋ฅผ ์ตœ๋Œ€ํ•œ ์ž˜ ๊ตฌ๋ถ„ํ•˜๋Š” ์ดˆํ‰๋ฉด์„ ์ฐพ๋Š”๋‹ค. ์ด๋Š” ๋‘ ํด๋ž˜์Šค ์‚ฌ์ด์˜ ์—ฌ๋ฐฑ(margin)์„ ์ตœ๋Œ€๋กœ ํ•˜์—ฌ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค
  2. One-Class SVM์€ ์ด์ƒ ํƒ์ง€๋ฅผ ์œ„ํ•œ SVM์˜ ๋ณ€ํ˜• ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. ๋‹จ์ผ ํด๋ž˜์Šค์˜ ์ •์ƒ ๋ฐ์ดํ„ฐ๋งŒ ํ•™์Šตํ•˜์—ฌ ํ•ด๋‹น ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ๊ณ„๋ฅผ ์ •์˜ํ•˜๋Š”๋ฐ ์ด๋•Œ ์›์ ์„ ๊ธฐ์ค€์œผ๋กœ ์ •์ƒ ๋ฐ์ดํ„ฐ๋Š” ์ดˆํ‰๋ฉด ๋ฐ”๊นฅ์ชฝ์œผ๋กœ ๋ฉ€๋ฆฌ ๋‘๊ณ , ๋น„์ •์ƒ ๋ฐ์ดํ„ฐ(์ด์ƒ์น˜)๋Š” ์›์ ์— ๊ฐ€๊นŒ์šด ์œ„์น˜๋กœ ๊ตฌ๋ถ„ํ•˜๊ฒŒ ๋œ๋‹ค. ์ฆ‰, ์ •์ƒ ๋ฐ์ดํ„ฐ๋Š” ์ดˆํ‰๋ฉด์„ ๊ธฐ์ค€์œผ๋กœ ๋ฉ€๋ฆฌ ๋–จ์–ด์ง„ ์˜์—ญ์— ๋ถ„ํฌ์‹œํ‚ค๊ณ , ์ดˆํ‰๋ฉด ๋‚ด๋ถ€๋‚˜ ์›์ ์— ๊ฐ€๊นŒ์šด ๋ฐ์ดํ„ฐ๋Š” ๋น„์ •์ƒ์œผ๋กœ ํŒ๋‹จํ•˜๊ฒŒ ๋œ๋‹ค

์ด๋ ‡๊ฒŒ ์ดˆํ‰๋ฉด์„ ๊ธฐ์ค€์œผ๋กœ ์ •์ƒ ๋ฐ์ดํ„ฐ๋Š” ๋ฉ€๋ฆฌ, ๋น„์ •์ƒ ๋ฐ์ดํ„ฐ๋Š” ๊ฐ€๊น๊ฒŒ ๋งคํ•‘ํ•˜์—ฌ ์ด์ƒ์„ ๊ฐ์ง€ํ•˜๋Š” ๊ฒƒ์ด One-Class SVM์˜ ํ•ต์‹ฌ์ด๋‹ค

 

 

์ด ๋‘ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์™ธ์—๋„ Fast-MCD, LOF (local outlier factor) ๋“ฑ๋“ฑ ๋‹ค์–‘ํ•œ ์ด์ƒ์น˜ ํƒ์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์กด์žฌํ•œ๋‹ค

 

 

 

 

 


4. ๋น„์ง€๋„ ํ•™์Šต์˜ ํ•œ๊ณ„ ๋ฐ ์žฅ๋‹จ์ 

 

 

๋น„์ง€๋„ ํ•™์Šต์€ ๋ฐ์ดํ„ฐ์— ์‚ฌ์ „ ์ •์˜๋œ ๋ ˆ์ด๋ธ” ์—†์ด ๋ฐ์ดํ„ฐ ๋‚ด์˜ ํŒจํ„ด์ด๋‚˜ ๊ตฌ์กฐ๋ฅผ ์ฐพ์•„๋‚ด๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋œ๋‹ค

๋Œ€ํ‘œ์ ์œผ๋กœ ํด๋Ÿฌ์Šคํ„ฐ๋ง๊ณผ ์ฐจ์› ์ถ•์†Œ, ์ด์ƒ์น˜ ํƒ์ง€ ๋“ฑ์— ํ™œ์šฉ๋˜๋ฉฐ, ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์—์„œ ํ†ต์ฐฐ์„ ์–ป๋Š” ๋ฐ ์œ ์šฉํ•˜๋‹ค

๊ทธ๋Ÿฌ๋‚˜ ๋ ˆ์ด๋ธ”์ด ์—†๋‹ค๊ณ  ํ•˜์—ฌ ํ•ญ์ƒ ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์ด ์œ ์šฉํ•œ ๊ฒƒ๋งŒ์€ ์•„๋‹ˆ๋‹ค

 

์žฅ์ 

  1. ๋ ˆ์ด๋ธ” ํ•„์š” ์—†์Œ: ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋ฐ์ดํ„ฐ์—์„œ๋„ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ์˜ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋‹ค
  2. ๋ฐ์ดํ„ฐ์˜ ์ˆจ๊ฒจ์ง„ ํŒจํ„ด ๋ฐœ๊ฒฌ: ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๋‚ด์˜ ์กด์žฌํ•˜๋Š” ํŒจํ„ด์ด๋‚˜ ๊ด€๊ณ„๋ฅผ ์ฐพ์•„๋‚ผ ์ˆ˜ ์žˆ๋‹ค
  3. ์ฐจ์› ์ถ•์†Œ ๊ฐ€๋Šฅ: PCA, t-SNE, UMAP ๋“ฑ์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ์ฐจ์›์„ ์ค„์—ฌ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ์˜ ์‹œ๊ฐํ™”์™€ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค
  4. ์ด์ƒ์น˜ ํƒ์ง€: ์ •์ƒ ๋ฐ์ดํ„ฐ์™€์˜ ๊ฒฝ๊ณ„ ์„ค์ •์„ ํ†ตํ•ด ๋น„์ •์ƒ ๋ฐ์ดํ„ฐ๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค

ํ•œ๊ณ„

  1. ๊ฒฐ๊ณผ ํ•ด์„์˜ ์–ด๋ ค์›€: ๋ ˆ์ด๋ธ”์ด ์—†๊ธฐ ๋•Œ๋ฌธ์— ๋„์ถœ๋œ ํŒจํ„ด์ด๋‚˜ ๊ตฐ์ง‘์„ ํ•ด์„ํ•˜๊ณ  ์‹ค์ œ ์˜๋ฏธ๋ฅผ ๋ถ€์—ฌํ•˜๊ธฐ๊ฐ€ ์–ด๋ ต๋‹ค
  2. ๋ชจ๋ธ ํ‰๊ฐ€์˜ ์–ด๋ ค์›€: ์„ฑ๋Šฅ ํ‰๊ฐ€ ์ง€ํ‘œ๊ฐ€ ๋ชจํ˜ธํ•˜์—ฌ ๋ชจ๋ธ์„ ์ •ํ™•ํžˆ ํ‰๊ฐ€ํ•˜๊ธฐ๊ฐ€ ์‰ฝ์ง€ ์•Š๋‹ค
  3. ๋น„์ •ํ™•ํ•œ ๊ตฐ์ง‘ํ™” ๊ฐ€๋Šฅ์„ฑ: ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ฐ™์€ ๊ฒฝ์šฐ ์‚ฌ์ „ ์ •์˜๋œ ๊ตฐ์ง‘ ์ˆ˜๋‚˜ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์— ํฌ๊ฒŒ ์˜ํ–ฅ์„ ๋ฐ›์œผ๋ฉฐ, ๊ตฐ์ง‘์ด ๋ช…ํ™•ํ•˜์ง€ ์•Š์œผ๋ฉด ์„ฑ๋Šฅ์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ๋‹ค

๋น„์ง€๋„ ํ•™์Šต์€ ํŠนํžˆ ๋ฐ์ดํ„ฐ ์ดํ•ด์™€ ์ดˆ๊ธฐ ๋ถ„์„, ๋ ˆ์ด๋ธ”๋ง์ด ์–ด๋ ค์šด ๊ฒฝ์šฐ์— ์œ ์šฉํ•˜์ง€๋งŒ, ํŠน์ • ํŒจํ„ด์ด ๋ชจํ˜ธํ•˜๊ฑฐ๋‚˜ ๋ชฉ์ ์— ๋งž๋Š” ๊ตฐ์ง‘ํ™”๊ฐ€ ๋ช…ํ™•ํ•˜์ง€ ์•Š์„ ๊ฒฝ์šฐ ๊ฒฐ๊ณผ ํ•ด์„์— ํ•œ๊ณ„๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค

 

 

 


 

์ง€๊ธˆ๊นŒ์ง€ ๋น„์ง€๋„ํ•™์Šต์— ๋Œ€ํ•ด ์ „๋ฐ˜์ ์ธ ๊ฐœ์š”์™€ ๋Œ€ํ‘œ์ ์ธ ๋ฐฉ๋ฒ•, ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•ด ์‚ดํŽด๋ณด์•˜๋‹ค

๋จธ์‹ ๋Ÿฌ๋‹ ํŒŒํŠธ๋ฅผ ๊ณต๋ถ€ํ•˜๋ฉด์„œ ๋А๋‚€ ์ ์€ ๋‹จ์ˆœํžˆ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด ๋” ์ ์ ˆํ•˜๊ฒŒ ๊ทธ๋ฆฌ๊ณ  ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๊ธฐ ์œ„ํ•ด์„  ๋ฐ์ดํ„ฐ์™€ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ดํ•ด๊ฐ€ ๋†’์•„์•ผํ•˜๋ฉฐ, ์—ฌ๊ธฐ์— ์ˆ˜ํ•™์ ์ธ ๊ฐœ๋…์ด ๋งŽ์ด ์š”๊ตฌ๋œ๋‹ค๋Š” ๊ฒƒ์ด์˜€๋‹ค

ํ•ด๋‹น ์ฑ…์—์„œ๋Š” ๋น„์ง€๋„ ํ•™์Šต์ด๋ผ๋Š” ๋ฐฉ๋ฒ•์„ ํ•˜๋‚˜์˜ ์žฅ ์•ˆ์— ๋‹ค๋ฃจ์–ด์•ผ ํ–ˆ๊ธฐ์— ๊ทธ ๊นŠ์ด๊ฐ€ ์–•๋‹ค๋Š” ์ ์ด ์กด์žฌํ•œ๋‹ค

๋”ฐ๋ผ์„œ ์ด๋ฒˆ ๊ณต๋ถ€๋ฅผ ํ†ตํ•ด ๋น„์ง€๋„ ํ•™์Šต์— ์–ด๋–ค ๋ฐฉ๋ฒ•๋“ค์ด ์“ฐ์ด๋Š”์ง€ ์ธ์ง€ํ•˜์˜€๊ณ  ๊ณต๋ถ€ํ•˜๋ฉด์„œ ๋ชฐ๋ž๊ฑฐ๋‚˜ ์ดํ•ด๊ฐ€ ๋ถ€์กฑํ–ˆ๋˜ ์ˆ˜ํ•™์  ๊ฐœ๋…๊ณผ ํŒŒํŠธ๋“ค์„ ์ •๋ฆฌํ•˜์—ฌ ๋ณด์ถฉํ•˜๋Š” ์‹œ๊ฐ„์„ ๊ฐ€์ ธ๋ณด๋ ค ํ•œ๋‹ค