[ML] κ°•ν™”ν•™μŠ΅(Reinforcement Learning)

[원본 링크]

κ°•ν™”ν•™μŠ΅(Reinforcement Learning)은 λ¨Έμ‹ λŸ¬λ‹μ˜ ν•™μŠ΅ 방법둠 쀑 ν•˜λ‚˜λ‹€.
μ—¬λŸ¬λͺ¨λ‘œ ν˜„λŒ€ λ¨Έμ‹ λŸ¬λ‹μ—μ˜ ν† λŒ€κ°€ λ˜μ—ˆλ‹€κ³  ν•  수 μžˆλ‹€.




κΈ°λ³Έ 원리

μš°λ¦¬κ°€ μ–Έμ–΄λ‚˜ 기술, κ²½ν—˜ 등을 μ–΄λ–»κ²Œ μŠ΅λ“ν•˜λ˜κ°€? 사싀 뭐 λŒ€λ‹¨ν•œ ν…Œν¬λ‹‰μ΄ μžˆλŠ”κ²Œ μ•„λ‹ˆλ‹€.

κ·Έλƒ₯ ν˜„μ‹€ μ†μ—μ„œ ν•˜λ‚˜μ”© μ‹œλ„ν•΄λ³΄κ³ , κ²½ν—˜ν•΄λ³Έ 것듀이 μŒ“μ—¬μ„œ 우리 μ•ˆμ— μžμ—°μŠ€λŸ½κ²Œ λ‚΄μž¬λ˜λŠ” 것이닀.
κ°•ν™”ν•™μŠ΅λ„ ν˜„μ‹€μ—μ„œμ˜ 인간과 같은 ν•™μŠ΅ 논리λ₯Ό λ”°λ₯΄λŠ” 접근방법이닀.

λ§Œμ•½ 생μ₯κ°€ λ―Έλ‘œμ—μ„œ 치즈λ₯Ό μ°ΎλŠ” 것을 κ°•ν™”ν•™μŠ΅μœΌλ‘œ κ΅¬μ„±ν•œλ‹€κ³  ν•˜λ©΄, 이런 ν˜•νƒœκ°€ λœλ‹€.

생μ₯κ°€ ν•œμΉΈ μ΄λ™ν• λ•Œλ§ˆλ‹€ action이 λ°œμƒν•˜κ³ , κ·Έ κ²°κ³ΌλŠ” ν™˜κ²½μ„ 거쳐 λ‚΄λΆ€ μƒνƒœμ— μ €μž₯되고 ν•™μŠ΅λœλ‹€.
그리고 μ„±κ³΅ν•œλ‹€λ©΄ μΉ˜μ¦ˆλΌλŠ” rewardλ₯Ό λ°›κ²Œ 될 것이닀.




역사

λ°œλ‹¨
κ°•ν™”ν•™μŠ΅μ€ 1997년에 Tom Mitchell이 "Machin Learning"μ΄λΌλŠ” μ €μ„œλ₯Ό 톡해 처음 μ œμ‹œν–ˆλ‹€.
생각보닀 였래된 κ°œλ…μ΄λ‹€.

ν•˜μ§€λ§Œ ν•œλ™μ•ˆμ€ κ·Έλ‹€μ§€ μ£Όλͺ©μ„ λ°›μ§€ λͺ»ν–ˆλ‹€.

λΆ€ν₯
κ°•ν™”ν•™μŠ΅μ΄ 본격적으둜 μ£Όλͺ©μ„ λ°›κ²Œ 된 것은 μ—­μ‹œ κ΅¬κΈ€μ˜ λ”₯λ§ˆμΈλ“œ(Deep Mind)νŒ€μ— μ˜ν•œ 것이닀.
ν•œλ•Œ 유λͺ…ν–ˆλ˜ μ•ŒνŒŒκ³ κ°€ λ°”λ‘œ κ°•ν™”ν•™μŠ΅μœΌλ‘œ λ§Œλ“€μ–΄μ§„ AIλ‹€.

ν˜„μž¬
ν˜„μž¬λ„ 버림받지 μ•Šκ³  핡심 μ΄λ‘ μœΌλ‘œμ„œ κ³„μ†ν•΄μ„œ μ‚¬μš©λ˜κ³  μžˆλ‹€.
유λͺ…ν•œ tensorflow 같은 ν”„λ ˆμž„μ›Œν¬λ“€λ„ λ”₯λŸ¬λ‹κ³Ό μ„žμΈ deep reinforcement learningλ₯Ό 기반으둜 λ§Œλ“€μ–΄μ‘Œκ³ , μ£Όμ‹μ‹œμž₯을 λ’€ν”λ“€μ—ˆλ˜ chatgptλ‚˜ bing ai 같은 μ±—λ΄‡ν˜• ai듀도 κ°•ν™”ν•™μŠ΅ 기반이라고 ν•  수 μžˆλ‹€.




μž₯단점

μž₯점
κΈ°μ‘΄ 기술둜 ν•΄κ²°ν•  수 μ—†κ±°λ‚˜ μ–΄λ €μš΄ 맀우 λ³΅μž‘ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μš©μ΄ν•˜λ‹€.

단점
μ—­μ‹œ, ν•™μŠ΅μ„ μœ„ν•œ λ¬΄μˆ˜ν•œ 데이터와 연산이 ν•„μš”ν•΄μ„œ λ¦¬μ†ŒμŠ€ μ†ŒλΉ„κ°€ 맀우 κ·Ήμ‹¬ν•œ νŽΈμ΄λ‹€.




λ”₯ λŸ¬λ‹(Deep learning)

λ”₯λŸ¬λ‹μ€ κ°•ν™”ν•™μŠ΅κ³ΌλŠ” λ‹€λ₯Έ κ°œλ…μ΄μ§€λ§Œ, μƒμΆ©λ˜μ§€λ„ μ•ŠλŠ”λ‹€.

λ”₯λŸ¬λ‹μ€ κ·Έμ € ν•™μŠ΅ μ§‘ν•©μœΌλ‘œλΆ€ν„° μ–΄λ–»κ²Œ ν•™μŠ΅ν•˜κ³ , μ§„ν–‰ν•œ ν•™μŠ΅μ„ μƒˆ 데이터에 μ–΄λ–»κ²Œ μ μš©μ‹œν‚¬μ§€μ— λŒ€ν•œ 방법둠이닀.
반면 κ°•ν™”ν•™μŠ΅μ€ 졜고의 rewardλ₯Ό μœ„ν•΄μ„œ λ™μ μœΌλ‘œ ν•™μŠ΅ν•˜λ©° action을 λ°”κΎΈμ–΄λ‚˜κ°€λŠ” 방법둠을 λ§ν•œλ‹€.

λ”°λΌμ„œ λ”₯λŸ¬λ‹κ³Ό κ°•ν™”ν•™μŠ΅μ€ μƒν˜Έλ³΄μ™„μ΄ κ°€λŠ₯ν•˜λ©°, λ”₯λŸ¬λ‹ ν”„λ ˆμž„μ›Œν¬λΌκ³  λ§ν•˜λŠ” tensorflow 등도 λ‘˜μ„ μ „λΆ€ ν™œμš©ν•˜λŠ” deep reinforcement learning이라고 ν•  수 μžˆλ‹€.




μ°Έμ‘°
https://hunkim.github.io/ml/
https://pythonistaplanet.com/pros-and-cons-of-reinforcement-learning/