[ML] κ°ννμ΅(Reinforcement Learning)
κ°ννμ΅(Reinforcement Learning)μ λ¨Έμ λ¬λμ νμ΅ λ°©λ²λ‘ μ€ νλλ€.
μ¬λ¬λͺ¨λ‘ νλ λ¨Έμ λ¬λμμ ν λκ° λμλ€κ³ ν μ μλ€.
κΈ°λ³Έ μ리
μ°λ¦¬κ° μΈμ΄λ κΈ°μ , κ²½ν λ±μ μ΄λ»κ² μ΅λνλκ°? μ¬μ€ λ λλ¨ν ν ν¬λμ΄ μλκ² μλλ€.
κ·Έλ₯ νμ€ μμμ νλμ© μλν΄λ³΄κ³ , κ²½νν΄λ³Έ κ²λ€μ΄ μμ¬μ μ°λ¦¬ μμ μμ°μ€λ½κ² λ΄μ¬λλ κ²μ΄λ€.
κ°ννμ΅λ νμ€μμμ μΈκ°κ³Ό κ°μ νμ΅ λ
Όλ¦¬λ₯Ό λ°λ₯΄λ μ κ·Όλ°©λ²μ΄λ€.
λ§μ½ μμ₯κ° λ―Έλ‘μμ μΉμ¦λ₯Ό μ°Ύλ κ²μ κ°ννμ΅μΌλ‘ ꡬμ±νλ€κ³ νλ©΄, μ΄λ° ννκ° λλ€.
μμ₯κ° νμΉΈ μ΄λν λλ§λ€ actionμ΄ λ°μνκ³ , κ·Έ κ²°κ³Όλ νκ²½μ κ±°μ³ λ΄λΆ μνμ μ μ₯λκ³ νμ΅λλ€.
κ·Έλ¦¬κ³ μ±κ³΅νλ€λ©΄ μΉμ¦λΌλ rewardλ₯Ό λ°κ² λ κ²μ΄λ€.
μμ¬
λ°λ¨
κ°ννμ΅μ 1997λ
μ Tom Mitchellμ΄ "Machin Learning"μ΄λΌλ μ μλ₯Ό ν΅ν΄ μ²μ μ μνλ€.
μκ°λ³΄λ€ μ€λλ κ°λ
μ΄λ€.
νμ§λ§ νλμμ κ·Έλ€μ§ μ£Όλͺ©μ λ°μ§ λͺ»νλ€.
λΆν₯
κ°ννμ΅μ΄ 본격μ μΌλ‘ μ£Όλͺ©μ λ°κ² λ κ²μ μμ ꡬκΈμ λ₯λ§μΈλ(Deep Mind)νμ μν κ²μ΄λ€.
νλ μ λͺ
νλ μνκ³ κ° λ°λ‘ κ°ννμ΅μΌλ‘ λ§λ€μ΄μ§ AIλ€.

νμ¬
νμ¬λ λ²λ¦Όλ°μ§ μκ³ ν΅μ¬ μ΄λ‘ μΌλ‘μ κ³μν΄μ μ¬μ©λκ³ μλ€.
μ λͺ
ν tensorflow κ°μ νλ μμν¬λ€λ λ₯λ¬λκ³Ό μμΈ deep reinforcement learningλ₯Ό κΈ°λ°μΌλ‘ λ§λ€μ΄μ‘κ³ , μ£Όμμμ₯μ λ€νλ€μλ chatgptλ bing ai κ°μ μ±λ΄ν aiλ€λ κ°ννμ΅ κΈ°λ°μ΄λΌκ³ ν μ μλ€.
μ₯λ¨μ
μ₯μ
κΈ°μ‘΄ κΈ°μ λ‘ ν΄κ²°ν μ μκ±°λ μ΄λ €μ΄ λ§€μ° λ³΅μ‘ν λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μ©μ΄νλ€.
λ¨μ
μμ, νμ΅μ μν 무μν λ°μ΄ν°μ μ°μ°μ΄ νμν΄μ 리μμ€ μλΉκ° λ§€μ° κ·Ήμ¬ν νΈμ΄λ€.
λ₯ λ¬λ(Deep learning)
λ₯λ¬λμ κ°ννμ΅κ³Όλ λ€λ₯Έ κ°λ μ΄μ§λ§, μμΆ©λμ§λ μλλ€.
λ₯λ¬λμ κ·Έμ νμ΅ μ§ν©μΌλ‘λΆν° μ΄λ»κ² νμ΅νκ³ , μ§νν νμ΅μ μ λ°μ΄ν°μ μ΄λ»κ² μ μ©μν¬μ§μ λν λ°©λ²λ‘ μ΄λ€.
λ°λ©΄ κ°ννμ΅μ μ΅κ³ μ rewardλ₯Ό μν΄μ λμ μΌλ‘ νμ΅νλ©° actionμ λ°κΎΈμ΄λκ°λ λ°©λ²λ‘ μ λ§νλ€.
λ°λΌμ λ₯λ¬λκ³Ό κ°ννμ΅μ μνΈλ³΄μμ΄ κ°λ₯νλ©°, λ₯λ¬λ νλ μμν¬λΌκ³ λ§νλ tensorflow λ±λ λμ μ λΆ νμ©νλ deep reinforcement learningμ΄λΌκ³ ν μ μλ€.
μ°Έμ‘°
https://hunkim.github.io/ml/
https://pythonistaplanet.com/pros-and-cons-of-reinforcement-learning/