大綱
• 代理人和環境
• 理性
• PEAS(Performance measure,
Environment, Acturators, Sensors)
• 環境類別
• 代理人類別
代理人
• 定義:任何的東西,可以經由感應器感受
到環境,經由行動器來對環境做出反應。
• 人類代理人:眼睛,耳朵,…(其他的器
官,可以來作為感應的。)手,腳…(其
他的器官,可以來作為行動器官的。)
• 機器代理人:攝影機,溫度計,…(可以
來作為感應的。 )機器手臂,輪子(可以
來作為行動器官的。 )
理性代理人
代理人的架構
• 代理人的功能和程式:
1. 代理人是以代理人功能(agent function)為
其特徵的,此function將感知轉換為行動
2. 一個代理人的功能是理性的(rational)
3. 目標:找出一個方法來將理性代理人的功能
正確的實作出來
代理人和環境
• 代理人函數將感知到的歷史對應到行動。
F:P*A
代理人程式執行在實際的設備中以產生F
帶
查表代理人
• 缺點:
1. 巨大的表格
2. 建表所要花的時間需要很大
3. 沒有自動化
4. 甚至若是需要學習,也要花很多時間來看表格
智慧代理人的結構
• 代理人=硬體結構+程式
• 代理人程式:將函數:感知行動實做出來.
• 硬體結構:一個設備能夠執行代理人程式的
代理人型態
• 基本的型態:
1. 簡單反射的代理人
2. 模型基礎的反射代理人
3. 目標基礎的代理人
4. 效能基礎的代理人
5. 學習代理人
反射代理人
• 反射代理人:沒有記憶
• 動作:根據目前的狀態來決定要採取的行動.
反射代理人
反射代理人
反射代理人
• 例如:
1. 吸塵器
2. 自動駕駛計程車
• 問題:人類的所作的動作是基於學習後的反
應或是自然的反射動作?
反射代理人
• 反射代理人的動作雖然很簡單.但是彼此間
的互相的反應會造成複雜的模型.
• 好處:快速.健全
• 挑戰:夠複雜?智慧?
反射代理人
• 問題:將自動吸塵器的位置感應器移除後.會
發生什麼?(在不同的環境中)
模型基礎的反射代理人
• 紀錄一些內部狀態(已過已經發生的.或之
前所採取的行動)
• 需要紀錄兩種的知識在代理人的實作方法:
1. 在這世界中發生的事.和代理人是有間接相
關的
2. 代理人所採取的行動會對世界造成怎樣的
影響.
模型基礎的反射代理人
模型基礎的反射代理人
目標基礎的代理人
• 代理人需要有一些目標排序的資訊.
• 例如:自動駕駛計程車(如何使得長期目標能
達到.小目標的做法的選擇.)
目標基礎的代理人
目標基礎的代理人
• 挑戰:是否夠好了?
效能基礎代理人
• 目標基礎代理人不夠好.因為其無法產生出
高品質的行為.
• 例如:自動駕駛計程車.除了要達到目的地外.
還要考慮什麼因素?
• 目標基礎代理人使用了2分法來作判斷?
效能基礎代理人
• 效能基礎代理人將一個狀態對應到真實的
數字.來代表該目標能被滿足的程度.
效能基礎代理人
學習代理人
• 四種組成元素:
1. 評論者
2. 學習元素
3. 表現元素
4. 問題產生器
學習代理人
行動代理人
• 行動代理人是一種程式.能從一個機器上移
植到另一個機器上.
• 可以在跨平台的環境上執行.例如:JAVA
• 需要有代理人能夠執行的環境
行動代理人
• 好處:
1. 減少溝通的花費
2. 非同步的計算
行動代理人
• 兩種類型:
1. 單點行動代理人(從一地移植到另一地)
2. 多點行動代理人(在網路上的漫遊)
行動代理人
• 應用:
1. 分散式資料擷取
2. Voip
行動代理人
PEAS
• PEAS: Performance measure(表現評量),
Environment(環境), Actuators(行動器),
Sensors(接收器)
• 例如:考慮taxi driver:
– Performance measure
– Environment
– Actuators
– Sensors
PEAS
• Consider, ., the task of designing an
automated taxi driver:
– Performance measure: Safe, fast, legal, comfortable
trip, maximize profits
– Environment: Roads, other traffic, pedestrians,
customers
– Actuators: Steering wheel, accelerator, brake, signal,
horn
– Sensors: Cameras, sonar, speedometer, GPS,
odometer, engine sensors, keyboard
PEAS
• Agent: Medical diagnosis system
• Performance measure: Healthy patient,
minimize costs, lawsuits
• Environment: Patient, hospital, staff
• Actuators: Screen display (questions,
tests, diagnoses, treatments, referrals)
• Sensors: Keyboard (entry of symptoms,
findings, patient's answers)
PEAS
• Agent: Part-picking robot
• Performance measure: Percentage of
parts in correct bins
• Environment: Conveyor belt with parts,
bins
• Actuators: Jointed arm and hand
• Sensors: Camera, joint angle sensors
PEAS
• Agent: Interactive English tutor
• Performance measure: Maximize student's
score on test
• Environment: Set of students
• Actuators: Screen display (exercises,
suggestions, corrections)
• Sensors: Keyboard
Environment types
• (全域觀察)Fully observable (vs. partially observable): 一個
agent的接收器是否可以一次就可以看完所有的環境狀態
• (可決定的)Deterministic (vs. stochastic): 環境的下一個狀態
完全是根據於目前的狀態以及目前所採取的行動 ,不會受
到其他agent的影響。
• (片段的)Episodic (vs. sequential): 一個agent的經驗可以被
分成多個片段,而agent要做決定時,只需要根據根據這
個片裡的感知來做就好了。
Environment types
• (靜態的)Static (vs. dynamic): 當一個agent在思考
說下一步要如何做的時候,環境在此時是不會改
變的。
• (離散的)Discrete (vs. continuous): 有限數目的不同,
清楚的感知和行動。
• (單一代理人)Single agent (vs. multiagent)
Environment types
Chess with Chess without Taxi driving
a clock a clock
Fully observable Yes Yes No
Deterministic Strategic Strategic No
Episodic No No No
Static Semi Yes No
Discrete Yes Yes No
Single agent No No No
• The environment type largely determines the agent design
• The real world is (of course) partially observable, stochastic,
sequential, dynamic, continuous, multi-agent