AgentSkillsCN

Desktop Automation Skill

Desktop Automation Skill

中文原作
SKILL.md

Desktop Automation Skill

桌面自动化工具集,封装 ui-tars MCP

触发词

桌面, 自动化, 窗口, 屏幕, 截图, 点击, 输入

使用场景

  • 桌面应用自动化测试
  • 跨应用操作
  • 屏幕截图和分析
  • 窗口管理

启用 MCP

在使用此 skill 前,需要启用 ui-tars MCP:

bash
# 编辑 .kiro/settings/mcp.json
# 将 ui-tars.disabled 改为 false

配置说明

ui-tars 使用豆包视觉模型进行屏幕理解:

json
{
  "UITARS_VLM_BASE_URL": "https://ark.cn-beijing.volces.com/api/v3",
  "UITARS_MODEL": "doubao-seed-1-6-vision-250115",
  "UITARS_MAX_LOOP_COUNT": "50",
  "UITARS_TIMEOUT": "60000"
}

可用工具

屏幕操作

  • screenshot - 截取屏幕
  • screen_info - 获取屏幕信息

窗口管理

  • window_list - 列出所有窗口
  • window_focus - 聚焦指定窗口

常用工作流

1. 获取屏幕状态

code
1. screen_info - 获取屏幕分辨率等信息
2. screenshot - 截取当前屏幕

2. 窗口操作

code
1. window_list - 列出所有窗口
2. window_focus(window_id: xxx) - 聚焦目标窗口
3. screenshot - 截图验证

注意事项

  • 此工具需要屏幕访问权限
  • 截图会消耗较多 token
  • 使用完毕后建议禁用 MCP
  • 适合自动化测试场景,日常开发不需要