Agents GUI - a Giuliano Collection

Giuliano 's Collections

Voice

LLM Personalization

Agents

Agents GUI

updated Feb 16

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Paper • 2411.17465 • Published Nov 26, 2024 • 88
OmniParser for Pure Vision Based GUI Agent

Paper • 2408.00203 • Published Aug 1, 2024 • 26
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

Paper • 2412.04454 • Published Dec 5, 2024 • 66
THUDM/cogagent-9b-20241220

Image-Text-to-Text • 14B • Updated Dec 25, 2024 • 305 • 53
CogAgent: A Visual Language Model for GUI Agents

Paper • 2312.08914 • Published Dec 14, 2023 • 31
Running on Zero

7

7

CogAgent Demo

🏃

CogAgent-GUI-Demo
A3: Android Agent Arena for Mobile GUI Agents

Paper • 2501.01149 • Published Jan 2 • 22
xlangai/Aguvis-7B-720P

8B • Updated Jan 7 • 1.37k • 8
OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Paper • 2412.19723 • Published Dec 27, 2024 • 88
Running

33

33

UI-TARS

🌖

Generate click coordinates from image and instruction
microsoft/OmniParser-v2.0

Updated Mar 28 • 1.03k • 1.27k