wdc 发表于 2025-2-12 09:56:15

浏览器自动化与AI Agent结合项目browser-use初探

browser-use介绍

browser-use是将您的 AI 代理连接到浏览器的最简单方式。它通过提供一个强大且简单的接口来实现 AI 代理访问网站的自动化。
GitHub地址:https://github.com/browser-use/browser-use。目前已经获得了27.3k颗stars,2.7kforks,看得出来是一个比较热门的项目。我在上手体验了之后,发现确实是一个很有趣的项目,因此推荐给大家。
实践

上手也非常简单,创建一个python虚拟环境,pip install browser-use,再playwright install即可。
现在需要进行LLM的配置,官方推荐使用gpt-4o,但是为了降低成本,方便让看了教程感兴趣的人能够方便上手,这里我使用的是硅基流动提供的模型。目前硅基流动注册送14元不过期额度,够用一段时间的了,邀请链接:https://cloud.siliconflow.cn/i/Ia3zOSCU。如果你的额度不够了,但是也想体验一下,可以私聊我,我可以提供一个api key暂时供你快速上手体验,额度用差不多了,我就停止了。
创建一个.env文件,这样写:
Silicon_Cloud_API_KEY=xxxBase_URL=https://api.siliconflow.cnModel=Qwen/Qwen2.5-72B-Instruct创建一个test脚本,这样写:
from langchain_openai import ChatOpenAIfrom browser_use import Agentfrom dotenv import load_dotenvimport osload_dotenv()import asyncioapi_key = os.getenv('Silicon_Cloud_API_KEY')base_url = os.getenv('Base_URL')model = os.getenv('Model')llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)async def main():    agent = Agent(      task="获取https://github.com/OpenInterpreter/open-interpreter仓库的前五个问题",      llm=llm,      use_vision=False,    )    result = await agent.run()    print(result)asyncio.run(main())查看效果:



还生成了一个agent_history.gif可以查看流程:

将结果与实际对比:

可以发现browser-use非常准确的获取了。
再使用一个更普遍的例子,就是获取当前微博前十的热搜。
from langchain_openai import ChatOpenAIfrom browser_use import Agentfrom dotenv import load_dotenvimport osload_dotenv()import asyncioapi_key = os.getenv('Silicon_Cloud_API_KEY')base_url = os.getenv('Base_URL')model = os.getenv('Model')llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)async def main():    agent = Agent(      task="获取当前微博前十的热搜",      llm=llm,      use_vision=False,    )    result = await agent.run()    print(result)asyncio.run(main())

最后

以上就是使用硅基流动中的Qwen/Qwen2.5-72B-Instruct快速体验browser-use的效果。初步体验感觉是一个很有潜力的项目,将AI Agent与浏览器自动化结合确实可以做很多事情。
页: [1]
查看完整版本: 浏览器自动化与AI Agent结合项目browser-use初探