本文经作者允许,收录在此处。

原文链接如下:

https://x.com/CodeNightOwl/status/1878935010545479963

一、全自动撸毛总体流程说明

(限于篇幅,只说每个环节原理,细分只能后续独立开篇,部分补充就在回复里吧)。 1.电脑来电自动开机(只需设置bios来电启动) 2.全自动运行脚本任务,机器停电或异常重启(只需将总控程序随系统启动) 3.脚本异常重启(比如使用指纹浏览器,2000个用户id,单机启动多少个浏览器)完成所有任务后,汇报进度到tg,日志写入数据库,方便查看板统计。 这里大致说下思路,如果某些浏览器因为代理原理,项目方网站等原因产生了异常,那么就等待几分钟后再重试,先做下一个浏览器,如果这个浏览器id连续错误达到设定比如5次,就不再重复,而是2000个做完后,tg,wx汇报异常,由人工查看。为什么要这么自动?那既然都说自动化撸毛了,你看完下面的就知道:对,就得唯快不破,要卷只卷自己。 好吧:先上2年前的初始架构图,相对简陋,但太近也不便给你看不是:

二、硬件方便的配置,如何自动化运维。

1.廉价机集群的搭建,如图比如搭建一个便宜的e5集群,建立资源池,一键克隆几百个机器来备用。 用途(仅简单描述,多了一是不好懂,二是几小时也说不完): 1.1 做管理机,可手动处理一些小任务,临时处理某些项目,统一管理,自己电脑不会乱,也更加安全; 1.2 用来执行单任务,一些只需要单开浏览器的,纯图色模拟,ocr识别模拟,这样每次只开一个浏览器,根据任务时间,计算一天的总量,单机一天做几百个浏览器, 例如单虚拟机一天200个浏览器,要做2000,克隆10台即可。 1.3 用来领水,虽然购买2cpacha,CapSolver这样的可以解决临时领水问题,但是每1-2k就是一个猪脚饭了,如果一ip一天又能领取3次,领取半年那消耗就不少,项目多了消耗也大,既然我们都是撸毛了,能节约自然毛都不想给。怎么领? 但指纹浏览器模拟点击cloudfare这样的主流的就过了,至于其他变态的就不解释了,除了tw这样的,都有解决办法,因为一般领水也不会有。 1.4 搭建局域网文件服务器,数据库服服务器,代理机,即时通讯等(不解释)。 1.5 用来搭建一些节点,一鱼多吃啥的,你买云服务器,那个内存,cpu很是心酸,用你本地的,只需要解决带宽就好,内存比白菜都便宜。配个图吧:

2.高端机器配置,比如最新的i9+3060+显卡+64内存,得有个几台吧。 用途(仅简单描述...): 2.1 用来多开浏览器,这时候需要吃内存,也吃硬盘,带点游戏的项目吃显卡,这样的好处比如单机40开浏览器,可以快速完成2K号的任务,做4K号怎么办?克隆几台就好了,可预装好系统,git同步,连接局域网数据库。 你也可跟网吧一样,ghost多播等。 就不配图了,可能陆续就能看到我其他推文的截图。 2.2 用来临时打手动,都自动化了,还有手动吗?自然,因为就几个小时的任务你写上自动化的时间手都打完了.

三、如何实现脚本的自动化?

1.实现一个主监控,查询数据库,看板,配置参数(比如异常几次,单机开多少个浏览器),全局管理这一台机就看主监控了,配置好主控后,他就会启动启动主脚本控制程序。如图:

2.实现一个脚本控制程序,用于启动浏览器执行脚本, 如果是多开浏览器,是用多线程吗?不,我建议是多进程,这样万一脚本卡主只影响这一个浏览器,就跟chrome一样道理。此程序需要执行脚本执行,就看根据各位语言选择,比如选择js,还是python,lua,或者pascal之类,为什么要用脚本?就是自动git了就执行,不然你得重新编译,项目很多都是短平快,甚至几十种交互,需要修改的,自然就没有效率。如果你不具备构建这些能力,你就会使用一点python,好吧,前面这些就当没说了,思路只是借鉴,你独立执行python就可以了。如图:

3.是否一定要中心数据库? 是的,你要快,这是必然的,不然局域网这么多机器怎么全自动启动就知道干什么,因为他们都读取数据库配置啊,对应的机器名称,或者他主监控配置,根据读取数据库就知道各自去干什么了,通常我们都没显示器。 当然你就是要跑单机,一个个去处理下又怎么样呢?是的,闲着也是闲着,开心就好。但我们的口号是能机器尽量不人工。 4.还没说到怎么怎么具体跑浏览器自动化? 这个就需要各位根据自己的能力去找对应的解决方案了,搜索下一堆,js在网页是一等公民, python当然因为他的库天下第一,所以建议就这两个,加上需要做脚本载入,自然也他们两个更合适。框架诸如Selenium,Puppeteer,Playwright等。