我正在开展一个项目,该项目需要确定代表第三方平台(例如 rapidgator 或 nitroflare)上托管文件的页面是否仍在运行。
我已经确定了数百个文件托管服务,每个服务都有自己的方式来显示向上和向下页面。
是否可以设计/训练一个模型,将这些托管文件页面的屏幕截图分类为向上与向下?如果是这样,推荐什么方法?在这里使用图像分类以外的方法是否更有意义?
我正在开展一个项目,该项目需要确定代表第三方平台(例如 rapidgator 或 nitroflare)上托管文件的页面是否仍在运行。
我已经确定了数百个文件托管服务,每个服务都有自己的方式来显示向上和向下页面。
是否可以设计/训练一个模型,将这些托管文件页面的屏幕截图分类为向上与向下?如果是这样,推荐什么方法?在这里使用图像分类以外的方法是否更有意义?
是的,您应该寻找网站本身来获取文件链接或直接下载消息,而不是图像分类。
您仍然可以使用 ML 以最少的用户输入来确定消息,但它会比图像识别更快、更容易。
图像识别在这里会让你失败,因为一开始你有大约 100 个人口,这是一个小样本,你需要手动标记至少 50 个来训练任何类型的可行分类器,此时你可能只需要手动标记商场。
这是可能的,但这是我对此的看法。您很可能会发现很难在新数据上使用它。我觉得你的网络不能很好地概括,因为你很可能缺乏训练数据,即使你有新的网站和标签我不认为这种情况下的在线学习(假设你的模型只接受过训练很少有样本)会起作用。
事实上,必须有更好的方法来做到这一点。也许如果您看到一个发布多个镜像的页面,并且它们有指示链接是否向上/向下,这是 100% 正确的。我相信这表明必须存在允许这种交互的工具
可能将此问题视为文本分类会比使用屏幕截图更好地概括。大多数“关闭”页面可能会显示该服务不再可用。因此,删除页面的可见文本并使用简单的计数矢量化器可能比对图像进行分类更可靠。