3.1信息内容实体拨测
3.1.1网络爬虫内容拨测
3.1.1.1网络爬虫内容拨测采集
系统具备完整的爬虫框架,能够支持多线程高频爬取,可最大限度利用网络带宽。与此同时,还支持多类别、多站点同时并发采集、支持动态/静态网页内容爬取,支持各种类型(包括asp/.net/php/jsp等主流类型)网站内容爬取分析,支持网站文本内容、图片内容的爬取,采集过程高效、精准。
通过网络爬虫功能,支持对特定的域名或IP地址/地址段进行拨测的功能,对提供的域名仅爬取本域内页面包含的URL,其他域名(外链)包含的URL爬取一层。支持采用用户访问日志处理+URL爬虫功能,满足对用户访问的URL内容进行爬取和分析审计。
系统提供页面方式,支持通过手动输入或文件导入等方式设置拨测目标。
系统支持的拨测对象包括以域名方式、IP地址进行独立或者混合设置;系统应支持对未启动的拨测任务进行添加、修改、删除。
系统支持提供日志获取接口,从第三方日志系统获取日志文件进行解析处理。
系统支持对日志文件进行处理和分析,支持对日志数据的目的IP地址、业务响应状态码进行分析,支持对指定IP归属地和访问成功的URL提取。
系统支持对提取的符合条件的URL进行去重,生成URL列表文件。
系统支持对HTTP、HTTPS网站进行爬扫。
系统支持自动采集网站中的内容信息(包括但不限于文本、图片)。
系统提供对爬取URL页面的快照功能。
支持文本下载和分析,格式包含但不限于text、htm、html、xml、wml、jsp、php、js、asp、aspx、txt、rtf等主流格式。
支持图片下载和分析,格式包含但不限于jpg、jpeg、bmp、gif、png、wbmp、tiff、tif等主流格式。
支持视频下载和分析,格式包含但不限于AVI、WMV、RM、RMVB、MPEG1、MPEG2、MPEG4(MP4)、3GP、ASF、SWF、VOB、DAT、MOV、M4V、FLV、F4V、MKV、MTS、TS等主流格式。
支持对每个拨测任务设置拨测的深度(至少支持扫描网站至第五层级页面/爬取本域内页面包含的URL,其他域名(外链)包含的URL爬取一层)。
支持页面方式设置拨测的条件,如对单个网址的拨测重复次数、拨测间隔时长、拨测总时长、自定义的其它相关条件等。如对单个任务的拨测优先级、扫描深度、拨测策略选择、拨测间隔时长、爬扫类型、内容范围、自定义的其它相关条件等。
能够对具体的帐号限制其并发的拨测请求数。
具备对具有反爬虫功能的网站进行内容获取的能力,包括:
1、支持通过headers中的User-Agent字段设置反爬虫;
2、支持通过referer字段或者是其他字段设置反爬虫;
3、支持通过cookie设置反爬虫;
4、支持通过js设置反爬虫;
5、支持通过验证码设置反爬虫;
6、支持通过ip地址设置反爬虫;
7、支持通过自定义字体设置反爬虫;
8、支持通过css设置反爬虫;
3.1.1.2网络爬虫扩展技术方案
(1)深度遍历技术
网页深度遍历技术将与爬虫技术相结合,并且深度遍历可根据服务器配置、爬取深度、带宽大小、爬取周期结束时间进行灵活调控,哪怕服务器配置低、带宽窄、希望爬取结果立即可取等,均可使用深度遍历,完全不受其他因素制约。实现的核心功能如下:
技术点 实现功能
深度遍历技术 支持主机及其遍历深度的导入,删除,修改
支持主机指定检查间隔进行定期遍历
支持系统对网页进行分析获得下一层链接
(2)爬扫任务管理
技术点 实现功能
爬扫任务管理 支持对爬扫任务优先级配置及自动优化
能够根据历史扫描结果自动优化扫描或临时需求优先对指定网站扫描
支持对网站扫描深度、扫描周期、扫描内容范围进行设定配置
各类数据爬取频度可配置
具备对原始URL种子的爬取频率,URL规则等配置
对原始文件的内容提取的模板配置
(3)冗余数据去重
考虑到采集重复识别,所以系统还提供了冗余数据去重功能。在该功能中支持图像指纹的去重功能,能将重复部分过滤掉,减少约20%的处理量。
技术点 实现功能
图像指纹去重 通过特定的算法,抽取图像的唯一特征值作为该图像的指纹,系统根据该值进行去重
数据库去重 把处理过的数据指纹信息存在数据库中,以便系统进行去重。该方法的查询效率比内存去重稍低,但是去重的时间范围较大
(4)端口监控策略优化
针对扫描范围端口数量、提供的服务类型,配置扫描策略;
支持端口配置管理。
(5)监测扫描策略优化
支持按处理类型、生效时间段、生效地域等条件进行扫描配置;
支持节假日和时间段扫描频次配置;
系统同时支持多种类型的扫描规则配置;
支持按处理类型、生效时间段、生效地域等条件进行告警配置。
3.1.2 流量采集
通过端口镜像/探针/旁路等方式对各种不同的链路、不同的流量带宽的端口进行全流量采集,通过(源目的端口 IP、URL)以及访问次数和访问时间过滤和进行数据包内容解析分析的采集方式,实现对指定业务的交互数据采集获取功能。
利用探针技术对用户与网站交互完整双向数据包进行采集获取,解析非加密隧道协议(如GRE、GTP、VLAN等)解封装处理,对数据包进行TCP/IP协议解析、重组、还原TCP会话流,从还原的数据流中提取通信双方IP地址、端口等信息,从还原的数据流中按照应用协议规范(如 HTTP、WAP1.0、WAP2.0 等)标准解析,还原出指定业务用户访问的网站网页、图片、视频内容及 URL 地址等关联信息。
1、支持数据包获取功能,通过旁路(分光/交换机镜像)的方式,利用探针技术在网络链路上获取手机上网交互的上、下行双向数据包。
2、支持IP分片重装,对被分片的IP分片报文进行缓存重组,获得完整的IP报文。
3、支持隧道解封装,对主流的非加密隧道协议(如GRE、GTP、VLAN等)进行隧道解封装处理。
4、支持应用层协议解析,严格按照TCP协议的序列号进行数据重排,保证上层协议解析的精确性。
5、支持数据包转发,网络交互数据包采集获取后,根据设置将相应的数据包转发、复制给对应的处理模快。
6、转发规则支持基于应用协议转发、基于通信端口转发、基于IP地址转发、基于IP+端口转发和基于应用协议+关键字转发等。
7、支持数据包内容数据还原,将从业务流量中采集获取的用户访问的网站数据还原成真实可见的文字、图片、视频等格式文件。
8、支持文本包含但不限于text、htm、html、xml、wml、jsp、php、js、asp、aspx、txt、rtf等主流格式。
9、支持图片包含但不限于jpg、jpeg、bmp、gif、png、wbmp、tiff、tif等主流格式。
10、支持音视频包含但不限于AVI、WMV、RM、RMVB、MPEG1、MPEG2、MP3、MPEG4(MP4)、3GP、ASF、SWF、VOB、DAT、MOV、M4V、FLV、F4V、MKV、MTS、TS 等主流格式。
3.2识别能力及算法模块
3.2.1文本识别
3.2.1.1文本类识别算法模型
文本检测的算法结构最底层是通用的基础技术,如分词、词向量、深度网络预测等;主要是垃圾内容的识别和修正;上层是具体的检测技术,由规则引擎、相似度匹配、传统机器学习模型、深度学习模型4个模块构成。
文本类不良信息自动识别的技术架构采用双模型架构:即采用关键词过滤和深度学习两种模型,结合两种模型的优点,发挥两种模型的不同优势,从而提高识别准确率。
基于深度学习的模型本质为文本分类问题。将文本信息进行预处理,翻译成计算机能够识别的语言。通常是将文本分解成词语,因为词语是反映出文本含义的最小单位,将文本进行向量化表示,然后结合神经网络进行计算。
两种算法应实现模型融合。模型融合的方式可以为并行处理,根据策略投票得出识别结果;也可以为串行处理,对关键词过滤后的信息进行神经网络模型的的二次识别,再根据策略输出识别结果。
随着语言模型的逐步发展,对应文本识别准确度的提升,我们目前采用BERT模型。BERT模型使用两个新的无监督预测任务对BERT进行预训练,分别是Masked LM和Next Sentence Prediction:
1、Masked LM
采用 MaskLM 的方式来训练语言模型,在输入一句话的时候,随机地选一些要预测的词,然后用一个特殊的符号[MASK]来代替它们,之后让模型根据所给的标签去学习这些地方该填的词。
2、Next Sentence Prediction
在双向语言模型的基础上额外增加了一个句子级别的连续性预测任务,即预测输入 BERT 的两段文本是否为连续的文本,引入这个任务可以更好地让模型学到连续的文本片段之间的关系。
BERT 模型可以做到并发执行,同时提取词在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义。又能根据句子上下文获取词义,从而避免歧义出现。
3.2.1.2关键字分析识别
3.2.1.2.1关键字分析识别
系统支持当文本内容中出现系统配置的多个关键字的任意一个时,该条内容能被监控出来,关键字支持“与”、“或”逻辑关系,关键字至少支持中文、英文。
关键词识别通过对采集并预处理后的文本数据进行关键词和关键词组的匹配,来判断是否为不良信息。
支持关键词组的识别,如果关键词的识别与关键词组合的识别不一致,关键词组合的识别结果优先。
支持对关键词及关键词组合识别的结果的人工干预,并将存在争议的包含该关键词或关键词组合的短语、句子、段落进行争议存储,页面可显示、查询,属性修改等,供人工分析整理,在新的界面进行分析后,才允许入样本库进行模型训练。
关键词识别之前要求支持短语、句子、段落的分词,分词的依据须同时参考关键词库。
支持关键词多种识别方式:
精确匹配:即关键词字面与搜索词完全相同(如果有空格、前缀、后缀都不会展现),即一对一的完全匹配;
精确包含:(精确匹配+完全包含关键字);
同意包含:当搜索的关键词完全包含关键词或关键词的插入、颠倒、同义形态时都会展现;
核心包含:同义包含+包含关键词核心部分或核心部分的插入、及该关键词插入颠倒形态的短语,并支持同义词匹配都会展现;
广泛匹配:精确匹配+短语匹配+关键词的相关变体形式均可以展现;
否定匹配:与短语匹配或广泛匹配结合使用,可以把一些可能被匹配但与目的意图相反的关键词添加到否定匹配关键词列表中。
支持按照关键词的权重定义综合给出识别结果的可信度。
关键字库支持不良信息按涉政、涉黄、涉诈、涉黑、商业广告、垃圾消息等主题进行分类管理,每个监测主题支持关键词的与、或、非逻辑关系组合,使监测策略更加强大。
针对于关键字策略,可以进行策略的增加、修改、删除等功能。在系统策略中进行关键字匹配时,下发指定关键字特征(支持多策略组合),在检查业务数据时,通过检测业务内容中有一种指定关键字类型中的关键字判定关键字特征匹配成功。
关键词过滤通过构建关键词词库,对文本信息进行关键词过滤匹配。也可以通过对文本信息的分析转换,通过结构化的查询语言检索查询知识库或知识图谱,判断是否为不良信息。
对命中的文本数据送至后台处理中心,和源数据进行关联并展示,以进行查询和人工审核。
支持识别的文本格式包含但不限于text、htm、html、xml、wml、jsp、php、js、asp、aspx、txt、rtf等主流格式。
3.2.1.2.2关键字检测校准
由于通过关键字的匹配命中方式,如果规则相对宽泛,则可能造成系统监测事件的误报,为降低事件误报情况,提升命中准确率,系统提供通过关键字规则权重设置调整的功能,用于校准命中规则,提高命中率。
系统支持不同的关键字配置不同权重阀值,支持加权和减权关键字,当关键字权重达到固定阀值后才认定内容违规,可根据查准率和出现概率,设置调整关键字的权重,通过人工的配置调整,提高规则有效性,提升命中准确率。
3.2.1.2.3关键词匹配算法
敏感词过滤算法是通过建立某种算法来匹配出文本当中的敏感词,和关键字匹配类似,最常用方法包括确定有限状态机(Deterministic Finite Automaton,DFA)和AC 自动机(AhoCorasickAutomaton,AC)。
DFA 的核心步骤是将敏感词集合建立成敏感词字典树,这里通过以下例子简要介绍。敏感词库S,统计S 中的词并建立得到多颗敏感词树T,对文本进行敏感词查询时经过如下步骤,如果当前字在敏感词树Ti 中存在,则继续判断下个字和当前树的子节点Tij 是否匹配,如果出现不匹配则不存在敏感词,直到完整匹配出敏感词,则成功检查到。 AC 算法是一种多模匹配算法,即采用多个模式串进行字符串匹配,该方法利用到了敏感词串之间的重复字符结构信息,减少了计算量。AC 算法与DFA 算法类似,AC 算法包括三个函数,goto 函数表示字符按模式串的转移,暗含了模式串的重复子串的字符结构信息;failure 函数表示匹配失败后退回的状态;output 函数表示敏感词串对应于自动机的状态。匹配过程如下,首先从文本首字符开始进行匹配,如果匹配成功,则通过goto 函数转移到下一状态的比较,同时计算output函数查看是否已经匹配上敏感词;如果匹配失败,则继续用递归的形式利用failure函数进行转移。
关键词示例:
3.2.1.3文本相似度算法
文本相似度算法采用simhash算法,主要思想是降维,将文本分词结果从一个高维向量映射成一个0和1组成的bit,然后通过比较这个二进制数字串的差异进而来表示原始文本内容的差异。
文本相似度识别过程如下:
(1)计算hash:对于每一个得到的词组做hash,将词语表示为到01表示的bit位;
(2)加权:根据个词组对应的权重,对hash值做加权计算(bit为1则取为1做乘积,bit为0则取为-1做乘积);
(3)纵向相加:将上述得到的加权向量结果,进行纵向相加实现降维;
(4)归化:将最终降维向量,对于每位大于0则取为1,否则取为0,这样就能得到最终的 simhash的指纹签名[01001011];
(5)相似度比:利用 Simhash算法为每个文本生成个向量指纹,在 simhash中,判断2篇文本的相似性的就是海明距离。在经验数据上,我们认为两个文本的汉明距离<=3的话则认定是相似的。
3.2.1.4文本分类算法
文本内容经过分词后,将分词进行向量化操作转换为语义特征,语义特征送入用于文本分类的深度神经网络后输出文本分类标签。深度神经网络通过海量文本标注数据训练获得,在此基础上,利用了网络蒸馏技术实现文本分类。
3.2.1.5文本聚类算法
文本内容经过分词后,将分词送入深度特征提取网络进行语义特征提取,提取的特征通过实时聚类算法形成多个团簇,通过筛选聚集度较高的团簇找到对应的高频文本。
3.2.1.6AI语义分析识别算法
AI语义识别是通过词向量表示、机器学习模型等NLP技术对采集并预处理后的文本数据进行分类识别,来判断是否为不良信息。例如,通过Word2Vec和LSTM神经网络模型对文本数据进行识别分类。
系统支持对预处理后的文本通过机器学习模型进行识别分类,分类依据集团下达的违规和不良信息分类要求。
系统支持机器学习模型的通过样本训练的迭代更新。
系统支持样本库的输入、更新和导出。
支持文本数据的分词、特征向量表示,或支持字的特征向量表示,输入机器学习模型。
支持对AI语义识别和关键词识别两种识别结果,通过策略综合判断,输出识别结果。
支持对文本使用多种分类识别模型进行识别,并产生告警数据。
AI语义识别支持的机器学习算法模型包括且不限于深度学习、统计学习模型,如:char-CNN神经网络、LSTM神经网络、SVM模型等机器学习模型。
支持AI识别的准确率达到 85%以上。
支持识别的文本格式包含但不限于 text、htm、html、xml、wml、jsp、php、js、asp、aspx、txt、rtf等主流格式。
3.2.1.6.1文本涉黄识别模型
支持通过多分类涉黄文本模型识别,细化到色情服务交友、色情性行为、色情低俗段子、色情性器官、色情传播、色情舆情事件、色情其他、交友低俗隐晦等类别。同时提升了模型识别精准度。
3.2.1.6.2文本涉政识别模型
支持通过多分类涉政文本模型识别,细化到邪教迷信、时事报道、领导人正面、领导人负面、英雄烈士相关、落马官员相关、反党反政府言论等类别。同时提升了模型识别精准度。
3.2.1.6.3文本暴恐识别模型
支持通过多分类暴恐文本模型识别,细化到恐怖主义、分裂主义等类别。同时提升了模型识别精准度。
3.2.2图片识别
3.2.2.1图片类不良信息自动识别技术架构
对采集的图片进行识别分类,分类依据集团下发的违规和不良信息分类要求。通过AI图片智能分类、样例库比对、特征库识别等多种方法识别图片,并可根据策略综合判定图片是否为不良信息以及为哪一种不良信息。
图片类不良信息自动识别的采用多模型架构:神经网络深度学习分类、样例图片比对和人脸识别模型(提高功能),结合多种模型在不同类型识别上的优势,从而提高识别准确率。
图片预处理是将采集的图片进行格式、编码、大小的转换,以及缩放、翻转、去噪等处理,以便进行下一步的模型识别。
基于神经网络的深度学习模型本质为图片分类问题。采用包含大量训练样本图片的样本库对神经网络进行训练,多次调优满足准确率要求后,形成训练完成的神经网络模型。采集的图片信心进行缩放、去噪等预处理后,输入练完成的神经网络模型进行预测,输出模型的分类结果。
样例图片比对是设定违规违法和不良信息样例图片集,利用图像搜索比对的方法,比对采集的图片信息与预设样本图片是否近似或相同,实现设定违规违法和不良图片的筛选。
人脸识别(提高功能)是通过多维度人脸特征分析,识别采集的图片信息是否包含敏感人物,从而判断图片是否违规。
对命中策略的图片数据送至后台处理中心,和源数据进行关联并展示,以进行查询和人工审核。
3.2.2.2样例库比对
基于已知的不良信息图片,建立图片样例库。样例图片库用于对抓取的图片进行相似度比对,满足相似度阈值条件的抓取图片,判别为违规和不良信息。例如,通过直方图计算抓取图片和样例库中图片的相似度,来判断是否为不良信息图片。
1、支持基于已知的不良信息图片,建立图片样例库。
2、支持样例图片库的输入、更新和导出。
3、支持基于图片相似度的识别算法,用于比对采集的图片和样例图片。
4、基于图片相似度的识别算法的识别效果应优于 hash 算法。
5、支持对缩放、旋转、叠加文字、模糊、扭曲、颜色变化后的图片进行样例库比对。
6、支持识别的图片格式包含但不限于jpg、jpeg、bmp、gif、png、bmp、wbmp、tiff、tif等主流格式。
3.2.2.3特征库识别
1、支持对已知的不良信息图片提取特征信息,建立形成图片特征库。
2、支持特征库的输入、更新和导出。
3、支持对采集到的图片进行多维特征计算,多维特征至少包括图片中主要的肤色、纹理、形状等主要参数。
4、将计算得出的图片识别参数及图片原型与特征库中的特征样本进行分析比对,判定是否为不良信息图片以及为哪一类不良信息图片。
5、支持对变形的图片(旋转、水印、色度改变等)进行特征库识别和处理。
6、支持识别的图片格式包含但不限于jpg、jpeg、bmp、gif、png、bmp、wbmp、tiff、tif等主流格式。
3.2.2.4人脸识别
通过对抓取并预处理后的图片进行人脸识别,检测出图片中的敏感人物,并结合判断策略输出是否为不良信息。
1、支持检测出图片中的敏感人物。
2、支持自定义设置需要检测的敏感人物。
3、支持识别的图片格式包含但不限于jpg、jpeg、bmp、gif、png、wbmp、tiff、tif等主流格式。
3.2.2.5OCR检测
OCR分为两个大步骤:图像处理以及文字识别。识别文字前,需要对原始图片进行预处理,以便后续的特征提取和学习,包含:灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤。在文字识别阶段,运用机器学习进行特征提取、分类器训练和分类以及语言模型矫正及排版等处理。图片分析检测。
应支持分析图片文件和根据图片URL获取原始图片功能,系统识别图片格式应支持大部分图片格式,其中包括:JPEG、JPG、PNG、TIFF、JBIG、JPEG-2000、BMP、GIF、ICO、TGA、PCX、WBMP、SVG等。
图片分析检测功能应具备开关功能,可根据需要开启或者关闭。
系统支持对还原的图片进行分析,如果图片满足不良图片特征,系统将该图片判定为疑似不良图片。通过对图片的分析计算及处理,系统需将该疑似中标图片及所包括的主要相关信息进行保存,提供图片的缩略查看功能,待人工进行审核确认。
3.2.2.6AI图片智能分类
AI图片智能分类是通过卷积神经网络模型对抓取并预处理后的图片数据进行分类识别。例如,通过LeNet网络模型对抓取并预处理后的图片进行识别分类,判断是否为不良信息。 1、支持对采集的图片通过机器学习模型进行识别分类,分类依据集团下达的违规和不良信息分类要求。
2、支持机器学习模型的通过样本训练的迭代更新。
3、支持样本库的输入、更新和导出。
4、支持对图片使用多种分类识别模型进行识别,并输出识别结果,产生告警数据。
5、支持对AI 计缓存架构,对已检测图片的结果进行缓存,下次不用再次检测,提升图片检测效率。
3.2.2.6.1涉黄图片检测
系统支持涉黄多分类图片检测,包括不限于(色情、低俗、性感、正常)。
3.2.2.6.2涉政图片检测
系统支持涉政多分类图片检测,包括不限于(反华分子、国内政要、国外政要人物、恐怖分子、落马官员)。
3.2.2.6.3暴恐图片检测
系统支持暴恐多分类图片检测,包括不限于(暴恐场景、暴恐人物、多人聚集场景、管制刀具、火焰(烟雾)场景、军、警徽、恐怖画面、枪支弹药、特殊标识、特殊服装、血腥)。
3.2.3视频识别
实现对系统采集的视频内容进行智能取帧、镜头分割等处理后,通过AI智能分类、样例库比对等方法进行识别,对命中策略的视频数据送至后台处理中心,和源数据进行关联并展示,以进行查询和人工审核。
3.2.3.1视频分类识别
1)支持对采集的视频进行识别分类,分类依据集团下达的违规和不良信息分类要求。
2)支持通过AI视频智能分类、视频样例库比对、视频特征库识别等多种方法识别视频,并可根据策略综合判定视频是否为不良信息以及为哪一种不良信息。
3.2.3.2AI视频智能审计
1)支持对视频进行智能取帧,提取关键帧图片;
2)支持对单帧图片使用多种分类识别模型进行识别;
3)支持对视频所有提取帧识别结果进行综合判断,得到最终识别结果;
4)支持识别的视频格式包含但不限于 AVI、WMV、RM、RMVB、MPEG1、MPEG2、MPEG4(MP4)、3GP、ASF、SWF、VOB、DAT、MOV、M4V、FLV、F4V、MKV、MTS、TS 等主流格式。 3.2.3.3样例库比对
1)支持对视频进行智能取帧,提取关键帧图片。
2)支持对单帧图片使用基于图片相似度识别算法的样例库比对。
3)支持对视频所有提取帧识别结果进行综合判断,得到最终识别结果。
4)支持视频的旋转、缩放、局部涂改(如水印)、像素/清晰度调整进行样例库比对。
5)支持识别的视频格式包含但不限于 AVI、WMV、RM、RMVB、MPEG1、MPEG2、MPEG4(MP4)、3GP、ASF、SWF、VOB、DAT、MOV、M4V、FLV、F4V、MKV、MTS、TS 等主流格式。
3.2.3.4特征库识别 1)支持对视频进行智能取帧,提取关键帧图片。
2)支持对单帧图片使用图片特征库分析比对进行不良信息识别。
3)支持对视频所有提取帧识别结果进行综合判断,得到最终识别结果。
4)支持识别的视频格式包含但不限于 AVI、WMV、RM、RMVB、MPEG1、MPEG2、MPEG4(MP4)、3GP、ASF、SWF、VOB、DAT、MOV、M4V、FLV、F4V、MKV、MTS、TS 等主流格式。 3.2.3.5人脸识别
1)支持检测出视频中的敏感人物。
2)支持自定义设置需要检测的敏感人物。
支持识别的视频格式包含但不仅限于 AVI、WMV、RM、RMVB、MPEG1、MPEG2、MPEG4(MP4)、3GP、ASF、SWF、VOB、DAT、MOV、M4V、FLV、F4V、MKV、MTS、TS 等主流格式。
3.3钓鱼网站检测
能够对政府、运营商、银行类、电商等不同类型的网站提供多种策略,并对疑似钓鱼网站页面元素进行内容采集、识别:
1) 支持政府类钓鱼网站检测;
2) 支持银行类钓鱼网站检测;
3) 支持电商类钓鱼网站检测;
4) 支持其它可扩展钓鱼网站检测;
支持创建钓鱼任务,对域名、网站url、日志ip进行监测;
支持人工初审复审,对识别的钓鱼网站判断出仿冒类数据;
支持查询统计钓鱼网站监测和审核数据查看;
支持输出:仿冒移动、仿冒银行、仿冒ETC类
3.4系统应用平台
3.4.1管理功能要求
3.4.1.1关键词/库管理
关键词识别通过对采集并预处理后的文本数据进行关键词和关键词组的匹配,来判断是否为不良信息。例如,通过 DFA(Deterministic Finite Automaton)算法进行关键词识别匹配。
1、支持关键词的识别;
2、支持关键词组的识别,如果关键词的识别与关键词组合的识别不一致,关键词组合的识别结果优先;
3、支持对关键词及关键词组合识别的结果的人工干预,并将存在争议的包含该关键词或关键词组合的短语、句子、段落进行争议存储,页面可显示、查询,属性修改等,供人工分析整理,在新的界面进行分析后,才允许入样本库进行模型训练;
4、关键词识别之前要求支持短语、句子、段落的分词,分词的依据须同时参考关键词库;
5、支持关键词多种识别方式
精确匹配:即关键词字面与搜索词完全相同(如果有空格、前缀、后缀都不会展
现),即一对一的完全匹配
精确包含:(精确匹配+完全包含关键字)
同意包含:当搜索的关键词完全包含关键词或关键词的插入、颠倒、同义形态时
都会展现
核心包含:同义包含+包含关键词核心部分或核心部分的插入、及该关键词插入
颠倒形态的短语,并支持同义词匹配都会展现
广泛匹配:精确匹配+短语匹配+关键词的相关变体形式均可以展现
否定匹配:与短语匹配或广泛匹配结合使用,可以把一些可能被匹配但与目的意
图相反的关键词添加到否定匹配关键词列表中
6、支持按照关键词的权重定义综合给出识别结果的可信度;
3.4.1.2算法(神经网络结构)管理
对训练可用到的算法(如文本分词方式、文本训练算法)和神经网络结构进行管理。
3.4.1.3样本库管理
需支持文本语料、样例图片、样例视频等样本文件管理功能。
3.4.1.4识别能力管理
1、 需支持识别能力的审核功能。审核的方式可以是人工审核、机器审核。机器审核可以通过对预设的测试集的识别准确率等指标来审核识别能力。
2、需支持识别能力的增加及审核功能。
3.4.1.5规则管理
1、需支持规则审核功能。审核的方式可以是机器审核和人工审核。
2、需支持规则的审核功能。
3.4.1.6违规审核取证要求
3.4.1.6.1取证
取证是指做好用户动态信息管理、日志留存、有害信息报告工作,做到查之有据。取证为不良信息的治理提供法律依据。根据不同违规类型,取证建议满足以下策略:
1、未备案ICP:记录ICP信息、暂停接入,上报管理部门。
2、超出许可经营的ICP:如实记录经营内容和备案信息,通上报管理部门。
3、涉黄、赌博等违法网站:如实记录违规凭证,追溯信息源详细信息,限期整改,上报管理部门;
4、涉政、反动等违法网站:如实记录违规凭证,追溯信息源详细信息,立即封停,上报管理部门;
5、相关部门提供的举报信息源:配合追溯信息源,反馈违法凭证和详细网络信息。
取证存留内容包括不限于:
1、不良信息载体网址
2、不良信息主站网址(违规链接)
3、不良信息所在页面截图或页面快照
4、不良信息取证时点
5、拨测日志
6、不良信息违规性质:涉黄、涉政、赌博、暴恐、隐私、违禁等
如经举报,还需提供:
1、举报时间
2、举报渠道
3、举报人员联系方式(以便查证)。
取证查询手段包括不限于:
1、通过时间段筛选取证内容
2、通过关键词查询取证内容
3、通过举报渠道查询取证内容
4、通过网址查询取证信息
5、通过违规性质筛选取证信息
违规取证信息在违规信息隐患消除后,存留不少于6个月;违法取证信息存留时间,根据有关法律或监管部门要求执行。
3.4.1.6.2溯源
网络信息溯源是通过对互联网公开信息的采集,对特定信息加以追踪,从而找出其公开环境下的首发站点或者用户,并且理清传播脉络的手段。
要达到自动并辅以手动快速查询并形成分析结果,溯源需满足以下要求:
1、通过违规网址(违规链接)可查询完整嵌套链接:即能查询到违规链接至被嵌套网站的首页整个链接链。如A有链接B,B有链接C,C违规。则可以查到A-B-C层链
接关系。
2、通过违规内容或结果能查询具体违规标志位。
3、通过违规网址(违规链接)可查询拔测任务及所属省份。
4、通过审核结果,可查询完整审核记录,包括但不限于审核时间,审核类型,审核人员(或机器)。
5、遇到动态内容时,可查询当时拔测时的记录情况,结合取证信息可验证。
6、通过违规类型查询拔测违规记录。
7、通过拔测任务查询拔测违规记录。
8、通过时间范围查询拔测违规记录。
9、通过url查询拔测违规记录。
10、可导出根据以上不同条件所查询到的违规记录,并且记录需体现违规链接全链路关系,即如 1)的关系。
需要有人机交互界面可操作,可以由运营人员直接可排查。对查询的运营人员需要有权限管控。
技术上需要有完整的拔测过程日志,日志可查包括但不仅于:拔测建立的时间及人员、拔测内容的层级分析过程、拔测内容的判定过程及结果。
3.4.1.7策略管理
要求支持全局策略管理和节点策略管理并行的策略管理机制。
1、全局策略管理
1)需支持策略分类管理,可以设置分类名称,分类管理支持查询、新增、修改和等功能;
2)需支持关键字组合管理,可以设置分组名称、关键字组来源、关键字组合有效期等关键字组合属性,关键字组合管理支持查询、新增、修改等功能;
3)关键字管理需支持设置关键字、关键字组、级别、分类、权重和启用状态等关键字属性,关键字管理支持查询、新增、导入、导出、修改、启用或停用等功能;
4)样例图片组管理需支持设置分组名称,样例图片组支持按分组名称查询、新增、修改和删除等功能;
5)样例图片管理需支持设置图片、图片组、级别、分类和状态等样例图片属性,样例图片支持按图片组、分类、状态和级别进行组合查询,支持新增、还原、备份、同步、修改和停用等功能。
6)规则管理需支持设置规则属性的设置,规则管理支持查询、新增、导入、导出、修改、启用或停用等功能。
2、节点策略管理
1)需支持节点关键字组管理,该关键字组权限仅限于本节点,可以设置分组名称、关键字组来源、关键字组有效期等关键字组属性,关键字组管理支持查询、新增、修改和删除等功能;
2)需支持关键字管理,可设置疑似度下限和疑似度上限(即关键字入库权重阈值,页面命中关键字的权重总和)、关键字功能开关。关键字管理支持新增 1 个或多个关键字组,查看关键字组的关键字和删除关键字等功能;
3)需支持样例图片管理,支持选择样例图片组和更改样例图片组;
4)需支持图片审计管理,可设置色情识别开关、样例识别开关、策略名称、图片类型(用"|"分隔如.jpeg|.jpg|.gif|.bmp)、图片大小下限、图片大小上限、色情疑似度下限和色情疑似度上线等。
3.4.2审核管理
3.4.2.1不良信息审核通知
用于文本类、图片检测结果通知至审核人员。在不良信息检测平台检测到有不良内容出现时,系统支持将自动分析发现的不良内容提交给审核人员,由人工对自动分析结果进行审核判别。支持邮件或者短信通知的方式通知到审核人员,保证不良信息的及时审核处理。
3.4.2.2不良信息人工审核
提供不良信息的人工审核功能,机器识别结果为不良信息的内容进行人工审核,同时在机审合规前提下支持抽样送检,进一步判断是否不良信息。
提供文字信息的人工审核功能,审核项包含正常和违规,默认值是未审核,同时提供批量设置功能。
提供图片的人工审核功能,以实际图片呈现方式确认当前获取的图片是否违法。
支持查看已审核的记录或违规的记录。
支持批量审核。
支持按条件导出功能。
支持将人工审核后的信息导入到算法模型的样本库中。
支持在机审合规前提下抽样送检。
3.4.2.3不良信息人工审核流程
系统支持将自动分析发现的不良内容提交给审核人员,由人工对自动分析结果进行审核判别。人工在对系统上报的不良文本和图片进行审核时,可设置不良文本和图片的类别(如淫秽色情、低俗、赌博正常等)。
识别结果的指标为疑似度,疑似度预设定为:低、中、高。提交人工审核的疑似度可调节。如人工审核疑似度可设置为低、中、高。疑似度小于低的,自动放行。疑似度大于高,自动放入疑似黑名单库;疑似度在低以上的,自动放入待审核库,由人工审核认定后进入疑似黑名单库。
系统支持人工修改系统自动判定形成的疑似黑名单名单的功能,用于校正系统自动识别、审核形成的疑似黑名单名单记录。对于人工校正纠正为合法内容的记录,系统自动从疑似黑名单名单中清除该记录。
支持对人工确认违规的文本和图片进行原始快照取证保存、查看、下载,保存的信息除原始内容外至少应包括存在该不良内容的网页链接、发现时间、上报采集点等。