ollaborative filtering。这次准备分阶段实现。首先是以文章情报为对象,然后再考虑其它的媒介。
其次,对算法中使用的数学模型进行了分析。
在cluster诸算法之中,wood法和群平均法的精度较好。
分组计算方面,基本上是利用类似算法。分组所使用的类似算法中jaccard’s coefficient
法,平均最小二乘距离法,改良二值距离法的精度比较理想。
clustering方法和分组算法的目的是相同的。clustering的特点是精度高,但处理速度较慢。分组算法则恰恰相反。可以靠系统控制参数来平衡这两种方法的使用,根据系统的规模灵活调整。
判别类似的对象有4种,即用户(属性)对用户(属性)的类似,文章(属性)对文章(属性)的类似,用户(属性)对文章(属性)的类似及关键字的类似。判断的对象不同,评价结果也各不相同。对于用户间的类似和文章间的类似来说,按jaccard’s coefficient法,平均最小二乘距离法,改良二值距离法距离法,皮尔森相关法的顺序,计算精度比较理想。而对用户和文章的类似来说,则按改良二值距离法,jaccard’s coefficient法,平均最小二乘距离法,皮尔森相关法的顺序,为计算精度的顺次。关键字的类似考虑用统计学的方法去实现。另外,由于必须确定提供范围的域值,所以同距离算法相比,相关算法要适合得多。如果将上面几种方法组合起来使用,相信还会进一步提高推荐精度。
② 关于提供的服务
对一般用户主要提供以下服务:
・ 推荐服务:寻找和对象用户的相似用户,把对象用户未访问过的文章向其推荐;
・ 提供类似文章服务:提供和对象文章类似的文章的一览;
・ 检索结果的过滤服务:在检索结果的基础上,根据实施检索的用户的爱好,对结果进行挑选。
・ 新到情报的推荐服务:根据各个用户的不同要求,在一定的时期内,把新到情报提供给用户;
・ 用户特征指定服务:允许用户将其关注的单词/文章等在系统里登记或删除;
・
・ 热门网页的提供服务:提供受欢迎的网页的地址;
・ 个性广告的提供服务:对互联网服务商(isp)来说,可根据用户的特点、爱好而主动提供恰到好处的广告;
为管理操作的方便,同时也向系统管理员提供机能丰富的服务。
③ 关于体系结构
・ 采用适合于互联网www服务系统开发的java语言,以servlet的形式开发;
・ 协调过滤系统属于multi-agent系统的一种,所以必须具有其分散处理的特性。本系统将采用计算机分散技术的标准-corba(common object request broker architecture),来实现分散化处理;
・ 采用dbms对情报进行管理。并利用jdbc与本系统其它部分相连;
・ 自然
<< 上一页 [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] ... 下一页 >>
