托管 OpenSocial 应用程序

托管 OpenSocial 应用程序
您的网站可以托管与您站点的社交网络集成的第三方 OpenSocial 应用程序。基本要求在 OpenSocial API 规范中进行了详细说明。 通常情况下,OpenSocial 应用程序包括小工具,所以您将需要提供一个允许用户向其页面添加小工具的方式。可以提供您自己的目录、链接到精选的网址和/或允许用户通过网址添加小工具。通常情况下,小工具作为包含页面内的独立 iframe 执行。 要托管 OpenSocial 应用程序,您的网站...

Building and running Shindig PHP server

Building and running Shindig PHP server
Prequisites before building Shindig for PHP In order to build and run Shindig for PHP, you must have the following: A Subversion client installed in order to checkout the code. Instructions for downloading and installing Subversion can be found here: http://subversion.tigris.org/ Apache with mod_rewrite enabled. PHP 5.2.x with the json, simplexml, mcrypt and curl extent...

通过MySQL内置全文检索实现中文的相关检索

通过MySQL内置全文检索实现中文的相关检索
/** * @author : walkerlee * @copyright : www.neatstudio.com | www.walkerlee.net */ 转载请保留以上信息。 注:本文使用的MySQL版本为:MySQL 4.0.x 在MySQL4中,是已经开始支持全文检索(索引)的了。但是只是对英文支持全文检索。 由于英文在书写上的特殊性,使得分词算法相对中文来说,简单得多。一般来说,我们可以通过单词与单词之间的空格,以及标点符号来完成这个分词过程。 但是就中文来说,...

让.Net 应用程序突破2G的内存访问限制

让.Net 应用程序突破2G的内存访问限制
Author: Eaglet 32位Windows操作系统下单个进程的用户模式内存访问的限制是2G,如果在boot.ini中设置了/3G开关,则最大为3G,超过3G将无法访问。由于Hubble.net 项目是一个数据库系统,必须要考虑使用大内存缓存数据的问题,于是最近对这个问题进行了一些研究。其实这块的技术是现成的,32位操作系统下只有通过 AWE的方式来扩展内存。这块的文章也很多,但很少有.net 下如何使用的实例,我做了一个类似M...

语言研究中的词频统计

语言研究中的词频统计
随着计算机的普及以及统计软件的开发,在语言研究中进行统计分析,可以说越来越方便了。对这一研究方法,本人没有做系统的考察,仅就手头现有的资料谈一点粗浅的认识,希望能引起大家的讨论,起到抛砖引玉的作用。 一、 什么是概率 设事件A在n次重复试验中发生的次数为r。当试验的次数n很大时,事件A发生的频率w(A)=r/n稳定地在某一数值p的附近摆动;一般说来,随着试验次数的增多,这种摆动的幅...

【库存】分布式词频统计

【库存】分布式词频统计
一个规模庞大的多语言语料库,已经经过预处理,分成了12个文件,每个文件存放在一台服务器中。每个文件中包含800亿个单词,每个单词占一行,平均每个单词40字节。假设服务器都已经联网,每台服务器有双CPU和4G的内存,4×400GB的硬盘,换句话说,每台服务器就是一个高配置的PC机。请设计一个方案,找出出现频率最高的一百万个单词。 这个问题基本上可能有两种思路。第一种需要先在每台服务器,完成对单词词...

Google重度依赖者的Firefox浏览器

Google重度依赖者的Firefox浏览器
名为:FoxGLove,是Firefox爱好者根据Firefox portable 版本制作出来的,整合了众多google 服务,包括Google Reader、Gmail、Google Docs、Google Maps等,我一直是相当喜欢Firefox的,同时也是google重度依赖者,每天必开Gmail邮箱、calendar日历、Reader阅读器,偶尔还要去看下网站管理员、Analytics等。这个版本很适合我,况且又是portable移动版,可以不受系统限制,也不跟系统原有Firefox冲突,这样就...

基于Lucene的中文分词实现:基于StopWord分割分词

基于Lucene的中文分词实现:基于StopWord分割分词
Lucene应用越来越多,在对中文对索引过程中,中文分词问题也就越来越重要。 在已有的分词模式中,目前比较常用的也是比较通用的有一元分词、二元分词和基于词库的分词三种。一元分词在Java版本上由yysun实现,并且已经收录到Apache。其实现方式比较简单,即将每一个汉字作为一个Token,例如:“这是中文字”,在经过一元分词模式分词后的结果为五个Token:这、是、中、文、字。而二元分词,则将两个相连的汉...

网页搜索引擎竞争分析

网页搜索引擎竞争分析
搜索引擎公司经常说核心竞争是技术,实际上这个技术是宽泛的概念,应该包括了对用户的理解、对产品的理解、技术水平。 Google:“完美的搜索引擎需要做到确解用户之意,切返用户之需”。 搜索做得好不好不仅仅是算法的事情,更重要的是对用户意图的理解,所以搜索引擎的竞争有两个点:1.破解用户之意 2.切返用户之需。 破解用户之需是产品部门的工作。从产品经理的角度来看,对一个产品有三个工作1.需求分析 ...

WEB网页结构化信息抽取技术介绍

WEB网页结构化信息抽取技术介绍
关键词: 结构化信息抽取,信息抽取 注意:原创文章,无版权,可以任意转载,但必须完整转载全文、url和内部解释性链接     WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索引擎和通用搜索引擎最大的差别。 如:比较购物搜索那就需要抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔...
Copyright © 浩然东方 保留所有权利.   Theme  Ality 07032740

用户登录