在Google Java App Engine上实现文档存储和搜索-google java format

【51CTO技术译文】为什么Java程序员要考虑使用Google的Java App Engine呢，主要有以下几点原因：只要你的页面访问量每月不超过500万，Google就免费向你提供空间。如果访问量超过了这一限额，你也可以随时通过升级为付费用户取消这一限制。

◆Google的App Engine 平台（包括Java和Python版本）让你不用做什么额外工作就有很强的伸缩性

◆App Engine 提供了一个功能很强的管理界面，你可以通过它查看错误日志，浏览你所保存的数据，分析程序的性能（例如请求响应时间等），还可以实时监控你所部署的应用。即便是和Amazon的EC2这样优秀的Web控制台比起来，Google的Web应用程序管理功能也毫不逊色。

◆只要你愿意，你也可以通过App Engine SDK 把App Engine 上的应用迁移到你自己的服务器上，当然，这样就会损失一些伸缩性(scalability)了。

◆因为在App Engine上开发程序时使用的都是标准的 API，所以当你要把应用移植部署到其它平台上时，就只需要对程序作非常小的改动了。不过反过来做就不是这么简单了。比如说如果你的程序调用大量的J2EE API函数，或者说依赖于关系型数据库等等，那么把这些程序移植到App Engine上就非常麻烦。

◆那些用J2EE写Web程序的开发者们可能一开始会觉得App Engine 的种种限制让人觉得很不适应，但是这样做的好处也是很明显的，服务器的花费将大大减少。如果你想要更大的自由度和伸缩性，那么你还可以考虑Amazon的EC2服务（我是既用App Engine，也用EC2）。

本文接下来将介绍Java开发者如何使用Google应用程序引擎。它演示了如何在App Engine上编写实现文档的存储和搜索功能。本文还探讨了Java App Engine文档里的一些有用技术和应用程序示例。

你需要作的准备

◆Eclipse或IntelliJ IDEA开发环境

◆一个App Engine 帐号，如果还没有的话，在这里申请（没有App Engine 帐号的开发者可以通过在你自己电脑上安装App Engine SDK体验它）

◆下载App Engine SDK 供本地开发时使用

◆安装Eclipse的或IntelliJ 的Java App Engine 插件。

示例工程里的文件

图1 示例工程里的文件

许多Java开发人员使用 Lucene （或基于Lucene的框架）来实现搜索功能。但是，在App Engine环境下使用Lucene的内存索引模式没有什么好处。我们的这个示例工程另辟蹊径在App Engine平台上实现了搜索功能。

App Engine的持久性数据存储效率是非常高的，但它不使用关系模型，也没有Hibernate这样的对象关系映射（Object Relational Mapping ，ORM）框架。不过，App Engine还是提供了对一些标准的持久性API，如JDO，JPA,以及JCache。我们的示例程序使用JDO实现数据持久（data persistence）。

这个程序部署在这里。每个使用这个演示程序的人都可以把数据清空从头再来，所以你这次添加的信息下次可以就会看不到了。

作者注：这个程序演示了JDO的使用以及如何用JDO实现搜索，为了突出重点，程序没有增加对多用户这些功能的支持。

图1显示了这个Java App Engine项目所包含的文件。后续的章节将详细介绍packagecom.kbsportal.model 里的模型类和 com.kbsportal.persistence 里的持久类PMF。由于packagecom.kbsportal.util这个包里的各种类和App Engine里的差别较大，我们就不在这里作过多讨论了。如果要详细了解这些，你可以看看我们的源代码以及JSP文件（在 war/WEB-INF目录里）。我们也会对JSP文件里某些Java代码片段加以解释。

使用JDO实现数据持久化

JDO是一个用于持久化Java对象的古老API。起初，为了实现持久化存储，JDO要求开发者必须编写和维护XML文件，以提供Java类的数据映射属性。Google使用 DataNucleus 工具自动完成这一过程。你只需要在你的Java模型类里面加以注解，DataNucleus工具就会自动为你维护正确的数据映射关系。如果使用了Eclipse的或IntelliJ IDEA的App Engine插件，当你编写持久类时，DataNucleus工具就会自动在后台作用。

警告：JDO和App Engine放到一起有时候会产生兼容性问题。如果你是在本地用Eclipse开发，只要删除目录 WEBAPP /war/WEB-INF/ appengine-generated/ local_db.bin里的文件。如果你的Web应用已经部署上去了而且要修改模型类，那么你只需在App Engine控制台中把已有的索引文件删除即可

以下各节将介绍两个持久类的实现并探讨这些基于JDO实现的代码。

#p#

文档模型类

Eclipse或IntelliJ IDEA的App Engine插件与JDO以及DataNucleus工具的组合非常好用。使用这个组合设计和实现你自己的模型文件，并添加必须的注解，这些对你来说应该不成问题。不过你还是要注意DataNucleus工具在后台运行时所提示的错误信息。

在开始设计实现自己的持久类前，不妨先看看下面这个模型类，它是用来反映一个文件模型的。这个类在定义时会引入所需的JDO 类（实际上你的编辑器会自动帮你填写这些包含语句）。第一行注释声明了这个类是持久的。这个类被标识为APPLICATION，这样你就可以为那些创建后就将持久存在的对象分配ID。如果你要为数据存储对象分配ID，那么你可以把类型指定为DATASTORE。

package com.kbsportal.model;  
 
import javax.jdo.annotations.IdentityType;  
import javax.jdo.annotations.PersistenceCapable;  
import javax.jdo.annotations.Persistent;  
import javax.jdo.annotations.PrimaryKey;  
 
@PersistenceCapable(identityType=IdentityType.APPLICATION)  
public class Document {

这段代码声明了把成员变量uri作为在数据存储里查找Document对象时的主键。JDO的索引主键也被设为URI。本文的示例文本存储在IndexToken这个类里面使用了这个主键（IndexToken类将在下一节进一步讨论）。这段代码还特别说明了title, content以及numWords这几个成员变量要持久保存。

@PrimaryKey private String uri;  
@Persistent private String title;  
@Persistent private String content;  
@Persistent private int numWords;

类声明里的其它部分则不包含JDO具体说明。

public Document(String uri, String title, String content) {  
    super();  
    setContent(content);  
    this.title = title;  
    this.key = uri;  
  }  
  public String getUri() { return key; }  
  public String getTitle() { return title; }  
  public void setTitle(String title) { this.title = title; }  
  public String getContent() { return content; }  
  public void setContent(String content) {  
    this.content = content;  
    this.numWords = content.split("[\\ \\.\\,\\:\\;!]").length;  
    System.out.println("** numWords = " + numWords + " content: "+content);  
  }  
  public int getNumWords() { return numWords; }  
}

注意在内容字符串上所作的长度限制；GoogleApp Engine的数据存储限制字符串不得超过500个字符。（使用com.google.appengine.api.datastore.Textfors可以获得没有长度限制的字串。）

#p#

IndexToken模型类

该IndexToken类基于JDO实现了搜索功能。这个类有两种工作模式：整词索引、整词及词前缀索引。在源文件的头部你可以通过一个常量指定它的工作模式：

package com.kbsportal.model;  
 
import java.util.ArrayList;  
import java.util.Collections;  
import java.util.Comparator;  
import java.util.HashMap;  
import java.util.List;  
 
import javax.jdo.PersistenceManager;  
import javax.jdo.annotations.IdGeneratorStrategy;  
import javax.jdo.annotations.IdentityType;  
import javax.jdo.annotations.Index;  
import javax.jdo.annotations.PersistenceCapable;  
import javax.jdo.annotations.Persistent;  
import javax.jdo.annotations.PrimaryKey;  
 
import com.kbsportal.persistence.PMF;  
import com.kbsportal.util.NoiseWords;  
import com.kbsportal.util.Pair;  
import com.kbsportal.util.SearchResult;  
 
@PersistenceCapable(identityType=IdentityType.APPLICATION)  
public class IndexToken {  
  static boolean MATCH_PARTIAL_WORDS = true;  // package visibility

把这个标志设置为true，就会开启单词的前缀匹配功能，类似于搜索关键字自动校正功能。

现在我们该看看如何建立索引片段（可能还包括单词前缀的索引片段）以及如何确定每个索引片段的匹配度。以下是具体的代码（来自IndexToken.java包里的源文件，它是作为一个单独的局部类实现的，以方便在其他项目重复使用）：

class StringPrefix {  
  public List getPrefixes(String str) {  
    List ret = new ArrayList();  
    String[] toks = str.toLowerCase().split("[\\ \\.\\,\\:\\;\\(\\)\\-\\[\\]!]");  
    for (String s : toks) {  
      if (!(NoiseWords.checkFor(s))) {  
        if (!IndexToken.MATCH_PARTIAL_WORDS) { // exact words only  
          ret.add(new Pair(s, 1f));  
        } else { // or, also match word prefixes  
          int len = s.length();  
          if (len > 2) {  
            ret.add(new Pair(s, 1f));  
            if (len > 3) {  
              int start_index = 1 + (len / 2);  
              for (int i = start_index; i < len; i++) {  
                ret.add(new Pair(s.substring(0, i), (0.25f * (float) i) / (float) len));  
              }  
            }  
          }  
        }  
      }  
    }  
    return ret;  
  }  
}

应用中的一些理念

通过使用 Peter Norvig的拼写检查算法可以实现更完整的拼写检查功能。使用相对较低的相关系数可以生成错误的拼写序列和IndexToken实例。在我所写的书"Practical Artificial Intelligence Programming in Java"的第9章里有一个Java版本的 Norvig算法实现。

#p#

其它实现方法

我在另一个大项目里使用了这些代码，那个项目需要一个弹出式的文字补全提示；我们存储的这些前缀起到了“双重作用”。本文主要讲解基于JDO的文件存储和搜索，但你可以简单地使用一个JavaScript库，例如 Prototype或GWT实现弹出的提示菜单。另外，你也可以只把词干作为 IndexToken实例保存。点击此处查看相关Java词根提取程序。

Pair这个类是在com.kbsportal.util包里实现的，这个包里面还有另外两个类： NoiseWords和SearchResults 。我们在此不再追究这些类的细节。今后我们将深入这些源文件。

要完成IndexToken，以及示例程序的其余部分，我们要用到JDO的API，首先是在类属性说明里加入这些注解：

@PrimaryKey 
@Persistent(valueStrategy = IdGeneratorStrategy.IDENTITY)  
private Long id;  
@Persistent @Index private String textToken;  
@Persistent private String documentUri;  
@Persistent private Float ranking;

@Persistent 标示这个成员在整个对象被保存时要被插入到数据存储里去。valueStrategy的值是可选的，按上面这样设置是表明你希望数据存储为你这个类的ID属性自动赋值。@PrimaryKey 注释让DataNucleus工具知道，在查找数据存储区里的这种对象时要以该参数为主键。

作者注：通常情况下都是通过主键获取对象。然而，在我们这个程序里，我们将要通过IndexToken类的参数值 textToken 来查找对象。但是我们不能使用参数textToken 作为主键，因为这样有可能导致在数据存储区里有主键一样的不同实例出现。

下面这个成员方法能获取文件ID（文件的URI）以及文件中的一段文字，实例化一个IndexToken类：

public static void indexString(String document_id, String text) {  
    PersistenceManager pm = PMF.get().getPersistenceManager();  
    List lp = new StringPrefix().getPrefixes(text);  
    for (Pair p : lp) {  
        if (p.str.length() > 0 && !Character.isDigit(p.str.charAt(0))) {  
          pm.makePersistent(new IndexToken(document_id, p.str, p.f));  
        }  
    }     
  }

这段代码用到了StringPrefix 类。另外还使用了工具类PMF（等下我们就会更详细地去了解它）来获得一个App Engine持久管理器（persistence manager)的实例。这类似于一个JDBC 连接对象。

在IndexToken里还有一个值得一提的地方就是search这个静态方法.

public static List search(String query) {  
    List< SearchResult> ret = new ArrayList< SearchResult>();  
    PersistenceManager pm = PMF.get().getPersistenceManager();  
    String [] tokens = query.toLowerCase().split(" ");  
    HashMap matches = new HashMap();

此方法返回SearchResult类的实例。查询字符串被转换为小写并被分割。对于每一个片段，你都将再次用StringPrefix计算前缀（以及原始单词），计算结果将用于查找包含这些关键词的文件：

for (String token : tokens) {  
      List lp = new StringPrefix().getPrefixes(token);  
      for (Pair p : lp) {  
        String q2 = "select from " + IndexToken.class.getName() + "  where textToken == '" + p.str + "'";  
        @SuppressWarnings("unchecked")  
        List itoks = (List) pm.newQuery(q2).execute();

这个查询字符串可能看起来会觉得有点像标准的SQL语句，但不是。其实它们是JDO的查询语言（ JDOQL ）。它从一个在数据存储区持久化了的类里面取数据，而不是像SQL语句那样通过一个数据库的表名来提取数据。TextToken就是IndexToken 的一个持久化参数。这个JDOQL能返回数据存储区中所有textToken成员参数与查询关键字匹配的IndexToken实例。（51CTO编者注：JDOQL是JDO的查询语言；它有点象SQL，但却是依照Java的语法的。）

搜索功能的其它部分实现起来就没有什么难点了。只需要保存所有的文件匹配以及根据匹配度计算出的排名权重。

for (IndexToken it : itoks) {  
          Float f = matches.get(it.getDocumentUri());  
          if (f == null) f = 0f;  
          f += it.getRanking();  
          matches.put(it.getDocumentUri(), f);  
        }  
      }     
    }

这样我们就建立好了查询关键字与文件之间的映射关系，还知道了这些文件的URI以及排名权重。我们只需要把匹配结果从数据存储区里取出来就可以了（只有这样我们才有结果可显示），然后把这些与关键字相匹配的文档按匹配度从高到低排列，就形成了搜索结果。

for (String s : matches.keySet()) {  
      String q2 = "select from " + Document.class.getName() + "  where uri == '" + s + "'";  
      @SuppressWarnings("unchecked")  
      List itoks = (List) pm.newQuery(q2).execute();  
      if (!itoks.isEmpty()) {  
        int num_words = itoks.get(0).getNumWords();  
        ret.add(new SearchResult(s, matches.get(s) / (float)(num_words), itoks.get(0).getTitle()));  
      }  
    }  
    Collections.sort(ret, new ValueComparator());  
    return ret;  
  }

ValueComparato这个类是在源文件IndexToken.java里定义的，作用就是对搜索结果进行排序。

static class ValueComparator implements Comparator {  
    public int compare(SearchResult o1, SearchResult o2) {  
      return (int)((o2.score - o1.score) * 100);  
    }  
  }

处理持久性数据存储：PMF类

我们这里所展示的PMF类代码是从Google的文档里复制过来的。这个类创建了一个私有的PersistenceManagerFactory实例并重用它。

package com.kbsportal.persistence;  
import javax.jdo.JDOHelper;  
import javax.jdo.PersistenceManagerFactory;  
 
public final class PMF {  
    private static final PersistenceManagerFactory pmfInstance =  
        JDOHelper.getPersistenceManagerFactory("transactions-optional");  
    private PMF() {}  
    public static PersistenceManagerFactory get() {  
        return pmfInstance;  
    }  
}

#p#

示例程序的JSP页面

在写JSP页面时，我通常最开始是把Java代码嵌入到JSP页面里，到最后，我再把一些公用代码提取出来放到自定义的JSP标签库里，再给模型类添加上额外的行为。在这个程序里，我就不演示最后这几步清理工作了。

作为首页显示的index.jsp页面是用来显示系统里所有的文件的。它也包含了一些可选的调试代码（我通常会把这些调试代码注释掉），可以列出所有IndexToken类的实例（见图2 ）。index.jsp 这个文件最开头的部分引入了一些必要的类，定义了HTML头信息，然后还引入了menu.jsp，这个文件是用来作分页条的。

< %@ page import="javax.jdo.*, java.util.*,   
    com.kbsportal.model.*,com.kbsportal.persistence.PMF" %> 
< %@ page language="java" contentType="text/html; charset=ISO-8859-1" 
    pageEncoding="ISO-8859-1"%> 
< !DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"   
   "http://www.w3.org/TR/html4/loose.dtd"> 
< html> 
< head> 
< meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1"> 
< title>KBSportal Java App Engine Search Demo< /title> 
< /head> 
< body> 
< %@ include file="menu.jsp" %>

图2 列出所有文件：调试代码列出了所有IndexToken 实例，并显示了一些索引片段。

在IndexToken实例里我们已经见过JDOQL查询语句。在这里，查询语句返回所有文件对象：

< h2>All documents:< /h2> 
< %  
  PersistenceManager pm = PMF.get().getPersistenceManager();   
  Query query = pm.newQuery(Document.class);  
  try {  
       List< Document> results = (List< Document>)   
          query.execute();  
       if (results.iterator().hasNext()) {  
           for (Document d : results) {  
             System.out.println("key: "+d.getUri() +   
                ", title: "+d.getTitle());  
%> 
               < h3>< %=d.getTitle()%>< /h3> 
               < p>< %=d.getContent()%>< /p> 
< %  
           }  
       }  
  } finally {  
      query.closeAll();  
  }     
%>

这里我们没有用JDOQL查询语句，而是用了一个查询对象来获取数据，这样我们所获得的查询结果就在其它JSP文件里也可以使用了，如果你只想获取某个特定标题的文件，那么通过下面的代码可以筛选结果：

String title_to_find = "Dogs and Cats" 
query.setFilter("title == " + title_to_find);

index.jsp这个文件的后半部分也包含一些调试代码，在调试Web程序时我们可能会需要启用它。这段代码与之前那段调试代码几乎完全一样，只不过这段代码显示的是所有的IndexToken实例。

query = pm.newQuery(IndexToken.class);  
   try {  
       List results = (List) query.execute();  
       if (results.iterator().hasNext()) {  
           for (IndexToken indexToken : results) {

图3 用于向数据存储区添加文件的表单：这个JSP页面提供了一个可以向系统增加“文件” 的HTML输入框

new_document.jsp这个文件提供了一个可以向系统增加“文件” 的HTML输入框。（见图3 ）。下面的代码是从new_document.jsp截取出来的，它的作用是页面请求中是否包含表单数据。如果有的话，就向数据存储区里插入一个Document实例。

< %  
  String url = request.getParameter("url");  
  String title = request.getParameter("title");  
  String text = request.getParameter("text");  
  if (url!=null && title!=null && text!=null) {  
   PersistenceManager pm =   
      PMF.get().getPersistenceManager();  
   try {  
     Document doc = new Document(url, title, text);  
     pm.makePersistent(doc);  
     IndexToken.indexString(doc.getUri(), doc.getTitle() +   
        " " + doc.getContent());  
   } finally {  
     pm.close();  
   }  
  }  
%>

makePersistent这个方法会被直接调用并把文件保存到数据存储区。静态方法IndexToken.indexString则把根据文件标题和内容生成的片段插入到数据存储区里。

图4 从数据存储区里：删除所有文件和索引片段示例应用程序需要一个简单的方法来清空数据存储区里所有测试“文件”数据

由于此示例程序是公开托管在Google那里，它需要一个简单的方法来清除文件存储区里所有的测试“文件”。delete_all.jsp这个jsp文件能从数据存储里删除所有的文件和索引片段（参见图4 ）。

PersistenceManager pm = PMF.get().getPersistenceManager();   
  Query query = pm.newQuery(Document.class);  
  try {  
    List results = (List)   
       query.execute();  
    if (results.iterator().hasNext()) {  
        for (Document d : results) {  
            pm.deletePersistent(d);  
        }  
    }  
  } finally {  
    query.closeAll();  
  }   
 
  query = pm.newQuery(IndexToken.class);  
  try {  
    List results = (List) query.execute();  
    if (results.iterator().hasNext()) {  
      for (IndexToken indexToken : results) {  
          pm.deletePersistent(indexToken);  
      }  
    }  
  } finally {  
    query.closeAll();  
  }

search.jsp的JSP的文件包含了一个HTML搜索框（参见图5 ）。以下是处理搜索操作的代码：

String query = "";  
   String results = "< b>Results:< /b>< br/>";  
   Object obj = request.getParameter("search");  
   if (obj != null) {  
     query = "" + obj;  
     List hits = IndexToken.search(query);  
     for (SearchResult hit : hits) {  
       results += "< p>" + hit + "< /p>";  
     }  
   }

图5 搜索结果： filesearch.jsp包含有一个HTML搜索框。

SearchResults类里新增的ToString 方法用于格式化搜索结果：

public String toString() { return url +  
   " - " + score + ": " + title; }

成本低廉的解决方案

Google App Engine为我们提供了一套无成本（或低成本）的解决方案。尽管对于某些Web应用服务来说，它可能并不是最佳的部署平台，但它绝对值得一试，而且绝对有资格成为我们开发工具箱里的备选项。

【App Engine相关文章推荐】