Apr
23
2008
To display the number of emails (both unread and in toto) for each folder in the Mozilla Thunderbird folder list:
- Select Tool | Options... from the menu in Mozilla Thunderbird.
- Go to the Advanced category.
- Open the General tab.
- Make sure Show expanded columns in the folder pane is checked. (See Graph 1)
- Close the configuration dialog.
- Click the table icon in the folder pane. (See Graph 2)
- Click Unread, Total and Size so that a checkbox appears next to all the columns you want to see.

Graph 1 Configuration

Graph 2 Select columns You want to see
Apr
09
2008
基础设施构架
基础设施要好用、够用。这里着重要考虑的是总的数据量,进出流量以及增长率。换句话说,数据仓库最终要装多少数据,到底会承受怎样的输入输出压力,随着时间推移总量和输入输出的压力如何变化。通常用现成的Oracle RAC,按照OLAP来配置;也可以采用免费DBMS加中间件的方式组成系统;甚至连整个存储系统都自行构建,例如采用Hadoop。显然,Oracle搭建起来比较快,但成本相对高;后者需要相当的人力资源投入,但可以掌握实际技术,灵活性高。
原始数据清洗
主要是过滤噪音、打标签、补足缺失部分
数据导入
分布、存储、索引
数据归总
按照商业或者分析的需求计算统计值
数据仓库设计
Apr
09
2008
数据越来越受到人们的重视,数据经过加工就成为“信息”,而信息一旦得以有效利用,就是商业中的竞争优势和壁垒。在互联网时代的商业模式上,这个已经越来越不是什么秘密了。
数据的流程总不外乎以下的步骤:搜集,清理,存储,查询,分析,理解,预测,决策,反馈。
搜集的过程看上去很直接:卖东西,就记住每一笔交易的时间和金额。其实,如果能够主动地根据对整个商业流程的理解去搜集更加丰富的数据源,那最终可以得到的“信息”也会更有价值。
清理和存储是为查询和分析提供技术支持。好的技术设施平台应该在整个流程中看上去并不显眼,但是用起来够用好用。当然这个基础设施是有成本的,技术投入和资金投入常常需要平衡。
查询是手段,更是观察问题的出发点。当一个人明确地知道该去查询什么的时候,数据就开始有了生命。查询要决定看数据的角度、维度和粒度。并且在不同的粒度上把数据的统计量计算出来。
数据的生命周期是短暂的,人们通常只关心离现在不远之前的过去和不远的之后的将来。如果搜集了海量的数据而无法及时处理分析,它们就会静静地躺在那里,除了占用存储设备,毫无价值。
分析是在查询和查询建立的中间数据上建立模型,试图解释过去、预测未来。
对于历史,需要“总结”。所谓总结就是求和、求平均、找最大最小。比如我们希望对具体的客户建立模型,他的购买历史就很重要,但是你如果把他的所有交易一一纪录下来,数据很全,却没什么用!你可以按照商品的分类求次数和金额的总和,确定他关心的分类;你可以根据时间的远近加权求平均,这样能更加细致地看到他最近的变化。最终,你需要的是一个“统计上的总结”,它可以是一组数字、或者一个公式。
在分析的基础上建立模型,就可以预测未来的表现。比如你总结到一个客户最关心电子消费类产品,你向他推荐iPhone就比口红要有效得多。而模型,就会自动地把这一套逻辑实现在你提供的服务中去。
如果你忽然发现用户中大量购买某一类商品,你的整个供应链就应该得到通知去应付新的情况。
如果你看到了趋势,但大潮流还没有到来。是应该跳下水去推波助澜,还是站在岸上静静观望,这是一个商业决策者必须做出的选择。无论是数据仓库还是DSS,能够给决策者提供嗅觉的依据是最高的价值所在。
最后,再用数据证明决策或者模型的效果;功德圆满。
Apr
03
2008
Let's talk about "real time." When we say real time, we mean to be able to serve new contents within several minutes or even less time after they are available.
In any database, search and data manipulation are a pair of conflicts. If one optimizes for search, insertion, updating and deletion will suffer, vise verse. Unless, the dataset is relatively small, it is very difficult to achieve good performance on both.
General web search serves billions of documents, therefore, it takes long to fully build the index; as a result, it is not feasible to serve "new" contents very quickly. To be able to maintain certain level of freshness, major web search engines often adopt a separated pipeline to handle a few frequently updated contents. This fastlane has much less documents and can be built several times a day. When search is conducted, proxy will blend results from main index with the ones from the fastlane.
However, for some transaction-oriented web sites, rebuilding indexed several times a day is still not acceptable. One might have heard this saying, "today's disk is yesterday's tape, today's RAM is yesterday's disk." We should really take advantage of new machine's large memory. If we can move the fastlane into memory, and stop worrying about the mechanical disk access, we shall have a better chance to achieve "real time" serving.
The key point is divide and conquer: handle different freshness requirements with a number of pipelines of different priority. We need a good algorithm to do the "divide" and a good strategy to merge. In the meanwhile, we want to take advantage of new hardware as well!
Apr
03
2008
"Out of every four dollars made, three went to owners of the brand names, only one to manufacturers"
"As the labor cost goes up, Chinese want to move to that three-dollar zone. They are well aware of it, and it is a matter of whether they can create some real global brand names or not!"
中国已经不再是可以依赖廉价劳动力继续高速成长的中国了。中国必须贡献知识和创新,否则,劳动力成本的提高很快就会榨干那一美元最后一点的油水,让许多现有的产业失去盈利的空间,或者说生存的前提。
知识和创新源于人的头脑,中国不缺人,甚至不缺受过高等教育的人。中国缺少的是一大批能够了解中国也了解外面的世界,能够把大量人脑资源整合在一起,创造出全球品牌的领导者。
所以,问题又回到了“人才”这个最基本的层面上。很多企业把目光放在海外空降兵上,这可以弥补一些眼前的空缺,然而从长远上讲,不仅成本高,而且数量上难以保障。因此,自下而上地培养才是最理想的解决之道。从本地摸爬滚打出来的领导者,有着执行力上天然的优势,他们需要的是见识、悟性和胸怀。一个企业,在孵化全球领导品牌的同时,也必定要成为人才的摇篮,这两者必须也必然携手共进。
无论是大小企业还是整个国家,进军三美元的地盘已经是别无他路的选择。如果再能以诞生一个领导者人群的方式出线,结局就圆满了。
Apr
03
2008
其实,无论是线上还是线下,长尾理论都是适用的。从中小企业成长为大企业的概率虽然并不高,但是中小企业本身就是国民经济的巨大组分,而一旦企业从小成长壮大,其生命力就是难以限量的!
聚集很重要,但聚集也要有坚实的基础。有了高质量的长尾,领头羊还愁不强悍么?
转贴:东方早报 袁晓明 《工商业是经济的基础 要像韩国那样重视小企业》 韩国新任总统李明博在最近接受英国《金融时报》的采访时讲:“工商业是经济的基础,只有在工商业获得动力后经济才能复苏。 在韩国,工商业意味着大企业和小企业,也意味着工人和管理人员。”李明博还许诺他要通过减税、放松管制、私营化的组合政策振兴韩国经济,尽管全球经济已经出现麻烦,韩国还是要争取达到7%的经济增长率。
除了提出减税、放松管制等措施外,李明博更谈到中小企业在韩国经济中的重要。为什么李明博要特别提到小企业?主要原因应该有两个:一是过去韩国 中小企业受到的重视不够;二是经济的振兴必须要有小企业的发展,尤其是在就业机会的创造上,中小企业是一个主要的就业来源,过去这些年,美国增加了数百万的就业机会,其中相当一部分来自中小企业,韩国的经济也不应该有什么例外。
不仅是韩国的经济需要中小企业的发展,对于中国经济来说,中小企业的发展也是至关重要。事实上,中国的小企业在改革开放的历史上起到了非常重要 的作用。上世纪八十年代,中国特色的“个体户”就是最先兴起的中国小企业,后来的乡镇企业、出口加工企业大都属于中小企业。当时的大型企业大多是计划经济 体制遗留的效率低下的国营企业,而中小企业正是借着市场经济体制给予的活力,开始成为中国市场经济腾飞的先锋。后来,中国的大型企业通过一系列改制,开始 了在市场经济体制下的经营,对于中国经济的崛起,无疑大型企业起到了关键的作用,但中国的中小企业,尤其是私营小企业对中国经济的贡献并未受到应有的重视,尤其是在中国下一阶段的经济发展中,对于小型私营企业的发展,中国的立法机构以及政策制定和执行部门应予以更多的关注。
中国小型私营企业的发展关系到解决重要的经济难题,比如就业问题。不能说大型企业就不创造就业机会,但现代大型企业经营的趋势却是通过新技术的 应用以及公司兼并中提高生产效率,而减少员工人数就是提高生产效率的主要途径之一。例如美国通用电器公司的传奇前总裁韦尔奇,在他任职期间为公司创造了数 十倍的资产增值,除了技术创新、扩大市场份额外,裁员也是减低成本、增加利润的主要手段之一。从美国的情况来看,过去这些年来,大型企业主要有两个方面的发展趋势:一些大型企业比如通用汽车公司由于包袱太重,在公司亏损的过程中,只能不断减少企业人员规模去降低成本;另一些大型企业比如通用电器那样的公 司,他们在创造利润的过程中也在不断减少员工人数。随着中国大型企业的发展以及中国人力成本的不断提高,中国的大型企业也必定出现美国那样的趋势。
最近这些年,中国不断有名牌大学毕业生找不到工作,只能自己做些小生意来谋生之类新闻爆出,舆论对此的反应是一片惋惜。我想问的是,难道所谓的 “工作”就是到国家机关或者大企业那样的地方去坐班,自己做些小生意似乎就根本不是什么工作?名牌大学毕业生找不到工作并非什么好新闻,但为什么大学毕业生就不能做小生意或者去做一个小业主?那未必就不是一条出路,大学生也可以用学到的知识使自己的小生意上一个台阶,其实,需要评议的是,中国的大学生是否把自己创业也作为一个就业的选择。
一般来讲,当今的中国大学毕业生以及毕业的研究生大多都希望到大型企业、国家机关去做事,很少愿意去自己创业、搞一个小公司,这不能完全说中国 的学生就完全没有创业精神和志向,那只是一方面的因素;更重要的是需要创业的社会环境,以及整个社会在观念上的转变,除了大学毕业生的创业外,高中毕业生 以及已经加入就业队伍的人也需要参与创业,当年那些个体户就大多不是大学毕业。在社会环境方面,政府需要出台一系列政策去为小企业的创业提供帮助。前几年,中国有为海归人员提供创业基金的做法,其实,对中国国内的大学毕业生、毕业的研究生也应该提供同样的帮助。从整体上,国家还应该对小企业给予更多税收上的优惠。
美国对政府官员的一项重要考核指标就不是建了几座大楼,而是帮助当地创造了多少就业机会。对中国的官员也应该有这样的考核指标,即任职期间,本地创造了多少新的就业机会,因为那是比花了多少钱更重要的考核指标。从中国整体经济发展来看,要振兴经济,必须大力发展小企业,除了小企业能创造就业机会外,小企业的创业更会带来创新。美国许多最有价值的公司,当年也就是几个人搞起来的小企业。