Pingar 很高興這次有機會演示我們創新的語義搜索技術。Pingar 的技術能分析不同的文本,例如新聞或是網上討論區的內容,找出內容的重點,也可以幫助使用者作趨勢分析。

在這個視頻裡面,我們利用了國內其中一個著名上市公司-中國移動的年報來演示我們的技術的其中一個應用。我們會演示如何使用Pingar 技術來分析不同年份的年報內的重點,也可以分析中國移動的管理層在這幾年的變動。我們利用了Pingar 的中文語言分析工具來演示我們如何從過去三年的年報裡面抽取重要的關鍵詞並作出排名,也讓我們可以很容易看到這三年裡面的變化。

這次選了年報裡面兩個部分,分別是管理層介紹及企業責任報告裡面的企業創新部分作分析。我們分別把2008,2009 及2010 年的管理層介紹文檔上載。

NLP1.JPG

上載後只需要簡單的按"Extract Metadata" 按鍵,每個文檔裡面出現的人名就會被抽取出來。在這個時候,Pingar 的工具利用了實體抽取和關鍵詞抽取的算法,分析每個文檔,並把相關的人名和關鍵詞抽取出來。我們可以在分析結果看到,每一年出現過的人名,並很快發現2009年出現了人事變動。

NLP2.JPG

我們嘗試把結果圖示化,可以看到在2009年,張春江和Nicholas Jonathan先生都離開了,不再在公司的管理層裡面。而2010年,公司管理層並沒有人事變動。

NLP3.JPG

同樣地,我們嘗試把企業責任報告裡面的企業創新部分上在到分析工具,這次也分別是2008,2009 及2010年的企業創新部分。同樣地,只需要按下"Extract Metadata" 按鍵,我們就可以馬上看到每年報告中出現了的重要關鍵詞了。我們這次也嘗試把結果圖示化,而且我們也利用Pingar 的自動匯總功能,把重要部份摘要成匯總。我們可以看到在2008年,創新的部分主要是跟當年的奧運會有關。我們可以看到利用Pingar 技術抽取出來的幾個重要關鍵詞及關鍵詞在文檔中出現的次數。我們在匯總裡面可以看到中國移動當年在奧運會中,歷史性地首次為奧組委提供手機對講服務。

NLP4.JPG

在2009年,我們可以從關鍵詞和匯總中很快了解到中國移動的創新重點在於移動終端OPhone 平台的發布,和以專利形式保護自主創新的成果。

NLP5.JPG

最後在2010年,我們可以從關鍵詞和匯總很快知道中國移動的創新重點在於物聯網的標準和技術的推廣,並將這些標準和技術國際化。

NLP6.JPG

從這兩個例子可以看到,利用Pingar 技術,我們分析文檔的時間可以大大縮短。從上載檔案,分析,抽取關鍵詞,自動匯總,最後把結果圖示化,整個過程也不過是幾分鐘的時間。如果沒有Pingar 的技術,你可以想像一下整個過程需要花多少時間。這個例子裡面只是選取了比較短的文檔來做分析。但是Pingar 的工具有很強的擴充能力,可以快速和準確地分析成千上萬的文檔。基於我們的例子,你可以分析整個或多個行業中每個企業十到二十年的年報,並按行業或企業的大小快速作出分析。

如果要試用我們的技術,請瀏覽我們的網站: http://www.pingar.com

我們提供免費試用的Pingar API,讓你可以對我們的技術有更深入的了解。謝謝!

# 标签 : 无标签
香港(2011年8月14日): PINGAR很高兴宣布PINGAR香港及大陆地区总经理Mark Lunt和PINGAR香港及大陆地区高级技术顾问Ryan Sin,参加了在中国举行的新西兰政府信息通信产业代表团。
这次的代表团由新西兰贸易部长Tim Groser率领,延续2010年10月在中国首次的新西兰信息通信产业代表团。当时PINGAR是新的代表团成员,而当时是由新西兰通信部长Stephen Joyce 带领的。

在接下来的两天,新西兰代表团将会访问上海,会见当地工业和信息化部及上海联通。稍后也会会见上海电信和华为。
随后两天,代表团将会在杭州会见江苏省工业和信息化部,江苏联通,中国移动,以及江苏电信。 PINGAR团队亦将在当地展示最新的技术。

这项任务是Pingar开拓香港/中国市场非常重要的里程碑。新西兰是唯一与中国签订了自由贸易协定的经合组织国家。在2010年3月,PINGAR出席了香港和新西兰的共同经济伙伴关系(CEP)协定的签字仪式。 PINGAR很高兴当时被邀请出席及介绍其技术。当时的代表团是由新西兰部长Groser率领,于上午在香港新界沙田科技园签约。这表明了PINGAR利用其强大的企业非结构化数据处理技术迅速拓展北亚市场的承诺。

# 标签 : 无标签

浅谈Pingar的中文分词

英语类拼音语言以此为单位,并以空格分隔,中文等表意语言以句子为单位,以标点符号来分隔。表意语言的这一特征,更加增强其简捷有效,易于理解和记忆等优势。即使在现代计算机语言处理等问题上,该特征也有其优点。姑且不论文言文的简洁 - 如君子好逑,在计算机只占用八个字节,其对应的英语(不考虑历史和艺术因素)“a gentleman's good mate”则需要24个字节。即使在现代汉语中其对应句子“我的好配偶”也只占用10个字节,大大少于英文所需的计算空间。但是中文处理在现有的技术下却有一个绕不过去的问题,这就是中文分词,即将中文文本分解成一个个计算机可以“理解”的单词。

中文分词是中文软件处理的基础,分词的准确性直接影响中文处理系统的工作性能。目前主要的分词方式包括最大匹配,文法分析以及基于统计等方法。文法分析即寻找句子的主语,谓语,宾语等信息,并以此为语法基础分析该文本的语义,目前本技术还没有可以实用的算法。基于统计的方法则是通过统计相邻单字的出现频率,并利用隐马尔可夫模型计算其组成单词的可能性,这种方法的优点是动态的中文识别,不需要预置的中文词典,因此可以适用于任何中文文本。其缺点则是计算的时间开销非常大,实用中一般与最大匹配法协同工作。目前最为常用也做可靠的中文分词算法的是最大匹配法,即根据词典从左至右或从右至左匹配文本,每次匹配都从词典中最长的词开始比较。这个过程类似于一个完全不懂中文的人根据一本词典来阅读一篇文章,而由于中文的歧义性,其结果有时候面临很大的挑战。于是一些衍生的分词方法就产生了,除了以上所说的正向最大匹配以及反向最大匹配,还有双向最大匹配,最小切分匹配以及统计语言模型。双相匹配结合正向及反向最大匹配,在处理歧义时使用互信息的方法,即当正向切分和逆向切分的方法不一致的时候用统计信息来判断。其缺点是只能发现交集型歧义,对组合型歧义无能为力。最小切分匹配与最大匹配相反,取词典中匹配的最短词作为匹配对象。但由于中文具有单字称此的特点,一般这种方法很少使用。统计语言模型利用隐马科夫模型计算一种分词结果中该句子采用该分词的概率,取概率最高的分词方式作为结果。但其基本分词方法仍然建立在最大匹配之上。

Pingar使用局部双向匹配的正向匹配算法,并且与特征人物姓名匹配结合,取得了非常好的效果。以下是Pingar分词与盘古分词以及中科院ICTCLAS分词的粉刺结果比较。

示例

Pingar

盘古分词      V2.3.1.0

中科院ICTCLAS 5.0.2011

广大发展中国家一致支持这个目标,并提出了各自的期望细节。代表非洲国家的阿尔及利亚外交官杰穆艾·卡迈勒说,这份协议应该提供新的、额外的、可持续的、可预见的资金和技术支持。东南亚国家联盟也在一份声明中说,新协议应该规定长期的行动目标。欧盟轮值主席国瑞典环境大臣安德烈亚斯·卡尔格伦也表示,哥本哈根会议应该达成“一份有法律约束力的协议”,并“包含《京都议定书》的所有基本要素”。只有美国代表多次在不同场合表示,要在哥本哈根达成一份“法律条约”非常困难,会议结果更可能是“政治宣言”。美国退出了国际社会应对气候变化有法律效力的协议《京都议定书》,其气候变化特使托德·斯特恩还重申:“我们肯定不会重返《京都议定书》。”

/广大/发展中国家/一致/支持/这个/目标///提出//各自//期望/细节//代表/非洲国家//阿尔及利亚/外交官/杰穆艾·卡迈勒/////协议/应该/提供////额外///可持续////预见//资金//技术支持//东南亚国家联盟///一份/声明/////协议/应该/规定/长期//行动/目标//欧盟轮值主席国/瑞典/环境/大臣/安德烈亚斯·卡尔格伦//表示//哥本哈根会议/应该/达成//一份//法律/约束力//协议/////包含//京都议定书///所有/基本/要素///只有/美国/代表/多次//不同/场合/表示////哥本哈根/达成/一份//法律/条约//非常/困难//会议/结果//可能是//政治/宣言///美国/退出//国际社会/应对/气候变化//法律效力//协议//京都议定书////气候变化/特使/托德·斯特恩//重申///我们/肯定/不会/重返//京都议定书//

/广大/发展中国家/一致/支持/这个/目标//提出//各自//期望/细节/代表/非洲国家//阿尔及利亚/外交官/杰穆艾/·/卡迈勒说///协议/应该/提供///额外//可持续///预见//资金//技术支持/东南亚国家联盟///一份/声明////协议/应该/规定/长期//行动/目标/欧盟/轮值/主席//瑞典/环境/大臣/安德烈/亚斯/·/卡尔/格伦也/表示/哥本哈根/会议/应该/达成/一份//法律/约束力//协议//包含/京都/议定书//所有/基本要素/只有/美国/代表/多次//不同/场合/表示///哥本哈根/达成/一份/法律/条约/非常/困难/会议/结果//可能//政治/宣言/美国/退出//国际社会/应对/气候变化//法律效力//协议/京都/议定书//气候变化/特使/托德/·/斯特恩//重申/我们/肯定/不会/重返/京都/议定书/

/广大/发展中国家/一致/支持/这个/目标///提出//各自//期望/细节//代表/非洲/国家//阿尔及利亚/外交官////?/卡迈勒/////协议/应该/提供////额外////持续////预见//资金//技术支持//东南亚/国家/联盟/////声明/////协议/应该/规定/长期//行动/目标//欧盟/轮值/主席国/瑞典/环境/大臣/安德烈亚斯/?/卡尔格伦//表示//哥本哈根/会议/应该/达成/////法律/约束力//协议/////包含//京都/议定书///所有/基本要素/////美国/代表/多次//不同/场合/表示////哥本哈根/达成////法律/条约//非常/困难//会议/结果//可能///政治/宣言///美国/退出//国际/社会///气候/变化//法律/效力//协议//京都/议定书////气候/变化/特使/托德/?/斯特恩//重申///我们/肯定///重返//京都/议定书//

针对近期的国际局势中国安全部门禁止传播谣言,这是非常有必要的。在2010年中超常规赛中国安全部队员罢赛。

针对/近期//国际局势/中国/安全部门/禁止/传播/谣言////非常//必要的///2010//中超/常规赛//国安/全部/队员/罢赛//

针对/近期//国际局势/中国/安全部门/禁止/传播/谣言//是非/常有/必要///2010/年中//常规赛/中国/安全部/队员/罢赛/

/针对/近期//国际/局势/中国/安全/部门/禁止/传播/谣言////非常//必要////2010//超常规//中国/安全部/队员////

我们可以看到Pingar的分词在人名识别以及歧义处理上都有不俗的表现。

* 请免费试用Pingar的应用开发接口以及在线演示

# 标签 : 无标签
Pingar将发布技术博客以向中文软件架构师及开发人员提供对Pingar底层技术的深度透视。
请关注本网页的定期更新。
# 标签 : 无标签