基金项目: 国家自然科学基金资助项目(No.60675001)
随着光纤骨干传输网络、新一代无线接入网络的相继建成,一个可以综合提供文本、图像、视频、音频服务的宽带信息高速公路正在向世人开放。在这种情况下,人们自然把眼光投向了高速公路上的车辆——数字内容,并把推动信息产业继续健康发展的希望寄托在它的身上。国际经济合作与发展组织(OECD)在《Information Technology Outlook 2006》[1]报告中指出:信息产业在基本完成宽带网络基础设施建设之后,正在迎来数字内容产业大发展的阶段。数字内容已经成为信息产业发展的一个主要驱动力,它的作用遍及社会的各个领域。同时呼吁参加OECD的各国政府将重点从物理产品的制造转移到具有更高附加值的无形产品——数字内容上。推动数字内容产业的先进国家已经获得了巨大的收益。例如,2006年美国仅在线娱乐(包括游戏、音乐、视频服务等)一项数字内容产业的规模就已经达到24亿美元,并且在今后几年还将迅猛发展,预计2010年达到90亿美元。
中国也十分重视数字内容产业的发展,在国家“十一五”规划中,明确提出了鼓励发展数字内容产业的政策。各地方政府也已纷纷制订各自的发展策略,奋力抢占先机。例如,北京市提出的五年经济发展战略中,将数字内容和创意产业列为重点。上海市在信息服务业三年行动计划和五年发展规划中提出了建设徐汇数字内容产业基地、长宁多媒体专业基地、普陀国家级动漫影视制作基地、张江国家级网络游戏动漫产业基地等具体措施。
在这种形势下,许多人希望了解数字内容产业及其技术的发展最新状况,了解数字内容安全的基本概念、关键技术以及发展动态等。
1 数字内容及其安全的基本概念
随着数字化技术的发展,数字内容的内涵日益丰富,主要包括数字音像、科学出版、远程教育、动漫游戏、金融信息、政府公告、网络博客、网络论坛、短信彩信、彩铃音乐等,涉及教育、科学、金融、文化、娱乐、商业、通信等各个领域。围绕着这些数字内容的开发制作、传递配送和消费使用,一个影响全社会的大规模的产业链正在形成。人们认识到这个产业链无论在市场规模方面还是在对现有产业结构的影响方面都潜力巨大。
从技术方面来讲,数字内容开发、数字内容传递和数字内容安全是数字内容产业的三大支撑。数字内容开发一方面与文化创意和艺术创造紧密结合,同时也与图像、音频、视频、Web2.0等技术不可分割;随着宽带技术的发展,数字内容传递正在由传统的离线配送向互联网在线传递和移动传递的方向急剧转变,网络门户、搜索引擎、无线宽带、移动交互等技术成为数字内容传递的核心技术;数字内容安全则包括数字版权管理(DRM)、非法及有害内容过滤、网络支付安全等重要内容。
无论是学术界还是产业界,关于数字内容安全的内涵尚未形成比较统一的认识。从一般的信息安全的概念出发,数字内容安全主要应保证内容的隐私性、完整性和真实性。从理论上讲,这种概念是没有问题的,但面对实际应用却显得抽象和空泛。针对目前数字内容在开发制作、传递配送和消费使用中的主要问题,人们发现当前保障数字内容安全的关键是:
针对第一个问题,提出了数字版权管理技术,采用加密手段对数字内容进行保护,使其只能在授权的情况下被使用;针对第二个问题,提出了基于内容的过滤(CBF)技术,采用文字识别、语音识别、图像识别、文本分类等模式识别的方法将非法或有害的内容进行过滤和封堵;针对第三个问题,正在大力研究微支付技术,基于公钥基础设施(PKI)和第三方代理等平台来保证消费者资金的安全和合理地支付小额数字内容消费。
上述技术和研究覆盖了当前数字内容安全领域的主要内容,了解它们可帮助读者理解数字内容安全的基本内涵。
2 数字版权管理技术
数字版权管理并不仅仅是个技术问题,它要通过技术、法律、商业等各种有效手段保证数字内容在制作、传递和消费各个环节中不受到盗版、侵权和滥用,以保护所有者的知识产权[2],但本文只讨论通过技术手段实现的DRM系统。
目前,常见的DRM系统由3部分组成:数字内容供应者(CP)、许可证发放器(LD)和用户播放器(UP)。
CP利用打包程序将数字文件进行加密。目前常用128位或156位的对称加密算法。密钥利用与LD共享的密钥种子和一个全局唯一的密钥标识生成。内容加密后,再添加作者、版本号、发行日期、密钥标识等头信息。打包后的数字文件可以存放在CP的网站服务器上,也可以制成光盘发行。
UP在访问CP网站服务器或通过光盘播放打包的数字文件时,首先在自己的许可证库中查找所需要的许可证(解密密钥),如果存在,便可播放,如果不存在,则必须向CP指定的LD申请播放该数字文件的许可证。
LD接到UP的许可证申请后,对用户的身份进行验证,如果是合法用户或通过付费等手续成为了合法用户,则向UP发放播放该数字文件的许可证。许可证可根据需要设置有效期和不同的收费标准等。
在DRM系统中,加密的作用也可以用数字水印或数字签名技术来替代。学术界和产业界在这些方面开展了大量的研究和开发。DRM系统用不同的信息安全技术来实现,系统的性能和实现成本是不同的。这是值得深入研究的问题。
在近十年来,图像、视频、音频等多媒体的加密算法得到了深入研究。人们越来越多地将加密过程与压缩编码过程相结合,以同时获得较高的安全性和较高的压缩率。同时还进一步考虑多媒体网络、无线网络、移动网络的带宽和可靠性的特点,研究开发满足异构网络环境下可伸缩性和实时性要求的加密算法。
相对于互联网,DRM在移动电信网上发展的更加迅速。主要原因是:
2002年11月,开放移动联盟(OMA)发布了移动DRM国际规范——OMA DRM V1.0 Enabler Release,为如何建立移动网络上的DRM系统提供了指南。OMA DRM V1.0标准推出后,Nokia、Motorola等著名国际厂商纷纷进行了相应开发,对其存在的问题进行了公开讨论。
2005年6月,OMA公布了OMA DRM V2.0,制订了基于PKI的安全信任模型,给出了移动DRM的功能体系结构、权利描述语言标准、DRM数字内容格式(DCF)和权利获取协议(ROAP)。
3 基于内容的过滤技术
基于内容的过滤即基于内容的过滤,是数字内容安全的重要内容。CBF的主要对象包括非法内容和有害内容,如非法广告、黄色信息、惑众谣言、网络病毒、黑客攻击等。早期的CBF技术主要采用串匹配的方法对文本文件和可执行文件进行过滤,防范的对象是有害文本信息和病毒。随着多媒体技术的发展,非法和有害的信息开始大量地利用图像、视频、音频等形式传播,使得简单的串匹配技术无法对内容进行有效识别。在这种情况下,人们开始将模式识别、自然语言处理、机器学习等智能技术引入CBF。另一方面,基于上述智能技术的文本分类和挖掘也取得了长足的进展。从而推动CBF全面进入了以智能技术为依托的阶段。
在文本文件过滤方面,通过向量空间模型(VSM)或n-gram语言模型对文件进行表达,然后利用正反两方面的样本对需要过滤和不需要过滤的两类文件进行建模,从而生成可执行特定任务的分类器,如Bayes分类器、SVM分类器、k-NN分类器等。将这样的分类器放在网络节点或主机上,便可实现文本文件的过滤。目前最常见的文本文件过滤器是垃圾邮件过滤器,国际著名会议TREC(Text REtrieval Conference)[3]从2005年开始将垃圾邮件过滤器作为测试项目,有力地推动了该项技术的发展。在中国,除了垃圾邮件之外,垃圾短信等短文本中的非法有害信息的过滤也得到了学术界、产业界和政府的高度重视。目前已经有国家自然科学基金、国家信息安全计划、跨国企业资助的项目在加紧研究。
在图像和视频文件过滤方面,文字识别、人脸识别、人体识别、物体识别等图像识别技术是核心。通过这些技术,可对文件中包含的字牌、标语、广告等反映不同场景的文字,以及人脸、人体、物体等反映不同人物和事件的对象进行识别。获得这些关键信息后,便可以对图像和视频进行分类和过滤。例如对黄色图片进行过滤,对毒品广告进行过滤等。在上述图像识别技术中,人脸识别和物体识别是当前的研究热点。文字识别是开展较早的研究,但图像中的文字识别有其特殊性,如倾斜和光线的影响等。关于人脸识别和物体识别,近年来人们给予了极大的关注,并取得了显著的进展。2007年国家自然科学基金的一个有关物体识别的重点项目吸引了全国11个颇有实力的科研单位的申报,竞争之激烈实属罕见。并且,国际上,物体识别的研究正在越来越紧密地与网络图像检索和过滤相结合[4-5]。
在音频文件过滤方面,语音识别、语种识别、语音关键词检测技术是核心。对于安静环境下的新闻播报类语音文件,先通过语音识别技术将其转换为文本文件,就可以利用文本过滤技术进行过滤了。美国国家标准技术研究所(NIST)和国防部的话题检测与追踪(TDT)[6]计划对这项技术进行了长期的研究,取得了令人瞩目的进展。目前的研究热点是噪声背景下的语音文件或歌曲音乐类文件的过滤。这类文件不易用通常的语音识别方法进行内容识别,需要研究专用的方法。利用语种识别和语音关键词检测技术进行过滤时,不需要将整个文件转换成文本,而只是识别文件中的语音是不是指定的语种或是否包含指定的关键词。语种识别和语音关键词检测常被用于粗过滤,以提高过滤器的效率。
在网络环境中,过滤器的效率是一个突出问题。基于智能技术的过滤器通常具有较高的计算复杂度,时间开销较大。其主要原因是文件表达的模型,一般为特征向量,维数过高。例如,在文本分类中,常常采用几万维的特征向量,每一维对应一个词。因此,特征降维已经成为特别重要的环节。简单的特征降维方法是特征选择,即从现有的特征中优选一部分。另一种方法是高维空间向低维空间映射变换的方法,通过去除数据值方差小(能量小)的维度,进行降维。如主成分分析(PCA)、线性鉴别分析(LDA)、流形分析、图模型等。这些方法的研究,具有非常重要的普遍意义,已经成为本领域的研究热点。
4 微支付技术
在线数字内容的消费常常金额很小,例如下载一首歌曲、一个彩铃、一篇论文,甚至书中的一页内容。这样的消费金额难以采用常规的方法进行消费者和商家之间的结算,因为结算本身的成本相对消费金额太高,甚至会超过消费金额。例如,如果下载一首歌是5分钱,通过通常的银行手续去交钱,光手续费可能至少就要1角。这样的结算是消费者和商家都不愿接受的。因此,数字内容的消费离不开微支付技术的支撑。
所谓微支付就是对任意小的消费金额进行电子支付的技术。它要解决的主要问题除了保证消费者在电子银行中的资金和数据的安全、商家不被骗取、交易数据不被篡改之外,就是以最低的成本实现电子付费,以保证交易成本不超过消费金额。目前,常见的微支付方式包括网络在线支付、手机支付、电子支票支付、信用卡支付等。
微支付系统中的核心技术包括PKI技术和交易代理技术。通过PKI技术对交易中所涉及的各方的标识符、交易数据等进行加密,以防止伪造身份、盗取密钥、破解消息等攻击的得逞。通过交易代理技术,实现信用担保、身份认证和公平交易。交易代理通过可转移硬币等技术,最大限度地降低交易成本。
目前微支付研究的重点是协议和系统模型。微支付协议分为离线方式和在线方式两大类。典型的离线微支付协议包括MPTP、Payword、Agora和MiniPay等。这些协议以消费者的信用为基础,消费者在真正付款之前就可以完成交易。因此对重复消费(同一凭据反复使用)和恶意消费(透支消费)缺乏有效的控制。
典型的在线微支付协议是Millicent,它采用交易代理在线实时验证消费者帐户信息的方式,可以有效防止重复消费和恶意消费,但也因此降低了协议的运行效率。
微支付协议和模型的优劣,主要从安全性、公平性、交易成本、运行效率等方面进行评价。安全性主要指交易者的身份不被伪造和不被泄露,以保证交易者的资金安全和交易的隐私;公平性主要指在整个交易过程中,消费者、商家和交易代理受到平等的对待,消费者的信用得到正确的评估,商家不受到欺骗,交易代理得到合理的利益;交易成本要尽量地降低,以满足微支付的要求;运行效率要尽量地提高,协议的时间开销和空间开销要尽量小。
微支付协议和模型与系统所基于的网络有密切的关系。例如,基于移动电信网络的微支付系统、基于WWW网络的微支付系统、基于P2P网络的微支付系统等相互之间有明显的差别[7]。总体上讲,现有的系统还不能满足目前数字内容产业迅猛发展的要求。OECD的报告认为,微支付系统技术上的滞后,制约了数字内容的消费。
5 结束语
数字内容产业的规模正在迅速膨胀,对IT产业结构的冲击正在日益加强。因此,数字内容技术已成为各国奋力抢占的一个战略至高点。数字内容安全是数字内容技术的重要组成部分,没有它的保证,数字内容产业就难以发展。同时,数字内容安全涉及众多具有挑战性的科学和技术难题,例如高效的多媒体加密和隐藏算法、网络多媒体内容识别和过滤算法、面向异构网络的微支付协议等。攻克这些挑战,需要学术界、产业界和政府的共同努力。同时,也只有这样,才能使中国的数字内容产业迅速发展起来,成为中国IT产业强劲的推动力。
6 参考文献
[1] OECD. Information technology outlook [R]. OECD Publishing, 2006.
[2] Chain-DRM.COM产品列表 [EB/OL].
http://www.china-drm.com/drm.asp.
[3] TREC [EB/OL]. http://trec.nist.gov.
[4] LI J, WANG J. Automatic linguistic indexing of pictures by a statistical modeling approach [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003,25(9):1075-1088.
[5] LI Feifei, ROB Fergus, PIETRO Perona. One-Shot Learning of Object Categories [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006,28(4):594-611.
[6] The 2002 topic detection and tracking (TDT2002) task definition and evaluation plan,version 1.1 [EB/OL]. http://www.nist.gov/speech/tests/tdt.
[7] ZOU J, SI T, HUANG L, et al. A new micro-payment protocol based on P2P networks [C]//Proceedings of the 2005 IEEE International Conference on e-Business Engineering (ICEBE’05), Oct 18-20, 2005, Beijing, China. Los Alamitos, CA, USA: IEEE Computer Society, 2005:449-455.
收稿日期:2007-07-17
[摘要] 随着光纤骨干传输网络、无线移动接入网络等基础设施建设的逐步完成,数字内容产业正在迅速成为信息产业发展的新动力,其产业分析及技术研究的重要性日益突出。数字内容安全技术是数字内容产业三大支撑技术之一。保障数字内容安全的关键是解决数字内容的盗版贩卖和非法使用的问题、解决非法及有害内容破坏和污染社会环境问题、解决数字内容消费者的安全合理付费问题,涉及众多具有挑战性的科学和技术难题,如高效的多媒体加密和隐藏算法、网络多媒体内容识别和过滤算法、面向异构网络的微支付协议等。
[关键词] 数字内容;信息安全;信息过滤;数字版权管理;基于内容的过滤;微支付
[Abstract] As the infrastructures of optical transmission networks and wireless mobile access networks are getting more and more accomplished, the digital content industry is rapidly becoming a new driver of the information technology industry while the importance of its industry analysis and technique research are increasingly rising. Digital content security technology is one of the three major technologies supporting this industry. Digital content security is a key solution to prevent piracy and illegal use, controlling the pollution of the illegal or harmful content to the societies, and providing the means for consumers’ security and reasonable payment. This involves many challenging scientific and technical problems such as efficient algorithms of multimedia encrypting and information hiding, web environmental multimedia content recognition and filtering algorithms, hybrid network oriented micro payment protocols, etc.
[Keywords] digital content; information security; information filtering; digital copyright management; content