书签
  • «
  • 1
  • 2
  • 3
  • »
  • Pages: 1/3     Go
十方清静 [楼主] 发表于:2011-01-01 01:42
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。

关于殆知阁藏书计划——写于2011年岁首

— 本帖被 十方清静 设置为精华(2011-01-10) —
缘起:
本站殆知阁藏书截止到目前 已经大概有12000种以上 10万卷左右 近十三亿汉字了 根据权威人士保守的估计 汉字古籍书目应该在7-8万种;根据权威人士乐观的估计 现在所存的汉字古籍文献数目大概为150000种左右。因此 本站累一年之功 大概收集了10%左右的古代文献的纯文本资料。这大概是个不错的成绩了。当然 在此也顺便声明 本站收集的这些古籍的文本资料 基本上几乎都是散落在因特网之上的 诸多贤达辛苦录入 扫校的 在此也一并敬仰一下。

我等每每看到本应由这个朝代掌控者出面组织的文化传承事宜 最终变成了出版社或者company挣钱的小法宝 动辄万元以至于百万元的价格 让升斗之民望而却步 让本应分享的知识 智慧与信息束之高阁 藏之深馆 痛心疾首以至于夜不能寐 仰天长叹 遂有此举 收集整理 以至于今日之规模。

但 这远远并不足够。我等期盼待到某年某月 能够集众之力 将汉字古籍全面的数字化 能够提供全面的智能检索 能够使任何一个认得汉字的人充分的加以利用这些文献资料 或启迪 或反思 或受益 或启蒙 或等等等 方是本站最终的理想所在。

当然 无论任何人 只要有点脑子 均知此事难于上青天之上。然 或可一试 或可成功 也未可知。故 本站拟发起殆知阁藏书计划 亦盼有识之士共图之。

下面 简单陈述一下本站的想法与思路 欢迎提意见 泼凉水...。。。

比较零散 不成脉络 主要是先写下来 怕忘记了。。。
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [1楼] 发表于:2011-01-01 02:03
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
目标:
数字化汉字古籍资料
构架一个知识本体
提供客户端软件实现资料的智能检索与知识的交流与分享
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [2楼] 发表于:2011-01-01 02:12
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
古籍的基本单位应该是“卷”而不是“种”
卷作为古籍的基本原子单位
版本作为“卷”的一个属性
无论标点、校对、注解、评论等等
均是以“卷”为基本单位

藏书以“卷”为基本单位
依据拼音加以排序
作为流水书目清单

文件格式为:
书名空格别名-朝代-作者-卷-卷数-卷名.txt

每本书 最起初的文件为 书名空格别名-朝代-作者-卷列表.txt
最末文件为 书名空格别名-朝代-作者-说明.txt
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [3楼] 发表于:2011-01-01 02:17
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
关于书的分类:
书作为一个独立的分子单位 可以归为不同的种类 这个是多对一的映射关系
例如:某本书 既可以归为“易”也可以同时归为“儒”“道”“术”

藏书以两个大体系为主:
一个是想兄提出的所谓“十全藏”体系 即:佛 儒 道 易 史 子 集 医 艺 杂
另一个采用西方的所谓“杜威十进制图书分类法” 以现在的所谓:政治 经济 文化 科学 数学 体育 艺术等等加以分类

其他的角度 以索引和搜索的形式出现
例如:依据时代 依据地点 依据人物的分类 均以索引出现
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [4楼] 发表于:2011-01-01 02:21
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
智能搜索为4个层面:
书籍层面
卷层面
知识体层面
全文层面
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [5楼] 发表于:2011-01-01 02:29
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
知识本体的构建:
人机结合的方式 收集整理所有参与者的意见

维度有时间 地点 人物以及事件
事件的维度为政治经济文化体育卫生系列以及喜怒哀思悲恐惊等等的情感系列以及善恶贤达美丑等等的道德评判系列
人物的属性为有别名 字 号 尊称 敬语 讳称 简称 关系等
地点 以现在称谓加以统合
时间 把所有的各种纪年统合为公元纪年

上述为本体的结构
本体的存储依据以下的原则:
涉及大量运算的 将结果存储在一起
可以快速获得的 提供路径 或分散于每卷的最后的说明文档之中
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [6楼] 发表于:2011-01-01 02:38
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
原则之一:知识与信息的无障碍分享 实现社会必要劳动时间的积累

手段:
提供所有的原始txt文档 并公开文件结构

任何计算机编码的文件 均公开结构 并且同时留存一份以人类能够直观阅读的文档

提供知识本体的结构 并及知识本体的数据 以便其他人等能够编写程序利用这些知识

提供所有的程序源码和程序接口 以便在这个知识体之上进行2次开发 从而获得更多的应用
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [7楼] 发表于:2011-01-01 02:40
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
文字的展现、编辑目前考虑以
页面描述语言PostScript为首选(或pdf)
但考虑txt数据与命令语言的分离
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [8楼] 发表于:2011-01-01 02:40
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
版本控制问题 参考wiki的经验

任务的智能分配

数据的智能整理

参与者的激励
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [9楼] 发表于:2011-01-01 02:42
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
所有使用软件的人以混合p2p的拓扑结构加以联合
以便互相的交流沟通与信息的传达
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [10楼] 发表于:2011-01-01 02:46
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
提供诗词、中医、释、道、术以及其他方面的数据挖掘以及使用工具
+++
创新思想之X:

全文检索并不是仅仅局限在非结构化的数据之上

应该以全文检索统合结构化数据与非结构化数据

通过预定义 使程序能够智能的识别哪些检索出来的数据是显示的数据 哪些数据是驱动其干活的数据

本软件以文件数据库实现所有的一切 而不考虑使用任何关系型数据库系统
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [11楼] 发表于:2011-01-01 02:51
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
简繁体的问题
句读的问题
少量的图形的插入问题
评论、笔记
校勘
版本
cc版权的文章
字典的合理使用
用户的操作体验
分层的注释显示
分3级别的注音显示
......
+++
简繁体 坚决采用最小汉字集 那些显示不出来的汉字 尽量的采用文字描述 而不是 提供图形或者索引列表或者大字符集的安装 这样才能面对复杂多变的应用环境
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [12楼] 发表于:2011-01-01 02:53
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
在目前的12000种之上 并且提供全部的txt文本

以及上述的功能的部分实现

已经足可以成为一款说的过去的软件了

一个真正的易于使用 并且是快速响应的 符合当下用户需求的汉字古籍软件

将会被有需求的用户频繁的使用

故此 整个的工程计划将被越来越多的同好所或知 并有限度的参与

如果能提供方便的ocr 以及校对工具 所见即所得的操作界面用以完成句读 排版 修改错字 注解 以及知识库中相关知识的人工处理

那么 逐渐的 这个工程的文本数据以及知识本体就会越来越完善

最终形成一个正反馈的话

那么 或许 离成功就不太远了
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
十方清静 [13楼] 发表于:2011-01-01 03:00
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。
需要掌握
汉字全文检索的相关技术理论
数据挖掘的相关技术理论
人工智能的相关技术理论
本体论的相关技术理论
现代情报学与图书馆学以及索引学的相关技术与理论
当然
还有c++、p2p、web服务、winAPI、postscript、cuda等等等具体的实现技术与理论

千里之行始于足下
但愿今年能整出个雏形出来
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
想想 [14楼] 发表于:2011-01-01 11:51
识性不动,以灭穷研,于无尽中,发宣尽性,如存不存,若尽非尽。如是一类,名为非想非非想处。

回 2楼(十方清静) 的帖子

就以卷为基本单位这事还需要细分
有些分卷有独立的篇名和内容
自然有分立的必要
有些卷却完全不能单独成篇
书名可以采用下述格式
书名空格别名-朝代-作者-卷一—卷N.txt
没必要重复工作
人生何时不迷狂 正心诚意修非常 道体玄通无为处 佛性妙谛真如藏
回复 引用 顶端
时靡有争 [15楼] 发表于:2011-01-01 13:04
各位辛苦了,祖国的优秀文化应该有更多的人去继承发扬,不然我们有什么理由称自己是中国人。
回复 引用 顶端
十方清静 [16楼] 发表于:2011-01-01 14:24
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。

回 15楼(时靡有争) 的帖子

殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
我是地球 [17楼] 发表于:2011-01-03 14:25

回 15楼(时靡有争) 的帖子

回复 引用 顶端
shen2030 [18楼] 发表于:2011-01-03 14:46
首先,说句心底话,我蛮敬佩站主和这里的管理的
现在这种社会环境,能有这样一个平和心态的人不多了
另外
我个人建议可以引进Google的那个站内搜索
这样大家在搜索站内信息的时候回方便一些
同时也不会给站长带来负担
百度好像也有这样的服务
当然,他们这样是为了更准确的抓取信息。题外话
这个是免费的,只需要注册一下吧。具体的我没有操作过,只是知道有这个功能而已
回复 引用 顶端
十方清静 [19楼] 发表于:2011-01-03 14:56
无边虚空,觉所显发。觉圆明故,显心清静。心清静故,四大六根十二处十八界二十五有,皆得清静。

回 18楼(shen2030) 的帖子




btw
本站用的是google的
殆知阁藏书子站可以在线阅读以及全文检索本站现有的全部古代文献资料。请大家都帮忙测试一下。http://wenxian.fanren8.com/  谢谢。。
回复 引用 顶端
  • «
  • 1
  • 2
  • 3
  • »
  • Pages: 1/3     Go