我正在建立一个数字人文应用程序,我们在那里有一堆数字化的历史文档,学生们将抄写文本。这是架构...
create_table "documents", force: true do |t|
t.string "document_name"
t.date "date_filed"
t.string "grantor"
t.string "grantee"
t.string "description"
t.string "document_file_name"
t.string "document_content_type"
t.integer "document_file_size"
end
create_table "transcriptions", force: true do |t|
t.text "content"
t.integer "user_id"
t.integer "document_id"
end
create_table "users", force: true do |t|
t.string "email"
t.string "password_digest"
t.string "role"
end
该应用非常简单。我正在使用回形针将图像存储在S3上,学生将创建一个“转录”,它只是一个文本字段。然后我们将使文本可搜索。
这些是带有大量难以辨认的文字的旧文件。我想要一些方法让用户能够表示一个难以理解的单词,希望以后能够以编程方式识别。一个用例可能是当其他人(不是原始的抄录员)正在查看转录时,他们可能会对一个难以理解的单词提出建议(或编辑)。
作为示例,用户可能在文档/图像中看到句子“See Jack Rzn”。因此,在文本区域,如果他们无法解释这个词,他们可能会输入“See Jack ---”。或者也许如果认为他们知道这个词是什么,但不确定他们可以做一些像“看杰克 - !跑! - 。后来我可以寻找---或 - 的实例!*! - 识别难以辨认的文字。
我只是吐唾沫,但只是想知道是否有一些角色可能会让我更少悲伤,因为时间到了这些转录的'其他东西'。
答案 0 :(得分:0)
经过本周的一些研究,这里有一些想法。
首先,史密森尼有一个众包数字化项目,这些是他们推荐的指南:
If you find a word you can’t quite read
Please make a note using double brackets [[ ]] like this: [[good guess?]] or simply [[?]]. Save your work and you can continue transcribing the rest of the item.
...更多信息:https://transcription.si.edu/instructions
其次,有几个现成的'那里的选择。 http://scripto.org/omeka/基于Omeka DH工具。
对于Rails人员,可以从页面https://github.com/benwbrum/fromthepage开始。这是一个wiki风格的应用程序,允许转录者在手写文档上进行协作。