现场写书(七):转录地狱

图片由rawpixel在Unsplash上​​拍摄

我正在互联网上现场写我的第三本书,您可以继续阅读! 今天:完整,详细的阶段大纲!

如果您错过了本文的前一部分,则第一篇文章将介绍如何收集想法。 第二篇文章是关于概述。 在第三部分中,我们使用英雄的旅程来扩展轮廓。 在第四部分中,我们讨论如何增强情节。 在第五部分中,我们讨论研究细节。 在第六部分中,我解释了我如何概述这本书。

转录完成了(终于!),我已经准备好了本书的初稿!

与其他书籍相比,这花了永远。 在4月初,我完成了阶段大纲并开始进行授课,直到昨天我才完成了笔录。 三个月

为什么花这么长时间? 有多种原因,但都不能令人信服。

  1. 这是我在很短的时间内就做了太多工作的系列的第三本书。 前两本书是在今年的前三个月编写的,而第三本书计划在紧随其后的四月份编写,并在整个五月份进行规定。 没有太多时间来适当地重新生成创意果汁,这太多了。
  2. 在这两者之间(部分是由于“迷迭香疲劳”,请参见上一点),我撰写并出版了另一本有关神经网络和AI的整本书(与我的日常工作有关)。 不必处理剧情和角色声音来进行更改,而只写下我对某个主题的了解,这真是令人耳目一新。 一切都非常顺利,一个月后,我在亚马逊上准备了书。 那本书的故事在这里。
  3. 另一个因素是抄写自己的命令的单调乏味。 那里并不奇怪,因为一个人知道一个人所规定的一切。 但也没有成就感,因为听写的内容很原始,所以抄录的内容与书本并不遥不可及。 这可能非常令人沮丧。 此外,录音充满了停顿,错误的开始和半完成的句子,这些句子需要很长时间才能收听,而在转录时没有任何价值。 一旦我有一个整整半小时的录音,那只是我试图找出接下来会发生什么并且失败了。 半个小时的抄写和零字添加到草稿中。 其他时候,我抄写了20分钟的题外话,最后我从草案中删除了。
  4. 问题也是纯粹的操作因素。 与撰写初稿相反,抄写需要同时使用计算机和耳朵。 在这方面,它限于特定的,选定的,珍贵的情况。 即使在开车或排队等候时,也几乎可以指示所有地方。 可以站立一会儿的任何地方,都可以用手做笔记。 一个人可以在任何可以坐下的地方打字。 但是转录需要设置计算机,选择文件,在文件中找到正确的位置,连接人的耳机,然后再进行大多数人的交流。 因此,在保持注意力的同时(例如,在这种情况下一个人可以很好地勾勒出轮廓或写初稿的时候),或者与其他人一起坐在海滩或客厅中时,听写是无法完成的。 它比任何其他形式的写作在社会上更加孤立。 因此,只有在一个人独自一人但可以使用计算机,环境安静且要求不高,并且人们花了较长时间才能建立整个环境的时候,才可以这样做。我,至少半小时不间断的时间)。 这极大地限制了可能的转录机会。

好吧,我现在停止抱怨。 花了三个月的时间,这就是需要的时间。 分手后要往前看了。

“各种各样的水果和蔬菜。” Rezel Apacionado在Unsplash上​​发表

这是该书的其他一些统计数据的计算方式。

最终输入的整个初稿为23367个单词,不包含支架和轮廓。 在上一篇文章中,我描述了我的阶段大纲。 我完成初稿后就删除了此内容。

第一稿本身的录音包含13个音频文件(其中一个实际上不包含任何有用的文本)。 文件长度为(分钟:秒):

21:43、28:55、33:38、67:23、21:39、12:09、17:08、42:53、36:45、18:27、21:38、11:11、20: 21

这些命令总计353分钟(5.9小时),为23367个单词,或每分钟66个单词,或每小时3972个单词。 当然,这是一个很大的速度,我无法通过直接键入草稿来实现。

当然,并不是所有的词都是有用的,而且有很大的停顿,什么也没发生。 实际上,至少大约有1/3的时间是空白空间。 录音不会停止,因为我经常在汽车或大街上听有背景噪音的命令,所以录音继续进行,尽管我没有讲话。 因此,实际上,每小时实际说话的有效单词将更像每小时6000个单词(假设录音中有1/3的空闲时间)。 但随后,必须增加转录时间。 如果我每分钟管理20个单词,这将使转录再增加21个小时,或者每听写一小时大约需要3.5个小时的转录。 如果一个人能够以听写速度转录,这将相应地减少,但是我不够快。

记录文件的平均长度为27分钟,非常接近22分钟的中位数,这反映了我开车去办公室时最多要命的事实,开车要20分钟(坐在里面前后要听几分钟)汽车)。 我仅在少数特殊情况下才规定更长或更短的时间。

Micah Williams摄,Unsplash

如果我查看指定的原始草稿中的故事结构以及各个情节点所在的位置,则会得到以下图片:

  • 1%:简介。 字符介绍。 对其他卷和背景故事的引用。
  • 38%(应为20%):出现问题。 坏人或坏事出现。
  • 55%(应为40%):确定需要完成的工作。
  • 69%(应为60%):提出解决方案。
  • 73%(应为80%):执行力,高潮,扭曲,惊喜和最终成功。
  • 96%的幸福结局,回报。

很容易看出命令如何影响结构。 刚开始时,可​​能比直接键入文本要多得多,我希望自己能看到这个故事,并试图更详细地描述事物,以便我自己能在脑海中看到它们。 因此,进入故事所需的时间大约是原先的两倍,而简介则是所需长度的两倍。 第二部分(“问题出现”)的长度大致正确。 之后,最终零件会逐渐变短(太短)。 第三部分仅占书的14%(假设它们应该全部等距分布在20%左右),第四部分仅占4%(!); 但是第五部分(“执行”)又更长(有点太长)。 “奖励”部分很好。 这不应该是很长的一段。

在将其重新整理为可行的初稿时,我必须将导言缩减到目前长度的一半左右。 我可以将其中一些论述分发给本书的其他部分。 中间部分短一些,执行时间长一点也可以,但是介绍太慢会扼杀读者的兴趣。

“一只猴子凝视着。” chuttersnap在Unsplash上​​发表

我完全使用Google文档中Google的“语音输入”功能编写了《神经网络》一书。 它运行得相当不错,我希望我可以再次使用它。 不幸的是,这一次它根本没有用。

一件事是,在编写《神经网络》一书时,我说出的是我经常在讲座中以完全相同的方式呈现的文本。 因此,我可以像在讲这个主题一样讲,这正是Google语音输入喜欢它的输入的方式:缓慢但稳定,清晰,句子流畅。

有了《雨林》这本书,我在思考的时候就在思考场景,这是我第一次想到的东西。 因此,句子之间甚至单词之间通常都有一分钟的休息时间。 暂停,我在思考如何处理图像或句子。 这完全吓坏了语音输入,开始插入随机的时间段,我花了很长时间才开始说话。 反过来,这让我感到震惊,为了让语音输入感到高兴,他感到骚扰得想快点说话。 不好

为了提高准确性,我尝试了不同的自动转录服务。 有些似乎很有希望,但是。 后。 转录。 我的文字 它。 所有。 看了。 喜欢。 这个。

至少,这是Google所没有的一个问题(尽管它确实使用了随机大写的单词)。

这是一个直接从命令文本中得到的示例成绩单:

特蕾莎修女说:“内部穿10张床,每侧5张,在中期有一条小走廊,这对我们来说已经足够了。 在大多数情况下,这些坏消息是空的。 睡衣妈妈不喜欢来医院就诊,即使他们生病或受伤,他们更愿意留在自己的村子里,并由自己的药夫照顾而不是去这里。 只有年轻人与我们一起上学后,才知道来到这里很重要。”

这里有很多错误,而且不必要的错误。 谷歌灿烂的AI帝国无疑可以做得更好。

  • 在语法上,“穿”而不是“是”没有意义。 Google可能知道这一点。
  • 大多数情况下,“句号”不被视为标点符号。 有时确实如此,但效果过于随机以至于无法可靠。
  • “大多数情况下,这些坏消息总是空洞的。”同样,对此句进行简单的语法分析应该可以解决该问题。 显然,我们在谈论“这些床”。
  • “睡衣妈妈”是转录词中一个唯一的词,在其他地方都没有出现,这已经可以告诉Google出了点问题。 我无法想象为什么它甚至会成为Google的已知词。 当然,没有多少人会规定? —当然,“ Yanomami”并不常见,但它出现在本文的第二个句子中,并且在对其进行了几次更正后,Google的语音输入应该可以使用它。
  • 为什么“乡村”在那里大写? 没有意义。
  • “年轻人”:这应该是摇滚乐队复兴的名字吗?

它就这样继续下去。 我算出大约18条错误需要干预6条线,或每条线大约3条。 这使听写不值得付出努力。 清理这样的笔录几乎和直接从音频文件自己键入内容一样多。

这是语音输入结果的另一部分印象:

“下雨时,我们有时会来找特蕾莎修女。 到这家医院。 耐心喜欢它,因为它会分散注意力。 有一段时间他们并不孤单,有几个小时他们可以听讲座,也可以学到一些东西。 她说的这是我们唯一的耐心,她经历了唯一一个有人在里面的病人。 大约10或12岁的男孩可能比玛丽年龄大一点,而自己的年龄上升了”

很容易看出,即使是一种简单的统计,预测算法也可以避免大多数错误,例如Google在其搜索引擎中用于自动更正搜索字词的算法。

杰森·罗斯韦尔(Jason Rosewell)摄于Unsplash

是的,我知道现在有更多更好的语音转录软件解决方案,其中Dragon系列产品可能是最杰出的产品。 但是我在台式机上使用Linux,在平板电脑上使用Android,并且我不愿意购买和安装Windows只是为了转录。 在在线转录服务中,我尝试了所有我发现的免费,廉价和自动化的服务。 它们都比预期的Google语音输入差很多 。 毕竟,谷歌是人工智能和语音识别领域的技术领导者之一,而且一家小型公司没有太多的机会比它们更好。

另一方面,人类转录本可能表现不错,但是对于初学者来说太昂贵了。 一本书已经需要相当多的生产成本投资,需要进行两次编辑(开发和线条编辑),封面以及(如果是儿童读物的话)室内插图; 实际上,Rosemary系列丛书中的每本书要花我超过1000美元(而且我基本上是免费获得封面的,因为我是根据书籍的内部图像自己设计的。 )当书籍的收入接近零时,再为人类的转录增加500个左右将是疯狂的。

这就是我的做法。 正如他们所说,YMMV。 对于每本书,我总是很想放弃听写/抄写步骤,而直接输入第一稿-看起来会容易得多。 但是后来我记得为什么我要作主:因为这样我就可以一口气快速地向自己讲述这个故事,而不会停下来,不会陷入困境,也不会太慢,以至于我没有时间去思考(思考)我在做什么。在写。 听写命令使我解放了思想,四处游走,切线,备份并尝试了故事中不同的道路和观点。 没错,所有这些不同的途径都是后面的麻烦,以后再转录,但是如果没有它们,写作本身将变得更糟糕,故事也将变得更加肤浅,并且会失去大多数仅在我时才给我带来的乐趣。自言自语。

而且不要忘记每小时4k甚至更高的惊人速度。

因此,我想我将不得不坚持那种方法,即使这意味着以后要繁琐地进行转录。


下周和我一起发表另一篇文章,介绍我从准备本书(以及整个系列)以供出版中学到的知识。

如果您希望订阅(没有垃圾邮件,只有当我的博客上有新帖子时才发出通知),请转到此处。

谢谢阅读!


最初于 2018 年8月16日 发布在 alanfrenchbooks.com