<div dir="auto"><div>This is a very interesting discussion. Many factors contribute to the wider picture, so I'm just giving my point of view: <div dir="auto"><br></div><div dir="auto">Here in the Levant in general and in Israel in particular, the situation is further complicated by the great changes in geographical environment, in levels of urbanization and in density of population over time, plus the fact that place names often received and still may receive different spellings (both in Hebrew and in Arabic. Our languages are spelled with consonants rather than with vowels - which is one reason why different spellings occur and why different transitions into Latin spelling also happen). Place names also may have changed considerably. This, plus the usual differences in format, levels of information etc.  lead to high variation in label info. </div><div dir="auto"><br></div><div dir="auto">This actually makes the verbatim label very important - interpretations can go wrong, identification of localities and sometimes names of people can be mistaken. Typing or scanning/photographing the original therefore gains importance, alongside entering the requisite "corrections" that make a database useful to current day users (say, for creating productive geographical searches). Obviously, this sort of recording is very time consuming and labor intensive, but ultimately it helps preserve specimen information and even helps preserve historical aspects of natural history collections. </div><div dir="auto"><br></div><div dir="auto">It is a good question whether a scan or photo is enough to preserve this kind of info. Since we are not yet at the point where (often handwritten) texts within images can be easily and reliably searched, I'm currently still in favor of adding the verbatim info into a database. </div><div dir="auto"><br></div><div dir="auto">Best wishes, </div><div dir="auto">Gali</div><div dir="auto"><br></div><div dir="auto"><br></div><div dir="auto"><br></div><div dir="auto"><br></div><div dir="auto"><br></div><div dir="auto"><br></div><br><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">בתאריך יום ג׳, 20 באפר׳ 2021, 21:18, מאת Derek Sikes ‏<<a href="mailto:dssikes@alaska.edu">dssikes@alaska.edu</a>>:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>Doug,</div><div><br></div><div>Excellent points. Regarding #2 this is why our loan form states: <br></div><div><br></div><div>NOTE: Data on the labels may not be correct/complete; The most accurate data are available via <br>Arctos <a href="http://arctos.database.museum" target="_blank" rel="noreferrer">http://arctos.database.museum</a> (or spreadsheet by request).</div><div><br></div><div>Although I wonder how many people actually read loan forms. I always offer to check over the draft ms of anyone publishing using our specimens. I can often find errors that the borrower made while transcribing our labels (which many still do, despite the specimens already being databased and the data easily available).</div><div><br></div><div>Regarding verbatim label data - I'm more in favor of it being preserved than you are (but I do a poor job of actually preserving it, other than relatively rare photos of labels). I think the risk of people being confused by the verbatim being different than the parsed is not as great as you fear and will diminish further in time as people become increasingly used to digitized specimen data.</div><div><br></div><div>I'm an outlier I'm sure in thinking of the labels on specimens as little more than 'worst-case scenario insurance against the loss of our digital data'. For most of our specimens the data for a specimen in our database is far more complete than what's on the labels (including photos of habitat, trap methods, links to publications that used the specimen, links to DNA sequences, remarks about the condition of the specimen, identification remarks, links to the keys used to ID the specimens, etc.). <br></div><div><br></div><div>And even worse... how many type localities are wrong?</div><div><br></div><div>-Derek<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Apr 20, 2021 at 9:39 AM Douglas Yanega <<a href="mailto:dyanega@gmail.com" target="_blank" rel="noreferrer">dyanega@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
  
    
  
  <div>
    <p>I'm ambivalent regarding verbatim label data, because it can be
      extremely helpful in some cases, and extremely damaging in others.</p>
    <p>Some of you may recall my having given talks, or unhappy comments
      at meetings, regarding the empirical data on error rates on
      original labels of insect specimens. It's pretty disheartening;
      across tens of thousands of specimens in roughly 10 major
      entomological museums assayed, somewhere between 15-20% of all
      original labels had data omissions or errors requiring correction
      prior to georeferencing. While a fair percentage of these are
      omissions that are easily fixed, or obvious typos, roughly half
      either cannot be fixed (e.g., a place name that occurs in more
      than one county, like "Sulphur Springs, Arkansas"), or are errors
      that MUST be fixed but are not immediately obvious.</p>
    <p>Such statements have been known to provoke people to roll their
      eyes at me, thinking that I overstate the problem, but it's a
      genuine issue, and includes lines of evidence that aren't
      immediately obvious, such as comparing labels produced by
      different people who were collecting together. Just as a
      "tip-of-the-iceberg" example, consider these data labels, produced
      by six professional researchers from several high-profile
      entomology museums on an NSF-funded field trip to Mexico:</p>
    <p>Chihuahua, 72 km NE Chihuahua, El Carrion, 27-VIII-91<br>
      Chihuahua, El Corrion, 72 km NE Chihuahua, 27-VIII-91<br>
      Chihuahua, El Morrion, 67 km NW Chihuahua, 27-VIII-91, 1200 m<br>
      Chihuahua, 67 km N El Morrion, 27-VIII-91<br>
      Chihuahua, 67 km N El Morrion, 27-III-91<br>
      Chihuahua, 74 km NE Chihuahua, 27-VIII-91<br>
    </p>
    <p>These labels all refer to the exact same collecting event, yet
      you'll note that no two are the same. You'll also note that <b>in
        the absence of the comparison</b>, none of them has an obvious
      error. <br>
    </p>
    <p>Worse still, <b>they are all wrong</b>. The actual data for this
      particular collecting event are<br>
      <br>
      Chihuahua, El Morrion, 67 km NE Chihuahua, 27-VIII-91, 1200 m</p>
    <p>As such, the six labels produced had (1) and (2) the wrong
      mileage <b>and</b> the wrong place name (3) the wrong cardinal
      direction (4) the wrong reference point (5) the wrong reference
      point and the wrong month, and (6) the wrong mileage. Note also
      that the georeferences generated for these six labels result in
      two points that are 67 km from the actual location, and one over
      100 km off.<br>
    </p>
    <p>When you look specifically for examples like this, with multiple
      collectors' data used side-by-side to evaluate label accuracy,
      it's frightening how poorly people do. It also means that treating
      verbatim label data as <b>inherently trustworthy</b> is a serious
      mistake. As data suppliers and consumers, we need to be far more
      critical. Label data underlies so much of people's research, and
      if we supply or use bad data, that undermines the quality of the
      resulting research.<br>
    </p>
    <p>The question is whether we are better off displaying the verbatim
      data, or not, and to me that depends on whether serious quality
      control has or has not <b>already been exercised</b>.<br>
    </p>
    <p>
      </p>
    <p>My points are these: <br>
    </p>
    <p>(1) If the process of data capture is limited to entering
      verbatim label data and then simply parsing it out into other
      fields, it is much less likely that the data capture person is
      going to notice those labels that are in that roughly 10% where
      the data are wrong but it isn't obvious. If the process of data
      capture only uses verbatim data as the starting point, however,
      then the person trying to make sense of a label by georeferencing
      it themselves is relatively more likely to view it critically, and
      catch any errors.</p>
    <p>(2) If we assume for the moment that you have done the right
      thing, and fixed an error, how are users of your data going to
      know which version of the data they should trust? If a specimen
      has verbatim data listing a country or state or county or mileage
      or direction that is <b>not the same as the parsed data</b>, is
      that not going to confuse them, if they notice the discrepancy?</p>
    <p>(3) My overall feeling is that including verbatim data is only
      genuinely beneficial to users if quality control has NOT been
      applied, AND if external users have a reliable way to communicate
      with the data providers to <b>report an error and get it fixed</b>.
      In other words, having <b>bad</b> verbatim data made visible
      makes it more likely that external users will find errors. If
      quality control HAS been applied, and the data are clean, then the
      discrepancy between verbatim and parsed data only stands to
      confuse external users. Given that the specimens will have a GUID
      label, any discrepancy between what the data labels say and what
      the parsed data say won't be a problem, because the data labels
      are not what you'll refer to when tracking a specimen down.</p>
    <p>It's a complex issue.<br>
    </p>
    <pre cols="72">-- 
Doug Yanega      Dept. of Entomology       Entomology Research Museum
Univ. of California, Riverside, CA 92521-0314     skype: dyanega
phone: (951) 827-4315 (disclaimer: opinions are mine, not UCR's)
             <a href="https://faculty.ucr.edu/~heraty/yanega.html" target="_blank" rel="noreferrer">https://faculty.ucr.edu/~heraty/yanega.html</a>
  "There are some enterprises in which a careful disorderliness
        is the true method" - Herman Melville, Moby Dick, Chap. 82</pre>
  </div>

_______________________________________________<br>
Nhcoll-l mailing list<br>
<a href="mailto:Nhcoll-l@mailman.yale.edu" target="_blank" rel="noreferrer">Nhcoll-l@mailman.yale.edu</a><br>
<a href="https://mailman.yale.edu/mailman/listinfo/nhcoll-l" rel="noreferrer noreferrer" target="_blank">https://mailman.yale.edu/mailman/listinfo/nhcoll-l</a><br>
<br>
_______________________________________________<br>
NHCOLL-L is brought to you by the Society for the Preservation of<br>
Natural History Collections (SPNHC), an international society whose<br>
mission is to improve the preservation, conservation and management of<br>
natural history collections to ensure their continuing value to<br>
society. See <a href="http://www.spnhc.org" rel="noreferrer noreferrer" target="_blank">http://www.spnhc.org</a> for membership information.<br>
Advertising on NH-COLL-L is inappropriate.<br>
</blockquote></div><br clear="all"><br>-- <br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><span style="font-family:trebuchet ms,sans-serif"><font size="1"><br>+++++++++++++++++++++++++++++++++++<br><b>Derek S. Sikes</b>, Curator of Insects, Professor of Entomology<br>University of Alaska Museum (UAM)<br></font></span></div><div dir="ltr"><span style="font-family:trebuchet ms,sans-serif"><font size="1">University of Alaska Fairbanks</font></span></div><div dir="ltr"><span style="font-family:trebuchet ms,sans-serif"><font size="1">1962 Yukon Drive, Fairbanks, AK   99775-6960<br><a href="mailto:dssikes@alaska.edu" target="_blank" rel="noreferrer">dssikes@alaska.edu</a> phone: 907-474-6278</font></span><font size="1"><span style="font-family:trebuchet ms,sans-serif"><br>he/him/his<br><a href="https://www.uaf.edu/museum/collections/ento/" target="_blank" rel="noreferrer">University of Alaska Museum</a>  -  <a href="http://arctos.database.museum/uam_ento" target="_blank" rel="noreferrer">search 357,704 digitized arthropod records</a><br>+++++++++++++++++++++++++++++++++++<br><br>Interested in Alaskan Entomology? Join the Alaska Entomological <br>Society and / or sign up for the email listserv "Alaska Entomological Network" at <br><a href="http://www.akentsoc.org/contact_us" target="_blank" rel="noreferrer">http://www.akentsoc.org/contact_us</a></span><br></font></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div>
_______________________________________________<br>
Nhcoll-l mailing list<br>
<a href="mailto:Nhcoll-l@mailman.yale.edu" target="_blank" rel="noreferrer">Nhcoll-l@mailman.yale.edu</a><br>
<a href="https://mailman.yale.edu/mailman/listinfo/nhcoll-l" rel="noreferrer noreferrer" target="_blank">https://mailman.yale.edu/mailman/listinfo/nhcoll-l</a><br>
<br>
_______________________________________________<br>
NHCOLL-L is brought to you by the Society for the Preservation of<br>
Natural History Collections (SPNHC), an international society whose<br>
mission is to improve the preservation, conservation and management of<br>
natural history collections to ensure their continuing value to<br>
society. See <a href="http://www.spnhc.org" rel="noreferrer noreferrer" target="_blank">http://www.spnhc.org</a> for membership information.<br>
Advertising on NH-COLL-L is inappropriate.<br>
</blockquote></div></div></div>